搜索引擎蜘蛛ip照妖鏡
通過該工具可以識(shí)別是否是真的搜索引擎蜘蛛IP,很多是通過user-agent偽造的,幫大家節(jié)省垃圾流量帶寬.不少偽造的爬蟲程序會(huì)偽造 user-agent冒充baidu、google等搜索擎,好在google,baidu,bing等搜索引擎都提供一個(gè)DNS反向IP查詢功能。
目前支持識(shí)別的搜索引擎ip蜘蛛:
百度蜘蛛;谷歌蜘蛛;神馬蜘蛛;必應(yīng)蜘蛛;搜狗蜘蛛;yandex蜘蛛;360蜘蛛;頭條蜘蛛
使用場(chǎng)景
對(duì)于一個(gè)攻擊者,或者采集者,偽裝成搜索引擎,很容易躲過你的肉眼檢查,興奮的你還在為搜索引擎來訪而洋洋得意的時(shí)候,其實(shí)是個(gè)假蜘蛛
如果你的站點(diǎn)對(duì)搜索引擎蜘蛛要求比較精細(xì),你可以通過openresty的resty.dns.resolver模塊+user-agent,在content_by_lua_file中實(shí)現(xiàn)精確的訪客控制!
通過ip反向查詢蜘蛛,可以讓假引擎蜘蛛現(xiàn)行,直接扼殺在黑名單中!
識(shí)別出假蜘蛛處理的方法有很多,不再一一細(xì)說!
實(shí)現(xiàn)原理
部分官方已明確給出了確定真實(shí)蜘蛛的方法,比如百度官網(wǎng)所說,可以使用dns反向解析,可以確認(rèn)正確的蜘蛛,比如:
E:\bugscansplit>nslookup 220.181.108.80 服務(wù)器: public1.114dns.com Address: 114.114.114.114 名稱: baiduspider-220-181-108-80.crawl.baidu.com Address: 220.181.108.80
那么后綴為.baidu.com的就是真實(shí)的蜘蛛,其他同理,都有相應(yīng)的反向域名后綴標(biāo)志,通過收集這些后綴,就形成了這個(gè)工具!
以下是收集一部分的搜索引擎的特征
搜索引擎 | user-agent | 備注 |
---|---|---|
百度 | Baiduspider/2.0 Baiduspider-image |
常見百度旗下同類型蜘蛛還有下面這些:Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取圖片)、Baiduspider-video(抓取視頻)、Baiduspider-news(抓取新聞) 百度蜘蛛IP:
|
Bing | bingbot/2.0 | Bing蜘蛛IP:
|
Googlebot/2.1 | Google蜘蛛IP:
|
|
搜狗sogou | Sogou+web+spider/4.0 | 搜狗蜘蛛IP:
|
神馬搜索 | Yisouspider | 原屬一搜蜘蛛。 神馬搜索IP:
|
360搜索 | 360Spider | 360搜索蜘蛛IP:
|
今日頭條 | Bytespider | 今日頭條蜘蛛IP:
|
Yahoo | Yahoo! | Yahoo蜘蛛IP:
|
以下是收集一部分的未知的爬蟲特征
爬蟲名稱 | user-agent 特征 | 備注 |
---|---|---|
The Knowledge AI | The+Knowledge+AI |
爬蟲IP:
|
AhrefsBot | AhrefsBot/6.1 |
AhrefsBot是一個(gè)營銷網(wǎng)站的爬取蜘蛛,負(fù)責(zé)分析網(wǎng)站信息。(建議禁止這些IP)爬蟲IP:
|
SemrushBot | SemrushBot/6~bl |
SemrushBot也是一個(gè)營銷網(wǎng)站的爬取蜘蛛,負(fù)責(zé)分析網(wǎng)站信息。(建議禁止這些IP)爬蟲IP:
|