当前位置：首页 > 编程技术 > 正文内容

SemrushBot robot是什么蜘蛛？怎么屏蔽垃圾蜘蛛爬虫，屏蔽ip段？

yc8882年前 (2022-11-30)编程技术327

SemrushBot robot (identified by 'spider')是什么蜘蛛？

一般的蜘蛛都会在后台控制面板中显示名字，例如baidu，google，yahoo，alexa等等，但是如果你用的虚拟主机是cpanel的控制面板，那么发现Unknown robot (identified by 'spider')这个蜘蛛消耗很大的网站流量，那么可以推测这个是百度蜘蛛，因为cpanel的控制面板默认是不识别百度蜘蛛的，所以就会显示为Unknown robot (identified by 'spider')。而且通过robots.txt是无法禁止这个蜘蛛抓取网站内容的——这些垃圾爬虫不可能老老实实遵守robots规则，君不见新浪和字节前段时间还因为robots.txt打了官司，大厂都如此，其他爬虫更别指望。

宝塔屏蔽常见垃圾蜘蛛和扫描工具的两种办法：最近观察网站后台网站蜘蛛爬取状况，除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎蜘蛛之外，还发现有很多垃圾的蜘蛛平繁的爬取本站，通常这些搜索引擎不仅不会带来流量，因为大量的抓取请求，还会造成主机的CPU和带宽资源浪费，屏蔽方法也很简单，按照下面步骤操作即可，原理就是分析指定UA然后屏蔽。

下面给大家带来两种屏蔽垃圾蜘蛛的方法

方法一通过网站Robots.txt来屏蔽

User-agent: AhrefsBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: Uptimebot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: Mail.Ru
Disallow: /
User-agent: SeznamBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Researchscan
Disallow: /
User-agent: DnyzBot
Disallow: /
User-agent: spbot
Disallow: /
User-agent: YandexBot
Disallow: /

JavaScript

把以上代码复制到网站robots.txt里面

方法二、通过宝塔面板配置文件判断来屏蔽垃圾蜘蛛和扫描工具

1.首先进入宝塔面板，文件管理进入/www/server/nginx/conf目录，新建空白文件kill_bot.conf。然后将以下代码保存到当前文件中。

#禁止垃圾搜索引擎蜘蛛抓取教程来自编程笔记

if ($http_user_agent ~* "CheckMarkNetwork|Synapse|Nimbostratus-Bot|Dark|scraper|LMAO|Hakai|Gemini|Wappalyzer|masscan|crawler4j|Mappy|Center|eright|aiohttp|MauiBot|Crawler|researchscan|Dispatch|AlphaBot|Census|ips-agent|NetcraftSurveyAgent|ToutiaoSpider|EasyHttp|Iframely|sysscan|fasthttp|muhstik|DeuSu|mstshash|HTTP_Request|ExtLinksBot|package|SafeDNSBot|CPython|SiteExplorer|SSH|MegaIndex|BUbiNG|CCBot|NetTrack|Digincore|aiHitBot|SurdotlyBot|null|SemrushBot|Test|Copied|ltx71|Nmap|DotBot|AdsBot|InetURL|Pcore-HTTP|PocketParser|Wotbox|newspaper|DnyzBot|redback|PiplBot|SMTBot|WinHTTP|Auto Spider 1.0|GrabNet|TurnitinBot|Go-Ahead-Got-It|Download Demon|Go!Zilla|GetWeb!|GetRight|libwww-perl|Cliqzbot|MailChimp|SMTBot|Dataprovider|XoviBot|linkdexbot|SeznamBot|Qwantify|spbot|evc-batch|zgrab|Go-http-client|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|EasouSpider|LinkpadBot|Ezooms") {
 return 403;
 break;
}
#禁止扫描工具客户端
if ($http_user_agent ~* "crawl|curb|git|Wtrace|Scrapy" ) {
 return 403;
 break;
}

2.保存后返回到宝塔 – 【网站】-【设置】点击左侧【配置文件】选项卡，在 “#SSL-START SSL相关配置，请勿删除或修改下一行带注释的404规则” 上方空白行插入红色字体的代码：“include kill_bot.conf; ” 保存后即可生效，这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问。

希望这个教程能帮助到大家，谢谢支持！

本站发布的内容若侵犯到您的权益，请邮件联系站长删除，我们将及时处理！

从您进入本站开始，已表示您已同意接受本站【免责声明】中的一切条款！

本站大部分下载资源收集于网络，不保证其完整性以及安全性，请下载后自行研究。

本站资源仅供学习和交流使用，版权归原作者所有，请勿商业运营、违法使用和传播！请在下载后24小时之内自觉删除。

若作商业用途，请购买正版，由于未及时购买和付费发生的侵权行为，使用者自行承担，概与本站无关。

本文链接：https://www.10zhan.com/biancheng/10134.html

标签: SemrushBot