过去几个月总是在过一段时间后收到服务器资源负载过高的警告,基本上每次上机检查日志都会发现某个网站被奇怪的恶意爬虫给完整检查了一遍。而且不知道为什么MJ12bot总是会检查一些无限重定向的链接,导致服务器资源被无意义地消耗。
几个资源消耗比较高的爬虫包括:
- dotbot
- SemrushBot
MJ12bot
- 我特别建议屏蔽MJ12bot,因为一些版权方会使用这家的爬虫来批量检查网站中是否包含侵犯版权的文件
- SMTBot
对于这些爬虫建议直接在robots.txt中屏蔽掉它们,目前复查日志发现至少它们确实是遵守robots.txt规则的
User-agent: dotbot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: SMTBot
Disallow: /
User-agent: PetalBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: CheckMarkNetwork
Disallow: /
User-agent: DigiCert DCV Bot
Disallow: /
转载请标注来源
你怎么知道 版权方会用MJ12bot 爬取侵犯版权的文件,
我查了这个爬虫是majestic SEO工具的::youmu:smile::
一个很小的站被DMCA警告过,反向查了日志,只查到MJ12Bot爬虫。你这么一说,感觉好像这样的确定方式是有点草率了::youmu:disappointed::
除了一些恶意爬虫,其他的没必要禁止吧。