浮图面板 Nginxi 划定规矩屏障指定 User Agent 的网站爬虫

浮图面板 Nginxi 划定规矩屏障指定 User Agent 的网站爬虫

2020-10-22热度:作者:hchj5.com来源:好词好句网

话题:宝塔 Nginxi User Agent 网站爬虫 

妈的!比来总是发现一些辣鸡蜘蛛疯狂爬取网页,且霎时并发有数个申请,涓滴没有思考对效劳器的接受才能。间接招致cpu100%,网站运转间接超等迟缓,乃至间接挂掉了。。。

以是要把这类辣鸡蜘蛛给屏蔽了,先查看一下 nginx 日记中这些爬虫的申请记载。

每一 10 个申请一换 IP

申请头都为 "Scrapy/1.7.3 (+https://scrapy.org)"

以是经过 IP 规定来屏蔽是不成能了,能够用 User Agent 婚配规定的形式来屏蔽这些爬虫。

Nginx 设置装备摆设,趁便把 Yisou 的爬虫屏蔽了。

if ($http_user_agent ~* (YisouSpider|Scrapy) ) {    return 410;}

测试,蕴含 Scrapy 申请头的测试。

> curl --user-agent "Scrapy" https://www.lz16.cn<html><head><title>410 Gone</title></head><body bgcolor="white"><center><h1>410 Gone</h1></center><hr><center>nginx/1.10.3 (Ubuntu)</center></body></html>

另有加一些针对非凡的user_agent的拜访

if ($http_user_agent ~ "Mozilla/4.0\ \(compatible;\ MSIE\ 6.0;\ Windows\ NT\ 5.1;\ SV1;\ .NET\ CLR\ 1.1.4322;\ .NET\ CLR\ 2.0.50727\)") { return 404; }

浮图增加门路:网站-设置-设置装备摆设文件

相关文章