yisouspider一搜蜘蛛访问站点-boke112联盟

搜一下搜索关闭本站首页 最新文章宝塔面板 建站经验 办公软件 最新资讯 海纳百川 博客网站 Plugins Themes WordPress ZBlogPHP 老薛主机 阿里云 腾讯云 5118优惠码 WPS专题 服务器专题 虚拟主机专题 活动推荐 最新文章 老薛主机 5118 阿里云 腾讯云 华为云 WPS专题 优惠活动  导航地图导航站内搜索 ——————    阿里云1核2G服务器87元/年  —————— 当前位置:boke112联盟建站经验正文如何屏蔽爬虫yisouspider一搜蜘蛛访问站点 懿古今   2019-01-11 9:57:40 更新  建站经验今天无意间发现我的两个站点访问速度都非常缓慢,登录阿里云后台看了 ECS 服务器才发现 CUP 的使用率经常达到 99-100%,看了日志才发现 yisouspider(一搜蜘蛛,现在应该是属于神马的)蜘蛛正在疯狂爬行,就算是我在 robots.txt 设置了禁止爬行的路径也被爬行了。如果是凌晨爬行就不说了,竟然是在大白天疯狂爬行,分分钟可以搞瘫我们的站点,度娘一下发现有很多人都在吐槽这个 yisouspider,最终的解决方案就是直接禁止 yisouspider 的爬行和访问。yisouspider 爬行 robots 文件禁止的路径UC社区神马搜索中给出的解释:robots.txt 是搜索引擎访问网站时要访问的第一个文件,以确定哪些网页是允许或禁止抓取的。yisouspider遵守robots.txt协议。如您希望完全禁止神马访问或对部分目录禁止访问,您可以通过 robots.txt 文件来设置内容,限定 yisouspider 的访问权限。如果您开通了 CNZZ 云推荐服务,协议中默认支持 yisouspider 抓取,会忽略 robots.tx 文件协议的限制。站长建议:计划搭建免备案博客网站推荐使用免备案老薛主机,建议优先考虑香港虚拟主机!购买老薛虚拟主机或VPS主机时请输入优惠码:boke112 即可享受终身7折优惠(以后续费价格也跟新购价一样),所以千万不要直接原价购买哦,而且这样购买更优惠:香港2号低至88元/年、美国2号低至43元/年限定Yisouspider访问权限的robots协议写法robots.txt 必须放在网站根目录下,且文件名要小写。具体写法:1) 完全禁止 yisouspider 抓取:User-agent: yisouspiderDisallow: /2) 禁止 yisouspider 抓取指定目录User-agent: yisouspiderDisallow: /updateDisallow: /history禁止抓取 update、history 目录下网页疑问我们平时写 robots 协议的时候都是直接写 User-agent: *,跟神马搜索给出的 User-agent: yisouspider 有点不一样,不知道是不是这个问题导致我们的 robots 协议对 yisouspider 毫无作用。不过我也懒得折腾这个针对 yisouspider 的 robots 协议,我还是直接在 nginx 里面禁止 yisouspider 来得更有效果。Nginx屏蔽爬虫yisouspider访问站点方法:进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf#禁止 Scrapy 等工具的抓取if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {     return 403;}#禁止指定 UA 及 UA 为空的访问if ($http_user_agent ~ “yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) {     return 403;}#禁止非 GET|HEAD|POST 方式的抓取if ($request_method !~ ^(GET|HEAD|POST)$) {    return 403;}然后,在网站相关配置中的location / {        try_files $uri $uri/ /index.php?$args;下方插入如下代码:include agent_deny.conf;保存后,执行如下命令,平滑重启 nginx 即可:/usr/local/nginx/sbin/nginx -s reload懿古今和 boke112 导航站点就是使用这个方法成功屏蔽爬虫 yisouspider 访问。设置好之后,我的 ECS 服务器 CPU 的使用率立马就降下来了。根据百度统计给出的数据,我的站点来自神马搜索的不多,所以权衡之下只能禁止 yisouspider 蜘蛛爬行了,要不然我的站点经常被它搞瘫了就得不偿失了。如果你的服务器比较给力,不会被搞瘫的话,就没必要禁止它了。PS:请允许我用小心之心揣测,以前使用阿里云免费虚拟主机每个月都会出现资源耗尽,最大的问题很有可能就会被 yisouspider 蜘蛛爬行导致的。Apache屏蔽爬虫yisouspider访问站点方法:1、通过修改 .htaccess 文件修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):可用代码 (1):RewriteEngine OnRewriteCond %{HTTP_USER_AGENT} (^$|yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) [NC]RewriteRule ^(.*)$ – [F]可用代码 (2):SetEnvIfNoCase ^User-Agent$ .*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms) BADBOTOrder Allow,DenyAllow from allDeny from env=BADBOT2、通过修改 httpd.conf 配置文件找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:DocumentRoot /home/wwwroot/xxxSetEnvIfNoCase User-Agent “.*(yisouspider|FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms)” BADBOT        Order allow,deny        Allow from all       deny from env=BADBOTPHP代码屏蔽爬虫yisouspider访问站点方法:将如下方法放到贴到网站入口文件 index.php 中的第一个

Posted in 未分类

互喷

发表评论

邮箱地址不会被公开。 必填项已用*标注

19 − 14 =

Next Post

PuTTY和阿里云密钥对免密登录服务器-boke112联盟

周三 5月 5 , 2021
搜一下搜索关闭本站首页 最新文章宝塔面板 建站经验 办公软件 最新资讯 海纳百川 博客网站 Plug […]