云虚拟主机被爬虫访问耗费大量流量的解决方法

物理机 2024-07-07 18:28 4745

问题描述

　　用户使用云虚拟主机搭建的网站被爬虫访问，耗费大量流量和带宽的处理方法。

　　解决方案

　　在站点根目录下创建 robots.txt文件，robots.txt 文件是网站的一个文件，搜索引擎抓取网站数据时，首先就是抓取的该文件，根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制爬虫的抓取路径。

　　说明：robots 协议也叫 robots.txt，robots 协议不是强制协议，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下方法无效。

　　根据更多信息中的搜索引擎和其对应的 User-Agent，Robots.txt 代码样例如下所示：

　　• 禁止所有搜索引擎访问网站的任何位置。

User-agent:
Disallow: /

　　• 允许所有的搜索引擎访问网站的任何位置。

　　User-agent:
　　Disallow:

　　• 仅禁止Baiduspider搜索引擎访问您的网站。

User-agent: Baiduspider
　　Disallow: /

　　• 仅允许Baiduspider访问您的网站。

User-agent: Baiduspider
　　Disallow:

　　• 禁止spider搜索引擎访问特定目录。

User-agent: *
　　Disallow: /cgi-bin/
　　Disallow: /tmp/
　　Disallow: /data/

说明：特定三个目录需要分别并列写。请注意最后需要带斜杠。

　　• 允许访问特定目录中的部分URL，实现a目录下只有b.htm允许访问。

User-agent: *
　　Allow: /a/b.htm
　　Disallow: /a/

更多信息

目前搜索引擎和其对应的 User-Agent 如下所示。