云虚拟主机被爬虫访问耗费大量流量的解决方法
物理机 2024-07-07 18:28 803

问题描述

  用户使用云虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。

  解决方案

  在站点根目录下创建 robots.txt文件,robots.txt 文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。

  说明:robots 协议也叫 robots.txt,robots 协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

  根据更多信息中的搜索引擎和其对应的 User-Agent,Robots.txt 代码样例如下所示:

  • 禁止所有搜索引擎访问网站的任何位置。

  User-agent:
  Disallow: /

  • 允许所有的搜索引擎访问网站的任何位置。

  User-agent:
  Disallow:

  • 仅禁止Baiduspider搜索引擎访问您的网站。

   User-agent: Baiduspider
  Disallow: /

  • 仅允许Baiduspider访问您的网站。

    User-agent: Baiduspider
  Disallow:

  • 禁止spider搜索引擎访问特定目录。

   User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /data/

       说明:特定三个目录需要分别并列写。请注意最后需要带斜杠。

  • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。

    User-agent: *
  Allow: /a/b.htm
  Disallow: /a/

  

更多信息

目前搜索引擎和其对应的 User-Agent 如下所示。

搜索引擎

User-Agent

AltaVista

Scooter

baidu

Baiduspider

Infoseek

Infoseek

Hotbot

Slurp

AOL Search

Slurp

Excite

ArchitextSpider

Google

Googlebot

Goto

Slurp

Lycos

Lycos

MSN

Slurp

Netscape

Googlebot

NorthernLight

Gulliver

WebCrawler

ArchitextSpider

Iwon

Slurp

Fast

Fast

DirectHit

Grabber

Yahoo Web Pages

Googlebot

LooksmartWebPages

Slurp

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Powered by ©智简魔方