上一篇 下一篇 分享链接 返回 返回顶部

云虚拟主机被爬虫访问耗费大量流量的解决方法

发布人:恒丰云 发布时间:2024-07-07 18:28 阅读量:685

问题描述

  用户使用云虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。

  解决方案

  在站点根目录下创建 robots.txt文件,robots.txt 文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。

  说明:robots 协议也叫 robots.txt,robots 协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

  根据更多信息中的搜索引擎和其对应的 User-Agent,Robots.txt 代码样例如下所示:

  • 禁止所有搜索引擎访问网站的任何位置。

  User-agent:
  Disallow: /

  • 允许所有的搜索引擎访问网站的任何位置。

  User-agent:
  Disallow:

  • 仅禁止Baiduspider搜索引擎访问您的网站。

   User-agent: Baiduspider
  Disallow: /

  • 仅允许Baiduspider访问您的网站。

    User-agent: Baiduspider
  Disallow:

  • 禁止spider搜索引擎访问特定目录。

   User-agent: *
  Disallow: /cgi-bin/
  Disallow: /tmp/
  Disallow: /data/

       说明:特定三个目录需要分别并列写。请注意最后需要带斜杠。

  • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。

    User-agent: *
  Allow: /a/b.htm
  Disallow: /a/

  

更多信息

目前搜索引擎和其对应的 User-Agent 如下所示。

搜索引擎

User-Agent

AltaVista

Scooter

baidu

Baiduspider

Infoseek

Infoseek

Hotbot

Slurp

AOL Search

Slurp

Excite

ArchitextSpider

Google

Googlebot

Goto

Slurp

Lycos

Lycos

MSN

Slurp

Netscape

Googlebot

NorthernLight

Gulliver

WebCrawler

ArchitextSpider

Iwon

Slurp

Fast

Fast

DirectHit

Grabber

Yahoo Web Pages

Googlebot

LooksmartWebPages

Slurp

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

目录结构
全文
售后QQ群 售后QQ群
微信公众号 微信公众号
服务热线: 028-83131950
电子邮箱: hengfengyun@qq.com
关于Centos源停止维护导致源失效解决方案
重大通知!用户您好,以下内容请务必知晓! 
由于CentOS官方已全面停止维护CentOS Linux项目,
公告指出 CentOS 7和8在2024年6月30日停止技术服务支持,
详情见CentOS官方公告。 
导致CentOS系统源已全面失效
比如安装宝塔等等会出现网络不可达等报错,
解决方案是更换系统源。
方法一:输入以下命令:
bash <(curl -sSL https://linuxmirrors.cn/main.sh)

推荐选择火山引擎(输入5,当然也可以选择其他源),
一直按回车不要选Y。
方法二:输入以下命令:
访问 http://linux.hengfengyun.cn/
根据实际选择执行。
源更换完成后,即可正常安装软件。 

如需了解更多信息,请访问:  查看CentOS官方公告

查看详情 关闭
重大通知!