当前位置:首页 > 网站搭建 > 正文

使用robots.txt禁止搜索引擎爬虫访问网站!

许本聪 网站搭建 2511阅读

使用robots.txt禁止搜索引擎爬虫访问网站!  第1张


说明:

robots.txt(统一小写)是一种存放于网站根目录下的文本文件(ASCII编码),告诉网络搜索引擎的爬虫,哪些内容可以访问,哪些内容禁止访问。

robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

在站点的根目录下新建一个robots.txt文本文件。当搜索蜘蛛访问这个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索蜘蛛就会先读取这个文件的内容:


文件写法

 # 允许特定的机器人:(name_spider用真实名字代替)
 User-agent: name_spider
 Allow:
 
 # 拦截所有爬虫访问所有页面
 User-agent: *
 Disallow: /
 
 # 禁止所有爬虫访问特定目录:
 User-agent: *
 Disallow: /cgi-bin/
 Disallow: /images/
 
 # 禁止坏爬虫访问特定目录
 User-agent: BadBot
 Disallow: /private/
 
 # 禁止所有爬虫访问特定文件类型
 User-agent: *
 Disallow: /*.php$
 Disallow: /*.js$


下面列出来的是比较出名的搜索引擎蜘蛛名称:

 Google的蜘蛛: Googlebot
 
 百度的蜘蛛:baiduspider
 
 Yahoo的蜘蛛:Yahoo Slurp
 
 MSN的蜘蛛:Msnbot
 
 Altavista的蜘蛛:Scooter
 
 Lycos的蜘蛛: Lycos_Spider_(T-Rex)
 
 Alltheweb的蜘蛛: FAST-WebCrawler/
 
 INKTOMI的蜘蛛: Slurp



版权声明:本文由 @许本聪 发布在 老许Blog,转载请注明出处!

更新时间 2023-12-21

有话要说...

搜索

最新文章

最新留言