下载首页 | 资讯中心 | 文章分类 | 最近更新 | 排 行 榜 | 国产软件 | 国外软件 | 绿色软件 | 汉化补丁 | |
文章搜索: 分类 关键字
您的位置:首页软件技巧冲浪宝典 → 用robots.txt探索Google Baidu隐藏的秘密
用robots.txt探索Google Baidu隐藏的秘密
来源:驱动之家 作者:木艺儿 加入时间:2006-10-27 访问次数:3 [  ]
搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。但是,如果网站的某些信息不想被别人搜索到,可以创建一个纯文本文件robots.txt,放在网站根目录下。这样,搜索机器人会根据这个文件的内容,来确定哪些是允许搜寻的,哪些是不想被看到的。

  有趣的是,这种特性往往用来作为参考资料,猜测网站又有什么新动向上马,而不想让别人知道。例如通过分析Google的robots.txt变化来预测Google将要推出何种服务。

  有兴趣的读者可以看一下Google的robots.txt文件,注意到前几行就有“Disallow: /search”,而结尾新加上了“Disallow: /base/s2”。

  现在来做个测试,按照规则它所隐藏的地址是http://www.Google.com/base/s2,打开之后发现Google给出了一个错误提示:“服务器遇到一个暂时性问题不能响应您的请求,请30秒后再试。”

图1

  但是把s2最后的数字换成1、3或者别的什么数字的时候,错误提示又是另一个样子:“我们不知道您为什么要访问一个不存在的页面。”

图2

  很显然“/base/s2”是一个特殊的页面,鉴于Google曾表示过今年的主要焦点是搜索引擎,我们推测一下,所谓的“s2”是否表示“search2”,也就是传说中的第二代搜索引擎?

  出于好奇,尝试了一下百度的robots.txt,比密密麻麻的Google简洁了许多,只有短短几行:

  User-agent: Baiduspider
  Disallow: /baidu

  User-agent: *
  Disallow: /shifen/dqzd.html

  第一段就不用说了,第二段也遇到了同样打不开的错误,不过,按以前的资料来看,这是百度曾经的竞价排名的区域核心代理一览表以及地区总代理一览表,出于某些可以理解的原因做了模糊处理。

图3

上一页 [1] 下一页
评论人 评论内容摘要(共 0 条,查看完整内容) 得分 0 发表时间
 热点文章
·惊爆!《暗黑破坏神3》将对应全平台
·《荣誉勋章:太平洋之战》中文版上市
·MediaShow魅力四射快速制作音乐电子相册
·《花木兰》完美流程攻略
·轻松可爱 最新10大Q版网络游戏推荐
·2006年暑期新宣布免费网络游戏一览
·photoshop制作水晶球中的精灵
·NVIDIA发布Forceware 93.71 WHQL驱动
·经验分享 微软Word2007实用技巧两则
·国内新记录产生 1M super pi运算仅用9秒
 推荐文章
·微软高官爆料:欧盟对Vista哪些功能不安
·在Google Talk上与QQ、MSN好友聊天
·Word使用过程中的常见问题及其解决
·手把手教你内存终极变相“造假”大法
·NVIDIA联手海盗船 推出自动超频内存
·Windows Vista特殊功能介绍:语音识别
·公安机关检验软件样本 流氓软件制造者面临坐牢危..
·比英特尔UMPC还要小 移动PC新品推出
·性感暴力完美结合 御姐武戏X新画面
·盖茨访谈:我就是微软里的兼职员工
WinXP下载基地 版权所有 Copyright© 2006-2008 WWW.WinXpd.COM, All Rights Reserved. 页面维护: WinXP下载基地(WinXP基D)