![]() |
| Robots.txt 介绍 | |
| 什么是Robots.txt robots.txt 是一个纯文本文件,通过在这个文件中声明该网站中不想被robots 访问的部 分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录 指定的内容。 当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt, 如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那 么搜索机器人就沿着链接抓取。 robots.txt 必须放置在一个站点的根目录下,而且文件名必须全部小写。举例来说,当 spider 访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在 http://www.abc.com/robots.txt 这个文件,如果Spider 找到这个文件,它就会根据这个文件的 内容,来确定它访问权限的范 围。 就算已经被Google 和Yahoo 收录,也还是有必要用SiteMap 的,这是为什么呢?有以 下两大原因: c) 用SiteMap 有利于搜索引擎更加友好的对网站进行收录,不要让网站的收录有些漏 洞或者收录不全。有了SiteMap 可以很好的在这方面发挥作用。 d) 有了SiteMap 并提交给搜索引擎之后,方便你在以后进行下一步的工作,比如对网 站的外部链接和内链错误进行更好的调整,这些都要用到SiteMap 的提交功能。 因此,SiteMap 的整个作用是不容忽视的。如果你的网站属于下列情况,那么,使用 SiteMap 会特别实用: A. 网站含动态内容。 B. 网站有不容易被发现的页面,如有大量富 AJAX 或 Flash 内容的页面。 C. 网站为新网站且指向网站的链接不多。 D. 网站有大量内容页存档,这些内容页相互没有很好地链接,或根本就没有链接。 E. 网站上网页的更改频率。 F. 各网页上次修改的日期。 G. 您网站上各网页的相对重要性。 如果你的网站出现上面介绍的情况,那么,你就需要创建SiteMap 了。 |
|
| 上一篇:
Sitemaps 文件的位置
下一篇: robots.txt 的语法格式 |