07 Nov 2008 @ 8:08 AM 
 

robots.txt的写法以及重要性

 

转载请注明出自seo技术站

尽管robots.txt对于提高网站排名是很重要的,但不少网站缺对robots文件.

如果你还没为你的网站创建robots.txt文件,请通过本文的学习,来为你网站创建robots.txt. 如果你网站已经有了robots.txt,那么,阅读完本文,你也应该检查下你的robots.txt,确保其中没有任何错误.

一,什么是robots.txt?

当搜索引擎蜘蛛来抓取你网站时,它会寻找一个特殊的文件.这个文件就叫是robots.txt. 它会告诉搜索引擎蜘蛛,这个网站的哪些网页应该被收录,哪些页面不需要被收录
robots.txt是一个简单的纯文本文件,它必须上传到你网站的根目录里面.

例如:

http://www.yourwebsite.com/robots.txt

二,如何创建robots.txt文件?

如上所述,robots.txt文件是一种简单的纯文本文件.你可以用记事本来创建和编辑它. robots.txt文件的内容由所谓的”records(记录)”构成的.
每一条记录都会告诉所指定的搜索引擎蜘蛛一些信息.每个记录都包含有2部分: User-agent,以及一行或者多行Disallow

例如:

User-agent: googlebot
Disallow: /cgi-bin/

这个robots.txt文件将允许”googlebot”(google的蜘蛛)抓取除了/cgi-bin/目录以外的所有网页内容
Disallow命令的运作和通配符比较相似.如果你在robots.txt里写:

User-agent: googlebot
Disallow: /support

那么”/support-desk/index.html” 和 “/support/index.html” 以及其他所有的”support”开头的目录里的内容都不会被google搜索引擎抓取.

如果Disallow行留空,那么搜索引擎会抓取你网站目录下的所有内容.在任何情况下,你必须要为每个User-agent:写一行Disallow记录.
如果你想给所User-agent:相同的权利,那么,你可以使用下面的代码:

User-agent: *
Disallow: /cgi-bin/

三,我在哪里才能找到User-agent:名称?


你可以通过检测作为向robots.txt请求,在你的记录文件中找到用户代理名称.大多数情况下,所有的搜索引擎蜘蛛应该被赋予同等的权力.如果是那样的话,使用上面所述的”User-agent: *”
你可以检查日志中那些访问robots.txt的记录,找出User-agent:的名称.通常情况下,对于所有搜索引擎蜘蛛,我们都会给相同的权限.所以,你只需要用”User-agent: *” 就可以了.

四,你应该避免的事情

如果robots.txt格式不正确,你网站的内容将有可能不被搜索引擎蜘蛛所收录.所以,一定要确保你的robots.txt格式完全正确:

1.在robots.txt里面不要使用注释
尽管在robots.txt文件里面允许出现注释,但是它们有可能会迷惑一些搜索引擎蜘蛛.

例如:

“Disallow: support # Don’t index the support directory”

可能被误解为

“Disallow: support#Don’t index the support directory”.

2.每一行那个的开头不要加空格字符

例如

User-agent: *
Disallow: /support

正确的写法应该是:

User-agent: *
Disallow: /support

3 .不要改变每行的顺序.

正确的顺序:

User-agent: *
Disallow: /support

错误的顺序:

Disallow: /support
User-agent: *

4.在Disallow中,不要在一行里写入多个目录

错误的写法

User-agent: *
Disallow: /support /cgi-bin/ /images/

搜索引擎蜘蛛无法理解那样的格式,正确的写法应该是:

User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

5.确保字符的大小写没有错误.

在服务器上,字符是区分大小写的.假设你有个目录叫”Support”,你就不能在robots.txt中写成”support”

6.不要目录下罗列所有文件.
如果你想让搜索引擎忽略某个目录下素有文件,你不必写成:

User-agent:*
Disallow: /support/orders.html
Disallow: /support/technical.html
Disallow: /support/helpdesk.html
Disallow: /support/index.html

你可以用如下的代码来替代.

User-agent: *
Disallow: /support/

7.没有allow的命令

不要在你的robots.txt中使用Allow命令
只需要列出你不想让搜索引擎收录的文件.如果一个文件在你网站上有链到它的超链接,搜索引擎会自动收录这个文件..

五,其他提示以及窍门:

1.如何让所有的搜索引擎蜘蛛收录所有文件?

你可以使用下面的代码来允许搜索引擎蜘蛛抓取网站所有内容:

User-agent: *
Disallow:

2.如何禁止搜索引擎蜘蛛收录你网站

如果你不像让搜索引擎收录你的网站,你可以使用以下两行代码:

User-agent: *
Disallow: /

3.哪里能够找到更详细的robots.txt例子

如果你想看到关于robots.txt更详细具体的例子,可以浏览下面的其他大型网站的robots.txt

http://www.cnn.com/robots.txt
http://www.nytimes.com/robots.txt
http://www.spiegel.com/robots.txt
http://www.ebay.com/robots.txt

如果你想在搜索引擎上获得较好的排名,那么你的网站就应该拥有一个适合自己的robots.txt文件.只有搜索引擎知道该对你网站做哪些事情后,他们才能给你一个较好的排名.

Tags Tags:
Categories: seo技术
Posted By: kevin
E-mail | Permalink |
 

Responses to this post » (None)

 


Comments are open. Feel free to leave a comment below.


 Comment Meta:
RSS Feed for comments
TrackBack URI
 

Leave A Comment ...

 


You must be logged in to post a comment.


 XHTML:
You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

\/ More Options ...
Not Logged In.
  • Role »
  • Posts »
  • Comments »
Change Theme...
  • VoidVoid (Default)
  • LifeLife
  • EarthEarth
  • WindWind
  • WaterWater
  • FireFire
  • LiteLightweight