做网站的朋友可能都听说过Robots.txt文件,这个Robots.txt是网站与搜索引擎沟通的一个重要的渠道,通过这个文件,可以告诉搜索引擎自己做的网站那些页面可以允许他们收录,那些不允许他们收录。那么自己就可以在建网站的时候,通过这个文件和搜索引擎达成协议。
Robots.txt文件必须要放在网站根目录的下面,搜索引擎也会自动地根据网站域名,自动的找到这个文件来判断自己是否可以收录这个页面。如果自己的网站允许搜索引擎可以收录自己网站的所有的内容,那么就可以不放这个文件。
要放相关的文件的话,就要做Robots.txt,那么就要符合相关的格式,格式内容是用一个记事本命名为Robots.txt。里面写上下面的内容。大家可以在建网站的时候做好之后传到网站根目录下。
格式如下:
User-agent:*
这个指的就是针对所有的搜索引擎蜘蛛代理
Disallow:/search.html
Disallow是不允许的意思,这一行说明的是不允许收录/search.html这个文件;
Disallow:/index.php?
这一行说的是不允许搜索引擎收录URL里面包含index.php?的文件;
Disallow:/tempweb/
这一行说的是不允许搜索引擎收录这个文件夹/tempweb/里面所有的内容。
很多建网站的朋友做了这个文件之后不是很自信,这个时候,不妨可以找一些大型的网站,去看看他们的是怎么做的,对比一下自己的是不是有错误,自己就会确信其效果了。
另外需要注意一些符号是否有错误,比如大小写空格啊什么的,尽量不要用一些复杂的参数;尽量的采用这种比较简洁的方式来屏蔽自己一些不想让搜索引擎收录的内容。
大家可能听说过一些网站被人恶意的修改Robots.txt文件,本来排名很好的被修改后,搜索引擎就不收录了,所以大家在做网站维护的时候,有时候要不断地检查下自己的这个Robots.txt文件。