今天我们上海网站制作公司聊聊关于搜索引擎搜录网页的几个相关概念,希望能够让大家更好理解搜索引擎的工作原理,帮助大家提升网站优化方面的技能。搜索引擎相关的几个词是:爬行,抓取,索引,收录。
关于爬行与抓取
爬行是指搜索引擎蜘蛛在页面上沿着链接发现新页面,然后“爬”过去抓取新页面。抓取是指蜘蛛发现新页面后,打开页面,把页面HTML代码存入自己的数据库。通常引文是用crawl或spider(这里是动词)表示搜索引擎的爬行的工作。
显然,爬行和抓取是相互交织的。抓取是实际发生的我们能够观察到的过程,在原始日志中,蜘蛛的抓取是有完整记录的,比如:抓取确切时间、状态码、抓取的文件是哪个、抓取了多大文件等等。蜘蛛对页面的抓取就和浏览器读取文件是完全一样的。
这里,人们使用爬行这个词来形容搜索引擎对网站的访问,很形象,这里我们上海网站制作公司需要说明的是,实际上并不存在蜘蛛抓取文件时发现链接然后立即跟踪过去这样一个过程。蜘蛛抓取文件后存入数据库,程序解析出文件中的链接后将 URL存入页面地址库,然后蜘蛛从地址库中按一定规则选取URL进行抓取。蜘蛛不是真的访问页面时看到一个URL就爬过去。
关于索引与收录
索引指的是将一个URL的信息进行各种整理,如去重、分词等等,然后将关于这个URL的信息存入数据库,被称为索引库。真正用于搜索的是倒排索引,以后如果有机会的话,我们上海网站制作公司再为大家讲讲这方面的内容。要注意的是,索引库中关于URL的信息不仅是组成页面内容的关键词及其特征(位置、格式等),还有链接、更新情况等信息。英文索引这个词是 index。
收录也是很多网站制作与优化技术人员关心也最常用的词,其实也是4个概念中最不明确的。被收录指的是我们能查到页面被搜索引擎存入了索引库。但后面我们会看到,进入索引库的URL并不一定被抓取过,这和SEO们的直觉可能是不一样的。
理解了搜索引擎的这几个概念,我们上海网站制作公司认为,以后大家在网站制作的时候就清楚怎么做才能让搜索引擎喜欢我们的网站了。
本文由上海艺觉网络科技有限公司(http://www.zwzsh.net)原创编辑转载请注明