网站收录收录原理 (网站的收录)

SEO教程9个月前发布 jdkjadmin
6 00

网站的收录

搜索引擎的收录过程是一个复杂且庞大的任务,面对互联网上无数的网页,需要专门的工具来筛选和索引。

以Google为例,虽然鲜有明确证实存在DeepBot和FreshBot的区别,但普遍认为,Google的robots中有一部分被称为FreshBot,它们的主要职责是持续扫描互联网,以构建庞大的URL列表,供DeepBot使用。

FreshBot在扫描时并非直接进行索引,而是寻找网页中的链接,这一过程可能看似效率不高,但可以通过观察不同数据中心的robots的访问行为来判断。

FreshBot记录的信息包括URL、时间戳以及网页头部信息(这存在争议,有人认为FreshBot不会读取网页内容,而是交给DeepBot处理)。

FreshBot会排除被禁止索引的网页,以提高效率。

鲜有频繁访问就代表索引的情况,可能是FreshBot在扫描URL。

FreshBot的记录优先级分为多种,如新建网页、更新的网页、重定向页面等,这些网页的优先级根据链接质量和来源有所不同。

索引完成后,DeepBot会根据优先级处理网页,包括动态URL和未更新的网页。

动态URL需要更多权威链接才能从补充结果中脱颖而出。

未更新的网页会与Google索引库中的时间进行比对,确保已索引最新版本。

404页面则会检查是否存在重复内容。

在此过程中,数据中心之间需要进行同步更新,这在GoogleDance更新后变得更加连续和实时。

扩展资料

网站收录就是与互联网用户共享网址,网站收录前提是网站首页提交给搜索引擎,蜘蛛才会光顾,每次抓取网页时都会向索引中添加并更新新的网站,站长只需提供顶层网页即可,不必提交各个单独的网页。

抓取工具能够找到其他网页。

符合相关标准提交的网址,会在1个月内按搜索引擎收录标准被处理。

© 版权声明

相关文章