搜索引擎要对Internet上新出现的网页以及旧网页的变化做出反应,就需要及时对其数据库进行更新,排除无效链接加入新的搜索结果等,以保证提供最新的搜索结果。
Google当然也不例外,它存在的基础便在于能否向访问者提供权威而可靠的搜索结果。在更新过程中,Google不可能关闭服务器来进行维护,开玩笑说即使是只有一分钟的掉线也会给 Google带来不可想象的损失,当然被封除外。只不过Google的更新过程并不是象开关切换那样,从一个搜索列表瞬间就可以切换到另外一个搜索列表,而是需要几天的时间才能来完成对主要搜索结果的更新。
名词解释:Google Dance
Google Dance这个名词通常用于描述Google搜索引擎对其搜索结果进行更新、重组的过程。Google一般每个月对其搜索数据库进行一次更新。在Google Dance时期(三到五天内),你可以发现Google的搜索结果会有大幅度的波动。事实上,Google 的更新过程可以很容易地通过搜索结果的显著变化来识别,通过Google对搜索页面的网页快照的更新也能够看出来。在Google Dance过程中,几乎每一分钟都会有变化。
在Google的更新过程中,其搜索始终在变化,所以它的搜索结果也会有很大的变动。页面等级(PageRank)和返回链接的更新也是在这个时期完成的。
Google Dance的技术背景:
Google 的搜索结果来源于上万个网络服务器。这就意味着当你在Google中键入一个问题或查询时,由这上万个服务器中的一个来处理你的查询请求。而且它必须在远小于一秒的时间内响应你的查询(给你想要的查询结果)。
从一个搜索到下一个搜索总会有一些变化。这只不过是由于总是有新的页面被添加进来,同时一些网站内容的变化也会使它们在搜索结果上的排名发生变化。不过在Google Dance过程中,这些变化是极具戏剧性的。新的索引会分割后传送给这些服务器,依次对这些服务器进行更新,直到最终这些服务器全部更新为一个全新的索引数据库。
在Google Dance过程中,并不是所有服务器同时接受新的索引。事实上新的索引只能被分割传送给每个数据中心,不同的分割段在不同的时间内被上传给每个服务器群。在Google Dance过程中,倘若用户在Google上进行查询,他们可能在这一分钟得到的查询结果来自一个其全部或部分数据尚未得到更新的数据中心,而在几分钟后又会从另外一个数据中心得到更新后的数据。这便是Dance的由来。
SERP排名时刻在变化
在Google Dance过程中,Google的Robot会对每个已被收录的站点重新进行遍历,计算其链入和链出数,并对这些链接的价值进行评估。然后根据其 PageRank系统来计算每个页面的PageRank值,再依据这个数字来重新安排各个站点在列表中的位置。
但是,这并不意味着只有经过Google Dance后SERP(搜索结果页面)排名才有变化。事实上,Google的SERP时刻在变,一方面由于Google的网络蜘蛛(spider)一直在活动并不断发现新站点、新内容;另一方面一旦网络蜘蛛检测到那些失效的“死”站点,便会将这些站点从其搜索列表中删除,Google一直在在遍历和更新,不过只有在Google Dance完成后,其搜索结果才会有幅度较大的变化。
如何确定Google Dance是否进行中?
最简单直接的办法就是到www.google.com去做一个查询。比如说,搜索“技术点评”,在Google搜索结果页面上方的蓝条中,会显示这样的信息:“约有 38,400,000 项符合技术点评的查询结果,以下是第 1 - 10 项。”,然后到Google另两个主要的服务器www2.google.com和 www3.google.com上做相同条件的查询,如果相同的查询得出的搜索结果数量不同特别是差别较大时,就可以肯定Google正在更新中。
很多网站提供类似的工具,通过对不同数据中心的搜索结果同时进行搜索并比较结果。如果搜索结果数量和排名顺序都相同的话,就表明Google的更新过程已经完成了。