搜索引擎蜘蛛经过抓取页面后,会对页面进行相应的算法处理,然后存入数据库。用户在搜索框输入关键词后,排名程序调用索引数据库数据,计算排名显示给用户,这个排名是怎么得来的呢?

1、搜索词处理

搜索引擎收到用户的搜索词后,需要对搜索词进行处理,才能进入排名。处理包括:中文分词,去停止词,指令出来,拼写错误矫正和整合搜索触发等。

2、文件匹配

搜索词经过处理好,搜索引擎得到的是以词为基础的关键词集合。文件匹配就是找出含有所有关键词的文件,利用相关索引技术使得文件匹配能够快速完成。

3、初始子集选择

找到包含所有关键词的匹配文件后,还不能进行相关性计算,因为找到的文件经常会有几十万甚至上千万,要对这么多文件实时进行相关性计算是非常耗时的。搜索引擎通常会选择一些页面特征作为初始子集,当匹配数目巨大时,搜索引擎不会对这么多页面进行计算,而必须选择页面权重较高的一个子集,再对子集中的页面进行相关计算。

4、相关性计算

计算相关性是排名过程中最重要的一步。相关性计算是搜索引擎算法中最令SEO感兴趣的。影响相关性的因素主要有:关键词常用程度、词频和密度、关键词位置和形式、关键词距离、链接分析和页面权重。

5、排名过滤和调整

选出匹配文件子集、计算相关性后,排名已经大概确定了。但是搜索引擎还会有一些过滤算法,对排名进行部分的调整,最重要的过滤就是进行惩罚。一些有作弊的页面,虽然按照正常的权重和相关性计算排到前面,但搜索引擎的惩罚却可能在最好一步把这类页面调到后面。

6、排名显示

所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照等数据显示在页面上。

7、索引缓存

用户搜索的关键词有很多是重复的,如果搜索引擎每次都重新处理排名是非常大的浪费,搜索引擎会把最常见的搜索词存入缓存,用户搜索时直接调用,而不必重复计算,大大提升排名效率,缩短了查询时间。

8、查询和点击日志

搜索用户的IP、搜索词、搜索时间,点击了哪些页面?都会以日志的形式记录,这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索引擎算法具有重要的意义。

顶: 0 踩: 0