搜索引擎的工作区域主要分为四大部分,下载系统、分析系统、检索系统、查询系统,这一篇文章就来讲一下下载系统的那些事,希望看官能够时常结合高手级SEO不告诉你的搜索原理的系列文章,对搜索引擎能有一个初步的看法,这样就会避免掉很多错误观念的影响。

seo搜索原理紫沐兜

蜘蛛下载过程与浏览器类似,不同点在于蜘蛛仅下载HTML文件,不对文件进行渲染,不加载图片、Flash等内容,一般情况下不加载JS。

蜘蛛在采集网站信息时会考虑网站的网络负载,根据网站的网络带宽来控制抓取量。一般情况下,负载是基于IP控制的。故而,增加网站的带宽是有利于SEO的。当然,如果是共享IP的网站,这点很难控制。

下载过程大致可分为四个步骤:DNS解析、TCP连接、服务器计算、HTML下载。

DNS解析主要跟DNS服务器性能有关,另外与解析方式也有一定关系。对于SEO而言,可以通过测试选择专业的DNS服务商。在这个步骤最容易出现的情况是运营部门屏蔽蜘蛛IP,因为蜘蛛爬取过程很类似DOS攻击。

TCP连接速度主要取决于Web服务器能否快速接入请求,一般而言,当服务器同时接入大量请求信息时会产生拥堵甚至拒绝接入的情况,接入量越大TCP连接速度越慢。当然,也跟所选WEB服务器程序(如IIS、Apache、Nginx等)有关。针对大型网站,可通过增加配置解决问题。针对采用合租服务器方式的小型网站,要避免和论坛、下载站等访问量大、消耗带宽大的网站共享服务器。

服务器计算速度主要取决于网站程序构架、数据库执行效率、程序语言效率等(针对动态内容),同时与并行处理量等有关。在这一过程最常见的问题就是数据库执行效率低下,因而会导致网站速度降低甚至出现页面访问出错的情况。

HTML下载速度主要取决文件的大小及网络带宽(针对大型网站较明显),对于SEO而言,可对HTML代码进行优化。很多网站HTML代码都存在冗长的问题,甚至通篇代码而文本内容仅占极小一部分。杨子曾经接手的网站使用过的页面功能,在去除后仍保留代码,或者某一“更多”按钮下隐藏着该功能全部的链接(都体现在HTML里,内容甚至超过了页面主体的内容量!)。针对HTML优化,看源码是个好习惯。

顶: 0 踩: 0