安徽SEO顾问

毛主席说过,实践出真知(也许他老人家也许没说过...不过这些不重要)重要的是本博将持续更新,持续分享。
网络营销优化QQ交流群:436867053

搜索引擎收录排名原理详解-SEO学习必看

        首先我们先来了解下什么是蜘蛛,我们说的蜘蛛他不是一个真的蜘蛛,他只是一个程序,蜘蛛也叫爬虫和机器人,他是抓取信息的一套系统,而整个互联网就像一个蜘蛛网一样盘根错节,而这个程序就是不知道累一样的在这样一个网里面来回爬,所以我们把它名命为网络蜘蛛,把他叫做蜘蛛。

我们还要知道什么是数据库?临时数据库是什么?数据库他是一个储存数据的东西,我们叫他数据库,那么临时数据库呢?我们可以这么理解,他就是临时储存的。

这个搜索引擎的抓取收录呢,我说的搜索引擎不止百度,我们所看到的搜索引擎有很多,他有百度、谷歌、360、搜狗、雅虎和必应等等,我们都叫他搜索引擎,但是我们目前针对百度来做,为什么呢,其实他们的抓取原理都是差不多的,只是目前百度的市场占有率大我们才去做他的。

搜索引擎蜘蛛

 

那么他的抓取是基于一种什么样的形式来抓取的呢?我们的网站有一些链接,像这个蜘蛛只能通过链接跑到我们的网站上,网络上肯定有某一个链接通向我们的网站蜘蛛才能爬去过来,他爬到我们网站抓取了一些内容然后带回去,也可能在我们的网站上面循着我们网站的某一个链接继续往前爬,爬到我们网站里面的一个页面,有可能带一些内容跑回去了,有可能看到链接又接着往里面继续爬,就是说网站有很多个页面,就像个蜘蛛网一样,有可能泡你的内容页面,也可能跑到你的分类页面,蜘蛛就是循着链接抓取的,他就是顺着你的页面中所有的URL中爬取,然后把你网站上的一些内容和链接给带回去。

那么我们怎么知道蜘蛛来过我们的网站呢?有一个东西叫做IIS日志,也就是网站日志,这个东西在网站里可以看得到,一般空间提供下载到本地查看,以log结尾的文件,我们也可用FTP查看,怎么看蜘蛛有没有到过你的网站呢?我们打开log文件,每一个蜘蛛都有一个自己的名字,如1、百度蜘蛛:Baiduspider、baiduspider等, 百度蜘蛛最新名称为Baiduspider了Baiduspider-image这个百度旗下蜘蛛,Baiduspider-mobile(抓取wap)、Baiduspider-image(抓取图片)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
注:以上百度蜘蛛目前常见的是Baiduspider和Baiduspider-image两种。
2、谷歌蜘蛛:Googlebot但也有说是GoogleBot的。谷歌蜘蛛最新名称为“compatible; Googlebot/2.1;”。还发现了Googlebot-Mobile,看名字是抓取wap内容的。
3、360蜘蛛:360Spider,它是一个很“勤奋抓爬”的蜘蛛。
4、SOSO蜘蛛:Sosospider,也可为它颁一个“勤奋抓爬”奖的蜘蛛。
5、雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo! 
名称中带“Slurp”和空格,名称有空格robots里名称可以使用“Slurp”或者“Yahoo”单词描述,不知道有效无效。
6、有道蜘蛛:YoudaoBot,YodaoBot(两个名字都有,中文拼音少了个U字母读音差别很大嘎,这都会少?)
7、搜狗蜘蛛:Sogou News Spider
搜狗蜘蛛还包括如下这些:Sogou web spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou News Spider、Sogou Orion spider,
“Sogou web spider;Sogou inst spider;Sogou spider2;Sogou blog;Sogou News Spider;Sogou Orion spider”目前6个,名称都带空格。
线上常见"Sogou web spider/4.0" ;"Sogou News Spider/4.0" ;"Sogou inst spider/4.0"
8、MSN蜘蛛:msnbot,msnbot-media(只见到msnbot-media在狂爬……)
9、必应蜘蛛:bingbot 
线上(compatible; bingbot/2.0;)
10、一搜蜘蛛:YisouSpider
11、Alexa蜘蛛:ia_archiver
12、宜sou蜘蛛:EasouSpider
13、即刻蜘蛛:JikeSpider
14、一淘网蜘蛛:EtaoSpider

我们打开log文件查找,比如找百度蜘蛛就输入Baiduspider查找下一个,结果就能看到有没有来了,蜘蛛爬去你的那个页面都会在你的日志里显示出来。

那是不是他爬去了这些页面就收录了呢?不是的,他带回去的这个内容是带回去了,但是不一定会收录你的,并不会收录你的网站。

如果我们的网站没有外部链接,蜘蛛不来我们这个网站,怎么办呢?我们可以有几种方法,我们可以在其他网站上面留上链接,因为蜘蛛会爬去别人的网站,做上链接就会爬到我们的网站上来。

如果我们不知道在什么地方去做,那又怎么办呢?很简单,像百度提交,你做那个搜索引擎的就像那个搜索引擎主动提交你的链接,你提交了,他就有可能放一个蜘蛛到你的页面来,你提交的起始页面是哪个页面,他就会跑到哪个页面来,你提交的页面是一个很长内页,他也会直接跑到你的内页去,不管你的链接深度。可以打开http://ping.baidu.com/ping.html提交你的网站。

当然百度蜘蛛的链接层次越深,蜘蛛就越不愿意爬去,反之就会更好,总之越短越好。

再说蜘蛛抓取内容回去了,他抓取回去的是HTML文件,他是看不见我们的图片什么样子都是看不到的,他看到的和你看到的是不一样的,他抓取的只是一些源代码链接。

抓到这个临时数据库里面进行储存,然后有一些乱七八糟的链接,他会对这些进行一个过滤筛选,过滤出好的东西,保留一些他没有的,他认为这个页面里面的文字图片内容进行分析,他认为好的放回数据库,不好的就直接丢弃,像一些垃圾类容和低质量类容,都是丢弃,做一个简单的比喻,比如你一个页面什么也没有,或只有一张图片,他就认为是垃圾内容,他会把一些有质量的内容带回去进行比对,他分析一些页面进行比对,他会给你一个分数进行最终进行排名,最后输出到搜索结果进行排序。

搜索引擎抓取原理图

我们所做的SEO就是摸清楚他计算这些分数是有哪些组成的,比如说你的这个代码优化的识别度,他给你打个分数,然后你的内容给你打个分,然后多少个用户点击了你的网站,给你打个分,别人推荐你的页面,他给你打个分等等因素组成的。

就是经过抓取、过滤、建立索引和输出结果,当我们在搜索引擎看到的结果,就是搜索引擎根据某个算法,把某个关键词展现在首页的第一位。


发表看法

额 本文暂时没人评论 来添加一个吧

Top