一、蜘蛛的來(lái)路有哪些,它是怎么到你的網(wǎng)站的。
通常來(lái)說(shuō),蜘蛛的可以通過(guò)三種途徑到達(dá)你的網(wǎng)站,分別是提交網(wǎng)站,通過(guò)在其他網(wǎng)站的連接跟蹤到你的網(wǎng)站,有一定規(guī)律的自由行動(dòng)。很多人都說(shuō)現(xiàn)在蜘蛛很智能不用提交網(wǎng)站了,其實(shí)錯(cuò)了,是因?yàn)槟阍谄渌W(wǎng)站發(fā)布的外鏈引來(lái)的蜘蛛。這兩種形式都是可操作的,最后一種比較特別,我們通常會(huì)認(rèn)為蜘蛛會(huì)按照1-0,a-z 這樣的方式對(duì)域名進(jìn)行掃描,然后進(jìn)入其中的網(wǎng)站。長(zhǎng)沙做網(wǎng)站
二、蜘蛛是怎么抓取網(wǎng)站頁(yè)面和內(nèi)容的。
傳統(tǒng)意義上,我們感覺(jué)搜索引擎蜘蛛(spider)爬行,應(yīng)該類似于真正的蜘蛛在蜘蛛網(wǎng)上爬行。也就是比如百度蜘蛛找到一個(gè)鏈接,順著這個(gè)鏈接爬行到一個(gè)頁(yè)面,然后再順著這個(gè)頁(yè)面里面的鏈接繼續(xù)爬……這個(gè)類似于蜘蛛網(wǎng),也類似于一棵大樹(shù)。這個(gè)理論雖然正確,但是不準(zhǔn)確。事實(shí)上搜索引擎內(nèi)部是有一個(gè)網(wǎng)址索引庫(kù)的,所以搜索引擎蜘蛛是從搜索引擎的服務(wù)器出發(fā),順著搜索引擎已有的網(wǎng)址爬行一個(gè)網(wǎng)頁(yè),并將網(wǎng)頁(yè)內(nèi)容抓取回來(lái)。頁(yè)面采集回來(lái)之后,搜索引擎會(huì)對(duì)其進(jìn)行分析,將內(nèi)容和鏈接分開(kāi),內(nèi)容暫時(shí)先不說(shuō)。分析出來(lái)鏈接之后,搜索引擎并不會(huì)馬上派蜘蛛進(jìn)行抓取,而是把鏈接和錨文本記錄下來(lái)交給網(wǎng)址索引庫(kù)進(jìn)行分析、對(duì)比和計(jì)算,最后放入網(wǎng)址索引庫(kù)。進(jìn)入了網(wǎng)址索引庫(kù)之后,才會(huì)有蜘蛛去抓取。
三、如何使網(wǎng)站內(nèi)容更好的被蜘蛛抓取,并且獲得好的排名。
我們做網(wǎng)站或者更新網(wǎng)站內(nèi)容都是想被蜘蛛快速抓取收錄,那么如何使網(wǎng)站內(nèi)容更好的被蜘蛛抓取。
1.相信大家都看過(guò)百度給出的《搜索引擎優(yōu)化指南》,建議沒(méi)有看過(guò)的朋友一定要去看看,他上面有提到自己更推薦的Url方式,樹(shù)形和扁平。你只知道這樣有助于優(yōu)化,卻不知道為什么這么做。蜘蛛在一個(gè)特定域內(nèi)遵循兩個(gè)原則,廣度和深度。其中我們認(rèn)為廣度優(yōu)先,蜘蛛一般不會(huì)在一個(gè)特定域內(nèi)在縱深上爬行太多。蜘蛛會(huì)在一個(gè)頁(yè)面出來(lái)完成的時(shí)候再進(jìn)入下一個(gè)內(nèi)鏈信息豐富的頁(yè)面。做成頻道頁(yè)和列表頁(yè),能夠讓蜘蛛更順暢的去爬行一個(gè)網(wǎng)站。長(zhǎng)沙做網(wǎng)站
2.網(wǎng)站內(nèi)容保持定期更新和經(jīng)常更新高質(zhì)量的內(nèi)容。其實(shí)搜索蜘蛛就相當(dāng)一個(gè)我們有經(jīng)常用到的采集器,能抓取到你網(wǎng)站的頁(yè)面,將你網(wǎng)站頁(yè)面的內(nèi)容放入自己的數(shù)據(jù)庫(kù),將采集到的結(jié)果與數(shù)據(jù)庫(kù)原有的信息一一進(jìn)行匹配,從而判斷你文章的原創(chuàng)度。這個(gè)過(guò)程相當(dāng)復(fù)雜,龐大,需要有非常強(qiáng)大的服務(wù)器。我們把文章分成5個(gè)等級(jí),人氣高度的原創(chuàng)文章等級(jí)為5,一般原創(chuàng)文章等級(jí)為4,高度偽原創(chuàng)等級(jí)為3,依次類推。搜索引擎就將對(duì)應(yīng)的文章放入對(duì)應(yīng)的位置,人氣高度的原創(chuàng)文章給予的權(quán)重是最高的,從而會(huì)給你這個(gè)文章的頁(yè)面帶來(lái)排名。