百度抓取網(wǎng)頁判斷該頁面質(zhì)量時(shí),會(huì)受到該頁面發(fā)布時(shí)間的影響。
而由于網(wǎng)站有時(shí)會(huì)面臨著更換域名,而百度不會(huì)由于某個(gè)網(wǎng)站更換域名后,在重新收錄時(shí),就認(rèn)為所有頁面都是最新更新的。
所以為了避免這種不公平的判斷,百度會(huì)把頁面內(nèi)的文章發(fā)布日期作為其中一個(gè)判斷標(biāo)準(zhǔn),去判斷該頁面的發(fā)布時(shí)間,從而生成對(duì)應(yīng)的快照時(shí)間。
所以,對(duì)于新站,若一次需要更新很多篇文章,又怕百度誤認(rèn)為是采集的,那么在每篇文章里,就一定要加上文章發(fā)布日期,從而“幫助”百度去“了解”該文章的發(fā)布時(shí)間。
百度爬到的文章時(shí)間幾乎都不一樣,百度會(huì)認(rèn)為這個(gè)網(wǎng)站只是新域名,但是是舊數(shù)據(jù),所以就不會(huì)隨便把一次性更新的大量文章誤認(rèn)為是采集的了。
當(dāng)然不是絕對(duì)的,因?yàn)榘俣扰袛囗撁尜|(zhì)量的因素非常多,所以這個(gè)因素只是降低新站進(jìn)入沙河的概率。
我們來看下面這個(gè)例子:
我的這個(gè)域名是在2012年9月份注冊(cè)的。在發(fā)布文章時(shí),文章發(fā)布時(shí)間直接填寫的這篇新聞出來的時(shí)間,百度在收錄此頁面時(shí),便以頁面內(nèi)的發(fā)布時(shí)間做了參考依據(jù),給出了相同時(shí)間的快照。但事實(shí)上,在2012年3月26日,這個(gè)域名還沒有注冊(cè)呢。
以上是新站,下面我們?cè)賮砜匆粋€(gè)老站的例子:
我的這個(gè)域名是在2012年9月份注冊(cè)的。在發(fā)布文章時(shí),文章發(fā)布時(shí)間直接填寫的這篇新聞出來的時(shí)間,百度在收錄此頁面時(shí),便以頁面內(nèi)的發(fā)布時(shí)間做了參考依據(jù),給出了相同時(shí)間的快照。但事實(shí)上,在2012年3月26日,這個(gè)域名還沒有注冊(cè)呢。
以上是新站,下面我們?cè)賮砜匆粋€(gè)老站的例子:
這篇文章是我2013年1月10日發(fā)布的。發(fā)布時(shí)我填寫的時(shí)間是2012年12月25日。百度收錄時(shí),同樣把快照時(shí)間定成了我填寫的發(fā)布時(shí)間,而非真實(shí)發(fā)布時(shí)間。
由此可以看出,百度爬蟲在爬網(wǎng)頁時(shí),由于并不一定爬一次就能爬到網(wǎng)站的每個(gè)頁面上,有時(shí)會(huì)由于網(wǎng)站的用戶體驗(yàn)做的不好,使得即使有文章頁鏈接,爬蟲也不會(huì)去爬。因此,百度在爬到某一個(gè)頁面時(shí),并不會(huì)立刻認(rèn)為這篇文章就是剛剛發(fā)布的,而是會(huì)根據(jù)百度自己的算法去判斷這篇文章的發(fā)布時(shí)間。
當(dāng)然,大部分情況,百度還是收錄的爬到的時(shí)間。但對(duì)于少數(shù)這種時(shí)間不正確的情況也是不能忽視的,因?yàn)閷?duì)于采集的新站,如果用戶體驗(yàn)做的好,百度有可能會(huì)認(rèn)為是一個(gè)老站更換了域名,因此同樣會(huì)給予此新站較好的收錄和排名。
更多信息請(qǐng)查看IT技術(shù)專欄