?Google PR是Google誕生以來最具知名度的概念,以至于很多人認為Google PR的意義更多在于公關炒作,而不是排名算法
2023年4月,Google取消了工具條輸出PR值的顯示,站長們再也看不到最新的PR值了,也有很多SEO認為Google完全取消了PageRank算法
現在的Google排名算法中還有PageRank嗎?眾說紛紜
Google從2006年就不再使用PageRank了前天,一位自稱的前 Google軟件工程師在Hacker News的一個討論Google替代品的帖子中透露,Google早在2006年就不再使用Google PR了
The comments here that PageRank is Google’s secret sauce also aren’t really true – Google hasn’t used PageRank since 2006. The ones about the search & clickthrough data being important are closer…翻譯過來的意思是:評論里說PageRank是Google秘方的說法并不正確 — 從2006年Google就不再用 PageRank了
關于搜索和點擊率數據很重要的說法還比較靠譜……說得很明確,Google算法早就不再使用PageRank了
另外,點擊率也是Google算法重要排名因素之一,但到目前為止,真實有效的Google點擊器或Google快排這種東西還沒有誕生,而百度對百度快排貌似已經放棄治療了…這個是另一個話題,暫且不提
這是真的嗎?為了驗證這位前Google員工身份,SEO們已經做了人肉分析,結論是大概率是真的
這位員工名字是Jonathan Tang,Twitter賬號在此,2009年至2023年在Google工作,他的Hacker News賬號是2007年注冊的,不大可能用這么老的賬號來胡扯或造謠
而且,這些年Google與SEO行業的官方溝通人JohnMu在Twitter上評論此事時并沒有否認,只是說
SEO們應該知道,20年來Google工程師不可能沒有對搜索做出修改
所以,雖然沒有官方認證,但應該是真的
其實,Matt Cutts等人很早以前也表示過,Google算法肯定還是考慮鏈接的,而且鏈接依然是最重要的排名因素,PageRank以及Google排名的基本原理沒有變化,但不可能這么多年原樣不動地用PageRank的原始版本,肯定是修改過的了
JohnMu去年也直接評論過PageRank的使用情況,表示現在的Google算法不可能還是一比一地原樣用PageRank的最初公式
那么2006年以后工具條顯示的PR是什么鬼?前面提到,Google是從2023年取消工具條顯示PR的,如果2006年就不再用PR了,那么2006年到2023年工具條上顯示的PageRank是什么東西?而且Google的另一位發言人Gary Illyes在2023年還發推明確說
“你們不知道嗎,Google在18年后依然在排名算法中使用PageRank(還有幾百個其它信號)
”所以到底是在用還是不用了?Jonathan Tang后續又解釋了一下
他們2006年用另一個算法取代了PR,那個算法給出的結果大致和PR相似,但計算速度快得多
工具條顯示的宣稱是PR的數值就是這個替代算法的結果
這個替代算法的名字都和PageRank相似,所以Google這么宣稱,在技術上也不能說是錯的
所以,從2006年開始,Google算法中使用的、工具條所顯示的,都不是原始PageRank計算公式的結果,而是一個結果類似、名稱類似、計算速度快得多的算法
我們姑且稱之為Google新PageRank吧
那么這個Google新PR的計算原理是什么?Jonathan Tang沒說,連真實名稱也沒說,大家只能猜測了
疑似Google新PageRank專利Jonathan Tang的帖子后面,專門研究Google專利的大神Bill Slawski發了個回復
Google的新版本PageRank專利2006年通過
巧合?Bill Slawski去年發帖詳細介紹過這個新版本PageRank專利,這兩天又仔細讀了一下專利原文和Bill Slawski的帖子,這里介紹一下大意
專利名稱是Producing a ranking for pages using distances in a WEB-link graph – 基于鏈接距離的頁面級別計算
簡單說,新PageRank不再計算導入鏈接的總數,而是計算這個頁面與種子頁面之間的距離,距離越近,頁面質量越高,頁面級別、新PageRank越高
這個思路和yahoo!的TrustRank是極為相近的,基本假設都是
好網站不會鏈接向壞網站,但會鏈接向其它好網站
種子頁面、鏈接長度、鏈接距離這個專利涉及幾個概念
種子頁面(Seed Pages)、鏈接長度(Link Length)、鏈接距離(Link Distance)
種子頁面(Seed Pages)如上面的簡單網絡鏈接圖所示,Google選出一部分頁面作為種子頁面,如圖中上半部分的頁面106、108、110,下半部分的都是種子頁面集之外的、需要計算新PR值的
關于種子頁面的幾個要點
種子頁面顯然是高質量的頁面,專利里舉的例子是Google目錄(其實就是已經死了的開放目錄)和紐約時報
種子頁面需要與其它非種子頁面有很好的連通性,有比較多的導出鏈接指向其它高質量頁面
種子頁面需要穩定可靠,有多樣性,大范圍覆蓋各類主題
鏈接長度(Link Length)種子和非種子之間有的離得近,有的離得遠
如種子頁面106通過鏈接132直接連向非種子頁面112,非種子頁面118則沒有種子頁面直接連向它,要通過兩層鏈接
鏈接距離并不是簡單地數鏈接層數
每個鏈接Google會計算一個鏈接長度,鏈接長度取決于鏈接本身的特征和鏈接所在頁面的特征,比如頁面上有多少鏈接,鏈接的位置,鏈接文字所用字體等等
所以,同樣是一個鏈接,鏈接長度是不一樣的
頁面導出鏈接越多,鏈接長度越長
這和原始PageRank思路是一樣的,導出鏈接越多,每個鏈接分到的權重越少
鏈接所在位置越重要,比如正文中,正文靠前部分,鏈接長度越短
鏈接錨文字字號越大,或者在H1中,可能鏈接長度越短
我記得Matt Cutts很久以前在談到PageRank可能的修正時提到過,正文中的鏈接和頁腳的鏈接被用戶點擊到的概率顯然差距很大,所以不同位置的鏈接獲得的PR和權重應該是不一樣的
這種說法很符合這個專利的意思
鏈接距離(Link Distance)鏈接距離就是頁面與種子頁面集合之間的最短鏈接長度之和
種子頁面和非種子頁面之間通常不止一條鏈接通路,如示意圖中,頁面118可以通過鏈接132、136從種子頁面106到達,也可以通過鏈接134、142、140到達,還可以通過鏈接134、140到達,還可以通過其它鏈接從其它種子頁面到達,所有這些從種子集到頁面的鏈接通路中,鏈接長度之和最短的那個被定義為鏈接距離
如果一個頁面無法從任何種子頁面出發訪問到,也就是種子頁面集合到這個頁面完全沒有鏈接通路,那么鏈接距離是無限大
然后Google算法根據鏈接距離計算出一個頁面的排名能力分數,也就是新PR值,最后的排名算法中,這個新PR值作為排名因素之一
也就是說,鏈接距離越短,離種子越近,Google認為頁面越重要,排名能力越高
鏈接距離的計算不需要迭代,所以比原版PageRank的計算要快得多,而在代表頁面重要性上,我相信Google做過對比,準確性差不多,所以就用來代替原來的PR了
簡化鏈接網絡圖(Reduced Link-Graph)專利最后面提到了另一個概念
簡化鏈接網絡圖(Reduced Link-Graph),不過沒有再說明這個概念有什么用,用一個段落說了簡化鏈接網絡圖這個概念后專利就結束了
不過簡化鏈接網絡圖有可能和鏈接質量判斷、Penguin算法更新等相關
在前面示意圖中,所有頁面之間的所有鏈接組成一個完整的鏈接網絡圖,其中只由最短鏈接距離通路組成的鏈接被稱為簡化鏈接網絡圖,也就是用來計算新PR值的那些鏈接
顯然,簡化鏈接網絡圖是完整鏈接網絡的一個子集,不過每個頁面的鏈接距離都已經保留在簡化鏈接網絡圖中了,去掉的那些鏈接對頁面鏈接距離和新PR值沒有影響
在簡化鏈接網絡圖中,每個頁面獲得的鏈接權重來源都是可以回溯到最近的種子頁面的
如果一個頁面從種子集合完全沒有鏈接通路可以到達,也就是前面說的鏈接距離為無限大,這個頁面將被排除在簡化鏈接網絡圖之外
如果一個頁面得到的鏈接都來自簡化鏈接網絡之外,雖然鏈接總數可能很大,但其鏈接距離依然是無限大
換句話說,在簡化鏈接網絡之外的鏈接是被忽略掉的,無論有多少鏈接
聯想到Penguin 4.0算法更新,其中一個特征就是,垃圾鏈接是被忽略掉的,不被計入鏈接的流動中,這和基于鏈接距離的頁面級別非常相似
來源
SEO每天一貼 Zac 昝輝
請立即點擊咨詢我們或撥打咨詢熱線: 18942620423,我們會詳細為你一一解答你心中的疑難。項目經理在線