背景
今年十一長假過后,國內(nèi)網(wǎng)站在Alexa上的排名突然經(jīng)歷了一次大規(guī)模集體滑坡,各種謠言開始在網(wǎng)民中流傳,一種比較流行的說法是,Alexa終于開始調(diào)整算法來反擊越來越多的中國作弊網(wǎng)站,人們把這看做是Alexa的“正當(dāng)防衛(wèi)”,畢竟,一個(gè)以排行榜為最大賣點(diǎn)的網(wǎng)站賴以生存的就是它的排名的公正性。
各種傳言都無法解決看客們對Alexa可信度的疑惑,因?yàn)閲鴥?nèi)主流媒體從未針對Alexa的技術(shù)進(jìn)行過深入的分析和報(bào)道,而在下面的介紹中,讀者可以看到,或許韓國網(wǎng)站排名過高另有原因,而所謂的Alexa作弊手段也不只是此前一些媒體報(bào)道的多次刷新那么簡單,而且,Alexa也有自己非常高明的防作弊手段。不過,本文中所提及的作弊手段與網(wǎng)上隨處可見的“作弊寶典”有本質(zhì)的不同,所以,Alexa在多大程度上能抵御這種不常見的作弊方式也就很難說了。 Alexa工具條的DNA 要想徹底搞清楚Alexa排名是否可信,必須從技術(shù)上對Alexa的全球網(wǎng)站流量監(jiān)測進(jìn)行全面的解剖,當(dāng)然,Alexa從來沒有公布自己的技術(shù)細(xì)節(jié).
分析情況
現(xiàn)在最新版本的Alexa工具條的運(yùn)作機(jī)理與以往沒有太大的改變,每當(dāng)用戶以裝有Alexa工具條的IE瀏覽器打開新頁面時(shí),Alexa的一臺服務(wù)器(data.alexa.com)都會收到加密的數(shù)據(jù)包,這個(gè)數(shù)據(jù)包中的核心信息就是十幾個(gè)參數(shù),這些參數(shù)包括當(dāng)前網(wǎng)頁地址、頁面打開時(shí)間、用戶端顯示分辨率、Alexa工具條版本號、該用戶是否為“亞馬遜”的用戶等,其中有一個(gè)重要的隱含參數(shù),經(jīng)小林分析,認(rèn)為是Alexa為每個(gè)已安裝的工具條自動生成的ID號碼,這個(gè)號碼應(yīng)該是全球惟一的。Alexa可以通過這個(gè)ID對每個(gè)反饋數(shù)據(jù)包的發(fā)出者進(jìn)行惟一標(biāo)識,這是解決PV重復(fù)計(jì)算問題和防止同一用戶多次刷新作弊的一個(gè)重要手段。
這種以編程方式模擬多用戶訪問的作弊方式的實(shí)現(xiàn),最重要的環(huán)節(jié)就在于對那個(gè)Alexa用來惟一標(biāo)識用戶身份的ID號的生成算法的破解,這需要對足夠多的Alexa工具條進(jìn)行嗅探,抓取其數(shù)據(jù)包進(jìn)行定量的算法分析。估計(jì),國內(nèi)能做這些事情的人不在少數(shù),只是互聯(lián)網(wǎng)這個(gè)圈子里的高手們很少去做罷了。
結(jié)論
無論出于什么樣的目的,人們出賣Alexa總是希望能從中得到利益,對Alexa的研究越深入,對Alexa的價(jià)值理解得越深刻,就越能從中獲益。