打印本文 打印本文  关闭窗口 关闭窗口  
中国互联网应有自己网站排名 完善统计算法
作者:佚名  文章来源:人民网  点击数  更新时间:2007/9/26 20:39:52  文章录入:光荣与梦想  责任编辑:光荣与梦想

 

    自1987年从中国发出了第一封电子邮件以来,中国互联网产业的发展已有将近15年的时间。中国互联网市场也已发展为仅次于美国的全球第二大市场。网民规模已经超过1.3亿(CNNIC2007年报告),中文也成为了互联网第二大语言,在传统互联网产业(新闻、搜索引擎、电子邮件等)保持高速增长的同时,各类新兴的网络服务产业(如网络视频、WEB2.0、博客网)也风起云涌,丰富了互联网服务的应用领域。

    网络的飞速发展也使信息共享和获取更加方便快捷。而具体如何将网站的信息进行统计汇总,从而作为我们进行决策的依据,一直是国内企业关注的焦点。但是,我们也应当看到在国内互联网市场高速成长的同时,相关网络流量的评估与分析工作却一直滞后。特别是缺少一个对网站流量进行综合排名的权威工整机构,使得中国网站长期依赖国外网站流量分析机构ALEXA(www.alexa.com)的统计数据。

    所谓第三方网站流量排名服务,就是通过一个完全中立性的第三方平台对所有网站的流量进行监测,在利用自己的一套算法对网站流量进行评估统计,由此得出网站排名的先后顺序。网站流量的统计、排名、调查、分析和推广在国内早已有之,但却是混乱和极不规范的,不仅缺少一个统一的标准,大家也都按照各自的理解确定名词,因此大家在讨论和交流时就缺少必要的基础。国际上在这方面比较成功的案例是ALEXA。ALEXA是以发布世界网站排名而引人注目的一个网站,创建于1996年4月,1999年被亚马逊收购,他们的目标是让INTERNET冲浪者在分享虚拟世界的资源同时,更多的参与INTERNET资源的组织。作为一个商业单位,ALEXA的数据在国外也仅仅是作为一个参考,国外的企业更注重对流量的深入分析,而非简单的排名。但在中国,ALEXA的排名却长期被行业奉为圭臬,那么ALEXA适合中国的网站对于流量排名的需求吗?事实上,自2006年以来ALEXA的中国网站排名数据已经越来越被广泛质疑,其原因如下:

    1、ALEXA对中国互联网了解不够

    虽然互联网倡导“连接无极限”,但不意味着不会受到疆域或地域的影响。语言、文化、习俗、意识形态、经济基础等因素的差异,都会导致各地区网民的上网习惯、浏览取向、网上消费习惯的不同,最终体现为各地区网站流量的特点差异。例如:在国外非常普及的维基百科类网站,在国内基本局限于小众群体。而在国内拥有大量人气的纯社区类网站(如百度贴吧、天涯、猫扑等),在国外也远不如在国内那么有市场。再例如:国内网民的习惯“看文章、发表评论”,会经常出现一个网站因为发表一篇文章,导致流量大幅度增长,而在国外则很少会有这样的情况发生,所以做网站排名必须要结合本地特点来制定标准。而ALEXA对中国互联网的现状长期缺乏了解,也很少和国内互联网产业进行交流,在2007年8月,根据自身的标准,单方面大幅度降低中国地区网站的排名就是个明显的例子。

    2、统计模式的先天不足

    而在统计方法上ALEXA也存在明显的缺陷。对任何网站的统计一般有两种方法:一是客户端统计(我们称之为K统计)和因此得到的客户端排名(我们称之为K排名);二是网站端统计(我们称之为W统计)和据此得到的网站端排名(即W排名)。K统计的方式是在网民的电脑上安装一个统计插件,该插件可以自动记录网民浏览网页的行为,如登录哪些网站、打开哪些网页、打开网页的时间等,这些记录会自动被统计插件保存并发送到流量统计平台,该平台根据自身算法将所有网民终端发回的记录进行统计,计算出网站的流量排名。ALEXA就属于这类模式。由此可见,K统计是一种抽样统计方法,结果质量完全取决于安装统计插件的网民数量,由于在所有网民的电脑上都安装统计插件是无法在现实中完成的,所以统计样本(安装统计插件的网民)的地区分布和水平分布非常关键。W统计即网站端统计,是指在网站服务器端安装相应的统计软件,并记录所有客户的访问情况,对访问量进行统计分析。这两类方法在统计上都有自己的特点,但也各有局限之处。我们可以在如下几个主要方面做一个对比:


            方法评比方面

     客户端统计(K统计)

 网站端统计(W统计)

  真实访问流量

做抽样访问,只统计大致比例

能记录当天全部访问量

  流量忠实度

能对流量忠实率进行统计

无法判断统计IP是否来自几个用户,或者不同IP是否代表一个用户,所以无法统计流量忠实率

 对用户做跟踪分析

可以进行长时间跟踪分析,只要安装统计插件的用户在线

无法跟踪网民的访问行为,只记录当天访问记录

 统计误差率

    较低

    


 
    由此我们可以看出,客户端统计的优势在于对访问量的深度分析,特别是对不同特征的网民群体做个性化分析方面(如商业用户群体),而网站端统计则在流量宏观统计上有先天优势。我们可以用一个形象的方式来说明两类方式的优势,假设在一个人声鼎沸的会场里,网站端统计可以统计声音分贝高低,而客户端则是分析不同人群主要说什么,如果这两类方式能结合使用,将会极大地提升网站流量排名的精确度和深度。

    3、统计样本的局限性

    让我们再分析一下ALEXA的模式。如前面所言,ALEXA数据客户端统计模式,数据来源全部是安装其统计插件的网民。由于统计插件本身对网民的实用价值不大,为了鼓励网民主动安装,一般都打包成一个实用软件。ALEXA的统计插件是浏览器工具条(ALEXA TOOLBAR),该插件可为普通网民提供搜索引擎服务。但ALEXA的工具条没有中文版本,在产品设计上对中国网民的实用性并不高。所以在中国主动安装的中国网民多为网站站长和互联网专业人士,目的是为了提升自己网站的排名。这些人群在中国1亿网民中所占的比例很小,而他们的上网行为却都被ALEXA抽样统计为中国网民的普遍行为。通常来说,作为抽样统计模式,统计样本必须分布均匀,不仅仅是地区分布均匀,而且网络操作水平、知识水平、职业背景等都应该有均匀的分布,否则会严重影响统计结果。ALEXA从统计取样上就有严重的偏向性。

    4、对作弊处理的标准不符合中国互联网的特征

    在2007年8月,ALEXA对中国网站的数据做了调整,导致中国网站的排名大幅度下降。其中确有作弊的网站,但也有不少被“流量误杀”的网站。中国拥有全球第二大网民市场,而在ALEXA全球排名全500的网站中,中国网站只有一小部分,甚至一些韩国、日本网站却排在中国网站前面。主要原因是ALEXA有一套自己定制标准的反作弊机制,凡数据增长不符合这个机制的网站都在被打压的范畴内。反作弊是确保排名公正的重要措施,但必须要考虑不同国家的互联网文化,借助一刀切的手段去保证公正性,其本身也就失去了公正。

  我们如何做自己的网站排名?

    为了中国互联网的良性发展,中国必须拥有自己的第三方权威流量统计平台。但做流量统计不能照抄ALEXA的模式,应当设计开发符合中国互联网特点的流量统计方法。在这方面由国务院新闻办电信管理局指导、中国互联网协会主办的中国网站排名网(www.chinarank.org.cn )在这方面做了有意义的探索。中国网站排名成立于2006年12月19日,虽然只有半年多的时间,但其发布的网站流量排名已逐渐被业界所认可。除了互联网协会作为一个公益性行业组织,不会设计排名商业利益的影响之外,在流量统计分析方面还具备如下特点:

    1、 客户端数据源覆盖面广,保证数据的准确性

    中国网站排名的统计软件累计覆盖了400万网民,平均每天活跃的网民数为40万,基本能抽样监测国内所有网站的访问变化。

    2、 针对中国网站设计多种流量统计算法

    单纯统计网站的流量高低已远远不能满足互联网行业的需要,中国网站排名网推出了10余种特色算法,对网站流量进行深度分析,例如:

    同类网站访问率——在一段时间内(以30天为单位),某网站的总访问量中,同时也访问过与其提供相同或类似服务网站的访问量。

    网站忠实访问率——以日为单位,在一段时间(30天)内,访问某网站达3日或3日以上的独立访问量(一日内多次访问不计算在内)。

    网站流量黏着率——某网站的黏着率越高,说明深入访问该网站的用户比例越高,也可间接证明网站的信息内容及服务对网民的吸引力越明显。

    网站流量贡献率——某网站对其他网站的流量贡献率越高,可间接体现该网站的广告投放的价值与效果越明显,为广告主选择网站投放广告提供重要的指导数据。

    等等……

  3、 和众多ISP运营商开展尝试性合作,完善统计算法

    前面已经提到,客户端统计与网站端统计的结合能优势互补,极大地提升网站流量排名的精确度和深度。作为电信基础服务提供商,ISP运营商可提供最客观的网站端流量数据。因此,中国网站排名网与多家ISP运营商开展合作,在流量统计方面进行探索性尝试,将IP流量数据与独立客户端的数据进行算法结合,提供权威的网站流量排名数据。

    4、 完善分类排名,根据行业特点评估网站流量

    行业特性也是导致网站流量特征的一个重要因素,而一般的网站排名只考虑总流量的排名,忽略行业的特点。例如购物网站和新闻网站服务于不同领域,他们本身不具备可比性,如果将网站按照他们所服务的行业做排名,则更能反映不同行业的网络发展水平。

    目前,中国互联网正在经历一个新的发展阶段,新兴的网络服务产业也会层出不穷,网民数量和网站规模还有很大的增长空间,对网站流量统计的需求也会不断加强并提出新的需求。长期依赖国外网站流量统计平台不利于中国互联网的良性发展,所以中国必须要自己权威、公正、客观的网站排名。

打印本文 打印本文  关闭窗口 关闭窗口