经略网刊
首页 > 经略评论 > 经略时评

王惠一 | 大数据证明国外媒体不热衷于报道中国负面新闻?

近日,知乎问题:“你怎么看待国外媒体热衷于报道中国负面新闻的事?”引起了热议,知乎用户Lightwing用数据说话的高票答案获得了广大知友的赞同。Lightwing对GDELT网站上提供的新闻褒贬指数进行平均数计算,通过褒贬指数的大小判断该国媒体对其它国家正面或负面评论的多少。分析结果显示,英国、美国媒体对中国评价的褒贬指数均大于0(褒贬指数大于0则正面评价偏多,小于0则负面评价偏多),真正对中国有偏见的是韩国和日本;中国媒体只对巴基斯坦、加拿大、意大利等国持正面态度,对自己的评价最好。因此,Lightwing得出结论:对中国抱有偏见的国外媒体很少,我们之所以觉得外国媒体对中国抱有偏见是因为我们生活在一个对自己评价很高的国家里。

1.png

2.png

3.png

图片来源于知乎用户:Lightwing

  Lightwing的分析似乎很有道理,但与我们的主观感受却有着较大的差异,难道国人都患有被迫害妄想症?事实上,西方媒体对中国抱有偏见,蓄意抹黑并非是国人凭空脑补出来的。
 

在评价Lightwing的结论之前,首先应该弄清楚Avgtone的正负能否说明存在偏见,Avgtone的评价结果是否真的符合人的主观感受。单独分析从GDELT网上下载的几篇报道可以发现,在美国对中国的报道中,Avgtone指数最高的一篇新闻内容是中国人民欢度春节,指数最低的一篇报道的内容是中国决定加重对经济犯罪的惩罚。而在中国对美国的报道中,指数最高的内容是华人在美国某博物馆庆祝新年,而指数最低的却是关于中国抓捕贪官的报道。用大数据进行分析的过程似乎有理有据,可是与小数据一结合为何却如此不靠谱?

这要从Avgtone的算法开始讲起,在谷歌学术中搜索GDELT项目可以得到关于该项目的系统介绍:GDELT项目每时每刻监控着包括广播、纸媒、网络媒体在内的100多种语言的新闻媒体,监控范围几乎覆盖了每个国家的所有媒体。GDELT项目每日对全球新闻自动抓取,能够识别信息中的人员、位置、组织、数量、主题、数据源、情绪、报价以及图片。其中,事件的情绪是GDELT项目提供的一项重要信息。该篇介绍指出,GDELT项目的情绪指数Avgtone是根据Eric Shook等人在“Happy or Not: Generating Topic-based Emotional Heatmaps for Culturomics using CyberGIS”一文中应用的情绪分析方法得到的。这种分析方法通过大量的文本研究来“学习”人类社会,对常用词汇所表达的情感态度进行分类、识别,以此为基础对文章中“积极词汇”和“消极词汇”的百分比进行统计,其中“积极词汇”主要是指“美妙、愉悦”之类表达积极情绪的词汇,“消极词汇”主要是指“糟糕、恐怖”等词汇。如果文章中“积极词汇”的比重大,文章的情绪就被定义为积极的,反之则被定义为消极的。除了识别文本中的词汇,这种分析方法还将事件发生的地点考虑在内,因为地区之间存在文化差异,不同的地区的人民对同一事件的态度不尽相同,比如,生活在伊拉克的人民和生活在纽约的人民对暴乱的感受是不同的,将地区间的文化差异考虑在内能够得到更符合主管感受的结果。
 

从Avgtone的计算方法中可以看出,分析软件只对文章中表达情绪的词语进行识别分析,这也难怪欢度春节的新闻得到的评分最高。虽然这一算法并不仅仅只根据褒贬词汇的百分比来计算情绪指数,但一篇文章所表达的态度绝不仅只与文章中褒贬用词的多少和事件的发生地点有关,评价媒体是否对一个事件、一个国家抱有偏见,应该先明确什么是偏见。偏见是人们以不正确或不充分的信息为根据而形成的对其他人或群体的片面甚至错误的看法与影响,是认识与事实之间出现了偏差。评价外国媒体对中国是否抱有偏见,应当根据报道与事实之间是否存在偏差来判断。


2008年,美国著名媒体CNN引起了全球华人的愤怒,起因是CNN在报道拉萨3•14打砸抢事件时,使用了一张经过裁剪的图片,图中两辆军用车辆驶向平民,而事实是军用车辆的旁边有10名暴徒在向车辆扔石块。在CNN的另一篇题为:“Zang人描述持续骚乱”的报道中,一张记录当地武警医院医护人员将伤者送上救护车的照片被配以“拉萨目前有大量军队”的文字。很显然,CNN的报道与事实之间有着明显的区别,这种歪曲事实的报道才叫做偏见。如果按照Shook的计算方法来计算这两篇报道的Avgtone,是无法从文章中找到表达强烈消极情绪的词汇的,此时的Avgtone指数并不能代表文章表达的褒贬情绪,但人们却能明显地从报道选取的角度中感受到恶意与歧视。反观Avgtone得分较高的中国人民欢度春节的报道,也并不能说明外国媒体在这篇报道中对中国持赞美态度,得分高只不过是因为文章中的积极词汇较多,而且庆祝春节本身就是一件欢乐美好的事情,报道与事实之间也并不存在偏差。

QQ图片20170320162124.png

 此外,报道对事件评论的角度以及发表评论的媒体影响力都对人们的主观感受有着重要的影响。
 

在北京筹办2008年奥运会期间,西方媒体多次对中国奥运进行负面报道,将中国为修建奥运场馆而进行拆迁的举措报道成“对住房权利的破坏”,声称数百万人因此失去家园,而事实上,拆迁居民均得到了补偿和妥善的安置,没有一户居民因此被迫迁出北京。这种评论角度的选取,直接对民生、人权等敏感问题进行攻击,给人造成的负面感受比批评“随地吐痰”等问题大得多。除此之外,在奥运圣火传递期间,美国著名媒体CNN主持人卡佛蒂曾发表辱华言论,称中国人是一帮暴徒和恶棍。这样的言论直接侮辱了全体中国人民的人格尊严,这里的“暴徒”比出现在某处发生暴乱语境下的“暴徒”含有更强烈的贬义,CNN这样具有广泛影响力的媒体播出这种言论也更容易向更多地受众传达含有偏见的信息。

QQ图片20170320162233.png

了解中国的媒体界的人都知道,大多数媒体人对欧美都是充满仰慕之情,在负面报道里很少去质疑欧美的根本制度。但反过来,欧美媒体经常是抓住一个中国负面报道就狂黑,一个小小的事情,都会上升到质疑根本制度乃至中国文化的高度,说中国专制独裁啊,没有人权啊,中国人野蛮啊,等等。这些质疑根本制度和文化的评论,未必需要使用许多很强的负面情绪词汇,但给中国读者造成的会是极其消极的心理效果。


Avgtone的算法似乎也不考虑报道发表的报刊的影响力,以及具体位置。生活经验告诉我们,《纽约时报》头条黑中国一次,影响力可能大于一百篇地方小报,给中国读者造成的消极心理效果也更大。但机械的抓取和量化分析正负面情绪词汇,无法考虑到这样的因素,其评价结果也与人的主观感受有着较大的偏差。
 

除了Avgtone指数本身不能代表媒体的态度之外,Lightwing取平均数的算法也存在很大的问题。在数学上,平均数是反映一组数据集中趋势的指标,但总体态度如何并不能用数据的集中趋势去衡量,如果仅从数值上看,十个关于中国人民欢度新年的报道的正值相加或许可以抵消一个将中国人民侮辱为“暴徒和恶棍”的评论的负值,但经常赞扬一个国家庆祝节日的气氛如何热烈并不能在这个国家读者的心里抵消侮辱其为“暴徒和恶棍”的偏见。这就好比说,一个人骂你是个混蛋,然后说了十遍“你家好热闹,好喜庆啊”,你会因为他摆出贺喜的姿态,就忘记他骂你是混蛋?
 

Lightwing的回答得到广大知乎用户一片赞同的现象表明近年来民众对于大数据过于狂热以至于开始质疑自己的亲耳所闻,亲身所感。大数据的鼓吹者甚至声称:“只要有足够的数据,数据自己就会说话”。但事实上,大数据并不像其鼓吹者所声称的那样无所不能,会说话的也不是数据本身。只有经过分析的数据才有价值,但使用正确的分析方法是得到正确结论的前提,如果盲目地相信大数据,而不对分析数据的方法进行审视反思,就很容易得到严重偏离事实的结果。当然,本文只是对Lightwing的算法提出质疑,只能算是抛砖引玉,期待传播学领域的专家就这一问题展开系统研究。 

欢迎分享

回到开头

发表评论 | 阅读0条评论

欢迎真知灼见!