从NLG到机器新闻写作

周佳玥?

摘 要:随着人工智能技术在全行业的渗透,机器新闻作为人工智能在传媒业的一种应用越来越受到学界和业界的关注。本文梳理了机器写作的发展过程,分析机器新闻的优缺点;从机器新闻发展的现状入手,对机器新闻的发展进行反思,也对未来机器新闻的发展提出一些建议。

关键词:机器新闻;人工智能;人机协同

中图分类号:G20 文献标识码:A 文章编号:1672-8122(2017)10-0018-02

机器新闻,被认为是人工智能时代的产物。有研究者将机器新闻分为广义和狭义两个方面。广义的机器新闻是指人工智能技术在新闻写作、采访、编辑等新闻活动中的具体运用;狭义的机器新闻是指基于数据统计和机器学习,运用算法,从可识别的数据中提取具有新闻价值的信息,形成新闻报道角度,自动选择语词样本、新闻报道模板生成的新闻故事[1]。广义的机器新闻运用非常广泛,早期的Google News就是通过聚合算法进行新闻首页的自动更新和推荐。这种形式可以看作是机器新闻的雏形。

狭义的机器新闻,可以概括为机器新闻写作。国外的研究者用一些不同的名称来表示这种过程,比如计算新闻(computational journalism)定义为用来补充新闻的责任功能的算法、数据和社会科学知识的组合[2]。本文讨论的是狭义的机器新闻,即机器新闻写作。

一、从NLG到机器新闻写作

(一)机器新闻写作技术的发展

机器新闻写作的核心在于自然语言生成(Natural Language Generation)技术。自然语言生成是指基于非语言输入自动生成自然语言文本的过程[3],是人工智能和计算语言学的分支。

机器写作可以追溯到20世纪五六十年代对机器翻译和生成上下文无关文法句子的研究。70年代,在游戏等领域已经开始应用机器写作,利用该技术生成游戏文本。80年代,文本规划的概念被提出,机器写作有了更大进步,可生成段落甚至篇章。到90年代,基于模板的文本生成算法被提出,文本规划器和语言实现器的出现使得机器写作在军事、气象等更多领域得到了运用。

自然语言生成系统的工作流程与新闻写作的基本模式有许多地方是相符合的[4]。但是直到21世纪初,机器写作才进入新闻领域,并且投入市场。2006年,Thomson Reuters集团网站宣布使用算法在网站自动编写财政新闻。

2007年,美国第一家利用机器生产新闻的公司——StatSheet诞生。2011年公司改组并改名为Automated Insights。它的主要产品Wordsmith是一个自然语言生成平台,使用基于数据、定量分析和关于写作风格规则的人工智能系统来生产故事。2015年10月,平台允许用户通过上传自己的数据和模板来创作。现在,Automated Insights公司的具体业务涉及新闻报道、数据分析、写作程序开发等。用户可以直接在电子表格中通过应用程序制作Wordsmith内容。根据Automated Insights官方网站的统计数据,2016年该平台共生产了超过15亿篇文章,成为世界上最大的内容生产商。

与Wordsmith同年进入市场的是Narrative Science公司。它的主要产品为Quill。目前,该公司的重心放在了金融服务提供商等企业客户上。

(二)国内机器新闻写作的应用

国内企业在机器新闻写作领域也做出了一系列探索与尝试。腾讯推出“Dream Writer”,在2015年9月10日发布了第一篇机器写作新闻《8月CPI同比上涨2% 创12个月新高》。这篇稿件从国家统计局中获取数据,涵盖高级统计师的评论建议,用时仅为一分钟。目前,Dream Writer写作的主要领域是财经和体育。

同年11月7日,新华社推出“快笔小新”机器人,为体育部、经济信息部和中国证券报部门提供新闻稿件。

2016年,由北京大学和今日头条合作研发的Xiaoming bot在里约奥运会期间发稿超过450篇[5]。Xiaoming bot主要应用在体育赛事当中。技术上,它是首个基于文字直播数据进行新闻生成的系统,并在语言情感自适应等技术上实现了突破。还能够图文自动关联发稿,基于大量的图文数据库,采用机器学习算法,学习图文语义匹配模型,为文本自动挑选合适的图片。

DT稿王是第一财经媒体实验室开发的一款自动化的新闻写作工具,2015年5月正式推出。它具有信息采集、语义分析、搜索、联想等功能,通过与DT稿王的自动写作功能连接,能代替作者完成简单而庞大的片段写作。

南方都市报社的写稿机器人“小南”也在2017年1月18日正式上岗,首篇文章为300余字的春运报道。在数据自动抓取完成之后,这篇报道的生成只用了不到1秒的时间。与前面提到的新闻写作机器人有所不同的是,“小南”并没有着力于体育和财经领域,而是聚焦于民生。此外,广州日报写稿机器人“阿同”的强项则是分析政府工作报告。

二、机器新闻的优势与不足

(一)机器新闻的优势

速度快,准确性高。机器新闻自动获取、组织数据,必然能够提高新闻报道的速度和準确性。在突发事件中也能一定程度上起到预警作用。2014年《洛杉矶时报》在地震发生8分钟后将由地震机器人自动生成的消息发布在全美媒体上,在一定程度上起到了稳定情绪,避免更多人卷入灾害的作用。

客观公正。机器新闻不带有人类记者的偏见。在没有人工干预的条件下,只是单纯地对数据、信息进行结构化的输出。

个性化定制。随着技术更新,机器新闻能够实现精准的个性化定制,甚至为读者生成属于个人风格的报道。Dream Writer在10月14日发布的 “常规版”“研判版”“民生版”3个不同文风版本的稿件说明在个性化定制和推送上是有发展前景的。

解放新闻从业者,扩充报道范围。机器新闻写作可以简化新闻生产流程,解放新闻从业者,让他们一些常规的报道中脱离出来。另一方面,机器抓取数据范围广泛,而记者的兴趣范围和精力有限,机器新闻可以在一定程度上补充记者写稿的局限,扩充信息范围。

(二)机器新闻的不足

模式化、同质化倾向明显。机器新闻的原理导致了其高度模式化,同质化的倾向。Dream Writer的大部分经济报道都是统一模式的标题,内容短小,按照统一模板嵌入不同数据。目前机器新闻写作也主要局限于财经、体育等少数几个领域。

数据的获取和可信度。数据是机器新闻形成的重要元素,没有数据就无法形成报道。数据的价值和重要性得到重视,对于数据的保护更多,是否能够访问到所需要的关键数据也是机器新闻的一个挑战。同时,在机器新闻的报道中,应当明确数据来源,让用户有迹可循。由于机器新闻进行数据抓取和处理的过程对于用户来说是一个“黑箱”,要保证真实和准确,应该公开披露数据来源,使得数据和处理结果更加可信。

无法脱离算法和模板的窠臼。机器新闻现在依然不能脱离算法和模板,无法进行创造。仅仅依赖于一些定量数据进行肤浅的展现,是远远不够的。

主题单一,缺乏人情味。目前的机器新闻无法主动发现新闻,只能通过已经抓取的数据,通过算法和模板生成对某一主题相对固定的报道。同时写作上,机器新闻故事性不足,缺乏吸引力。

个性化的漩涡。个性化服务基于用户数据进行分析。但大量相似的内容无法真正满足用户的需求,应有的价值取向不应该被算法蒙蔽。一味地追求个性化而失去态度和价值,不是媒体人应该提供的服务。

三、人机协同,彰显人的价值

机器新闻是新闻生产自动化的一个新阶段。无论是代替记者完成机械重复的特定稿件的生产,还是和记者协同合作,互相补充,新闻生产的智能化已经是不可避免的趋势,新闻专业主义和人的价值也显得格外重要。

机器新闻的应用受到自然语言生成、大数据等技术的限制。尽管近年来,人工智能技术应用的成果在各个领域迅速渗透,深度学习等算法、运算能力等技术有了很大的进步,但是自然语言处理的整体水平还不算高,自然语言生成的水平依然有限,现在的机器写作基本还是“模板,自动数据填充”的模式。但是未来,机器在规律的挖掘、情感的分析和表达、对原因的分析方面都有可能得到巨大的提高,机器新闻很可能会脱离模板的桎梏,学习更多“人性化”的叙事技巧,让机器新闻报道的可读性更强,甚至具有创造力和思考的能力。

从目前的技术水平来看,这还需要一个过程。更好地利用机器新闻,应当充分利用机器收集和处理大数据的能力,完成基础性的信息采集和处理工作。在此基础上,发挥人本身的价值,挖掘数据背后深层的思想。技术无法取代人对于“新闻价值”的判断,缺乏深度思考和人文关怀的报道也无法具备舆论引导的能力。

当前,大部分的机器新闻在发布之前,仍然需要经过“人工审核”这一关,机器无法完成对价值取向的判断。对于新闻记者来说,机器新闻的出现未必是对职业的冲击,而是有力的助手。机器对数据的采集和处理能力可以将记者从繁琐机械的信息搜集工作中解放出来,利用机器处理的结果进行更深层次的思考和挖掘。彭兰教授指出智媒时代的三大特征是万物皆媒、人机共生、自我进化[6]。机器的计算能力能够帮助记者寻找选题、搜集信息和数据,帮助记者完成高水平的报道。人与机器当相互协作,形成“人机协同”的工作模式,让技术更好地为记者和用户服务。

不论是国内还是国外,机器新闻的主要研发力量还是在掌握技术的互联网+科技公司。对于技术,我们既不应盲目追从,也不该躲避抗拒。对于新技术,传媒业应该以冷静的态度看待,利用技术带来的便利和优势。机器新闻从目前的发展情况来看,可以用来替代一些基础的、繁杂的重复性工作,但是,离真正的“智能”还有很长的一段距离。技术与人,机器与记者应该是互补互存的关系。正确地利用机器的能力,发挥人的所长,是机器新闻未来发展的方向。

参考文献:

[1]李苏.机器新闻发展的市场进路及反思——以AutomatedInsights

公司为例[J].新闻界,2015(18):56-61.

[2]Hamilton J T, Turner F. Accountability through algorithm: Developing the field of computational journalism[C].Report from the Center for Advanced Study in the Behavioral Sciences, Summer Workshop.2009:27-41.

[3]Reiter E,Dale R. Building applied natural language generation systems[J]. Natural Language Engineering,1997,3(1):57-87.

[4]Van D K H A J, Journalist versus news consumer: The perceived credibility of machine written news[C].British Medical Jourrnal,

2014,2(5147):305.

[5]管瓊.“机器人记者”新闻生产的现状与趋势[J].传媒,2017(3): 53-55.

[6]彭兰.智媒化:未来媒体浪潮——新媒体发展趋势报告(2016)[J].国际新闻界,2016,38(11):6-24.

[责任编辑:思涵]

《从NLG到机器新闻写作》来源:《今传媒》2017年10期 ,作者:周佳玥?。

诗文坊小程序

下一篇: