书香

《智能时代:媒体重塑》|科大讯飞:让机器能听会说,能理解会思考

2020-12-10 15:48 新华出版社

当21世纪初人工智能在语音识别和图像识别领域取得突破并开启产业化步伐时,科大讯飞就确定了专注语音产业的发展方向,并已经成为亚太地区知名的智能语音产业上市公司,多次荣获“国家科技进步奖”以及中国信息产业自主创新最高荣誉“信息产业重大技术发明奖”,在《麻省理工科技评论》“2017全球50大最具技术创造力企业”中,位列全球第六、中国第一。

从智能语音技术起步,开发智能语音平台,建立中文语音交互技术标准,科大讯飞在人工智能领域逐渐成为领军者。伴随着消费端产品持续输出,讯飞输入法、讯飞翻译机等让越来越多人看到了中国科技企业在人工智能领域的跃进。

一、产品形态及核心技术

在人工智能产业爆发的关键窗口期,科大讯飞加大人工智能技术和应用的投入力度,连续5年保持研发投入超过销售收入的20%。近年来讯飞在语音识别、语音合成、机器翻译、常识推理、知识发现、机器阅读理解、图像识别、图文识别、认知理解等领域,多次在比赛和评测中拔得头筹。这些核心技术的研发平台和成果,构成了讯飞生命树的“根系”,技术中心、硬件中心、职能支撑、营销支撑构成了讯飞生命树的主干,而在“让机器能听会说,能理解会思考,用人工智能建设美好世界”的目标驱动下,各个具体业务方向和产品类型成为讯飞生命树结出的果实。

回顾科大讯飞的智能语音技术研究之路,深度学习一直贯穿其中。2010年,中国开始进行深度神经网络(DNN)语音识别研究,科大讯飞也参与其中,并随后推出了业界首个基于深度学习框架的商用中文语音识别系统。此后,为了解决语音识别系统在实验室与实际场景应用准确率落差的问题,研发团队以1年半左右的周期持续推进技术框架迭代更新。由于循环神经网络(RNN)开始逐渐替代传统的深度神经网络(DNN)成为主流的语音识别建模方案,2015年,全新的循环神经网络(RNN)语音识别系统全面升级。2016年,在提出前馈型序列记忆网络(FSMN)新框架后,科大讯飞结合经验再次创新性研发出深度全序列卷积神经网络(DFCNN)。目前,讯飞语音识别系统实现了高速迭代,一般场景下的识别准确率可达98%。

从智能语音技术开始,再到人工智能技术,科大讯飞在技术领域走上一条由“运算智能”到“感知智能”再到“认知智能”的沉淀和演进路径。运算智能指的是机器“能存会算”,在这一阶段,机器已经远超人类了。感知智能就是让机器“能听会说”,机器听清人说的话,依靠的是语音识别技术,机器开口说话,需要的是语音合成技术,目前讯飞中文合成音在业界也是全世界唯一超过普通人说话水平的系统。认知智能就是让机器“能理解会思考”,即能够理解语言、进行知识表达和逻辑推理,是人工智能发展的难点与重点。科大讯飞从2014年起就启动了“讯飞超脑”计划,专注认知智能领域的研究。2017年起科大讯飞正式承建我国首个认知智能国家重点实验室,这也是我国在认知智能领域的第一个国家级重点实验室。

科大讯飞将感知智能与认知智能紧密结合,在不同领域中相辅相成。通过语音识别和语义理解在底层的深入融合,在语音交互上,目前已经研制完成可量产的支持远场识别、全双工、多轮交互、方言识别等特性的软硬件一体化的AIUI产品方案,显著提升了人机语音交互的成功率和人机交互开发的便捷性,并成功在智能音箱、智能电视、智能汽车、智能家居、智能机器人等领域实现广泛的应用落地。

二、应用场景

科大讯飞凭借“能听会说,能理解会思考”的机器智能,不断扩展至多个应用场景,已经形成三个同心圆。第一层是核心层,围绕“讯飞超脑”形成了教育、智慧城市、消费者、政府、智慧医疗、智能服务和智能汽车等业务领域;第二层是探索层,鼓励内部实施创业机制和战略合作机制,通过资本纽带的形式推动人工智能产业化;第三层是开发层,围绕人工智能核心开发平台,为创新创业者提供技术和数据支持,助其在各应用领域进行业务创新,推动整个产业生态构建。

在新闻传播领域,科大讯飞已经构建了一套A.I.智慧媒体解决方案、一套成熟的生态构架。基于“A.I.智慧媒体云平台”的核心能力,包括智能语音和机器视觉技术(语音识别、语音合成、人脸识别、智能拆条、自然语言、OCR识别、语音交互、语音转写、机器翻译、智能推荐、声纹识别、NLP、涉黄涉恐监控、场景/事件识别、服务监控、用户管理等),打造出高效化、精品化的内容生产平台,全面化、精准化的内容运营平台,个性化、前沿化的内容传播体系。

在内容生产层面,科大讯飞通过“A.I.智慧媒体云平台”为媒体工作者提供“采编播审存”一整套流程的产品,包含编辑制作环节的“智能文稿唱词系统”,播出环节的“智能直播字幕系统”与“智能虚拟播报系统”,监控与审核环节的“智能内容监审平台”,存储环节的“智能内容管理平台”。

“A.I.智慧媒体云平台”具有多形态服务方式,具备软硬件两种产品形态,匹配客户需求进行安全可控的私有云部署。通过集成标准的SDK/API,为用户提供语音识别、语音合成、自然语言理解等功能和服务。拥有易调用的统一接口(一键输入目标内容即可获取返回内容,无须二次集成开发组合调用,接口易用)、统一管理的控制后台(能力介绍试用、API接口试用说明、服务监控,让人工智能的使用更简单,7×24监控让服务更安全),具有根据业务定制、使用效率高、服务稳定性实时性高、可扩展性强、安全保密等优势。

1.采访录音整理

采访录音整理耗时耗力,存在拾音效果差、音质嘈杂、拾音距离较远、音质不清晰、音频隐私无法保障、文件易泄露等问题。讯飞听见的语音转写可以实现1小时音频5分钟出稿。

2.文稿字幕制作

传统节目字幕制作费时费力,存在来源多、数量大、效率低、成本高等问题。讯飞的智能文稿唱词系统可以实现智能语音转写、智能文稿断句、自动时码对齐、多语种翻译、文本音频联动编辑、多种格式导出。

3.虚拟视频、语音播报

针对音视频播报海量化、主持人工作强度高的痛点,科大讯飞AI虚拟主播利用讯飞的语音合成、语音识别、语义理解、图像处理、机器翻译等多项人工智能技术,实现了多语言的新闻自动播报,并支持文本到视频的自动输出。可以实现虚拟形象、多语言播报、声音定制、实时合成、表情生成,支持音频、视频实时快速导出,满足各种场景的内容自动化生产。

针对传统有声书(有声新闻)制作成本高、效率低等问题,讯飞人工智能技术可以实现有声书制作批量化。

在新媒体运营上,创意H5制作技术不仅拥有特色、明星、名人IP声音的授权使用,还可以进行声音个性化定制,如用户UGC可生成专属语音以及电音、Freestyle、方言Rap等多种搞怪音效。敏感词检测可降低传播风险。与传统的H5相比,智能化的H5产品以其定制化、交互式增强个性化、参与感,带动传播分享。

4.媒资内容智能监审

随着媒资的“海量化”,内容监审压力越来越大。机器辅助可以实现多通道实时报警提示,关键词、人脸、声纹等多维度分析研判,历史音视频挖掘,关键问题提取及舆情研判内容自动化报告提交等功能。

5.智能媒资管理

语音识别可以实现对音频的快速检索和编目、音字同轨、多维度标签和智能编目。将音频数据分类集中管控,获取当期全量资源库并数据化;通过智能语音撰写技术转写成文本,形成音字对应的数据文件;结合媒资结构化标签,对转写后的海量视频资源进行管控;在信息检索、用户画像、资源分类、大数据分析等方面挖掘数据价值。

三、用户体验与市场反应

截至2019年底,讯飞开放平台开发者总量超过110万,生态合作伙伴达160万。讯飞输入法累计用户超过7亿,月均活跃用户超过1.4亿,语音活跃用户占比61%,支持23种方言;讯飞翻译机3.0支持多语言互译,覆盖近200个国家与地区语言,其中中英在线语音翻译水平达CATTI英语二级标准,新增了多个翻译语种,支持老挝、波斯、乌尔都语等“一带一路”沿线国家的语言翻译,以及普通话与粤语、维语、藏语的即时互译,此外还支持粤语、四川话、东北话、河南话四大方言与英语的互译。

在近期宏观经济影响以及科大讯飞向人工智能2.0战略调整的背景下,科大讯飞2019年上半年实现营收42.28亿元,同比增长31.72%;毛利21.33亿元,同比增长33.11%;实现归属于上市公司股东的净利润1.89亿元,比上年同期增长45.06%,扣非后净利润增长达56.61%。其中,消费者业务智能硬件实现营业收入4.93亿元,同比增长47.80%;教育产品和服务实现营业收入9.79亿元,同比增长48.86%;政法业务实现营业收入4.59亿元,同比增长31.58%。从这些数据中可以看到,在To B+To C双轮驱动下,科大讯飞正在迎来新利润拐点。

传媒领域虽然占比不大,但科大讯飞对其的AI研发赋能不断走向系统化规模化。通过战略合作、联合成立实验室等形式,科大讯飞已经与国家新闻出版广电总局广播科学研究院、安徽广播电视台、上海广播电视台等广电系统,以及人民日报、新华社、人民网、央视网等主流媒体深度合作,今日头条、新浪财经等移动客户端,喜马拉雅、得到等阅读(听书)类创新应用中也有科大讯飞的技术加持。

科大讯飞与新华社的合作比较典型。科大讯飞承担新华社全媒体采编发项目语音智能分析服务子项目,提供语音识别、语音合成的能力以及录音调听工具和语音大屏控制模块。语音转录功能提供了中文普通话、英语录音转文字的功能,中文、英文转换准确率较高,使用便捷,便于记者更迅速地整理素材形成内容,并支持记者采访时实时转录,功能实用。

消费端的讯飞语音转写工具听见“M1”采访辅助工具,成为2019年两会报道的一个亮点,其快速与准确备受瞩目。同时,科大讯飞与央视合作打造的人工智能记者助理“小白”复刻了著名主持人白岩松的声音,并学习了大量两会知识,作为记者助理向参会媒体及时提供两会信息。讯飞听见、讯飞智能办公本、讯飞智能录音笔等产品都是记者的好帮手。

智能文稿唱词系统将人工智能技术与电视节目制作流程相结合,设计出人机耦合字幕生产流程。智能文稿唱词系统一方面进入传统广电,如在2019年春晚及《今日说法》《我爱发明》《海峡两岸》等500多期常规节目字幕制作过程中广泛应用,一方面通过讯飞听见网站在线字幕制作应用为新媒体提供Vlog后期字幕制作等服务。智能文稿唱词系统将传统电视字幕流程由听写、核对修改、拍唱词、修改时间点、审核5个步骤,简化成语音转写、核对修改、字幕生成审核3个步骤,新流程的生产效率比传统流程的生产效率平均提高3倍,并抛弃了几十年来“拍”字幕的历史,缩短了电视字幕制作占用优质后期机房的时间,提升了后期机房节目产出率。

AI虚拟主播产品革新节目播报形式,更快速、更高效、更稳定、更丰富。科大讯飞对虚拟主播产品的研发始于2018年3月份。运用自主研发的最新语音合成、图像处理、人脸检测、口唇驱动等多项人工智能技术,面向电视媒体和新媒体等节目播出场景,以提高新闻内容生产效率、降低新闻视频制作成本、缩短新闻节目制作时间为设计出发点,打造了全球首款多语种AI虚拟主播产品,支持文本到视频的自动输出。产品推出后不到半年,前后合作各类媒体、报业集团客户就超过了十几家,AI虚拟主播小晴的身影广泛传播,如AI主播问政、紫金山新闻AI播报等等。同时科大讯飞为一些头部媒体定制、辅助打造了AI虚拟主播形式新节目,如人民智播报等。这个功能还被应用在学习强国客户端中,直接将新闻读出来,语音、语调都基本是播音员的级别,断句自然。

讯飞人工智能技术深度嵌入融媒体产品制作中。新华社语音类H5产品——《确认过眼神,这是我的老课文——新华社邀您和大咖一起诵读经典》,选取历年人教社版语文教材中的经典课文,邀请莫言、鞠萍等文学文艺界名人带领受众诵读,运用科大讯飞语音识别、语音测评等技术为互动朗读者测评打分,融怀旧、趣味为一体,推出后仅半小时就实现10万+浏览量,阅读总量250万+。

四、风险挑战及应对

用户隐私与数据安全是首要问题。讯飞输入法、讯飞听见等产品,依靠的都是海量的用户数据,包括B端和C端。在此过程中,用户隐私对于技术来说是透明的;数据权益与安全在技术的合法化形式下,并不能杜绝数据滥用和泄露的可能。万物互联、人人互联的趋势下,这种伦理问题将愈发凸显。

数据资产和版权问题是科大讯飞与传媒业共同面临的问题。在人工智能领域,没有场景的大数据是没有价值的。目前,传媒业提供数据和场景,科大讯飞以之训练其人工智能产品,由此形成的优化和提升对于甲乙双方来说是双赢,但是存在一个收益权重与话语权重的问题。这需要双方在长期合作中探索清晰合理的规则。

对于科大讯飞来说,还有一个同业竞争的挑战。深度学习降低了智能语音技术的壁垒,让后来者与先发者站在了同一起跑线上。技术层主要依托基础层的运算平台和数据资源进行海量识别训练和机器学习建模,以及开发面向不同领域的应用技术,主要有语音识别、自然语言处理、计算机视觉、深度学习技术等,这是科大讯飞的主战场,也是科技巨头和众多创业公司争相进入的领域。同时,在将来的人工智能和物联网时代,参与者只会越来越多,房地产商可做智慧家居,家电厂商可做智慧家电等等,几乎每一个细分垂直的领域都会有竞争者加入,整体竞争格局呈现多元化和去寡头化。科大讯飞在体量和获益能力上还是难以与互联网巨头公司比拟。在与市场巨头和业界新锐的竞争中,科大讯飞要在垂直领域跑得更快、更准、更深。

五、前景与趋势

人工智能到了什么阶段,主要看三个方面:一看有没有看得见摸得着的案例,二看是否有规模化推广的产品和系统,三看是否能够用统计数据来说明应用的成效。以此观之,2019年可以被视为人工智能应用红利的兑现年,人工智能已经进入了规模化应用的落地期。

未来,5G助推下万物互联将成为IT产业的第六次浪潮,语音将成为最重要的人机交互方式。相比于触觉交互,语音交互更加符合人类向外界输出信息的自然方式,且可以有效满足“人机分离”场景下的远场交互需求。随着移动互联网、大数据、云计算技术的进步,语音交互技术有望成为物联网时代的入口级技术,从而具有良好的增长前景;语音交互技术(语音合成、语音识别、自然语言处理)与人工智能技术深度结合的领域,亦有着广阔的市场空间。

人工智能无论是技术成熟度、社会效益还是经济效益,都具有厚积薄发的特点,需要达到一定运营规模后才会实现边际收益的飞跃。目前,科大讯飞已经在教育、政法、运营商、消费者业务等多方面落地了真正可以商用的产品和服务,并获得现金流和正向利润。对于近年来发力的传媒领域,科大讯飞对传媒业的赋能与传播业的反哺,也将随着媒体融合从顶层设计到底层探索的深入而有新的想象空间。当然,这个更依赖于三个方向的聚焦突破:一是算法突破,面对小样本、无监督、个性化问题的基础理论将持续突破;二是脑智同飞,脑科学研究和数学统计建模方法深度结合;三是人机耦合,人工智能系统和人类行为协作的人机耦合方式持续探索。在这三个方向上的探索成效,直接决定了科大讯飞未来在人工智能竞技场中的位置。(本文节选自《智能时代:媒体重塑》)

《智能时代:媒体重塑》

ISBN:978-7-5166-5026-4

新华出版社 2020年5月

定价:48.00元

责任编辑:黄采萧
0

分享到

相关推荐