您的位置首页  家电资讯  新闻

多语种虚拟主播「掰头」央视记者新闻可以AI编?

  • 来源:互联网
  • |
  • 2022-10-11
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

多语种虚拟主播「掰头」央视记者新闻可以AI编?

  一场论坛让全国各地总编辑齐聚于粤港澳大湾区。这场论坛,究竟有多大的吸引力?现场,央视记者和数字虚拟主播进行了一场新闻播报语速大PK,还有提供冬奥讲解的AI手语主播,播报新闻的多语种AI虚拟主播...

  IDC在最新的报告中指出,随着AI技术的进步,媒体在内容的生产、管理、分发和交互上都发生着本质的变化。

  在这个被誉为「观察中国网络媒体发展走向重要窗口」的年度盛会上,来自中央和国家机关,中央新闻单位,以及业界专家学者、编辑记者和社会各界代表纷纷出席。

  另外,央视新闻的首个「冬奥AI手语主播」在网络媒体论坛上正式亮相。她将在2022年冬奥会上为中国听障人群带来手语服务。‍

  这位端庄大气的女主播说话声音、动作和神情惟妙惟肖,让人难以分辨是线余种(含外语及方言)语言播报新闻,还支持文本到视频的自动输出。

  此次论坛上汇集了来自中央和地方新闻单位、知名互联网企业、县级融媒体中心等43家单位。他们纷纷亮出自家的网络媒体「黑科技」。

  过去,新闻由人来完成,现在,语音识别、语音合成、机器翻译、图像识别、自然语言处理等人工智能技术正在改变媒体传统故事的生产和传播方式。

  从国内来看,2015年,腾讯财经最先发表了由Dreamwriter新闻写作机器人编写的经济消息,开创了中国机器人写稿先河。

  由此看出,AI从最初进驻新闻机构,到写稿机器人交出新闻稿,再到机器人抢独家新闻,前后不过3-4年时间。

  在AI加入之后,媒体的融合也不是一蹴而就的,其先后经历了「从流程中心转变为数据中心」的数媒时代,「从新媒体转向为融媒体」的融媒时代。现在则是探索「大数据+智能化为赋能」的智媒时代。

  报告显示,近年来中国智能媒体解决方案的市场规模正处在快速增长的阶段。仅2020年的规模就已经达到了4.8亿元人民币,并预计在2021年底达7亿元左右。

  复合年均增长率(CAGR)方面,2020到2025年期间将达到46.3%,尤其是2022年,增长率预计将超过50%,达到近5年的峰值。

  从智能媒体市场生态上来看,科大讯飞、百度智能云、阿里云等公司基于自身的AI技术能力,面向媒体等相关领域打造越来越丰富、深入场景的产品及垂直行业解决方案。

  在AI赋能传统媒体这条路上,这些企业给出了很多「AI+媒体」的想象,尤其是那些综合AI技术供应商。

  比如,基于人脸识别、知识图谱、语音等技术,阿里云视频和人民日报社共同研发的「人民日报社AI智能编辑部」,为媒体的新闻采编生产提供了看、听、悟、审、查等各方面能力。

  新华智云则是将AI能力与媒体行业场景结合,自主研发了覆盖媒体生产策、采、写、编、发、审全流程的「媒体大脑」。

  同样,以人工智能为核心的科大讯飞「AI+媒体」整体解决方案早已在媒介传播「采编播审存」的各个环节落地应用。

  这背后,便是科大讯飞22年来在AI领域深耕的成果,尤其是语音技术基础算法贯穿了科大讯飞「AI+媒体」整个解决方案。

  多年来,基于语音合成、人脸识别、图像合成、机器翻译等多项AI技术,科大讯飞推出了一代又一代虚拟人。

  在科大讯飞先进的语音合成技术加持下推出的虚拟主播,通过模仿真实主持人俎江涛的声音,使其音质及自然度更加贴近本人的声音。

  此后,以虚拟主播「小晴」为代表的语音+图像的AI虚拟主播家族陆续上岗,小晴还可以讲30多种语言。

  他们都是通过采集录制真人的声音素材,再通过声音标注以及机器的深度学习算法,构建发音声学模型建成。

  就比如,2019年,科大讯飞与中央广播电视总台联合打造AI虚拟记者「通通」,在视频中带领观众游历「一带一路」沿途的风土人情。

  还有人民日报和讯飞联手打造虚拟主播「果果」亮相数博会现场,能够流利地向观众播报国内外热点事件。

  之后,合肥电视台定制了男女双主播「王小健」和「马小腾」。2020年3月,新华报业联合讯飞推出交汇点云媒的虚拟主播「汇汇」,能听会说,还能懂你。

  在刚刚过去的第四届世界声博会暨2021科大讯飞全球1024开发者节上,科大讯飞董事长刘庆峰发布了业界首个虚拟人交互系统,一分钟就可以定制一个虚拟人。

  从最初语音合成主播,到语音+图像的多语种AI主播,再到现在由语音识别、语义理解、语音合成、虚拟形象等多种AI技术加持下的虚拟人,科大讯飞在AI+媒体中的「播」这一环节一直在攀登。

  在2019年的现场,《中国日报》抖音号的一个小视频分分钟播放量突破一千万,点赞数超过五十万。

  只见会场里,拿着手机、录音笔、单反等设备的记者把被采访人围着水泄不通,而《中国日报》的记者则淡定地站在人群外面,手机的屏幕上显示着讲话的文字,完全不同于其他记者的紧张状态。

  一直以来,整理采访录音都是非常繁琐的工作。1个小时的录音,整理成文字大概要花费3个小时以上的时间。

  而且在科大讯飞的语音技术加持下,除了可以将现场语音1秒转换成文字,还可以只用5到10分钟就把1个小时的会议内容转换成文稿,极大地提高了出稿效率。

  现在,科大讯飞更是支持8大语种、12种方言和2个民族语言的实时转写,让记者们可以在更多的场景下高效的获取文字素材。

  文稿唱词系统集成了采集、转码、转写、音频编辑等功能,可以实现5-10分钟将1小时的音频转写成文稿和字幕。

  早在2019年科大讯飞就为中央电视台的春节联欢晚会提供了字幕制作支持,其文稿唱词系统将传统的流程简化为语音AI转写、核对修改、字幕生成审核三步。

  对于字幕/时码的编辑校验工作来说,所需的人员数量从往年的16人减少到4人,平均的制作时间也减少23%,有效地减轻了字幕编辑者的负担。

  通过语音转写、人脸识别、声纹识别等人工智能技术,可以从关键词、人脸、图片以及声纹等不同维度与关键库信息进行匹配,承担起新闻质量「把关人」的责任。

  利用语音识别,声纹识别,人脸识别,NLP 等人工智能技术,智能内容管理平台提供了音视频内容监管、检索、自动编目、自动化标签等功能。

  从IDC的报告中可以看出,现阶段智能媒体的流程可以概括为:素材的输入,内容的生产,成品的输出,以及审核和管理。

  而这对应的也就是,采、编、播、审、存这5个环节。(从设定的重合度上来说,创新应用完全可以放到「播」这个环节。)

  所以其实不难得出,从最初素材的收集到最终呈现的新闻,科大讯飞凭借着自己的生态构成了一个完整的AI+媒体解决方案。

  而从始至终不变的是,科大讯飞在语音方面的核心能力。从语音合成技术一直到现在AI虚拟人,科大讯飞在人工智能发展史上树立了里程碑。

  比人类更强大的不是AI,而是掌握了AI的新人类。在新闻传播领域,比传统采编更强大的不是虚拟主播,而是掌握了虚拟主播、掌握了AI赋能之下「采、编、播、审、存」能力的AI新闻人。

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
  • 标签:人工智能最新新闻
  • 编辑:郭晓刚
  • 相关文章
TAGS标签更多>>