日前,2019北(běi)京世园(yuán)会正在如火(huǒ)如荼的进行,园(yuán)中游客涌动(dòng),线上观(guān)众也“络绎(yì)不(bú)绝(jué)”。而大部分线上(shàng)观众(zhòng)应(yīng)该也(yě)都认识了(le)两位吉祥(xiáng)物——小萌芽和(hé)小萌花。
两位虚拟主播拥有憨态可掬(jū)的3D胖娃娃(wá)形象、逼(bī)真的动作表情,说话(huà)时连口型都(dōu)与真人无异(yì)。据统计(jì),自世园(yuán)会开始后(hòu),由杭(háng)州相芯科技有限公司与北京电视台联(lián)合制作的“小(xiǎo)萌花&小萌芽带(dài)你看世园”这一讲解世(shì)园(yuán)会(huì)亮点的(de)视频,在微博、秒拍等多个播放(fàng)平台目前点击量已经接近1000万。虚拟主播技术乘着世园会的东风,再一次刷了一波存在(zài)感。
身兼多(duō)职 虚拟主播华(huá)丽变身
虚拟(nǐ)主播最早可以追溯到虚拟主持(chí)人的时代。
2001年(nián),英国(guó)PA New Media公(gōng)司(sī)推出(chū)了世界上第一个虚拟(nǐ)主持人阿娜诺(nuò)娃。这(zhè)个只有头部动画、表情(qíng)也略显僵硬(yìng)的2D虚拟(nǐ)人物,凭(píng)借着可快速制作(zuò)视频(pín)、24小(xiǎo)时持续播报的特点,在全(quán)球刮起了一(yī)阵(zhèn)打造“虚拟主持人”的飓风。
“美、韩、日(rì)纷纷跟进,我国(guó)央视(shì)在2004年(nián)也推出(chū)了(le)国内首(shǒu)位(wèi)虚拟(nǐ)电视节目主持(chí)人——小龙(lóng)。它采用(yòng)三维形象技(jì)术,拥有(yǒu)高挑的身材(cái),集合了刘德华、梁朝伟和金城武的‘脸部精华’,并可单独主持栏目。”杭州相芯(xīn)科技有限公司(以下简称相(xiàng)芯科技)产品经理马骁驰在接受科(kē)技日(rì)报记者(zhě)采访时表示,但(dàn)其制作成本其实远超(chāo)聘请一(yī)位专业真人主持(chí),因此这把星星之火(huǒ)还未燎原便悄(qiāo)然黯淡(dàn)下来(lái)。
几年后,人工智能的兴起给各(gè)行(háng)各业带来(lái)了新的视(shì)角(jiǎo),虚拟主(zhǔ)持人摇身一(yī)变,升级成了虚拟主播。
“除(chú)了强硬的主持功底,虚拟(nǐ)主播将人工智能与三维虚(xū)拟形象技术结合(hé)起来,可以极大简化策(cè)划、编辑、主(zhǔ)持、制作等一系列工作,快(kuài)速提升播报效(xiào)率。”马骁驰告诉记(jì)者(zhě),编辑人员仅需输入(rù)文字,很快就能自动生成虚拟主播的视频,“一点不用操心”。且相(xiàng)比过(guò)去的虚拟主持人,虚(xū)拟主播(bō)无(wú)论是(shì)表(biǎo)情、神态,还是(shì)形象、动作,都更接近于真人状态。
降(jiàng)低门槛 语音动(dòng)画合成让(ràng)视频制作更简单
可以预见,虚拟主(zhǔ)播在(zài)传统(tǒng)媒体、IP运营、自媒体视频内(nèi)容制(zhì)作等领(lǐng)域具有(yǒu)“通(tōng)吃”的美好前景,小萌(méng)芽和小(xiǎo)萌花掀起(qǐ)的热潮就是很好的佐证(zhèng)。
这(zhè)两(liǎng)只萌物是如何制作出来的?“该虚拟主播的核(hé)心技术是语音动(dòng)画合成技术,其融合了人工智(zhì)能和计算机图形学两方面原理(lǐ)。”马骁驰表(biǎo)示(shì)。
在他看来,这样解决了(le)打造虚拟主播的三大(dà)难点(diǎn)——采用深(shēn)度学习算法精(jīng)准理(lǐ)解语音(yīn)中的文字信息;自主(zhǔ)研(yán)发的人脸表(biǎo)情肌肉单元技术能够准确(què)地驱动面部表情和口型(xíng)动(dòng)作,提(tí)升表达(dá)的生动性和真实性;通过人工智(zhì)能算法展现出口型、表情(qíng)的过渡性动(dòng)画,保(bǎo)证了说话字和词之间的连续性和自然(rán)性,最终呈现出完整的虚拟主播效果。
在真人形象领域,传统的(de)视(shì)频制作,通(tōng)常需要专(zhuān)业摄影师、剪辑师、主持人(rén)等一大(dà)批专业制作人员(yuán),成本居(jū)高(gāo)不下;在动画模型领域,传(chuán)统动画制(zhì)作都是原画师一帧一帧来绘制模型(xíng)表(biǎo)情和口型动作(zuò),不仅(jǐn)成本很高,还难以做到(dào)语(yǔ)音和(hé)口型匹配(pèi),通常至少(shǎo)需要30张图(tú)片才可以制作1秒的动画(huà)内容;动捕技(jì)术则需要(yào)真(zhēn)人(rén)来(lái)实时扮演。
“如果采用语音动(dòng)画合成技术(shù),仅需具备文字编辑(jí)能力(lì)的运营(yíng)人(rén)员就可以单(dān)独制(zhì)作视频,且可(kě)以极大提高视频新闻(wén)制作的时效性,并能够自动实(shí)现动画(huà)模型(xíng)的口型(xíng)和表情驱(qū)动(dòng),降(jiàng)低了(le)动画制作门槛。”马骁驰说。
多线挖掘 尖端服务落户寻常人家
在整个传媒行业向(xiàng)融媒(méi)体大踏步前进的(de)背景下,各大媒(méi)体都在向移动(dòng)端发力,各类短视频、H5、小程(chéng)序等新的(de)传播形态频出(chū)。
在(zài)马骁驰(chí)看来,虚拟主播技术加(jiā)持后(hòu),各大媒体(tǐ)可实现24小时(shí)播(bō)报,且(qiě)呈现(xiàn)方式都更具科技感、新颖性,更符合年轻受众的喜好。
作为新(xīn)兴事物,这一技术还有更多的潜力有待挖掘。
现阶段的(de)动画形象(xiàng)都(dōu)是制(zhì)作(zuò)方事先(xiān)设置好的固定形象(xiàng),然而在这个人人都能(néng)当(dāng)主播(bō)的时代,能否让(ràng)用户根据自己的相貌生成虚拟形象呢?
“我们计(jì)划采用3D模(mó)型的技术(shù),将(jiāng)生成(chéng)与(yǔ)驱动打包成一整套(tào)解决方案。让用户和客户可以自主通过照片生成形象,并(bìng)将该形象(xiàng)设置成虚拟主播,来实(shí)现更(gèng)好的人机交互体验(yàn)。并且打造一套SaaS服务工具平台,提供(gòng)从前端编辑界面到后(hòu)端视频(pín)制作的一站(zhàn)式服(fú)务,客户登录账号后,可(kě)通过(guò)输入文字、插入动(dòng)作、插入视频等手段快速(sù)制作主播视频。届时(shí),对于普通用户高不可及的虚(xū)拟主(zhǔ)播(bō)技术也能‘飞入寻常百姓(xìng)家’了(le)。”马骁驰表示。