新型冠状病毒肺炎疫情爆(bào)发以(yǐ)来,相关(guān)话(huà)题热度持续高涨。如(rú)何在纷繁芜(wú)杂(zá)的信(xìn)息中理清头(tóu)绪?为便于疫情防(fáng)控和宣传工作的开展,近日,清(qīng)华大(dà)学人工智能研究院(yuàn)、RealAI共同研发推出“新冠肺炎疫情(qíng)AI话题分析平台”,帮(bāng)助相(xiàng)关部门和公众更好地了解疫情实时动态(tài)。
据介绍,该平台通(tōng)过对多渠道海(hǎi)量媒(méi)体信息进行自动抓取采集(jí)、识别分析,解决了传统信息(xī)检索过程中因消息源头繁杂、消息(xī)过(guò)多(duō)、检(jiǎn)索意图(tú)不明确而(ér)产生的困扰。同时,基于大数据分析(xī)和AI建模(mó),自动识别出近期热点话题、新闻追(zhuī)踪(zōng)和话题导(dǎo)向、地区关注度变化,第一时间展示全网话题最新动(dòng)态,满足用(yòng)户(hù)对疫情(qíng)舆情监测(cè)的需求。
在底层(céng)算(suàn)法支持上,该平(píng)台基于(yú)清华大学人工智(zhì)能研究院、计算机系推(tuī)出(chū)的WarpLDA主题提取算(suàn)法(fǎ)研发。基于蒙特(tè)卡洛EM算法,WarpLDA在访存效率、并行(háng)度方面相比传统的Gibbs采样(yàng)算法更有优势,可用于上亿级别(bié)文本的主(zhǔ)题提取。该成果最(zuì)早(zǎo)首发于数据库领(lǐng)域顶级国际(jì)学术会议(yì)VLDB上。
RealAI首席执行(háng)官(guān)田天认为,不同于2003年非(fēi)典等(děng)重(chóng)大(dà)公共(gòng)卫生(shēng)突(tū)发事(shì)件,互(hù)联网成为这次疫情主(zhǔ)要的(de)“信息源”平台,传播模式更是基于人(rén)手一机的“自媒体”,信息流的爆(bào)发不仅降低了大(dà)众获取信息的“信噪比”,更是滋生(shēng)了不同程度的谣言。可以说,传播速度之快、话题数量(liàng)之大、更新变(biàn)化之(zhī)迅速都对(duì)疫情信息的有效传达提(tí)出(chū)了更高的(de)要求。
“在这场没有硝烟的战争(zhēng)中,我们每个人、每个组织都无(wú)法独(dú)善其身。”田(tián)天(tiān)表示,RealAI希(xī)望以自身算法、优势技术为依托(tuō),从内容侧打造防疫战(zhàn)线,发挥信息战“疫(yì)”价值,为抗(kàng)击疫情贡(gòng)献力所能(néng)及(jí)的力量。