隨著AI技術發(fā)展逐漸成熟,各大媒體平臺、直播間、短視頻等,越來越多的虛擬主播走進了大眾視野,比如《人民日報》推出的AI虛擬主播“任小融”“果果”,新華社推出AI合成主播“新小微”等,他們聲音甜美、風趣幽默,擁有與真人無差別的外表,如果不仔細觀察,可能會誤以為是真人在播報。
這些AI虛擬主播看似是一個人物形象,但其背后卻是一套復雜的算法和工程體系。這套算法涵蓋了視覺、語音、自然語言處理等多模態(tài)融合算法,通過把表情捕捉、動作捕捉、物理解算、同步傳輸、特技效果等多項專項技術相結(jié)合,實時識別互動內(nèi)容,從而快速做出相應反應。
阿里巴巴達摩院的資深算法專家陳海青曾指出,一個AI虛擬主播需要具備以下四個方面的技術架構:感知與認知、導演系統(tǒng)、3D建模、3D素材庫。這套支撐AI虛擬主播的算法不僅需要為虛擬主播設定情緒,還需設定與之相對應的肢體語言和面部神態(tài)等,以求在最大程度上接近真人主播。所以,相比真人,AI虛擬主播具有很好的“先天優(yōu)勢”。