1、实验室团队简介
我们生活在多模态的世界中,通过视觉、听觉、语言等不同模态进行学习、思考和表达。因此对于人工智能而言,深度理解我们生活的多模态世界是必不可少的能力。金沙威尼斯欢乐娱人城AI·M³实验室的主要研究方向就是对视觉,语言和语音等多媒体内容的深度语义理解,其中M³ 代表了深度理解的3个不同维度:
Multi-Level (多层次):从易到难的不同层次学习。例如,从识别图像中的物体到构建图像整体的场景图,再到生成自然语言描述图片内容等。
Multi-Aspect (多方位):从客观、主观等多方位理解世界。客观理解是人工智能的IQ,而主观理解则是人工智能的EQ,让人工智能得以理解人类的情感从而进行更好的交互。
Multi-Modal (多模态):融合语音、文本、图像、视频等不同模态信息的全面理解。
实验室主页:https://www.jin-qin.com/AIM3-Lab.html
实验室知乎专栏:https://www.zhihu.com/column/c_1129360636513161216
2、科研方向及成果
AI·M³多媒体计算实验室由金琴教授带领,目前团队包括7名博士生,15名硕士生和若干名有志于科研的本科生。金琴教授于清华大学计算机科学与技术系获得学士、硕士学位,美国卡内基梅隆大学计算机学院语言技术系获得博士学位。实验室主要研究领域包括多媒体智能计算、人机交互等。在视觉描述生成、多媒体情感计算、跨模态交互等研究与应用中取得了杰出成就。
AI·M³研究团队在多项国际赛事上取得了优异的成绩,包括:蝉联2018-2020年CVPR ActivityNet Dense Video Captioning Task冠军;蝉联2017-2019年ACM Multimedia Audio-Visual Emotion Challenge (AVEC) 语音视觉情感识别挑战赛冠军;蝉联2017-2021年TRECVID视频描述生成(VTT)冠军;2019年之江杯全球人工智能大赛视频内容描述生成冠军等。相关研究工作发表于国际顶级会议,包括CVPR, ACL, ACM Multimedia, AAAI, IJCAI等。金琴教授指导的博士生陈师哲荣获百度全球奖学金(全球10位)。