(1)提出跨模态大数据的感知与分析框架
多媒体数据包括文字、图像、音频、视频等,是一种不可或缺且数量庞大的信息载体,已成为当前信息资源建设和信息处理的主体。对多媒体数据的感知与分析是有效理解和利用多媒体数据的关键,是人工智能领域的一个重要研究热点。现阶段,这部分的研究主要面临模态鸿沟、平台鸿沟和空间鸿沟三大挑战。工程中心鲍秉坤教授团队提出跨模态大数据的感知与分析框架,研究多媒体数据的跨模态语义理解、跨平台主题和跨空间事件感知三方面内容。提出了模态共享子空间学习的跨模态语义理解的原创理论,坚持以用户和地理位置为桥梁的跨平台主题发现这一特色研究,探讨引入语义事件尺度实现跨空间事件感知的创新方向,并基于理论与方法研究,实现面向公共安全的跨模态大数据感知与分析平台。相关工作发表论文50 余篇,研究成果得到学术同行的广泛关注与认可,荣获国际会议MMM 2019 年度最佳论文Runner-Up 奖。同时,这部分的研究也得到国家自然科学基金重点项目的资助。
图1 面向公共安全的跨模态大数据感知与分析平台
(2)提出跨模态大数据认知框架
《新一代人工智能发展规划》指出了大数据智能、跨媒体智能、群体智能、混合增强智能和自主智能五个重要发展方向,并从前沿基础理论、关键共性技术、创新应用平台等层面进行系统部署。工程中心鲍秉坤教授团队关注认知计算基础理论与方法研究这一方向,聚焦研究认知进化机理、理论、方法和相关技术,形成跨媒体智能、混合增强智能和自主智能多种形态。针对认知计算研究中,动态跨媒体的知识归纳、知识缺失下的不确定推理、环境反馈下的知识决策、体系化的通用认知测试四个关键科学问题,揭示“学以致用、以用促学”的认知进化机理,研究“知识与经验联合驱动的认知进化”理论和方法,建模认知的“归纳-推理-决策-测试”进化反馈回路。提出知识归纳、知识推理、知识决策和认知测试的方法和技术,使模型具备环境动态自适应、环境开放自适应、环境反馈自适应和环境应用自适应能力,最终实现类人感知、类人思维、类人研判和类人反思。形成跨媒体智能、自主智能和混合增强智能,在公共卫生治理和智能化创作上,进行应用验证。提出的DF-GAN(Deep Fusion GAN)作为一个简单有效的文本生成图片框架,被CVPR’22录用为口头报告,被国际知名机构包括OpenAI、Meta AI Research、微软、智源、百度、字节、京东、达摩院等正面评价或扩展,并引发了大量的跟随研究,包括DTGAN、SSA-GAN、OptGAN、CIGLI、SketchBird、Vastr-GAN等模型。本部分的工作也得到科技创新2030-新一代人工智能国家重大项目的资助。
图2 智能化创作技术框架
该研究方向,完成/在研项目:
认知计算基础理论与方法研究,科技创新2030-“新一代人工智能”重大专项,主持人鲍秉坤,在研,2020.11-2023.10
跨模态社会媒体的深度分析与决策,国家自然科学基金重点项目,项目号61936005,主持人鲍秉坤,在研,2020.01-2024.12
面向社会事件的跨模态知识构建、演化与推理,国家自然科学基金面上项目,项目号61872424,主持人鲍秉坤,在研,2019.01-2022.12
多媒体数据感知与分析,江苏省自然科学基金杰出青年项目,项目号BK20200037,主持人鲍秉坤,在研,2021.01-2023.12