阿里巴巴发布开源人工智能模型可通过视频解读人类情绪

Published at Mar 14, 2025 09:51 am

阿里巴巴发布一款新的人工智能（AI）模型，据称能够通过视频识别人类情绪，意在超越OpenAI的最新模型。

综合彭博社和中国《科创板日报》报道，阿里巴巴旗下的通义千问实验室11日开源R1-Omni模型，并形容这是业界首个将具有可验证奖励的强化学习（RLVR）应用于全能多模态大语言模型。

可验证奖励的强化学习（RLVR）正是深度求索（DeepSeek）模型R1的训练模式。

开发团队称，研究人员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化，在推理能力、情感识别准确性和泛化能力3个关键方面显著提高性能。据称，R1-Omni能更清楚地理解视觉和听觉信息如何促进情绪识别，明确展示哪些模态信息对特定情绪的判断起到关键作用。

在两场演示视频中，R1-Omni能推测视频中人物的情绪状态，并描述其服饰和周围环境。这为所谓的计算机视觉增加新的理解层次。

让人工智能解读并回应人类情绪，早已成为科技行业的一个重要目标。目前能够识别人类心理状态和健康状况的技术已被广泛应用，如客户服务聊天机器人，或用于特斯拉等电动汽车以识别司机是否疲劳驾驶。

目前，阿里巴巴不收取任何费用，开放所有人使用R1-Omni模型，阿里已在Hugging Face平台上免费让用户下载使用该模型。

尽管当前的演示仅展示R1-Omni模型识别“高兴”或“愤怒”等基本情绪的能力，但能从视觉线索推导情绪的能力仍具有重要意义。

阿里巴巴首席执行员吴泳铭在2月份告诉分析师，人工通用智能（AGI）已成为阿里巴巴的“首要目标”，而情绪智能是实现这一目标的重要一步。

Author

newsroom

阿里巴巴发布开源人工智能模型 可通过视频解读人类情绪