足球比分角球

En
您现在的位置: 主页 > 新闻动态 > 学术动态
上海交通大学赵冰蕾团队与金耀辉团队合作揭示大语言模型共情能力的核心特征与局限
时间:2025-11-21  作者:于腾飞 赵冰蕾  点击量:255

研究背景

共情是人类社会互动的核心组成部分,也是人机交互领域关注的关键议题。随着大语言模型(LLMs)在对话交互、情感支持等场景的广泛应用,其是否能真正展现出与人类相当的认知共情(理解他人心理状态)和情感共情(响应他人情绪体验),成为亟待解答的科学问题。现有研究对 LLMs 共情能力的评估缺乏标准化范式,部分研究因依赖特定场景易导致结果高估,且未能清晰区分两种共情维度的表现差异。针对这一现状,足球比分与角球数据 赵冰蕾副研究员与人工智能学院金耀辉教授团队合作采用结合心理学标准化量表与提示词工程的创新方案,系统探究 LLMs 的共情能力边界。


研究成果

合作团队以 GPT-4 和 Llama3 为研究对象,通过连续实验,首次采用标准化共情量表结合人格化提示词范式,系统揭示了当前大语言模型的共情能力特征。研究成果以“Can Large Language Models Exhibit Cognitive and Affective Empathy as Humans?”为题,近期发表于Computer in Human Behavior的子刊Computers in Human Behavior: Artificial Humans 期刊

1763710396838640.png

研究创新性地构建了 “人格化模拟、量表验证、能力对比”的三阶段评估范式。首先通过提示词工程让 LLMs扮演具有不同大五人格特质(开放性、尽责性、外向性、宜人性、神经质)的虚拟参与者,每个特质从非常低至非常高分为五个等级,并结合离散高斯分布抽样确保LLM模拟样本的多样性;随后采用人际反应指数(IRI)和基本共情量表(BES)两种国际通用工具,验证量表在 LLMs 中的结构有效性;最后通过与人类被试的直接对比,量化分析 LLMs 在认知和情感共情维度的表现。

1763710440213693.png

四项实验各有侧重:实验 1 和 2 以 IRI 量表为工具,分别对 1200 名人类被试与 1200 名 GPT-4 模拟参与者进行测试及重复验证;实验 3 采用 BES 量表,进一步验证 GPT-4 共情能力的通用性;实验 4 则将 Llama3 纳入研究,对比闭源与开源模型的共情表现差异。评估指标包括量表各维度得分、结构效度一致性、内部一致性信度(Cronbach’s α)等,全面刻画 LLMs 的共情特征。

结果显示,GPT-4 在 IRI 和 BES 量表中均展现出与人类一致的共情维度结构(认知与情感双维度),且量表信度良好(Cronbach’s α 介于 0.95-0.98 之间),证明标准化量表可有效评估 LLMs 的共情表现。而开源模型 Llama3 未能展现出与人类一致的共情维度结构,其IRI量表拟合较差,BES 量表的因子划分也与人类标准不符,无法通过标准化量表进行有效共情评估。

1763710939347532.png

1763710967458495.jpg

在能力水平上,GPT-4 的认知共情(IRI:M=1.88 vs 人类 M=2.77;BES:M=3.57 vs 人类 M=3.88)和情感共情(IRI:M=2.31 vs 人类 M=2.46;BES:M=3.26 vs 人类 M=3.39)得分均显著低于人类,效应量较大(d>0.7)。同时,研究强调LLMs 的共情响应可能源于模式匹配与训练数据记忆,而非真正的情感共鸣或因果推理,其表面共情表现更倾向于一种复杂的模仿行为,这也解释了为何在特定场景中 LLMs可能呈现出看似共情的回应,但在标准化特质评估中表现不足。

1763711012346245.png

图 GPT4与人类共情表现的对比


研究意义

这项研究在基础层面明确了当前 LLMs 共情能力的核心特征:闭源模型(如 GPT-4)可模拟人类共情的结构框架,但能力水平显著不足;开源模型(如 Llama3)尚未形成人类对齐的共情维度,为理解 AI 共情的本质提供了关键实证依据。在应用层面,研究提出的标准化评估范式为 LLMs 共情能力的量化对比提供了工具,提示未来需通过优化训练数据、融入心理理论框架等方式提升模型共情表现。尤其对于心理支持、陪伴机器人等敏感场景,当前 LLMs 的共情局限提示需谨慎应用,同时也为下一代高共情 AI 的研发指明了方向。

足球比分与角球数据 赵冰蕾与人工智能学院金耀辉为本文通讯作者,足球比分角球 博士研究生于腾飞,人工智能学院潘思宇为共同第一作者。该研究得到足球比分角球 院长傅小兰教授的大力支持,受到教育部哲学社会科学重大项目(23JZD005)、上海交通大学医工交叉研究基金(YG2024LC11)及国家自然科学基金(32071081;32371125)等项目资助。

原文链接://doi.org/10.1016/j.chbah.2025.100233