研究表明：GPT-4在图形推理任务上表现不佳，准确率仅33%-品论天涯网

要点:VJR品论天涯网
美国圣塔菲研究所的研究显示，GPT-4在图形推理任务上的准确率仅为33%，而多模态版本GPT-4v的表现更差，只有25%。VJR品论天涯网
通过使用ConceptARC数据集，作者对451名人类受试者进行了图形推理任务测试，结果显示人类的平均正确率为91%，远高于GPT-4。VJR品论天涯网
研究者招募受试者的方式和GPT-4的输入方式引发了质疑，包括入门测试不足以筛选高质量受试者，样本的随机性受到争议，以及图像转换为数字矩阵可能改变概念等。VJR品论天涯网

站长之家（ChinaZ.com）11月21日消息:最近的研究表明，GPT-4在图形推理任务上表现不佳，仅有33%的准确率，引发了对大型语言模型图形处理能力的关注。VJR品论天涯网

通过使用ConceptARC数据集，研究者对451名人类受试者进行了图形推理任务测试，结果显示人类在这方面表现卓越，平均准确率达到91%。VJR品论天涯网

VJR品论天涯网

论文地址:https://arxiv.org/pdf/2305.07141.pdfVJR品论天涯网

多模态版本GPT-4v的表现更差，只有25%的准确率。这凸显了在涉及图形处理的任务中，大型语言模型的多模态能力也受到限制。VJR品论天涯网

研究者使用ConceptARC数据集进行测试，其中包括16个子类的图形推理题，涵盖了位置关系、形状、操作、比较等多个方面的内容。VJR品论天涯网

然而，这项研究的方法引发了一些质疑，包括受试者招募的方式和GPT-4的输入方式。研究者在亚马逊众包平台上招募受试者，入门测试被认为不足以筛选高质量的受试者，样本的随机性受到争议。VJR品论天涯网

此外，GPT-4的输入方式也引发了一些争议，特别是将图像转换为数字矩阵可能改变概念，这使得一些人对实验结果的可信度产生疑问。综合而言，这项研究突显了目前大型语言模型在某些特定任务上的局限性，并提出了对研究方法的进一步审视的需求。VJR品论天涯网