【成果】类脑计算研究成果:基于认知地图的神经语义模型完成瑞文测试

来源: 作者: 发布时间:2023-06-02 浏览次数:

瑞文智力测验(Raven's Progressive Matrices)是经典的抽象视觉推理任务,用于测量人类的流体智力和高级推理功能。近年来,研究人员开始利用AI来解决RPM问题。朱松纯等人提出针对神经网络的RAVEN测验,包括由5种形状,10种颜色,6种大小,8种角度的图形组成的7个不同配置(Center、2*2、3*3、O-IC、O-IG、L-R、U-D)的3*3矩阵问题,要求智能算法在完整的两行中找到共同矩阵的规律,并且运用规律将题目“矩阵”补充完整。

针对该问题,王大辉教授课题组借鉴人类解决瑞文问题的思维过程和方法,构建了类似于人类分层式推理方式的神经符号模型来回答瑞文智力测验问题。在准确率,可解释性,以及可迁移行三个指标上达到了或超过了领域内其他“端到端”的人工智能模型。

该模型包括语义VAE(sVAE)感知模块和认知地图推理后端(CMRB)。通过引入语义标签,sVAE可以实现对图片的语义编码,将物体解耦到可以理解的语义隐变量维度。CMRB模块遍历训练集中的题目,在抽象语义表征的基础上逐渐编码物体或属性之间的关系,形成针对特定题目的关系图表征并激活经历过的相似关系结构,提取通用的规律,建立可迁移的认知地图。完成训练后,模型根据sVAE对新题目的知觉编码和CMRB的认知地图来预测新题目中缺失位置的物体和属性,可进一步由sVAE根据预测的属性生成符合情景的答案图片。

图1. 神经语义模型结构图

sVAE-CMRB模型具有较强的迁移能力。sVAE模块能够利用少量的样本学习抽象的语义维度,并利用这些维度编码或生成包含未学习过的特征组合的物体,从而显著提高了训练效率。模型甚至能够学会通过调节语义维度的数值编辑或生成真实的物品人脸。CMRB模块在抽象的语义层面上形成可迁移的表征。不同于端到端模型基于像素的推理方式,CMRB的推理是可描述、可解释的。即使算法偶然会发生一些错误推断的情况,也可以通过观察算法生成的错误认知地图理解算法发生错误的原因。这些特点使得模型具有应用到需要抽象认知推理的实际情景的潜力。

图2. 采用sVAE模型生成的3D椅子

图3. 算法生成的4种正确的认知地图

图4. 算法生成的错误认知地图样例

该项研究成果以“An Interpretable Neuro‑symbolic Model forRaven’s Progressive Matrices Reasoning”为题于2023年5月发表在Cognivite Computation杂志上。北京师范大学系统科学学院的博士生赵书阔是该论文的第一作者,王大辉教授是论文的通讯作者。电子科大的游宏志副教授,上海交通大学张洳源副研究员,北京师范大学系统科学学院的斯白露教授,心理学部甄宗雷副教授,认知神经科学与学习国家重点实验室万小红教授是本文的共同作者。

该研究受到国家自然科学基金(32171094)和启元实验室项目的资助。

文章链接参见:https://link.springer.com/article/10.1007/s12559-023-10154-3

供稿:王大辉

编辑:郝林青

审核:王大辉