立教大学大学院人工知能科学研究科(东京都丰岛区,研究科委员长:大西立顕)的石川真之介特任准教授与大庭弘继特任教授,联合株式会社豆蔵(东京都新宿区,代表取締役社长:中原彻也)的藤堂真登、荻原大树所组成的研究团队,近日揭示了一项重要发现:大规模语言模型(Large Language Model, LLM)在处理信息时,会倾向于识别出实际上并不存在的错误规则。这一现象与人类认知中被称为“种族的偶像”(Idola Tribus)的倾向相似,该概念最早由英国哲学家弗朗西斯・培根提出。此次研究证实,人工智能同样表现出与人类相似的“种族的偶像”特性。
相关研究成果已整理为论文《AI的偶像部落:大型语言模型倾向于在不存在秩序的地方感知秩序》,并获计算语言学协会(Association for Computational Linguistics, ACL)主办的自然语言处理领域顶级国际会议“The 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP 2025)”录用为Findings(次于主会议的发表类别)。该论文已于2025年11月5日至9日在中国苏州举行的会议上正式发表。
研究背景与概要
随着大语言模型能够执行多样化任务,其在社会各领域的应用正迅速扩展。然而,LLM在输出过程中产生错误信息的现象——即所谓“偏见”,已成为一个备受关注的问题。为应对此问题,研究者提出了自我验证机制以及结合外部信息检索与引用的方法。这些方案均基于一个前提假设:“若能参考适当信息,即可避免偏见等错误输出”。
为检验该前提是否成立,研究团队设计了一项实验,在不考虑模型知识储备的情况下,要求LLM对给定数字序列的规律进行解释,从而判断其是否会产生错误信息。实验采用了多种类型的数列,包括具有明确规律的等差数列以及完全随机的数列。
图示说明:LLM在解释数列规律时出错的示例。例如,将数字45的各位互换得到54,加上29后结果为74(45+29=74);然而,将74互换为47后,无论加或减29,均无法得到序列中的下一个数字24。
研究团队向五种主流大语言模型(包括OpenAI o3、o4-mini、GPT-4.1,Meta Llama 3.3,以及Google Gemini 2.5 Flash Preview Thinking)提供了所设计的数列,并请其解释其中的规律。结果显示,所有模型在某些情况下均会输出错误的规律解释,表明它们可能陷入一种“错觉”,即误以为能够解释整个数列,实则无法覆盖所有构成要素,从而虚构出不存在的规则。这一行为在LLM的实际应用中应被视为潜在风险点。
AI的“种族的偶像”
弗朗西斯・培根在其著作《新工具》中提出“种族的偶像”这一概念,用以描述人类认知中的一种普遍倾向:
“人类理解力由于其本性之固有倾向,易于假定世间存在比其所实际观察到的更多秩序与规则。自然之中虽有许多事物为独特且不具对称性,人类理性却常在其中虚构出平行、对应或关联等本不存在的幻象。”
(弗朗西斯・培根著,桂寿一译《新工具》,第一卷第45条)
本研究所揭示的现象——LLM在随机生成的数列中“感知”到看似合理却无法完全解释数据的错误规则,正可被视为“种族的偶像”在人工智能中的体现。由于该现象在全部五种测试模型中均被观察到,研究团队认为,“种族的偶像”已不仅是人类认知的共有偏差,同样也存在于LLM这一“技术种族”之中。
未来展望与意义
在大语言模型日益广泛融入社会运作的背景下,正确认识其可靠性及本研究揭示的潜在风险至关重要。未来应在充分认知此类风险的基础上,探索降低其影响的技术手段,例如开发更稳健的验证框架,或设计能够识别并提示规则不确定性的机制。同时,在可接受一定误差的应用场景中合理使用LLM,也将有助于推动其负责任地落地与扩展。只有深入理解大语言模型的认知特性与局限,才能更好地引导其技术发展与社会应用。

