蜜蜂功能性自我意识的统一预测编码解释：四个行为域中的解析性精度权衡

摘要

蜜蜂表现出若干可视为自我意识行为标记的现象——包括元认知式不确定性监测、与社会阶层相适配的角色身份、工具使用预期，以及一般认知能力（GCA）——但目前尚不存在能够统一解释这些现象的计算理论。本文提出：由单一精度（precision）参数所调控、并实现于中央复合体（central complex, CX）中的预测编码架构，可以同时解释这四个行为域。解析推导表明，元认知“退出选择”（opt-out）准确率是精度的倒U型函数，其最大值出现在 \(p^*=0.563\)。这种过度自信悖论意味着：高精度虽然提升任务表现，却会削弱自我知识，从而导出一个反直觉预测——更聪明的蜜蜂（更高 GCA）在 opt-out 元认知任务上的表现反而会更差。在每个条件下模拟 \(N=500\) 个体，并以已发表的反转学习 \(d'\) 数据为经验基础来设定精度分布后，结果确认了元认知–GCA 之间的负相关，相关系数为 \(r=-0.658\)。单一精度参数可以解释三个非元认知行为域中 83.5% 的方差（即 GCA 因子），从而验证了该统一架构。更关键的是，昼夜节律扰动会使元认知–GCA 的负相关反转（\(-0.658 \to +0.730\)），从而提供第三个可证伪预测。这是首个关于昆虫功能性自我意识的形式化计算理论，连接了神经行为学、预测编码理论与比较认知研究。

关键词： 预测编码；元认知；中央复合体；精度；蜜蜂认知；一般认知能力；功能性自我意识

引言

蜜蜂表现出一系列令人惊讶的行为，其表面上类似于脊椎动物中的自我意识标记：元认知式不确定性监测、与社会阶层相适配的角色身份、需要前瞻模型的工具使用预期，以及个体间在一般认知能力（GCA）上的差异。然而，这些现象过去大多是彼此孤立地研究的，尚无统一的计算解释说明微型大脑如何实现这些显然需要“自我参照”计算的行为。

中央复合体（CX）是昆虫中脑中的一个保守结构，正日益成为这些行为共享神经基础的有力候选。CX 能编码以身体为中心的空间表征，调节昼夜节律，并对动作选择进行门控。更关键的是，它维持着机体当前状态的实时模型——这正是自我参照行为所必需的属性。我们提出，实现于 CX 中、由单一精度参数支配的预测编码架构，可以同时解释这四类自我意识标记。

功能性自我意识的定义

一开始必须明确一个关键区分。本文所说的“功能性自我意识”指的是一种计算属性：系统能够维持关于自身状态的、受精度加权的生成模型，并由自我模型中的预测误差驱动行为。这不同于现象意识——即主观体验或“成为某物是什么感觉”的存在。我们并不主张蜜蜂具有意识；本模型对这个问题保持中立。我们所建模的行为（例如在困难试次中选择退出、依据社会阶层选择合适任务、对工具使用进行前瞻性定向）都可以由纯粹功能性的自我模型产生，而无需伴随任何内在体验。

这种操作化方式遵循自由能原理（Free Energy Principle, FEP）：在 FEP 框架下，智能体通过维持关于环境与自身的生成模型来最小化预期自由能。FEP 中的精度参数量化了系统对预测误差的信任程度，它决定了感官惊异是会更新内部模型，还是会被抑制。我们的模型继承了这一形式框架，并聚焦于精度变化在多个行为域上所预测的行为标记。

过度自信悖论

本模型直接导出一个核心且反直觉的预测：更聪明的蜜蜂在元认知退出任务上的表现会更差。 这种“过度自信悖论”之所以出现，是因为高精度虽然改善任务本身的表现，却同时削弱了驱动退出行为的不确定性信号。一个内部预测近乎完美的个体，很少会体验到足以触发在困难试次中退出的不确定性，因此虽然它在任务执行上很优秀，却会在元认知校准上失败。

我们在解析层面推导出这一结果（第3节），并通过计算模拟进行了验证（500 个体模拟中，元认知–GCA 相关为 \(r=-0.658\)）。这一预测可以直接被证伪：只需在同一批个体上同时测量 GCA 电池得分与 opt-out 准确率，并对两者进行相关分析即可。

论文概览

首先，我们形式化 CX 预测编码模型及其四个行为域功能（第2节）。接着解析推导精度–元认知权衡，并给出最优精度水平 \(p^*=0.563\)（第3节）。随后，我们用全规模模拟（每个条件下 \(N=500\) 个体）检验模型在四种实验条件下的定量预测（第4节）。最后，我们讨论三个可直接检验的经验预测，并将该模型放入更广泛的自我意识与 FEP 文献语境中（第5节）。

模型

自我状态表征

其中，\(p\) 为精度（内部预测的逆方差），\(c\) 为社会阶层身份的自我表征（\(0=\) 护理蜂，\(1=\) 采集蜂），\(\phi\) 为昼夜节律相位准确性，\(e\) 为能量状态。由此得到的不确定性定义为：

精度是该模型的核心参数。在 FEP 框架中，精度会对预测误差进行加权：高精度个体更信任自己的预测，因此信念更新更慢；低精度个体则会被每一次感官惊异所驱动。出于可处理性，我们将精度实现为一个标量，尽管真实的生物学 CX 很可能使用多个精度通道。

经验参数的落地设定

我们并非手工调参来设定精度分布，而是从已发表的蜜蜂心理物理学数据中推导精度分布。反转学习研究报告显示，不同蜜蜂个体的 \(d'\) 值大致分布在 \([0.3, 2.1]\) 范围内（最优条件下 \(d'_{\max}\approx 2.5\)）。我们将其归一化到精度尺度：

由此得到精度范围 \([0.2, 0.95]\)，并保留了经验分布形状。对正常条件而言，这对应于一个 Beta\((5,2)\) 分布（均值约为 0.64，右偏），这与“多数蜜蜂在标准辨别任务中高于机会水平”的经验事实一致。

各行为域的观测函数

每个行为域都通过不同的函数形式将精度映射到表现上，这反映了自我模型在不同任务中承担的不同计算角色。

行为域 1 —— 元认知（退出选择准确率）

退出任务会同时呈现困难刺激与容易刺激。正确的元认知行为意味着：在困难试次中选择退出（因为内部预测不可靠），而在容易试次中继续作答。对于难度为 \(d\) 的试次，其退出概率为：

其中 \(\sigma(\cdot)\) 为逻辑斯蒂函数，\(s=4.0\) 表示对不确定性的敏感度，\(\theta_d\) 为与任务难度相关的阈值（\(\theta_{\text{hard}}=1.0\)，\(\theta_{\text{easy}}=2.5\)）。元认知准确率定义为：

\[ \text{acc}_{\text{meta}}= \frac{P_{\text{opt-out}}(\text{hard}\mid u) + (1-P_{\text{opt-out}}(\text{easy}\mid u))}{2} \]

行为域 2 —— 工具使用预期

工具使用需要一个前瞻模型：个体必须在完成初始动作步骤之前，就预期目标状态。前瞻性定向的概率随着精度增加而上升，并受社会阶层身份加权：

采集蜂（\(c\approx 1\)）具有更强的目标导向性，这与其空间觅食角色一致。

行为域 3 —— 与社会阶层相适配的学习

在类型为 \(\tau\) 的任务中，学习准确率取决于任务需求与社会阶层身份的匹配程度。对于空间任务（\(\tau = \text{spatial}\)），采集蜂（\(c\approx 1\)）表现更好；对于社会性任务（\(\tau = \text{social}\)），护理蜂（\(c\approx 0\)）表现更好。形式化为：

\[ \text{match}(c,\text{spatial}) = c,\qquad \text{match}(c,\text{social}) = 1-c \]

行为域 4 —— 一般认知能力（GCA）

GCA 反映了多个任务之间共享的精度基础。我们将综合 GCA 得分建模为精度的线性函数：

\[ \text{GCA}_i = 0.5 + 0.4\cdot p_i + \varepsilon_i,\qquad \varepsilon_i \sim \mathcal{N}(0,0.04) \]

模拟条件

解析结果：精度–元认知权衡

最优精度的推导

我们对使元认知准确率最大的精度水平 \(p^*\) 进行了解析推导。将 \(u=1-p\) 代入后：

\[ \text{acc}_{\text{meta}}(p)=\frac{1}{2}\Bigl[ \sigma\bigl((1-p)s-\theta_{\text{h}}\bigr) +1-\sigma\bigl((1-p)s-\theta_{\text{e}}\bigr) \Bigr] \]

当 \(p\to 1\) 时的边界行为（过度自信个体）

\[ P_{\text{opt-out}}(\text{hard}) \to \sigma(-\theta_{\text{h}})\approx 0.27 \]

也就是说，即便在困难试次中，个体也很少选择退出。此时准确率趋于：

当 \(p\to 0\) 时的边界行为（低精度个体）

个体几乎在所有试次中都选择退出，包括容易试次。此时准确率趋于：

内部极大的存在性

且在某个中间精度点上，个体既能在困难试次中正确退出、又能在容易试次中坚持作答，因此准确率必然高于两个边界值，于是必定存在某个内部最大值 \(p^*\in(0,1)\)。数值结果为：

稳健性

倒U型关系及其中间最大值对于任意 \(s\in[2,6]\) 和任意正的阈值差 \(\theta_{\text{e}}-\theta_{\text{h}}>0\) 都成立。\(p^*\) 的具体数值会随敏感度略有变化（当 \(s\in[2.0,6.0]\) 时，\(p^*\in[0.50,0.63]\)），但方向性预测是稳健的：中等精度对元认知准确率最优。

过度自信悖论：形式化陈述

令 \(\text{Perf}(p)\) 表示任何随精度单调上升的任务表现（行为域 2–4）。根据构造，始终有：

因此，在高精度区间（\(p>p^*\)）内，任务表现与元认知准确率在个体间必然呈负相关。由于正常条件下经验精度分布的均值约为 \(0.64 > 0.563\)，大多数正常蜜蜂个体都位于这个负相关区间内。

模拟结果

汇总统计

GCA 因子

从三个非元认知行为域（工具使用、阶层适配学习、GCA得分）中提取第一主成分后，在正常条件下可解释 83.5% 的方差。这是一个严格检验：GCA 因子完全由共享的精度基础自发涌现，没有额外强加因子结构。这个结果验证了单参数架构——如果这些行为域背后是多个彼此独立的机制，则不应出现如此强的第一主成分。GCA 因子在四种条件中始终介于 79.7% 到 83.5% 之间，表明其对精度分布的大变化具有稳健性。

元认知–智力负相关

条件	Precision	Meta	Tool	Learning	\(r_{\text{meta,GCA}}\)	GCA%
Normal	0.728	0.656	0.550	0.664	-0.658	83.5%
Disrupted	0.302	0.639	0.226	0.565	+0.730	81.2%
Nurse (spatial)	0.737	0.655	0.425	0.783	-0.682	79.7%
Forager (spatial)	0.793	0.647	0.741	0.804	-0.599	81.0%

这些负相关直接来自模型架构本身：高精度个体（高于 \(p^*=0.563\)）在依赖精度单调增加的任务上表现更好，但已经越过了元认知最优点。因此模型预测：元认知与智力在个体层面上是功能性分离的，尽管两者都来自同一个精度参数。

与社会阶层相适配的学习

社会阶层对学习的影响是显著的。采集蜂在空间任务上的平均学习准确率为 0.804，护理蜂为 0.783，而混合阶层的正常条件下仅为 0.664。这种优势来源于行为域 3 中的“阶层匹配放大”，而不只是更高的精度。该结果复现了文献中已报告的护理蜂–采集蜂在空间任务上的表现差异，并进一步生成一个定量预测：阶层匹配个体的学习优势约为 \(\Delta=0.14\)（从 0.664 到 0.804），可在同一蜂群内部实验中检验。

扰动效应与符号翻转

昼夜节律扰动使平均精度从 0.728 降至 0.302（下降 58%）。这会损害所有依赖精度单调增加的行为域：工具使用下降 59%，学习下降 15%。元认知准确率则只发生较小且非单调的变化（下降 2.6%），这与扰动后精度分布均值 \(\bar p\approx 0.30\) 落在 \(p^*=0.56\) 以下、从而部分恢复校准的解释一致。

最引人注目的发现是符号翻转：元认知–GCA 相关从正常条件下的 \(r=-0.658\) 反转为扰动条件下的 \(r=+0.730\)。在扰动条件下，精度整体较低且存在波动，任何残余的精度提高都会同时改善 GCA 与元认知准确率，于是原本的负相关消失，转而变为正相关。这一符号翻转是一个强可证伪预测：在昼夜节律受扰蜜蜂中，元认知准确率与 GCA 的相关方向应与对照组相反。

讨论

三个可证伪预测

该模型提出了三个目前尚未在任何蜜蜂物种中得到验证的经验预测：

预测 1 —— 负相关：
在同一批个体上测量 GCA 电池得分与 opt-out 准确率，两者应呈显著负相关（模型预测 \(r=-0.658\)，经验上至少应满足 \(r<-0.3\)）。这两个行为范式都已存在，缺失的只是把它们应用到同一批标记个体上。

预测 2 —— 倒U型剂量–反应关系：
如果通过操纵训练强度、奖励确定性或轻度药理挑战来改变精度水平，则 opt-out 准确率应表现为非单调关系，并在中等精度附近达到最大值。一个具体实验设计是：将蜜蜂训练到三种不同的辨别难度（易、中、难），随后统一转入 opt-out 范式。按模型预测，中等难度训练组的精度最接近 \(p^*=0.563\)，因此其 opt-out 准确率最高。

预测 3 —— 扰动下的符号翻转：
在昼夜节律扰动条件下，元认知–GCA 的负相关应反转为正相关。这要求在受扰组与对照组中，对同一批个体同时施测 GCA 电池和 opt-out 任务，并比较相关结构。

与邓宁–克鲁格效应的关系

过度自信悖论在表面上与邓宁–克鲁格效应相似，但其机制根本不同。邓宁–克鲁格效应认为，能力较差个体之所以元认知更差，是因为他们缺乏元认知能力。而本模型预测的是：有能力的个体也会表现出受损的元认知，因为高精度抑制了不确定性信号。这可以被视为一种“倒置的邓宁–克鲁格效应”：真正高技能的个体，反而系统性地缺乏自我知识。两者可以经验区分：邓宁–克鲁格预测最差表现者最不校准，而本模型预测最高 GCA 个体在 opt-out 任务上最不校准。

局限性

本研究存在若干局限。第一，我们将精度建模为标量，而真实的 CX 很可能使用多个部分独立的精度通道（例如空间、时间、嗅觉通道）。多通道扩展会产生关于特定行为域扰动的不同预测。第二，我们尚未提供具体神经实现；未来需要将该模型与实际 CX 拓扑（如环吸引子、蘑菇体相关结构）连接起来。第三，模型中没有学习动力学：精度在初始化后保持固定，不会在试次中更新。第四，尽管精度分布是基于已发表的 \(d'\) 数据设定的，但经验验证仍需在同一批个体上测量全部四个行为域，而目前尚无此类研究。第五，我们当前只聚焦于四个可在同一批个体上施测的行为域；原始研究议程中提出的另外四类行为（游戏行为、节律校准、近似欺骗行为、帮助行为）虽与本模型一致，但需要进一步扩展当前框架，留待未来工作。

与自由能原理的关系

我们的模型可以看作自由能原理在行为层面的抽象。在 FEP 框架下，精度扮演“注意”的角色：个体通过分配精度来最小化预期自由能。我们的标量精度捕捉了这一作用，但并未实现 FEP 所要求的完整变分推断。未来一个自然扩展方向，是将本文的标量精度映射到 FEP 的感觉精度超参数，并进一步推导有关 CX 神经调质控制的预测。

更广泛的意义

如果这些预测得到支持，那么本模型的意义将超出蜜蜂。精度–元认知权衡可能是任何同时使用共享精度信号来支持任务表现与自我监测系统的普遍属性。在人工智能体中，类似的“预测准确性与不确定性量化之间的张力”已在贝叶斯深度学习中被指出。对于人类而言，一些关于自闭症谱系障碍的解释也涉及“局部高精度但全局不确定性监测受损”的模式，这与本模型中高精度极端的行为特征具有定性相似性。

结论

我们提出了一个关于蜜蜂功能性自我意识的统一预测编码模型，该模型由一个基于已发表蜜蜂心理物理学数据所设定的单一精度参数驱动。该模型提出了三个可证伪预测：

这些预测都可以通过现有行为范式在同一批标记个体上进行检验。该模型提供了首个关于昆虫功能性自我意识的形式化计算解释，并连接了神经行为学、预测编码理论和比较认知研究。

方法

模拟实现

全部模拟均用 Python 3.x 与 NumPy 实现。随机种子固定为 2026，以保证可复现性。每个条件下模拟 \(N=500\) 个体。

精度分布参数化

精度分布基于已发表的蜜蜂反转学习 \(d'\) 数据设定。已报告的 \(d'\) 范围大约为 \([0.3,2.1]\)，将其归一化到 \([0.2,0.95]\) 后：

解析推导

最优精度通过在 \(p\in[0.01,0.99]\) 上对 999 个点进行数值搜索确定。内部极大的存在通过检验 \(d\text{acc}_{\text{meta}}/dp>0\) 在 \(p=0.1\) 时成立且 \(d\text{acc}_{\text{meta}}/dp<0\) 在 \(p=0.9\) 时成立来验证。

GCA 因子提取

GCA 因子定义为 [工具使用、阶层学习、GCA 得分] 的 \(3\times 3\) 协方差矩阵中第一特征值所解释的方差比例。特征分解用 numpy.linalg.eigvalsh 实现。

统计分析

所有相关系数均为每个条件下 \(N=500\) 个体的 Pearson \(r\)。由于文中所报告的相关均为模型的方向性预测，而非探索性比较，因此未进行多重比较校正。