第一部 · 实在尺度 · 什么是真实的?
II · 理的内在面貌
~15 分钟 · 5,919 字
II · 理的内在面貌
§I搭好了形而上学骨架,六条公设、五条定理、十一条命题。公设三说道有可理解的面向(理),却未展开理的内在结构。理到底长什么样?怎样运作?有没有边界?我们若要清醒地面对AI时代,便须理解「可理解性」本身,因为AI正是理的极致工具。本章展开理的四种基本模式,并在最后抵达一个关键交汇点:概率,理与玄相遇的地方。
II.1 · 理不是一架时钟
三百年来,「理解宇宙」即意味着找到确定性规律,给定初始条件便精确预测结果。拉普拉斯设想了一个全知的「妖」1:只要知道宇宙中每个粒子的位置和速度,就能计算出整个未来。在这幅图景里,理就像一架巨大的时钟,精密、确定、可预测。
二十世纪的物理学摧毁了这幅图景。量子力学告诉我们:在最基本的层面上,宇宙是概率性的,而非确定性的。电子没有确定的位置,只有概率云;放射性原子没有确定的衰变时刻,只有衰变概率。这一概率性并非源于我们的无知2。
但这非理的终结,而是理的升级。
理非一架时钟。理是一个掷骰子的织者:骰子在掷,但骰子的不均匀方式本身有精确的规律。我们能理解宇宙,非因宇宙是确定的,而因宇宙的概率结构本身稳定、可理解。
这个洞见比确定性更深:理包含不确定性,但不确定性本身是有结构的。
附释(量子力学诠释的独立性): 本章对量子概率性的使用不依赖于任何特定诠释。哥本哈根诠释视概率为本体论的,多世界诠释视之为分支权重,玻姆力学视之为认识论的,无论取哪一种,明在道的核心主张都成立:不确定性是结构性的,而非暂时的无知。在完全确定论的诠释中,这一主张须修正为「认识论的不确定性不可消除」:仍足以支撑本框架的结论。详见§XVII.1(概率本体论的脆弱性)和§XVII.2(反驳六)。
II.2 · 理解的升级
确定性世界观中,「理解」即「精确预测」。概率世界观中,「理解」即「正确描述可能性的分布」。原子何时衰变,无须预测(知其半衰期足矣。明日是否降雨,无须臆度)知其概率足矣。
这是更深的理解,非更浅的:它坦然容纳不确定性,而非佯作其不存在。
对明在道实践而言:你深入理解一个系统时,不仅要看见确定性结构(因果、模式),还要看见概率结构,什么是可能的,什么不太可能,不确定性的边界在哪里。只看到确定性的人,在不确定性来临时措手不及;亦看到概率结构的人,在不确定性中仍然清醒,因为不确定性本身即是他理解的一部分。
II.3 · 理的四种基本模式
为什么恰好是这四种? 选择遵循四个原则。最小性(用最少的基本模式覆盖最广的动态现象。不可互相还原)四种模式中任何一种都不能由其他三种组合得到(混沌可还原为反馈+梯度,自组织可还原为四者协同,但耗散、梯度、选择、反馈彼此独立)。概率统一:四种模式都能用概率语言表达,而概率恰是理与玄的交汇点(见sec:II.4)。结构对称:每种模式恰好对应玄的一种深度(见§III.2),形成四重映射。其他候选(对称性破缺、涌现、信息、网络拓扑)要么可还原为这四种的组合,要么描述的是模式之间的关系而非模式本身。
第一模式:耗散(Entropy)
你在海边堆了一座沙堡。潮水还没来,但风已经在磨平你刚刻好的城垛,沙粒在重力下缓缓坍塌。从完成的那一秒起,它便在走向消散。你无须等待任何外力来「摧毁」它,消散即是默认方向。
这非比喻,而是热力学第二定律3的日常面目。一切结构都趋向耗散。热咖啡冷却,山峦侵蚀,帝国衰落,人终有一死。在所有可能的状态中,有序的极其稀少,无序的压倒性地多。一副牌按花色排列只有一种方式,随机排列却有天文数字那么多种。宇宙并非「偏好」无序,有序只是在可能性的海洋中被稀释了。
你的生命(一个精巧的有序结构)每时每刻皆在与耗散搏斗。吃饭、呼吸、维持体温,皆在局部对抗耗散。停止对抗,即是死亡。有限性公设(公设四)的物理根基正在于此。训练神经网络的标准损失函数(交叉熵)也在测量同一件事:模型的预测离真实分布还有多「散」。AI的「学习」与你身体的新陈代谢做着同构的搏斗:都是局部对抗耗散。
数学:B.2,式 (eq:shannon-entropy)–(eq:life-entropy)
第二模式:梯度(Gradient)
试想一个完全均匀的宇宙:每一点的温度相同,密度相同,能量相同。在这样的宇宙中,什么都不会发生,没有流动,没有变化,没有生命。因为一切运动的前提是差异。
热从高温流向低温,水从高处流向低处,资本从低回报流向高回报,注意力从无聊流向刺激。道的展开沿着梯度展开。但这里藏着一个深层悖论:利用梯度,就是在消灭梯度。热传导消灭温差,扩散消灭浓度差,贸易消灭价格差。每一次「成功」都在削弱驱动它的力量。
威尼斯共和国的兴衰是一个微缩范例。它崛起于东西方贸易的价格梯度:东方香料在欧洲卖出数倍乃至十倍的价格。但贸易本身在缩小这个差异:商人涌入同一条航路,利润空间不可避免地收窄。成功播下了衰落的种子:利用梯度,就是在消灭梯度。同一个悖论在AI训练中以精确的数学形式重现:「梯度下降」沿损失函数的梯度方向「下坡」,但随着优化深入,梯度本身趋向消失(梯度消失问题),系统陷入平坦区域。文明与算法,共享同一个结构性困境。
数学:B.3,式 (eq:gradient)–(eq:gradient-dissipation)
第三模式:选择(Selection)
「适者生存」,也许是科学史上被误解最深的四个字。它暗示选择是弱肉强食的暴力筛选。但选择的真正本质与暴力无关。
凡持续更好的,便持续更多。无须设计者。分子、基因、思想、公司、文明,每个层面皆在运作。选择的本质是系统性地重塑可能性:选择之前,所有变异大致等概率;选择之后,某些变异被放大,另一些被压缩。证据改变假设的概率4:这正是我们从经验中「学习」的数学结构。进化的本质是自然对可能性分布的反复重塑,远超弱肉强食的粗陋图景。AI训练与此同构(减少误差的参数留下,增加误差的淘汰)只是「选择」发生在数学空间而非草原上。
数学:B.4,式 (eq:bayes)–(eq:selection-n)
第四模式:反馈(Feedback)
你点开一条新闻。算法记住了你的点击。下一次刷新,类似新闻多了三条。你又点了两条。三个月后,你的信息世界已经收窄为一条隧道,你浑然不觉,因为隧道壁上贴满了你「自己选择」的东西。
这就是正反馈:输出返回输入,循环自我放大。
正反馈(产出放大产出):银行挤兑、病毒传播、信念极化:以及上面那条新闻隧道。
负反馈(偏差被纠正):恒温器、捕食者与猎物的平衡、市场价格调节。
正反馈让可能性越来越集中于少数选项;负反馈让可能性保持多样。健康的系统需要两者平衡。明在道伦理学的核心关切(遮蔽(D6)的正反馈回路)正是在诊断这种失衡:AI推荐强化你的偏见,偏见又强化AI的推荐。缺乏外部负反馈(批判性思维、接触不同观点),系统便趋向极端。遮蔽的本质:正反馈主导,负反馈缺失。
数学:B.5,式 (eq:linear-feedback)–(eq:lucidity-feedback)
附释(综合): 四种模式不只是分类,它们可以合并为一个主方程,描述明度如何随时间演化(附录B.15)。方程中,反馈驱动成长,选择设定上限,梯度调节平衡,耗散对抗维持。一个出人意料的推论:不平衡在数学上等价于自我施加的额外耗散,偏倚的能动者不只是效率低,他在加速自身退化。
四种模式描述了理在世界中动态运作的面貌。但它们同样反身地运作:当能动者(D7)将理的四种模式转向理本身,所涌现的正是数学、逻辑和推理。它们并非第五种模式,只是同样的四种模式在认知领域中的运作。
逻辑是观念空间中的选择。在所有可能的陈述空间中,演绎逻辑选出有效者。一个证明系统性地重塑了结论的概率分布:证明之前,猜想可能为真也可能为假;证明之后,其真便是必然的。这正是「对可能性分布的系统性重塑」,只是作用于命题而非有机体。贝叶斯推断将此推广:证据在假说之间做选择,恰如环境在表型之间做选择。
推理是观念空间中的反馈。你形成一个假设,以证据检验,修正,再检验。科学方法就是施加于信念的形式化负反馈。推理出错时(确认偏误、动机性推理、意识形态回音室),恰恰是本章已经诊断过的病理:正反馈主导,负反馈缺失。困于确认偏误的心灵与困于算法放大的信息流是同一种结构性疾病。
证明是观念空间中的梯度追踪。数学证明沿逻辑梯度从前提走向结论,利用已确立者与待证者之间的「差异」。正如一切梯度利用,解决一个问题就是在消灭梯度:一旦证毕,差距消失,定理在回顾中显得「显然」。这便是数学不可逆地进步的原因:每一个解决的问题都抹平了一个不可再以同样方式利用的梯度。
数学真理抵抗耗散。一个已证定理也许是宇宙中最抗耗散的结构:\(2+2=4\)不因熵增而改变。帝国覆灭,语言消亡,恒星燃尽,但勾股定理仍在。数学是理的最高结晶,对第一模式具有最大免疫力。这正是数学知识可以完美共享(见下文 P-Share)的最深层原因:不能衰朽之物,可以无损传递。
附释(反身性):认知运用与物理实在相同的四种模式,并非巧合,这是能动者(D7)嵌入道(D1)的结构后果。能动者的认知装置本身即是受耗散、梯度、选择、反馈支配的物理系统。当它为世界建模时,所用的正是它试图建模的那些模式。理理解理,这在结构上是必然的,远非隐喻。这种反身性同时解释了AI为何能推理:人工神经网络在硅基而非碳基中实现了选择(反向传播)、反馈(循环)、梯度追踪(优化)与抗耗散(权重持久化)。基质不同,四种模式完全相同。
四种模式因此有两张面孔:外向的面孔(理在自然中的运作)与内向的面孔(能动者通过推理理解理)。但理还有一个静态特征,也许是最引人注目的。
理的最显著特征是可共享性。一个数学定理,无论谁发现,一经证明便属于所有人。算法可以完美复制,知识可以无损传递。AI是这种可共享性的极致体现:模型训练一次,即可无限部署。这便是文明尺度上\(\lambda\)积累的基础(§XIV):可共享性使知识得以跨个体、跨代际地叠加。
但可共享性有边界。对理的理解(那个「啊哈!」时刻)无法传递。你可以传递证明的每一步,却传递不了理解证明时的体验。教育因此不可被自动化:内容可以传递,体验不能。这亦是文明积累\(\lambda\)时须警惕的陷阱:信息堆积不等于理解增长(§XIV.2)。反面同样成立:一个文明可以拥有没有任何个体完全把握的集体智慧,法律传统、科学范式、代际实践中结晶的洞见(CV-Irr.2)。
理的内容可以无损传递,但对理的理解(把握结构的那个「啊哈!」时刻)不可传递。
信息的积累不等于理解的增长。
附释: 一个数学定理一经证明便属于所有人,一个算法可以被完美复制,这是理的可共享性的具体表现。但教育不可被自动化;文明尺度上\(\lambda\)的增长不等同于清醒的增长。为什么信息爆炸的时代反而可能是理解匮乏的时代?AI将理的可共享性推到极致,模型训练一次,无限部署。但部署增加的是信息处理能力(\(\lambda\)),非理解深度。一个拥有强大AI的文明,\(\lambda\)维度可能远超历史上任何文明,\(\xi\)维度却未必更高,甚至更低,盖依赖AI可能侵蚀我们自身的理解能力。这便是§XIV中文明清醒度分析的微观基础。
II.4 · 概率:理与玄的交汇处
四种模式中的每一种,都可以用概率语言更深地理解,耗散是有序状态在可能性空间中被稀释,梯度是可能性分布的不均匀,选择是对可能性分布的系统性重塑,反馈是可能性分布的自我强化或自我修正。
但概率同时也揭示了理的边界。不确定性本身有层级5:从已知分布的风险(纯属理),到已知分布集合的模糊(理与玄的边界),再到连分布都未知的深度不确定(玄的领域)。我们最重要的人生决定,几乎都在后两层。
概率分布的形状可以被完美地数学描述。这属于理。
「为什么宇宙是概率性的而非确定性的」,没有任何理论能回答。此属于玄。
再深一层:每一次具体的概率实现(这个电子出现在这里而非那里)亦属于玄。概率分布能告诉你所有可能的结果及其概率,却无法告诉你「为什么是这个结果」。
你的生命也是如此。你出生的概率(特定精子遇到特定卵子)低到天文数字级别。「你」的存在几乎是不可能的。但你在这里。理可以计算这个概率;玄沉默地承接这个事实。
概率是理与玄的精确交汇点,概率的结构属于理,概率的存在属于玄。
甚至连概率论自身的公理体系也印证了这一点6。公理告诉你概率如何运算,却对概率的本质保持结构性的沉默。理的最精密工具,在最核心处,指向了理之外。
形式结构依赖图
以下图展示本章所有形式结构的逻辑依赖关系。箭头方向为\(A \to B\)表示「\(A\)依赖于\(B\)」(\(B\)是\(A\)的推导前提)。同一层级的结构水平排列。灰色节点为第一章定义的结构,本章继承使用。
小结
理非静态秩序,而是通过四种基本模式(耗散、梯度、选择、反馈)展开的动态结构。四种模式共同构成可理解性的全部面貌,且皆能用概率语言统一表达。概率正是理与玄的精确交汇点:结构属于理,存在属于玄。下一章从玄的方向出发,揭示理之外那不可言说的深度。
皮埃尔-西蒙·拉普拉斯在1814年的《概率的哲学随笔》(Laplace 1814)中提出了这一思想实验:一个假想的智能体若知道宇宙中每个粒子的位置和动量,就能推算出整个过去和未来。这个「妖」后来成为机械决定论的象征。量子力学的不确定性原理(海森堡(Heisenberg 1927),1927年)从物理学上否定了拉普拉斯之妖的可能性,并非因为我们测量不够精确,粒子在被测量之前就没有确定的位置和动量。↩︎
1964年,物理学家约翰·贝尔(John Bell,1928–1990)证明了一条定理:如果量子力学的概率性只是反映了某种隐藏的确定性变量,那么某些可测量的统计关联必须满足一组不等式(贝尔不等式)。此后数十年的实验,从阿兰·阿斯佩(Alain Aspect,1982年)到2022年诺贝尔物理学奖得主的工作,反复证实量子系统违反贝尔不等式。这意味着:量子概率无法被解释为对某个底层确定性世界的无知。宇宙在最基本的层面上确实是概率性的。↩︎
热力学第二定律(克劳修斯,1850年;玻尔兹曼,1877年):在封闭系统中,熵(无序度)永远不会自发减少。玻尔兹曼给出了统计力学的解释:有序状态在相空间中占据的体积远小于无序状态,系统自然趋向更大的相空间体积,即更无序的状态。薛定谔在《生命是什么?》(Schrödinger 1944)(1944年)中指出,生命的本质就是从环境中持续吸收「负熵」来维持自身有序结构。↩︎
贝叶斯定理(托马斯·贝叶斯,1763年遗作发表):\(P(H|E) = P(E|H) \cdot P(H) / P(E)\)。这个看似简单的公式描述了如何在获得新证据\(E\)之后更新对假设\(H\)的信念。达尔文的自然选择(1859年)可以被理解为贝叶斯更新的自然实现:环境是「证据」,适应度是「似然」,种群频率是「后验概率」。↩︎
经济学家弗兰克·奈特(Frank Knight,1885–1972)在《风险、不确定性与利润》(1921)中首先区分了「风险」(已知概率分布)与「不确定性」(未知分布)。当代决策理论进一步细分为三层:(1)风险:分布已知,可精确计算,纯属理的领域;(2)模糊:知道可能的分布集合但不知道哪个是对的,处于理与玄的边界;(3)深度不确定(奈特不确定性):连分布的可能集合都未知,进入玄的领域。日常生活中我们面对的大多数重要决定(职业选择、关系承诺、文明走向)都处于第二层或第三层。详见附录B.4。↩︎
1933年,安德烈·柯尔莫哥洛夫(Andrey Kolmogorov,1903–1987)在《概率论基础》(Grundbegriffe der Wahrscheinlichkeitsrechnung)中给出了概率论的公理化基础:三条公理(非负性、归一性、可数可加性)。这三条公理精确地规定了概率如何运算,却对概率是什么保持完全的沉默:它既不说概率是频率(频率派),也不说是信念度(贝叶斯派),也不说是物理倾向(倾向性派)。这一沉默并非理论的缺陷,而是玄在理最精密工具内部的显现。详见附录B.1。↩︎
这一章对你有帮助吗?