王斌在Nat Commun发文揭示大脑灵活决策背后的重要机制

2025年10月16日，华南师范大学心理学科王斌联合美国塔夫特大学的Michael Halassa教授和德国波鸿鲁尔大学的Burkhard Pleger教授在Nature Communications上在线发表题为Thalamic regulation of reinforcement learning strategies across prefrontal-striatal networks的研究论文。该研究揭示，人类大脑中一个关键结构—背内侧丘脑MD—在灵活决策过程中起到了关键作用，为理解大脑如何灵活调整决策策略从而产生适应性行为提供了新的视角。

我们的大脑每天都在复杂多变的环境中做出成千上万次决策。不同的人-甚至同一个人在不同的情形下-往往采取的决策策略也不同。想象两位棋手：一位棋手会采用基于习惯（habit-like）的策略，他根据过往的胜负模式，习得了在特定情形下胜率最高的走法，凭此决定走哪步棋。而另一位则更倾向于采用目标导向（goal-directed）的策略，基于规则模拟后续十几步的变化，通过这种对未来的模拟和规划，评估不同走法可能导致的局面优劣，从而做出最优决策。前者简单高效，但缺乏对环境结构的理解，后者灵活，适应性高，但计算复杂。在真实世界的复杂决策中，这两种策略并不是非此即彼——它们往往在大脑里相互协作，也相互竞争，根据环境需求和我们的经验动态调整，但它们在大脑中是如何被精确调节的，仍是一个未解之谜。

本研究采用概率性的反转学习任务，通过结合人类脑成像、神经网络建模和动物模型，证实了丘脑通过跨丘脑（trans-thalamic）间接通路介导皮层-皮层下通信，从而调节不同决策策略的转换以增强行为灵活性（图1A）。具体来说，当环境规则发生变化时，大脑中的背内侧丘脑（MD），背内侧前额叶（dmPFC）和纹状体（striatum）构成的功能网络对决策策略的调整发挥了重要作用。其中dmPFC负责规划，striatum主导习惯。进一步分析发现，MD如同一个调节枢纽，连接着大脑灵活地规划（PFC）与习惯（striatum）两大学习系统，帮助大脑推断情境变化并相应转换策略。重要的是，在更加灵活的目标导向的决策策略下，更加需要跨丘脑通路，这反映了MD能够在策略更新过程中灵活调节前额叶-纹状体环路的活动，促进决策策略的转换。这一机制在动物模型中得到进一步验证：MD功能失活显著损害了环境发生变化后的适应性行为的产生，证实了其对行为灵活性具有因果性影响（图1B）。

图1 研究结果概述

本研究进一步采用神经网络模型（CogLinks），提出了一个理论框架来解释MD在不同决策策略下的作用（图1C）。在CogLinks中，丘脑-皮层系统被视为元学习的关键枢纽，丘脑输出控制着认知过程中的关键皮层计算，这种控制直接将丘脑活动模式与不同的皮层动态机制联系起来，从而为在丘脑-皮层通路中建立上下文与感觉运动映射之间的高阶关联提供了一种途径。模型显示，基于习惯和基于目标导向的策略并非两种完全独立的机制，前者的产生源于前额叶-丘脑对于情境推断机制的失效。该机制的失效导致环境发生变化后前额叶皮层对决策策略表征的更新速率降低。重要的是，通过对前额叶皮层的fMRI实证数据解码分析验证了模型的预测，进一步支持了丘脑-皮层环路在不同策略的灵活转换过程中的重要作用。

该研究突破了传统上对丘脑功能的认知，不仅为理解大脑的决策灵活性提供了新的理论和实验依据，也为揭示强迫症、精神分裂症等精神疾病中常见的决策僵化、行为刻板等症状的神经环路机制指明了新的方向，为发展相应精准治疗策略指明了关键靶点。本研究得到了国家自然科学基金青年项目，广东省脑认知与人的素质发展基础学科研究中心，广东省自然科学基金面上项目的资助。

原文信息：Wang, B.A., Wang, M.B., Lam, N.H., Mengxing, L., Li, S., Wimmer, R.D., Paz-Alonso, P.M., Halassa, M.M., Pleger, B. Thalamic regulation of reinforcement learning strategies across prefrontal-striatal networks. Nat Commun 16, 9095 (2025). https://url.scnu.edu.cn/record/view/index.html?key=ed0ee9ec0eb758eb8e40528dac5a0474

新闻资讯