加工过程中不使用人工合成食品添加剂

微软用 AI 构建“虚拟免疫人群”

作者：时间：2025-12-16 13:05 144人阅读

当一篇论文同时满足三个条件—登上 Cell、作者来自微软、提出“虚拟免疫人群”这一概念，它已经不只是一项技术工作，而是一条值得被认真解读的信号。

这篇 Cell 论文真正重要的，不是“AI 又预测了什么”，而是肿瘤免疫研究拥有了“人群级”的研究对象。

问题从一开始就不是“模型不够好”肿瘤免疫微环境（Tumor Immune Microenvironment, TIME）被认为是：决定肿瘤进展的关键因素、影响免疫治疗疗效的核心变量、新一代生物标志物的重要来源。

但现实是，真正能解析 TIME 的空间蛋白技术（mIF、CODEX、IMC）始终无法规模化，成本高、通量低、难以进入真实世界大队列，结果就是一个长期存在的结构性矛盾：我们对免疫机制的理解越来越精细，但这些理解几乎全部来自“小样本世界”。

微软的切入点：不是新实验，而是“补全可观测性”微软团队并没有试图发明新的免疫实验，而是提出了一个更现实的问题：既然 H&E 切片在几乎所有患者中都存在，而免疫状态又会反映在组织形态上，能否用 AI 学习二者之间的统计映射？于是，这项工作的目标被明确地限定为三点，不生成新的机制、不替代真实实验、只做一件事–把稀缺的免疫信息，扩展到可规模的人群，这一步，才是 GigaTIME 存在的意义。

训练数据：不是“拿公开数据随便训一训”论文中最重、也是最容易被忽略的工作，其实是数据工程。研究团队构建了一套严格配对的 H&E–mIF 数据集，同一块肿瘤组织、先进行 H&E 染色、再21通道多重免疫荧光染色、使用高精度图像配准算法，将两种染色对齐到同一空间坐标，随后，整张切片被切分为 256×256 像素的 patch，每个 patch 通常包含数百个细胞。在经历多轮质量控制（去背景、去配准失败区域、去低信息区域）后，最终用于训练的，是约5万个高质量配对patch，对应千万级细胞规模。这是一个非常昂贵、但不可替代的前置条件。

模型本身：并不炫技，但高度克制在模型选择上，微软团队的策略非常明确，稳定性优先于新颖性。最终使用的是 U-Net++（Nested U-Net），输入H&E patch，输出21 个免疫蛋白通道的空间激活图，每个通道被视为一个二值分割任务（激活 / 非激活），一个关键取舍是–连续荧光强度被二值化处理。这在表达精度上是妥协，但换来了三点好处，降低噪声、提高跨癌种泛化能力、让下游统计分析更稳健。

论文中也提到，他们测试过更大的 Vision Transformer，但计算成本极高，整体收益有限，并未作为最终方案。

评估方式：不仅看“像不像”，还看“有没有统计意义”为了避免“AI 生成图像很好看，但没用”的问题，作者设计了三层评估体系：像素级，衡量预测的免疫蛋白空间位置是否准确（Dice 系数），细胞级，在局部窗口内统计激活像素，与真实 mIF 进行相关性比较（Pearson），空间结构级，在 patch 和 slide 层面评估免疫分布格局是否一致（Spearman），在所有层级上，GigaTIME 都显著优于 CycleGAN 等无监督方法。这一步的意义在于–它证明模型学到的不是“风格”，而是空间组织规律。