文献解读｜当机器学习遇见无细胞蛋白合成：蛋白工程进入“快速迭代”时代

更新时间：2026-02-05 点击次数：304

——解读 ACS Synthetic Biology 2025 新研究

Cell-Free Protein Synthesis as a Method to Rapidly Screen Machine Learning-Generated Protease VariantsThornton et al., ACS Synth. Biol., 2025

一、为什么“机器学习设计蛋白"，仍然离不开实验？

近年来，机器学习（Machine Learning, ML）在蛋白科学领域的影响力迅速扩大。从 AlphaFold 带来的结构预测革命，到各类序列生成模型用于蛋白设计，算法正在以未有的速度探索蛋白序列空间。

然而，一个现实问题始终存在：算法只能“提出假设"，而蛋白功能的优劣，仍然必须由实验数据来验证。

尤其是在酶工程和功能蛋白优化中，ML 模型对训练数据提出了更高要求——不仅要多，还要真实反映蛋白功能差异。传统依赖细胞表达、纯化和动力学表征的流程，往往周期长、通量有限，很容易成为 ML 迭代的瓶颈。

在这一背景下，Thornton 等人在 ACS Synthetic Biology 发表的这项研究，给出了一个具代表性的解决思路：

👉 将无细胞蛋白合成（CFPS）直接嵌入机器学习驱动的蛋白设计流程中。

二、研究思路一览：一个典型的“Create–Test–Learn"闭环

这项研究围绕一种人工设计的蛋白酶 Con1 展开，目标是提升其催化活性。整体流程可以概括为三个阶段：

通过仅两轮筛选、约百个变体，研究者成功获得了酶活性提升约 4 倍的突变体，展示了该流程在效率上的显著优势。

Create–Test–Learn 工作流程示意图（Thornton et al., ACS Synth. Biol., 2025）

三、无细胞蛋白合成在这里“厉害"在哪里？

值得注意的是，作者并没有把 CFPS 当作“传统细胞表达的替代方案"，而是将其定位为机器学习实验数据的加速器。

从方法学角度来看，CFPS 在这一工作中体现出三点关键价值：

快速获得“可比较"的功能数据

研究中并未追求严格的动力学绝-对参数，而是通过统一条件下的反应初始速率作为 fitness 指标。事实证明，这种相对比较数据已经足以支撑 ML 对突变体优劣的判断。

开放体系，实验设计更自由

无细胞体系不受细胞生存、毒性或底物通透性限制，尤其适合早期功能筛选和多突变组合的测试。

实验速度，决定 ML 是否真正“跑得动"

当一轮蛋白表达和功能测试可以在数小时内完成，机器学习的“主动学习"优势才能被真正释放。

CFPS 与纯化蛋白活性对比（Thornton et al., ACS Synth. Biol., 2025）

四、从文献到产业实践：稳定 CFPS 平台的重要性

文中作者也明确指出，如果采用更成熟、标准化的无细胞蛋白合成体系，该流程在通量、重复性和自动化方面仍有提升空间。

这恰恰反映了当前行业的一个重要趋势：无细胞蛋白合成正在从“实验室方法"，演进为“工程化工具"。

在这一方向上，珀罗汀生物（PLD Technology）正致力于将无细胞蛋白表达打造成可直接嵌入蛋白设计、筛选和验证流程的通用工具，服务于酶工程、功能蛋白研究以及 AI 蛋白设计等场景。

当 CFPS 不再需要研究者投入大量精力进行体系搭建，而是能够稳定输出高质量蛋白和功能数据时，机器学习模型的优势才能被充分放大。

珀罗汀生物联合自动化仪器进行高通量筛选应用

五、总结：蛋白工程的核心竞争力正在发生变化

这项研究传递出一个非常清晰的信号：

未来蛋白工程的竞争，不仅是算法的竞争，也不仅是实验技术的竞争，而是“数据生成效率 × 设计迭代速度"的综合竞争。

无细胞蛋白合成，正在成为连接“计算设计"与“实验验证"的关键桥梁。而当这一桥梁足够稳定、足够快速，蛋白工程的创新节奏也将被重新定义。