BioProSuite

迈向可靠的湿实验自主执行

刘宇阳1, 吕刘正浩1,张宪成1, 汪静雅1,2, 袁粒1,2, 田永鸿1,2
1Peking University, 2School of AI4S
最新动态
[2026-04-01] ICML Rebuttal 更新:我们新增了 gpt-5.4-2026-03-05gemini-3-flash-preview-nothinkingclaude-sonnet-4-5-20250929 在 PQA/ERR/ORD/GEN 四项任务上的评测结果。
[2026-03-31] 数据划分更新:我们已正式发布各任务(PQA、ORD、ERR、GEN、REA)的 Train/Test 划分,便于社区进行一致的训练与评测。
[2026-03-18] BioProAgent 已上线 AI4S LAB!欢迎试用并在此下单湿实验
[2026-03-03] BioProAgent 已被 ICLR 2026 LLA Workshop 接收。
[2026-03-01] BioProAgent 论文预印本已发布在 arXiv
[2026-01-21] BioProBench 论文已更新。
[2025-12] 代码与数据集(v1.0)已在 GitHub 发布。

AI4S LAB:全球首个“一站式”数字智能生命科学研究平台。 AI4S LAB 深度整合算力、数据、模型与实验,形成“理论预测 → 实验设计 → 自动执行 → 数据分析”的闭环流程。

摘要

科学实验自动化受阻于 LLM 难以稳定处理对精度要求极高的生物实验流程。 我们提出 BioProBench(55 万任务样本)以揭示推理鸿沟,并提出神经符号框架 BioProAgent。 通过将概率规划锚定在确定性的有限状态机(FSM)上,BioProAgent 在确保硬件合规的同时,显著优于 GPT-4 等基线。

🧬 数据集:BioProBench

我们提出 BioProBench,这是首个面向生物实验流程程序化推理的大规模资源, 包含近 27,000 份 protocol 与超过 550,000 条结构化样本, 覆盖生物学多个子领域。

BioProBench Statistics

BioProBench 概览。 (a) 由 27,000 份专业撰写 protocol 构成的基础语料; (b) 基于 BioProCorpus 构建的超过 550,000 条结构化数据集,并划分为用于微调的训练集与保留测试集;以及 (c) 一个带有新颖领域指标的严格基准,用于评估流程理解能力,包括基于关键词的内容指标与基于嵌入的结构指标,从而更准确地量化程序性知识。

🏆 BioProBench 排行榜

我们的基准排行榜基于新颖的领域指标,对主流 LLM 进行全面评估,可细粒度分析流程推理性能。 它揭示了模型在科学 protocol 的理解、推理与生成方面的系统性短板,覆盖四类任务: PQA ERR ORD GEN.

模型 类型 PQA (Acc) ERR (Acc) ORD (τ) GEN (BLEU)
Bioproagent 我们的方法 85.08 🥇 81.55 🥇 0.891 🥇 16.37 🥇
闭源模型
gemini-3-flash-preview-nothinking 闭源 73.33 65.08 0.8096 10.31
claude-sonnet-4-5-20250929 闭源 68.02 63.17 0.7730 6.28
gpt-5.4-2026-03-05 闭源 70.67 63.58 0.7270 9.20
Gemini-2.5-Pro 闭源 70.27 64.83 0.810 7.11
Claude-3.7-Sonnet 闭源 63.90 60.93 0.734 8.38
GPT-4o 闭源 63.50 62.67 0.627 8.92
Gemini-2.0-Flash 闭源 63.44 58.67 0.637 9.18
GPT-4-Turbo 闭源 57.92 56.17 0.528 9.26
o3-mini 闭源 65.67 62.33 0.733 8.69
开源模型
DeepSeek-R1 开源 67.83 🥉 62.92 0.745 🥉 8.62
DeepSeek-V3 开源 66.58 58.58 0.640 9.37 🥉
QwQ-32b 开源 63.67 63.00 🥉 0.705 8.40
Qwen-2.5-72b-instruct 开源 65.30 59.17 0.657 10.27 🥈

* PQA:流程问答,ERR:错误识别/纠正,ORD:步骤排序,GEN:流程生成。
数据来自 BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning

想看解决方案吗? 看看 BioProAgent 如何弥补上述推理缺口,并在智能体执行任务上实现 100% 成功率

🧪 Extended BioProBench 排行榜

我们在扩展版 BioProBench 上评估框架性能,包含四个专项子集: 子集 A:流程起草 子集 B:代码生成 子集 C:长程任务 子集 D:错误纠正。 该基准包含覆盖 22 类核心合成生物设备的数字化硬件注册表(Ω),并采用严格的 API 级约束以弥合仿真到真实部署的差距。

方法基座模型 ROUGE-L ↑S_sem ↑C_s ↑Time (s) ↓
DirectGPT-4o0.1070.2020.18913.8
DirectGemini-3-Flash0.1300.2470.32212.1
DirectDeepSeek-V30.1230.2600.28552.1
Biomni(Specialized)0.0810.2520.34287.1
ReActGemini-3-Flash0.1160.2680.45544.5
ReflexionGemini-3-Flash0.1180.2820.439148.4
AutoGPTGemini-3-Flash0.1160.2580.429119.6
BioProAgentGemini-3-Flash0.1470.3440.59171.8
方法基座模型 S_code ↑C_p ↑Acc_param ↑
DirectGPT-4o0.5900.9950.295
DirectGemini-3-Flash0.5760.9960.287
DirectDeepSeek-V30.4950.9950.205
Biomni(Specialized)N/AN/AN/A
ReActGemini-3-Flash0.0380.2100.103
ReflexionGemini-3-Flash0.2780.5340.403
AutoGPTGemini-3-Flash0.5400.9110.468
BioProAgentGemini-3-Flash0.6530.9560.610
方法基座模型 Succ. ↑Acc_param ↑C_p ↑
ReActGemini-3-Flash88.9%0.1140.217
ReflexionGemini-3-Flash33.3%0.0000.000
AutoGPTGemini-3-Flash66.7%0.4090.644
BioProAgentGemini-3-Flash100.0%0.7180.950
方法基座模型 ACC_seq ↑C_p ↑Loop Rate ↓
ReActGemini-3-Flash0.0%0.00040.0%
ReflexionGemini-3-Flash0.0%0.0000.0%
AutoGPTGemini-3-Flash0.0%0.0000.0%
BioProAgentGemini-3-Flash0.4640.8870.0%

🤖 方法:BioProAgent

BioProAgent:面向受约束科学规划的神经符号落地框架

  • 状态增强自适应规划(FSM 约束的无脚本规划器): 摒弃刚性的线性流程,采用 神经符号框架,通过确定性的 有限状态机(FSM) 约束概率规划。智能体基于当前状态灵活选择检索、草案生成或代码生成, 以应对 LLM 在湿实验物理执行约束下的能力不足。
  • 科学审查: 引入严格的科学反思机制(Validator),自动检查对照组缺失、逻辑缺陷、参数合理性与机器代码有效性, 并执行严格的 Draft-Verify-Rectify (DVR) 工作流,确保实验 protocol 的科学严谨性。
  • 自动化硬件对齐: 读取实验设备与耗材清单(CSV),通过语义符号落地将自然语言步骤映射为具体机器操作, 将 token 消耗降低约 6 倍。
  • 混合记忆系统
    • 短期记忆:结合情景记忆工作记忆,维持长程 protocol 一致性。
    • 长期记忆:集成 Mem0 回忆历史实验经验。
  • 人在回路: 在关键决策节点主动请求用户确认,保障高风险湿实验操作安全。
BioProAgent Architecture

BioProAgent 概览。 (a) 认知记忆通过符号落地 Φ 高效管理上下文; (b) 神经规划器 π₀ 落地于 Design-Verify-Rectify FSM Δ(σ)(c) 分层验证(Kₛ, Kₚ)作为安全互锁,通过确定性触发修正来保证物理合规。


📈 BioProAgent 性能

BioProAgent 打破了科学推理与物理安全之间的取舍。与现有最优基线相比,它在硬件合规、长程稳定性和成本效率上表现更优:

  • 卓越的物理合规性:物理合规率达到 95.6%,可作为关键安全互锁机制,抵御常导致 ReAct 智能体灾难性失败(21.0%)的幻觉问题。
  • 自主自纠能力:在注入错误设置下,标准基线智能体纠错率均为 0%;而 BioProAgent 的 FSM 可动态覆盖不安全轨迹,将物理安全恢复到 88.7%
  • 成本效率:通过语义符号落地解耦高维数据负载,相比 AutoGPT 可减少约 82% 的 token 消耗,同时在 60 步长程工作流中保持 100% 成功率。
Scientific Reasoning vs. Automation Executability

图注:科学推理 vs. 自动化可执行性。普通 LLM 多位于理论区(逻辑推理强、可执行代码弱);神经智能体(如 ReAct)虽常能生成更可执行的代码,却在科学推理上失效。BioProAgent 在两条维度上均取得更优表现,实现可信自主

🔍 案例分析:FSM 驱动的自我纠错

标准 LLM 智能体通常采用开环执行:一旦生成危险参数(如超过离心机上限)就会立刻执行并导致物理失败。BioProAgent 会主动拦截这类幻觉。

Self-Correction Trajectories

图注:在物理违规案例 (a) 中,符号规则引擎拦截不安全转速上限(25,000g),强制切换到 RECTIFY_CODE 状态,并在安全范围(15,000g)内重新生成代码;在符号落地错误案例 (b) 中,系统检测到未定义资源 ID("new_plate"),并引导智能体映射到已验证槽位("plate_1")。

BibTeX

@article{liu2026bioproagent,
  title   = {BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning},
  author  = {Liu, Yuyang and Wang, Jingya and Lv, Liuzhenghao and Tian, Yonghong},
  journal = {arXiv preprint arXiv:2603.00876},
  year    = {2026}
}

@article{liu2025bioprobench,
  title   = {BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning},
  author  = {Liu, Yuyang and Lv, Liuzhenghao and Zhang, Xiancheng and Yuan, Li and Tian, Yonghong},
  journal = {arXiv preprint arXiv:2505.07889},
  year    = {2025}
}