AI4S LAB:全球首个“一站式”数字智能生命科学研究平台。 AI4S LAB 深度整合算力、数据、模型与实验,形成“理论预测 → 实验设计 → 自动执行 → 数据分析”的闭环流程。
科学实验自动化受阻于 LLM 难以稳定处理对精度要求极高的生物实验流程。 我们提出 BioProBench(55 万任务样本)以揭示推理鸿沟,并提出神经符号框架 BioProAgent。 通过将概率规划锚定在确定性的有限状态机(FSM)上,BioProAgent 在确保硬件合规的同时,显著优于 GPT-4 等基线。
我们提出 BioProBench,这是首个面向生物实验流程程序化推理的大规模资源, 包含近 27,000 份 protocol 与超过 550,000 条结构化样本, 覆盖生物学多个子领域。
BioProBench 概览。 (a) 由 27,000 份专业撰写 protocol 构成的基础语料; (b) 基于 BioProCorpus 构建的超过 550,000 条结构化数据集,并划分为用于微调的训练集与保留测试集;以及 (c) 一个带有新颖领域指标的严格基准,用于评估流程理解能力,包括基于关键词的内容指标与基于嵌入的结构指标,从而更准确地量化程序性知识。
我们的基准排行榜基于新颖的领域指标,对主流 LLM 进行全面评估,可细粒度分析流程推理性能。 它揭示了模型在科学 protocol 的理解、推理与生成方面的系统性短板,覆盖四类任务: PQA ERR ORD GEN.
| 模型 | 类型 | PQA (Acc) | ERR (Acc) | ORD (τ) | GEN (BLEU) |
|---|---|---|---|---|---|
| Bioproagent | 我们的方法 | 85.08 🥇 | 81.55 🥇 | 0.891 🥇 | 16.37 🥇 |
| 闭源模型 | |||||
| gemini-3-flash-preview-nothinking | 闭源 | 73.33 | 65.08 | 0.8096 | 10.31 |
| claude-sonnet-4-5-20250929 | 闭源 | 68.02 | 63.17 | 0.7730 | 6.28 |
| gpt-5.4-2026-03-05 | 闭源 | 70.67 | 63.58 | 0.7270 | 9.20 |
| Gemini-2.5-Pro | 闭源 | 70.27 | 64.83 | 0.810 | 7.11 |
| Claude-3.7-Sonnet | 闭源 | 63.90 | 60.93 | 0.734 | 8.38 |
| GPT-4o | 闭源 | 63.50 | 62.67 | 0.627 | 8.92 |
| Gemini-2.0-Flash | 闭源 | 63.44 | 58.67 | 0.637 | 9.18 |
| GPT-4-Turbo | 闭源 | 57.92 | 56.17 | 0.528 | 9.26 |
| o3-mini | 闭源 | 65.67 | 62.33 | 0.733 | 8.69 |
| 开源模型 | |||||
| DeepSeek-R1 | 开源 | 67.83 🥉 | 62.92 | 0.745 🥉 | 8.62 |
| DeepSeek-V3 | 开源 | 66.58 | 58.58 | 0.640 | 9.37 🥉 |
| QwQ-32b | 开源 | 63.67 | 63.00 🥉 | 0.705 | 8.40 |
| Qwen-2.5-72b-instruct | 开源 | 65.30 | 59.17 | 0.657 | 10.27 🥈 |
* PQA:流程问答,ERR:错误识别/纠正,ORD:步骤排序,GEN:流程生成。
数据来自 BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning。
我们在扩展版 BioProBench 上评估框架性能,包含四个专项子集:
子集 A:流程起草
子集 B:代码生成
子集 C:长程任务
子集 D:错误纠正。
该基准包含覆盖 22 类核心合成生物设备的数字化硬件注册表(Ω),并采用严格的 API 级约束以弥合仿真到真实部署的差距。
| 方法 | 基座模型 | ROUGE-L ↑ | S_sem ↑ | C_s ↑ | Time (s) ↓ |
|---|---|---|---|---|---|
| Direct | GPT-4o | 0.107 | 0.202 | 0.189 | 13.8 |
| Direct | Gemini-3-Flash | 0.130 | 0.247 | 0.322 | 12.1 |
| Direct | DeepSeek-V3 | 0.123 | 0.260 | 0.285 | 52.1 |
| Biomni | (Specialized) | 0.081 | 0.252 | 0.342 | 87.1 |
| ReAct | Gemini-3-Flash | 0.116 | 0.268 | 0.455 | 44.5 |
| Reflexion | Gemini-3-Flash | 0.118 | 0.282 | 0.439 | 148.4 |
| AutoGPT | Gemini-3-Flash | 0.116 | 0.258 | 0.429 | 119.6 |
| BioProAgent | Gemini-3-Flash | 0.147 | 0.344 | 0.591 | 71.8 |
| 方法 | 基座模型 | S_code ↑ | C_p ↑ | Acc_param ↑ |
|---|---|---|---|---|
| Direct | GPT-4o | 0.590 | 0.995 | 0.295 |
| Direct | Gemini-3-Flash | 0.576 | 0.996 | 0.287 |
| Direct | DeepSeek-V3 | 0.495 | 0.995 | 0.205 |
| Biomni | (Specialized) | N/A | N/A | N/A |
| ReAct | Gemini-3-Flash | 0.038 | 0.210 | 0.103 |
| Reflexion | Gemini-3-Flash | 0.278 | 0.534 | 0.403 |
| AutoGPT | Gemini-3-Flash | 0.540 | 0.911 | 0.468 |
| BioProAgent | Gemini-3-Flash | 0.653 | 0.956 | 0.610 |
| 方法 | 基座模型 | Succ. ↑ | Acc_param ↑ | C_p ↑ |
|---|---|---|---|---|
| ReAct | Gemini-3-Flash | 88.9% | 0.114 | 0.217 |
| Reflexion | Gemini-3-Flash | 33.3% | 0.000 | 0.000 |
| AutoGPT | Gemini-3-Flash | 66.7% | 0.409 | 0.644 |
| BioProAgent | Gemini-3-Flash | 100.0% | 0.718 | 0.950 |
| 方法 | 基座模型 | ACC_seq ↑ | C_p ↑ | Loop Rate ↓ |
|---|---|---|---|---|
| ReAct | Gemini-3-Flash | 0.0% | 0.000 | 40.0% |
| Reflexion | Gemini-3-Flash | 0.0% | 0.000 | 0.0% |
| AutoGPT | Gemini-3-Flash | 0.0% | 0.000 | 0.0% |
| BioProAgent | Gemini-3-Flash | 0.464 | 0.887 | 0.0% |
BioProAgent 概览。 (a) 认知记忆通过符号落地 Φ 高效管理上下文; (b) 神经规划器 π₀ 落地于 Design-Verify-Rectify FSM Δ(σ); (c) 分层验证(Kₛ, Kₚ)作为安全互锁,通过确定性触发修正来保证物理合规。
BioProAgent 打破了科学推理与物理安全之间的取舍。与现有最优基线相比,它在硬件合规、长程稳定性和成本效率上表现更优:
图注:科学推理 vs. 自动化可执行性。普通 LLM 多位于理论区(逻辑推理强、可执行代码弱);神经智能体(如 ReAct)虽常能生成更可执行的代码,却在科学推理上失效。BioProAgent 在两条维度上均取得更优表现,实现可信自主。
标准 LLM 智能体通常采用开环执行:一旦生成危险参数(如超过离心机上限)就会立刻执行并导致物理失败。BioProAgent 会主动拦截这类幻觉。
图注:在物理违规案例 (a) 中,符号规则引擎拦截不安全转速上限(25,000g),强制切换到 RECTIFY_CODE 状态,并在安全范围(15,000g)内重新生成代码;在符号落地错误案例 (b) 中,系统检测到未定义资源 ID("new_plate"),并引导智能体映射到已验证槽位("plate_1")。
@article{liu2026bioproagent,
title = {BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning},
author = {Liu, Yuyang and Wang, Jingya and Lv, Liuzhenghao and Tian, Yonghong},
journal = {arXiv preprint arXiv:2603.00876},
year = {2026}
}
@article{liu2025bioprobench,
title = {BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning},
author = {Liu, Yuyang and Lv, Liuzhenghao and Zhang, Xiancheng and Yuan, Li and Tian, Yonghong},
journal = {arXiv preprint arXiv:2505.07889},
year = {2025}
}