BioProSuite: 智能体与基准

摘要

科学实验自动化受阻于 LLM 难以稳定处理对精度要求极高的生物实验流程。我们提出 BioProBench（55 万任务样本）以揭示推理鸿沟，并提出神经符号框架 BioProAgent。通过将概率规划锚定在确定性的有限状态机（FSM）上，BioProAgent 在确保硬件合规的同时，显著优于 GPT-4 等基线。

🧬 数据集：BioProBench

我们提出 BioProBench，这是首个面向生物实验流程程序化推理的大规模资源，包含近 27,000 份 protocol 与超过 550,000 条结构化样本，覆盖生物学多个子领域。

BioProBench 概览。 (a) 由 27,000 份专业撰写 protocol 构成的基础语料； (b) 基于 BioProCorpus 构建的超过 550,000 条结构化数据集，并划分为用于微调的训练集与保留测试集；以及 (c) 一个带有新颖领域指标的严格基准，用于评估流程理解能力，包括基于关键词的内容指标与基于嵌入的结构指标，从而更准确地量化程序性知识。

🏆 BioProBench 排行榜

我们的基准排行榜基于新颖的领域指标，对主流 LLM 进行全面评估，可细粒度分析流程推理性能。它揭示了模型在科学 protocol 的理解、推理与生成方面的系统性短板，覆盖四类任务： PQA ERR ORD GEN.

主榜单

模型	类型	PQA (Acc)	ERR (Acc)	ORD (τ)	GEN (BLEU)
Bioproagent	我们的方法	85.08 🥇	81.55 🥇	0.891 🥇	16.37 🥇
闭源模型
gemini-3-flash-preview-nothinking	闭源	73.33	65.08	0.8096	10.31
claude-sonnet-4-5-20250929	闭源	68.02	63.17	0.7730	6.28
gpt-5.4-2026-03-05	闭源	70.67	63.58	0.7270	9.20
Gemini-2.5-Pro	闭源	70.27	64.83	0.810	7.11
Claude-3.7-Sonnet	闭源	63.90	60.93	0.734	8.38
GPT-4o	闭源	63.50	62.67	0.627	8.92
Gemini-2.0-Flash	闭源	63.44	58.67	0.637	9.18
GPT-4-Turbo	闭源	57.92	56.17	0.528	9.26
o3-mini	闭源	65.67	62.33	0.733	8.69
开源模型
DeepSeek-R1	开源	67.83 🥉	62.92	0.745 🥉	8.62
DeepSeek-V3	开源	66.58	58.58	0.640	9.37 🥉
QwQ-32b	开源	63.67	63.00 🥉	0.705	8.40
Qwen-2.5-72b-instruct	开源	65.30	59.17	0.657	10.27 🥈

* PQA：流程问答，ERR：错误识别/纠正，ORD：步骤排序，GEN：流程生成。
数据来自 BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning。

想看解决方案吗？ 看看 BioProAgent 如何弥补上述推理缺口，并在智能体执行任务上实现 100% 成功率。

🧪 Extended BioProBench 排行榜

我们在扩展版 BioProBench 上评估框架性能，包含四个专项子集：子集 A：流程起草子集 B：代码生成子集 C：长程任务子集 D：错误纠正。该基准包含覆盖 22 类核心合成生物设备的数字化硬件注册表（Ω），并采用严格的 API 级约束以弥合仿真到真实部署的差距。

子集 A
子集 B
子集 C
子集 D

方法	基座模型	ROUGE-L ↑	S_sem ↑	C_s ↑	Time (s) ↓
Direct	GPT-4o	0.107	0.202	0.189	13.8
Direct	Gemini-3-Flash	0.130	0.247	0.322	12.1
Direct	DeepSeek-V3	0.123	0.260	0.285	52.1
Biomni	(Specialized)	0.081	0.252	0.342	87.1
ReAct	Gemini-3-Flash	0.116	0.268	0.455	44.5
Reflexion	Gemini-3-Flash	0.118	0.282	0.439	148.4
AutoGPT	Gemini-3-Flash	0.116	0.258	0.429	119.6
BioProAgent	Gemini-3-Flash	0.147	0.344	0.591	71.8

方法	基座模型	S_code ↑	C_p ↑	Acc_param ↑
Direct	GPT-4o	0.590	0.995	0.295
Direct	Gemini-3-Flash	0.576	0.996	0.287
Direct	DeepSeek-V3	0.495	0.995	0.205
Biomni	(Specialized)	N/A	N/A	N/A
ReAct	Gemini-3-Flash	0.038	0.210	0.103
Reflexion	Gemini-3-Flash	0.278	0.534	0.403
AutoGPT	Gemini-3-Flash	0.540	0.911	0.468
BioProAgent	Gemini-3-Flash	0.653	0.956	0.610

方法	基座模型	Succ. ↑	Acc_param ↑	C_p ↑
ReAct	Gemini-3-Flash	88.9%	0.114	0.217
Reflexion	Gemini-3-Flash	33.3%	0.000	0.000
AutoGPT	Gemini-3-Flash	66.7%	0.409	0.644
BioProAgent	Gemini-3-Flash	100.0%	0.718	0.950

方法	基座模型	ACC_seq ↑	C_p ↑	Loop Rate ↓
ReAct	Gemini-3-Flash	0.0%	0.000	40.0%
Reflexion	Gemini-3-Flash	0.0%	0.000	0.0%
AutoGPT	Gemini-3-Flash	0.0%	0.000	0.0%
BioProAgent	Gemini-3-Flash	0.464	0.887	0.0%

🤖 方法：BioProAgent

BioProAgent：面向受约束科学规划的神经符号落地框架

状态增强自适应规划（FSM 约束的无脚本规划器）：摒弃刚性的线性流程，采用 神经符号框架，通过确定性的 有限状态机（FSM） 约束概率规划。智能体基于当前状态灵活选择检索、草案生成或代码生成，以应对 LLM 在湿实验物理执行约束下的能力不足。
科学审查：引入严格的科学反思机制（Validator），自动检查对照组缺失、逻辑缺陷、参数合理性与机器代码有效性，并执行严格的 Draft-Verify-Rectify (DVR) 工作流，确保实验 protocol 的科学严谨性。
自动化硬件对齐：读取实验设备与耗材清单（CSV），通过语义符号落地将自然语言步骤映射为具体机器操作，将 token 消耗降低约 6 倍。
混合记忆系统：
- 短期记忆：结合情景记忆与工作记忆，维持长程 protocol 一致性。
- 长期记忆：集成 Mem0 回忆历史实验经验。
人在回路：在关键决策节点主动请求用户确认，保障高风险湿实验操作安全。

BioProAgent 概览。 (a) 认知记忆通过符号落地 Φ 高效管理上下文； (b) 神经规划器 π₀ 落地于 Design-Verify-Rectify FSM Δ(σ)； (c) 分层验证（Kₛ, Kₚ）作为安全互锁，通过确定性触发修正来保证物理合规。

📈 BioProAgent 性能

BioProAgent 打破了科学推理与物理安全之间的取舍。与现有最优基线相比，它在硬件合规、长程稳定性和成本效率上表现更优：

卓越的物理合规性：物理合规率达到 95.6%，可作为关键安全互锁机制，抵御常导致 ReAct 智能体灾难性失败（21.0%）的幻觉问题。
自主自纠能力：在注入错误设置下，标准基线智能体纠错率均为 0%；而 BioProAgent 的 FSM 可动态覆盖不安全轨迹，将物理安全恢复到 88.7%。
成本效率：通过语义符号落地解耦高维数据负载，相比 AutoGPT 可减少约 82% 的 token 消耗，同时在 60 步长程工作流中保持 100% 成功率。

Scientific Reasoning vs. Automation Executability

图注：科学推理 vs. 自动化可执行性。普通 LLM 多位于理论区（逻辑推理强、可执行代码弱）；神经智能体（如 ReAct）虽常能生成更可执行的代码，却在科学推理上失效。BioProAgent 在两条维度上均取得更优表现，实现可信自主。

🔍 案例分析：FSM 驱动的自我纠错

标准 LLM 智能体通常采用开环执行：一旦生成危险参数（如超过离心机上限）就会立刻执行并导致物理失败。BioProAgent 会主动拦截这类幻觉。

图注：在物理违规案例 (a) 中，符号规则引擎拦截不安全转速上限（25,000g），强制切换到 RECTIFY_CODE 状态，并在安全范围（15,000g）内重新生成代码；在符号落地错误案例 (b) 中，系统检测到未定义资源 ID（"new_plate"），并引导智能体映射到已验证槽位（"plate_1"）。

BibTeX

@article{liu2026bioproagent,
  title   = {BioProAgent: Neuro-Symbolic Grounding for Constrained Scientific Planning},
  author  = {Liu, Yuyang and Wang, Jingya and Lv, Liuzhenghao and Tian, Yonghong},
  journal = {arXiv preprint arXiv:2603.00876},
  year    = {2026}
}

@article{liu2025bioprobench,
  title   = {BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning},
  author  = {Liu, Yuyang and Lv, Liuzhenghao and Zhang, Xiancheng and Yuan, Li and Tian, Yonghong},
  journal = {arXiv preprint arXiv:2505.07889},
  year    = {2025}
}

BioProSuite

迈向可靠的湿实验自主执行

摘要