![]()
这项由普林斯顿大学语言与智能实验室(Princeton Language and Intelligence)开展的研究,于2026年4月发表,论文编号为arXiv:2604.11753。有兴趣深入了解的读者可以通过该编号在arXiv平台查询完整论文。
当你委托一家侦探事务所调查一个复杂案件时,聪明的做法往往不是只派一个侦探去查,而是同时派出多名侦探分头行动,最后再把各自的发现汇总,由一位经验丰富的老侦探综合研判,得出最终结论。这篇论文要解决的,正是这样一个问题:当我们同时让多个AI探员去执行复杂的信息搜索或深度研究任务时,如何把他们各自的调查结果汇聚成一个最优的最终答案?
研究团队提出的方案叫做**AggAgent**(聚合探员),它本质上也是一个AI探员,只不过它的任务不是去互联网上搜索信息,而是翻阅其他探员留下的调查笔记,然后综合研判,给出最终结论。
一、为什么要派多个AI同时工作?
以下先从问题的根源说起。近年来,大型语言模型(也就是像ChatGPT这类AI)在回答问题、写文章、做研究等方面越来越厉害。研究人员发现,让AI多思考一会儿、多尝试几次,往往能得到更好的结果——这种做法被称为"测试时算力扩展",通俗来说就是用更多计算资源换取更好的输出质量。
对于数学题、编程题这类有标准答案的任务,一个成熟的做法是让AI生成多个答案,然后选最多AI同意的那个(就像班级投票选班长)。但论文研究的是一类更复杂的任务:让AI去互联网上搜索信息、撰写长篇深度报告,或者回答需要查阅大量资料才能解答的专业问题。这类任务的特点是,AI需要反复搜索、点击网页、阅读内容、综合信息,整个过程可能长达数百个步骤,产生的"调查日志"动辄几十万字。
研究团队发现,对这类复杂任务,同时派出多个AI探员并行工作的效果非常显著。以GLM-4.7-Flash这个模型为例,单个探员独立工作时在BrowseComp(一个专门测试网络信息搜索能力的题库)上的正确率只有27%,但同时派出8个探员,只要其中至少有一个答对了,成功率就能飙升到59%。换句话说,正确答案很可能已经藏在某个探员的调查笔记里了——关键在于怎么把它找出来。
二、现有的汇总方法为什么都不够用?
这就引出了核心难题:如何把8个探员各自冗长的调查报告汇总成一个最佳答案?
研究团队梳理了现有的几类汇总方法,并指出了它们各自的局限。
最简单的方法是"投票"——看哪个答案出现的次数最多就选哪个。但这种方法有明显缺陷:当任务要求给出多个答案,或者答案本身是一篇长篇报告时,投票根本无法操作。此外,很多时候正确答案只有一个探员找到了,多数人投票会把它淘汰掉。研究团队还测试了"置信度加权投票",也就是让置信度高的探员的答案权重更大。这个方法在某些任务上有效,但在医学问答和开放式研究报告类任务上几乎没用,因为AI在这类任务上的自信程度和它实际答得有多对根本不相关——AI可能信心满满地给出一个错误答案。另一个流行方法叫"最少工具调用"——选那个搜索次数最少、步骤最简洁的探员的结论,理由是简洁往往意味着思路清晰。这个方法在某些简单的搜索任务上偶尔有效,但同样缺乏通用性。
更聪明一些的做法是"方案汇总":把8个探员各自的最终答案(只取最后的结论,不看过程)一股脑丢给一个AI,让它综合出最终答案。这个方法比投票进步了不少,但丢失了探员调查过程中积累的大量关键证据。更进阶的版本是"摘要汇总":先把每个探员长达数十万字的调查日志压缩成一份精简摘要,再把8份摘要交给AI综合。问题是,压缩过程本身会丢失很多细节,而且需要额外运行8次AI压缩任务,成本极高。
研究团队把这个两难困境形象地概括为:直接把所有探员的完整日志塞给AI,会超出AI的记忆上限(类似于让一个人同时读完8本厚书,超出了短时记忆容量);但只看最终结论或者压缩摘要,又会丢失大量关键证据。
三、AggAgent:像侦探长一样翻阅案卷的AI
面对上述困境,普林斯顿的研究团队提出了一个核心思路:既然8个探员的完整日志太长、无法一次性全部读完,那就给"侦探长"配备一套专用工具,让它能够按需翻阅案卷,而不是被迫一口气读完所有内容。
AggAgent的工作方式是这样的:它首先看一眼每个探员的案卷摘要信息——比如这个探员一共走了多少步、用了哪些工具、搜索了多少次——相当于快速浏览案卷封面。然后,它调用第一个工具"get\_solution",获取所有探员的最终结论,相当于把8份报告的最后一页全部摊开来对比。
发现有分歧之后,AggAgent会像侦探长一样开始深挖具体细节。它有第二个工具"search\_trajectory":给定一个关键词,在某个探员的完整日志里做关键词检索,返回最相关的几个步骤——类似于在一本厚厚的侦探日记里搜索"嫌疑人"这个词,直接跳到最关键的段落。这个工具还有一个细心的设计:可以指定只搜索"工具返回的客观观测结果",而不是搜索"探员自己的主观推断",因为前者才是可信的第一手证据。第三个工具是"get\_segment",可以读取某个探员日志中连续若干步骤的完整内容,相当于把那几页案卷完整翻出来仔细阅读。最后,当AggAgent确认了关键证据,就调用"finish"工具提交最终答案,并附上综合研判的理由。
这套工具的妙处在于:AggAgent不需要把所有探员的全部日志都装进脑子里,而是用"先粗读后精读"的策略,只在需要时精准地读取关键片段。整个汇总过程的计算量,被控制在和单次探员工作相当的水平,不会随着探员数量的增加而急剧膨胀。
四、实验设计:考验这位侦探长的六道难题
为了验证AggAgent的效果,研究团队设计了全面的测试体系,使用了三类不同规模的AI模型——30亿参数的GLM-4.7-Flash、1220亿参数的Qwen3.5-122B,以及2290亿参数的MiniMax-M2.5——在六个不同的任务场景上进行了横向对比。
六个任务涵盖两大类别。第一类是"信息搜索类",包括四个具体任务:BrowseComp要求AI通过多步骤网络浏览找到极其刁钻的事实性问题的答案;BrowseComp-Plus是在本地知识库中完成类似任务;HLE(Humanity's Last Exam)是一套涵盖各学科的专家级题目;DeepSearchQA要求AI找出一个问题的所有正确答案,缺一不可。第二类是"深度研究类",包括两个任务:Healthbench-Hard要求AI针对复杂医学问题生成全面的长篇回答;ResearchRubrics是开放式研究任务,答案质量按照多维度细则评分。
每个任务、每个模型都并行运行8个AI探员,每个探员最多可以进行100次工具调用,上下文窗口最长128000个词(约等于一部厚厚的长篇小说)。研究团队统计了每种汇总方法的准确率、成本(以美元计)和延迟时间(以秒计),进行了全面比较。
五、实验结果:侦探长胜出,而且成本惊人地低
实验结果显示,AggAgent在几乎所有任务和所有模型上都超越了其他所有汇总方法。相比单个探员独立工作,使用8个探员加AggAgent汇总,平均提升了13到18个百分点。相比最强的现有竞争者"方案汇总",AggAgent平均再提升了2到5个百分点,在深度研究类任务(医学问答和研究报告)上更是领先超过10个百分点。
数字背后有个很有意思的现象:摘要汇总方法在信息搜索类任务上表现还不错(因为把调查日志压缩成摘要还能保留关键事实),但在深度研究类任务上却表现很差——因为生成长篇医学报告或研究报告时,摘要压缩会破坏内容的细节和逻辑连贯性,导致输出质量大幅下滑。AggAgent则在两类任务上都保持了强劲表现。
成本方面,研究团队做了精细的核算。以8个探员并行工作为例,探员本身的运行成本(网络搜索API费用加上AI计算费用)是固定的,各种汇总方法都在这个基础上增加额外开销。投票类方法几乎不增加额外成本,但效果有限。方案汇总只需要一次额外的AI调用,成本增加约3.7%。AggAgent需要进行多轮工具调用式的汇总推理,额外成本约为5.7%。而摘要汇总需要先对每个探员的报告分别压缩,再做最终汇总,额外成本高达41%。也就是说,AggAgent用比方案汇总多一点点的代价,换来了远优于摘要汇总的效果,是性价比最高的方案。
延迟时间方面同样如此。方案汇总速度最快,但效果有限;摘要汇总因为需要串并行多次AI调用,实际延迟也较长;AggAgent的延迟和方案汇总处于同一量级,远低于摘要汇总。
六、进阶发现:派一个更厉害的侦探长会怎样?
研究团队还追问了一个有趣的问题:如果派出的8个探员能力有限(使用小模型GLM-4.7-Flash),但聘请一位能力更强的侦探长(使用大模型MiniMax-M2.5)来汇总,效果会怎样?
实验结果显示,聘请更强的侦探长确实能进一步提升成绩。在BrowseComp-Plus这个任务上,用8个小探员加强侦探长的组合,甚至超过了"8个探员中至少有一个答对"这个理论上限(Pass@8)。这说明,更强的侦探长有能力把多个探员的不完整线索拼凑成一个任何单个探员都给不出的完整答案。这个发现对实际产品设计很有启发:在多智能体系统中,可以用大量廉价的小模型做并行搜索,再用一个能力较强的模型专门负责汇总——"廉价侦探多跑腿,精英侦探长做研判"的分工模式,在成本和效果上都可能达到很好的平衡。
七、综合还是精选?侦探长应该写新报告还是直接采用某份旧报告?
研究团队还做了一个颇具启发性的对比实验:既然AggAgent可以在阅读完所有日志后综合写出一份全新的最终答案,那如果它只做"选择"而非"创作"——即直接从8份报告中选出最好的那份——效果会有什么差别?
实验结果显示,综合创作的效果整体上优于直接选择。尤其是在深度研究类任务上,差距相当明显。原因不难理解:研究报告的质量是分散的,每个探员可能在某些方面写得很好,在另一些方面有所欠缺,没有哪个探员能做到面面俱到。直接选一份等于接受了某个探员的全部缺陷,而综合创作则可以从各探员那里各取所长,拼出一份更完整的报告。对于信息搜索类任务,由于每个问题往往只有一个正确答案,探员要么答对要么答错,直接选择最好那份的策略相对合理,但综合创作仍然略占优势。
八、侦探长的工作习惯:它到底怎么用这些工具?
研究团队还对AggAgent的实际工具使用情况做了统计分析。数据显示,"关键词检索"工具(search\_trajectory)占到了总工具调用次数的绝大部分,而"获取最终结论"(get\_solution)和"提交答案"(finish)各自大约只被调用一次——符合设计的工作流程:先看一眼所有人的结论,再反复检索关键细节,最后一锤定音。"读取完整片段"(get\_segment)的使用频率低于关键词检索,说明AggAgent确实做到了精准定位、按需精读,而非盲目翻阅大量内容。
另一个有趣的规律是:模型能力越强,AggAgent需要调用的工具次数越少。GLM-4.7-Flash作为侦探长时平均每次任务需要约14到18次工具调用,而MiniMax-M2.5作为侦探长时只需要5到12次。能力更强的侦探长在看完最终结论后往往就能做出更准确的判断,不需要反复翻阅细节。深度研究类任务相比信息搜索类任务工具调用次数也更少,可能是因为研究报告类任务中各探员的分歧更多体现在内容取舍上,而非某个具体事实的对错。
研究团队还分析了AggAgent在哪些场景下能扭转局势,从错误中找到正确答案。他们归纳了四类典型行为:其一是"少数派发现"——多数探员给出了错误答案,但AggAgent从少数探员的调查日志中找到了有力的证据支持,坚持了正确答案。其二是"分歧消解"——多个探员给出了不同答案,AggAgent通过对比原始工具返回的客观数据,判断出哪一份证据更可靠。其三是"跨日志综合"——所有探员的结论都是错误的,但每个探员的日志中都包含某一块拼图碎片,AggAgent把这些碎片拼在一起得出了正确答案,任何单一探员都无法单独完成这个工作。其四是"启发式研判"——AggAgent先把多数人的答案当作一个参考基准,然后去追查持不同意见的那个探员的推理过程,最终判断它是犯了某种系统性错误,从而坚持了多数人的答案。
说到底,这项研究解决的是一个相当实际的工程问题:在商业化部署大量AI探员时,怎么把它们的输出汇聚成最好的结果,同时把额外的时间和金钱成本控制在最低。答案是:给汇总这件事本身也配一个会用工具的AI探员,让它像侦探长一样按需翻阅案卷,而不是被迫把所有案卷都装进脑子里,也不用事先把所有案卷压缩成可能失真的摘要。
这项研究目前尚未涉及对AggAgent本身进行专门训练——它使用的是现成的商业AI模型,开箱即用。研究团队明确指出,专门针对汇总任务训练一个聚合探员,是下一步很有前景的方向。如果你对多智能体系统、大模型的并行推理或测试时算力扩展等话题感兴趣,不妨通过arXiv编号2604.11753查阅这篇论文的完整版本。
Q&A
Q1:AggAgent和普通的"让AI综合多个答案"有什么不同?
A:普通方案汇总只把多个AI的最终结论交给AI综合,相当于只看每个侦探的最终结论。AggAgent则配备了工具,可以按需翻阅每个AI的完整调查过程,定向检索关键证据,相当于侦探长能随时翻阅案卷原文。这使得它能发现并纠正某些探员在推理中犯的错误,还能把多个探员各自发现的不同线索拼合成完整答案。
Q2:AggAgent运行起来成本高吗?
A:相比只看最终答案的方案汇总,AggAgent在8个并行探员的基础上只增加约5.7%的额外成本,远低于先压缩每个探员报告再汇总的摘要汇总方法(后者额外成本高达41%)。换句话说,AggAgent用比摘要汇总便宜得多的代价,取得了比它更好的效果。
Q3:多个AI探员并行工作比单个探员工作强在哪里?
A:并行工作最大的优势是,不同探员可能走不同的搜索路径,覆盖更多可能的线索。以GLM-4.7-Flash模型为例,单个探员在BrowseComp任务上正确率只有27%,但同时派8个探员,只要其中一个答对,成功率就能达到59%。AggAgent的价值正在于把这59%的潜在成功率,尽可能转化为最终输出的实际成功率。