文 | 划要点 KeyPoints开yun体育网
1、李飞飞最新论文,为当下火热的 Agent 端正了范围、诞生了范式。谷歌、OpenAI 和微软等巨头的最新布局,险些都盲从了论文给出的智商栈。
2、论文提议了一套完满的走漏闭环架构——从感知、走漏、行动,到学习与操心,组成动态迭代的智能体体系。这不仅是技艺的整合,更是对异日 AGI 旅途的系统性构想。
3、大模子是驱动 Agent 的核心引擎,但环境交互是处置幻觉和偏见的要道锚点。论文强调,LLM/VLM 提供走漏智商,但必须通过委果或模拟环境的反映来校准推行,减少幻觉,并引入伦理与安全机制。
4、应用后劲横跨游戏、机器东谈主和医疗三大前沿范围——游戏中的千里浸式 NPC、机器东谈主中的自主盘算与物理操作、医疗中的智能问诊与健康管制,展现了 Agent 从表面走向实践的了了旅途。
2025 年,被普遍以为是 Agent 的元年,与之关联的看法从年头于今热度不息走高,包括智能体、AI Agent、Agentic AI 等等。
而就在最近,一篇由李飞飞领衔的 Agent 重磅论文在业内激发了鄙俚讨论,热度居高不下。网友们如斯评价:"险些是跪着看完的"、"太了了,硬控了我 3 个小时"。
这篇长达 80 页的综述名为《Agent AI: Surveying the Horizons of Multimodal Interaction》,由李飞飞等 14 位来自斯坦福大学和微软的内行荟萃撰写。
它之是以备受崇尚,是因为这篇综述为 Agent 这一略显邋遢的范围,建立了一个了了的框架:从感知 - 方案 - 行动,到操心、器具使用、环境交互与评测,试图把散布在对话模子、视觉 - 讲话模子、强化学习、器具调用等技艺印迹,长入到一个多模态 Agent 的新视角里。
而且,天然这篇论文最早发表于旧年年底,但站在当下节点回想本年 Agent 的发展,谷歌、OpenAI 和微软等主流玩家的核心打发,险些都是按照论文给出的智商栈来股东的;这也反过来印证了论文对"从大模子到 Agent "这一演进旅途的前瞻性判断。
也正如李飞飞在自传《我看见的宇宙》里强调的,"当今学生太过于追求热门,其实许多老论文短长常经典且具备模仿兴致";即便这篇综述发表于今不外半年,但其兴致之大、影响之深,仍值得每一位 AI 从业者深远品读。
接下来,咱们就沿途望望这篇摘要性巨作的核心价值。
Agent AI 的核心:一个全新的智能体走漏架构
方法悟这篇论文的精髓,最初必须把捏其提议的全新 Agent AI 范式。这远非对现存技艺栈的简便勉强,更是一种对异日通用东谈主工智能(AGI)发展旅途的前瞻性念念考。
论文中的架构图,便了了地界说了这个范式的五个核心模块,它们共同组成了一个完满的、可交互的智能体走漏闭环。
最初是环境与感知(Environment and Perception),这是智能体与宇宙交互的发轫。
与传统模子被迫罗致结构化数据不同,Agent AI 主动从物理或杜撰宇宙中感知信息;这种感知是多模态的,涵盖视觉、听觉、文本、传感器数据等。
更紧要的小数是,感知模块内嵌了任务盘算与技能不雅察(Task-Planning and Skill Observation)的智商;这意味着 Agent 在感知环境时,并非迷茫地罗致一切信息,而是带着明确的主张去清爽。
第二个核心模块是走漏(Cognition)。
要是说感知是输入,那么走漏就是处理核心,是 Agent 的"大脑"。论文将走漏界说为一个极其复杂的系统,包含念念考、意志、感知、共情等高档智能行为。
这恰是大讲话模子(LLM)和视觉讲话模子(VLM)证据核心作用的场域。它们为 Agent 提供了强劲的宇宙知识、逻辑推理和高下文清爽智商。走漏模块认真评释注解感知到的信息,进行多步推理,并制定出终了方针的计谋。
接下来是行动(Action),它相连走漏模块的方案,认真生成具体的操作指示。
这些指示不错是与物理宇宙交互的机器东谈主贬抑号召(如出动、抓取),也不错是与杜撰宇宙交互的 API 调用、代码生成或天然讲话回答。行动模块通过贬抑器(Controller)作用于环境,从而窜改环境的状况。
第四个核心模块是学习(Learning)。
Agent AI 并非一个静态系统,其核心上风在于不息学习和自我进化的智商。论文强调了多种学习机制,包括预检修(Pretraining)、零样本 / 少样本学习(Zero-shot/Few-shot)、强化学习(RL)和效法学习(IL)。
通过与环境的交互(即" Agent Interactive Closed-loop "),Agent 从得手和失败的训戒中学习。环境的反映(Feedback)会回流至学习和操心模块,用于优化异日的方案。
临了开yun体育网,就是操心(Memory)。
传统模子的"操心"频繁局限于片晌的高下文窗口,而 Agent AI 的操心模块则是一个更耐久、更结构化的系统。它存储着知识(Knowledge)、逻辑(Logic)、推理旅途(Reasoning)和推断(Inference)的结束。
这使得 Agent 大概从昔日的训戒中索肄业识,酿成永恒操心,从而在面对新任务时,无须从零运行,而是不错举一反三。
这五个模块共同组成了一个动态的、不息迭代的闭环。Agent 通过感知环境,在走漏核心的驱动下作念出方案,通过行动窜改环境,再从环境的反映中学习和更新操心,从而在每一次交互中,都比上一次更智能、更高效。
大模子怎样驱动 Agent AI?
咱们刚才解读的 Agent AI 新范式,不错说是这篇综述蓝图中的一个维度。
Agent AI 的浩繁框架之是以在今天成为可能,其根底驱能源,源于大型基础模子(Foundation Models),相配是 LLM 和 VLM 的老练。它们是 Agent 走漏智商的基石,但也带来了新的挑战。
LLMs(如 GPT 系列)和 VLMs(如 CLIP、LLaVA)通过在海量数据上的预检修,内化了对于宇宙的无数学问知识和专科知识。这使得 Agent 在启动之初就具备了强劲的零样本盘算智商。
举例,当一个机器东谈主 Agent 罗致到"帮我热一下昼餐"的指示时,它能运用 LLM 的知识,自动将这个吞吐指示剖析为一系列具体的子任务:"怒放雪柜 -> 找到午餐盒 -> 把它放到微波炉里 -> 建设时间 -> 启动微波炉"。
这种智商极地面裁减了为每个任务编写复杂章程的老本。
除此除外,论文残忍地指出了大模子的一个核心问题——「幻觉」,即模子可能生成与事实不符或毫无凭证的骨子。
这在需要与物理宇宙精准交互的场景中是致命的。举例,一个机器东谈主 Agent 要是"幻觉"出一个不存在的物体并试图抓取,可能会导致任务失败致使斥地损坏。
Agent AI 范式通过"环境交互"为处置幻觉问题提供了一个要道的「锚点」。因为 Agent 的方案和行动必须在委果或模拟的环境中取得考据。
要是模子生成的谋略在环境中不成实行(举例,试图穿过一堵墙),环境会立即提供负反映。这种不息的、基于物理礼貌的反映,会倒逼模子将其里面的知识与外部的推行宇宙对王人,从而显贵减少幻觉的发生。
基础模子一样会秉承检修数据中的社会偏见。一个在充满偏见文本上检修的 Agent,其行为和讲话也可能带有厌烦性。
论文强调,在想象 Agent AI 时,必须将包容性行为一项核心原则。这包括使用更多元化的数据进行检修、建立偏见检测与修订机制,以及在东谈主机交互中想象适宜谈德和尊重他东谈主的率领方针。
当 Agent(尤其是在医疗、家居等敏锐范围)与用户进行深度交互时,会网罗无数个东谈主数据。怎样确保这些数据的隐秘和安全,是一项紧要的伦理和技艺挑战。
论文提议,需要为 Agent AI 建立明确的律例和监管框架,确保数据使用的透明度,并赐与用户贬抑其数据的权益。举例,通过教导工程(Prompt Engineering)适度模子的行为范围,或者加多一个由东谈主类监督的考据层,都是确保 Agent 在安全可控范围内运行的有用技巧。
Agent AI 的应用后劲
论文不仅提议了表面框架,还深远探讨了 Agent AI 在三个前沿范围的巨大应用后劲,展示了其怎样从表面走向推行。
最初就是游戏(Gaming)场景。
传统的游戏 NPC(非玩家脚色)行为由固定的剧本驱动,风光单一、可预计,而 Agent AI 将透顶窜改这一近况。
举例,基于 LLM 的 Agent 不错饰演 NPC,领有我方的操心、方针和情谊。它们能与玩家进行信得过有兴致的对话,凭证玩家的行为和游戏宇宙的变化动态调治我方的行为,致使酿成复杂的社会干系。斯坦福的"生成式智能体"小镇实验(Generative Agents)恰是这一理念的早期探索。
而且,玩家不错用天然讲话与游戏宇宙互动,比如告诉 NPC "咱们去丛林里寻找草药",NPC 大概清爽并协同业动。这为开放宇宙游戏带来了前所未有的千里浸感息争放度。
Agent 还不错行为创作家的" AI 副驾驶",凭证简便的指示或草图,自动生成游戏关卡、谈具致使完满的 3D 场景,极地面提高游戏开发结束。
其次是机器东谈主(Robotics)场景。
机器东谈主不错说是 Agent AI 最径直的物理化身(Embodiment),用户只需用闲居讲话下达指示(如"把桌子打理干净"),机器东谈主 Agent 就能自主盘算并实行一系列复杂的物理操作。
论文展示了使用 GPT-4V 来清爽东谈主类视频演示,并将其转机为机器东谈主可实行任务序列的实验,这让机器东谈主编程变得如「教孩子作念事」般直不雅。
在模拟环境中检修机器东谈主老本低、结束高,但怎样将学到的技能迁徙到物理宇宙是一个核心挑战。Agent AI 通过范围随即化(Domain Randomization)等技艺,在模拟检修中引入实足多的变化(如光照、材质、物理参数的变化),使学到的计谋对委果宇宙的细小各异更具鲁棒性。
机器东谈主 Agent 交融视觉、讲话、触觉等多种信息来清爽环境。举例,它不仅"看到"一个杯子,还能通过讲话指示清爽这个杯子是"易碎的",从而在抓取时遴荐更热诚的力度。
临了,在医疗健康(Healthcare)中,Agent AI 一样具备巨大的应用后劲。
Agent 不错行为医疗聊天机器东谈主,初步问诊、网罗病史,并基于医学知识库为医师提供会诊建议,相配是在医疗资源匮乏的地区,能极地面提险阻级调节的躲避率和结束。
医疗范围的知识更新极快,任何造作都可能危及人命。Agent AI 不错贯串巨擘的、实时更新的医学数据库,在生成会诊建议时,同步进行事实核查和着手援用,这对于扼制模子幻觉、保证信息的准确性至关紧要。
Agent 不错匡助处理和分流无数的患者信息,监控慢性病患者的人命体征数据,并实时向医师发出预警,终了更高效的个性化健康管制。
结语
尽管远景广阔,但这篇综述也败露地相识到,Agent AI 仍处于早期阶段,濒临着跨越模态、范围和推行的多重鸿沟。
举例,怎样让 Agent 信得过终了视觉、讲话、听觉、动作等模态的深度交融,而不仅仅浅层拼接,是异日的核心探讨标的。
以及怎样检修一个能在游戏、机器东谈主和医疗等截然有异范围都能高效使命的"通用 Agent ",而不是为每个范围定制一个模子,是通往 AGI 的要道一步。
而且在评测与基准方面,怎样科学地评测一个 Agent 的智能水平亦然要道。为此,论文团队提议了新的评测基准,如用于多智能体互助的" CuisineWorld "和用于视频清爽的" VideoAnalytica "。建立门径化的评测体系,对于训导颈域发展、意想技艺超越至关紧要。
回首原文来看,李飞飞等东谈主的这篇《Agent AI》综述,远不啻是对现存探讨的简便梳理。它提议了一个长入、完满的 Agent AI 走漏框架,通告了大型基础模子在其中饰演的核心脚色,而且系统性地剖析了其在要道应用范围的机遇与挑战。为刻下略显喧嚣和碎屑化的 Agent 探讨范围,提供了一张不成或缺的"舆图"。
临了,公共不错一键传送论文原文:https://arxiv.org/abs/2401.03568。