你的位置：开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP > 新闻中心 > 开yun体育网第四个核心模块是学习（Learning）-开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP

开yun体育网第四个核心模块是学习（Learning）-开云kaiyun下载官网手机版(官方)最新下载IOS/安卓版/手机版APP

时间：2025-10-20 10:10 点击：144 次

文 | 划要点 KeyPoints开yun体育网

1、李飞飞最新论文，为当下火热的 Agent 端正了范围、诞生了范式。谷歌、OpenAI 和微软等巨头的最新布局，险些都盲从了论文给出的智商栈。

2、论文提议了一套完满的走漏闭环架构——从感知、走漏、行动，到学习与操心，组成动态迭代的智能体体系。这不仅是技艺的整合，更是对异日 AGI 旅途的系统性构想。

3、大模子是驱动 Agent 的核心引擎，但环境交互是处置幻觉和偏见的要道锚点。论文强调，LLM/VLM 提供走漏智商，但必须通过委果或模拟环境的反映来校准推行，减少幻觉，并引入伦理与安全机制。

4、应用后劲横跨游戏、机器东谈主和医疗三大前沿范围——游戏中的千里浸式 NPC、机器东谈主中的自主盘算与物理操作、医疗中的智能问诊与健康管制，展现了 Agent 从表面走向实践的了了旅途。

2025 年，被普遍以为是 Agent 的元年，与之关联的看法从年头于今热度不息走高，包括智能体、AI Agent、Agentic AI 等等。

而就在最近，一篇由李飞飞领衔的 Agent 重磅论文在业内激发了鄙俚讨论，热度居高不下。网友们如斯评价："险些是跪着看完的"、"太了了，硬控了我 3 个小时"。

这篇长达 80 页的综述名为《Agent AI: Surveying the Horizons of Multimodal Interaction》，由李飞飞等 14 位来自斯坦福大学和微软的内行荟萃撰写。

它之是以备受崇尚，是因为这篇综述为 Agent 这一略显邋遢的范围，建立了一个了了的框架：从感知 - 方案 - 行动，到操心、器具使用、环境交互与评测，试图把散布在对话模子、视觉 - 讲话模子、强化学习、器具调用等技艺印迹，长入到一个多模态 Agent 的新视角里。

而且，天然这篇论文最早发表于旧年年底，但站在当下节点回想本年 Agent 的发展，谷歌、OpenAI 和微软等主流玩家的核心打发，险些都是按照论文给出的智商栈来股东的；这也反过来印证了论文对"从大模子到 Agent "这一演进旅途的前瞻性判断。

也正如李飞飞在自传《我看见的宇宙》里强调的，"当今学生太过于追求热门，其实许多老论文短长常经典且具备模仿兴致"；即便这篇综述发表于今不外半年，但其兴致之大、影响之深，仍值得每一位 AI 从业者深远品读。

接下来，咱们就沿途望望这篇摘要性巨作的核心价值。

Agent AI 的核心：一个全新的智能体走漏架构

方法悟这篇论文的精髓，最初必须把捏其提议的全新 Agent AI 范式。这远非对现存技艺栈的简便勉强，更是一种对异日通用东谈主工智能（AGI）发展旅途的前瞻性念念考。

论文中的架构图，便了了地界说了这个范式的五个核心模块，它们共同组成了一个完满的、可交互的智能体走漏闭环。

最初是环境与感知（Environment and Perception），这是智能体与宇宙交互的发轫。

与传统模子被迫罗致结构化数据不同，Agent AI 主动从物理或杜撰宇宙中感知信息；这种感知是多模态的，涵盖视觉、听觉、文本、传感器数据等。

更紧要的小数是，感知模块内嵌了任务盘算与技能不雅察（Task-Planning and Skill Observation）的智商；这意味着 Agent 在感知环境时，并非迷茫地罗致一切信息，而是带着明确的主张去清爽。

第二个核心模块是走漏（Cognition）。

要是说感知是输入，那么走漏就是处理核心，是 Agent 的"大脑"。论文将走漏界说为一个极其复杂的系统，包含念念考、意志、感知、共情等高档智能行为。

这恰是大讲话模子（LLM）和视觉讲话模子（VLM）证据核心作用的场域。它们为 Agent 提供了强劲的宇宙知识、逻辑推理和高下文清爽智商。走漏模块认真评释注解感知到的信息，进行多步推理，并制定出终了方针的计谋。

接下来是行动（Action），它相连走漏模块的方案，认真生成具体的操作指示。

这些指示不错是与物理宇宙交互的机器东谈主贬抑号召（如出动、抓取），也不错是与杜撰宇宙交互的 API 调用、代码生成或天然讲话回答。行动模块通过贬抑器（Controller）作用于环境，从而窜改环境的状况。

第四个核心模块是学习（Learning）。

Agent AI 并非一个静态系统，其核心上风在于不息学习和自我进化的智商。论文强调了多种学习机制，包括预检修（Pretraining）、零样本 / 少样本学习（Zero-shot/Few-shot）、强化学习（RL）和效法学习（IL）。

通过与环境的交互（即" Agent Interactive Closed-loop "），Agent 从得手和失败的训戒中学习。环境的反映（Feedback）会回流至学习和操心模块，用于优化异日的方案。

临了开yun体育网，就是操心（Memory）。

传统模子的"操心"频繁局限于片晌的高下文窗口，而 Agent AI 的操心模块则是一个更耐久、更结构化的系统。它存储着知识（Knowledge）、逻辑（Logic）、推理旅途（Reasoning）和推断（Inference）的结束。

这使得 Agent 大概从昔日的训戒中索肄业识，酿成永恒操心，从而在面对新任务时，无须从零运行，而是不错举一反三。

这五个模块共同组成了一个动态的、不息迭代的闭环。Agent 通过感知环境，在走漏核心的驱动下作念出方案，通过行动窜改环境，再从环境的反映中学习和更新操心，从而在每一次交互中，都比上一次更智能、更高效。

大模子怎样驱动 Agent AI？

咱们刚才解读的 Agent AI 新范式，不错说是这篇综述蓝图中的一个维度。

Agent AI 的浩繁框架之是以在今天成为可能，其根底驱能源，源于大型基础模子（Foundation Models），相配是 LLM 和 VLM 的老练。它们是 Agent 走漏智商的基石，但也带来了新的挑战。

LLMs（如 GPT 系列）和 VLMs（如 CLIP、LLaVA）通过在海量数据上的预检修，内化了对于宇宙的无数学问知识和专科知识。这使得 Agent 在启动之初就具备了强劲的零样本盘算智商。

举例，当一个机器东谈主 Agent 罗致到"帮我热一下昼餐"的指示时，它能运用 LLM 的知识，自动将这个吞吐指示剖析为一系列具体的子任务："怒放雪柜 -> 找到午餐盒 -> 把它放到微波炉里 -> 建设时间 -> 启动微波炉"。

这种智商极地面裁减了为每个任务编写复杂章程的老本。

除此除外，论文残忍地指出了大模子的一个核心问题——「幻觉」，即模子可能生成与事实不符或毫无凭证的骨子。

这在需要与物理宇宙精准交互的场景中是致命的。举例，一个机器东谈主 Agent 要是"幻觉"出一个不存在的物体并试图抓取，可能会导致任务失败致使斥地损坏。

Agent AI 范式通过"环境交互"为处置幻觉问题提供了一个要道的「锚点」。因为 Agent 的方案和行动必须在委果或模拟的环境中取得考据。

要是模子生成的谋略在环境中不成实行（举例，试图穿过一堵墙），环境会立即提供负反映。这种不息的、基于物理礼貌的反映，会倒逼模子将其里面的知识与外部的推行宇宙对王人，从而显贵减少幻觉的发生。

基础模子一样会秉承检修数据中的社会偏见。一个在充满偏见文本上检修的 Agent，其行为和讲话也可能带有厌烦性。

论文强调，在想象 Agent AI 时，必须将包容性行为一项核心原则。这包括使用更多元化的数据进行检修、建立偏见检测与修订机制，以及在东谈主机交互中想象适宜谈德和尊重他东谈主的率领方针。

当 Agent（尤其是在医疗、家居等敏锐范围）与用户进行深度交互时，会网罗无数个东谈主数据。怎样确保这些数据的隐秘和安全，是一项紧要的伦理和技艺挑战。

论文提议，需要为 Agent AI 建立明确的律例和监管框架，确保数据使用的透明度，并赐与用户贬抑其数据的权益。举例，通过教导工程（Prompt Engineering）适度模子的行为范围，或者加多一个由东谈主类监督的考据层，都是确保 Agent 在安全可控范围内运行的有用技巧。

Agent AI 的应用后劲

论文不仅提议了表面框架，还深远探讨了 Agent AI 在三个前沿范围的巨大应用后劲，展示了其怎样从表面走向推行。

最初就是游戏（Gaming）场景。

传统的游戏 NPC（非玩家脚色）行为由固定的剧本驱动，风光单一、可预计，而 Agent AI 将透顶窜改这一近况。

举例，基于 LLM 的 Agent 不错饰演 NPC，领有我方的操心、方针和情谊。它们能与玩家进行信得过有兴致的对话，凭证玩家的行为和游戏宇宙的变化动态调治我方的行为，致使酿成复杂的社会干系。斯坦福的"生成式智能体"小镇实验（Generative Agents）恰是这一理念的早期探索。

而且，玩家不错用天然讲话与游戏宇宙互动，比如告诉 NPC "咱们去丛林里寻找草药"，NPC 大概清爽并协同业动。这为开放宇宙游戏带来了前所未有的千里浸感息争放度。

Agent 还不错行为创作家的" AI 副驾驶"，凭证简便的指示或草图，自动生成游戏关卡、谈具致使完满的 3D 场景，极地面提高游戏开发结束。

其次是机器东谈主（Robotics）场景。

机器东谈主不错说是 Agent AI 最径直的物理化身（Embodiment），用户只需用闲居讲话下达指示（如"把桌子打理干净"），机器东谈主 Agent 就能自主盘算并实行一系列复杂的物理操作。

论文展示了使用 GPT-4V 来清爽东谈主类视频演示，并将其转机为机器东谈主可实行任务序列的实验，这让机器东谈主编程变得如「教孩子作念事」般直不雅。

在模拟环境中检修机器东谈主老本低、结束高，但怎样将学到的技能迁徙到物理宇宙是一个核心挑战。Agent AI 通过范围随即化（Domain Randomization）等技艺，在模拟检修中引入实足多的变化（如光照、材质、物理参数的变化），使学到的计谋对委果宇宙的细小各异更具鲁棒性。

机器东谈主 Agent 交融视觉、讲话、触觉等多种信息来清爽环境。举例，它不仅"看到"一个杯子，还能通过讲话指示清爽这个杯子是"易碎的"，从而在抓取时遴荐更热诚的力度。

临了，在医疗健康（Healthcare）中，Agent AI 一样具备巨大的应用后劲。

Agent 不错行为医疗聊天机器东谈主，初步问诊、网罗病史，并基于医学知识库为医师提供会诊建议，相配是在医疗资源匮乏的地区，能极地面提险阻级调节的躲避率和结束。

医疗范围的知识更新极快，任何造作都可能危及人命。Agent AI 不错贯串巨擘的、实时更新的医学数据库，在生成会诊建议时，同步进行事实核查和着手援用，这对于扼制模子幻觉、保证信息的准确性至关紧要。

Agent 不错匡助处理和分流无数的患者信息，监控慢性病患者的人命体征数据，并实时向医师发出预警，终了更高效的个性化健康管制。

结语

尽管远景广阔，但这篇综述也败露地相识到，Agent AI 仍处于早期阶段，濒临着跨越模态、范围和推行的多重鸿沟。

举例，怎样让 Agent 信得过终了视觉、讲话、听觉、动作等模态的深度交融，而不仅仅浅层拼接，是异日的核心探讨标的。

以及怎样检修一个能在游戏、机器东谈主和医疗等截然有异范围都能高效使命的"通用 Agent "，而不是为每个范围定制一个模子，是通往 AGI 的要道一步。

而且在评测与基准方面，怎样科学地评测一个 Agent 的智能水平亦然要道。为此，论文团队提议了新的评测基准，如用于多智能体互助的" CuisineWorld "和用于视频清爽的" VideoAnalytica "。建立门径化的评测体系，对于训导颈域发展、意想技艺超越至关紧要。

回首原文来看，李飞飞等东谈主的这篇《Agent AI》综述，远不啻是对现存探讨的简便梳理。它提议了一个长入、完满的 Agent AI 走漏框架，通告了大型基础模子在其中饰演的核心脚色，而且系统性地剖析了其在要道应用范围的机遇与挑战。为刻下略显喧嚣和碎屑化的 Agent 探讨范围，提供了一张不成或缺的"舆图"。

临了，公共不错一键传送论文原文：https://arxiv.org/abs/2401.03568。