你的位置:云开yun体育登录入口Kaiyun官网首页 > 资讯 > 开云体育可能会导致任务失败致使开导损坏-云开yun体育登录入口Kaiyun官网首页

开云体育可能会导致任务失败致使开导损坏-云开yun体育登录入口Kaiyun官网首页

时间:2025-09-07 07:47 点击:53 次

开云体育可能会导致任务失败致使开导损坏-云开yun体育登录入口Kaiyun官网首页

本文来自微信公众号:划重心KeyPoints开云体育,作家:林易,剪辑:重心君,原文标题:《李飞飞的谜底:大模子之后,Agent 向那处去?》,题图来自:视觉中国

2025年,被普遍以为是 Agent 的元年,与之联系的认识从岁首于今热度无间走高,包括智能体、AI Agent、Agentic AI 等等。

而就在最近,一篇由李飞飞领衔的 Agent 重磅论文在业内激勉了粗糙策动,热度居高不下。网友们如斯评价:“险些是跪着看完的”、“太明晰,硬控了我3个小时”。

这篇长达80页的综述名为《Agent AI: Surveying the Horizons of Multimodal Interaction》,由李飞飞等14位来自斯坦福大学和微软的群众集中撰写。

它之是以备受难得,是因为这篇综述为 Agent 这一略显朦胧的限度,缔造了一个明晰的框架:从感知-方案-行动,到牵记、用具使用、环境交互与评测,试图把漫步在对话模子、视觉-言语模子、强化学习、用具调用等本事脚迹,妥协到一个多模态 Agent 的新视角里。

况兼,诚然这篇论文最早发表于客岁年底,但站在当下节点追忆本年 Agent 的发展,谷歌、OpenAI 和微软等主流玩家的核心布置,险些都是按照论文给出的才调栈来鼓舞的;这也反过来印证了论文对“从大模子到 Agent”这一演进旅途的前瞻性判断。

也正如李飞飞在自传《我看见的宇宙》里强调的,“当今学生太过于追求热门,其实好多老论文口角常经典且具备鉴戒意旨”;即便这篇综述发表于今不外半年,但其意旨之大、影响之深,仍值得每一位 AI 从业者深远品读。

接下来,咱们就一齐望望这篇提要性巨作的核心价值。

Agent AI 的核心:一个全新的智能体走漏架构

要意会这篇论文的精髓,率先必须把捏其提议的全新 Agent AI 范式。这远非对现存本事栈的粗放免强,更是一种对畴昔通用东谈主工智能(AGI)发展旅途的前瞻性想考。

论文中的架构图,便明晰地界说了这个范式的五个核心模块,它们共同组成了一个完满的、可交互的智能体走漏闭环。

率先是环境与感知(Environment and Perception),这是智能体与宇宙交互的起原。

与传统模子被迫收受结构化数据不同,Agent AI 主动从物理或假造宇宙中感知信息;这种感知是多模态的,涵盖视觉、听觉、文本、传感器数据等。

更迫切的少许是,感知模块内嵌了任务策画与技能不雅察(Task-Planning and Skill Observation)的才调;这意味着 Agent 在感知环境时,并非飘渺地收受一切信息,而是带着明确的目的去意会。

第二个核心模块是走漏(Cognition)。

若是说感知是输入,那么走漏就是处理核心,是 Agent 的“大脑”。论文将走漏界说为一个极其复杂的系统,包含想考、执意、感知、共情等高档智能举止。

这恰是大言语模子(LLM)和视觉言语模子(VLM)进展核心作用的场域。它们为 Agent 提供了强劲的宇宙知识、逻辑推理和凹凸文意会才调。走漏模块持重讲明感知到的信息,进行多步推理,并制定出已毕方针的战略。

接下来是行动(Action),它相接走漏模块的方案,持腾达成具体的操作指示。

这些指示不错是与物理宇宙交互的机器东谈主限定呐喊(如挪动、抓取),也不错是与假造宇宙交互的API调用、代码生成或当然言语回应。行动模块通过限定器(Controller)作用于环境,从而改造环境的情状。

第四个核心模块是学习(Learning)。

Agent AI 并非一个静态系统,其核心上风在于无间学习和自我进化的才调。论文强调了多种学习机制,包括预考研(Pretraining)、零样本/少样本学习(Zero-shot/Few-shot)、强化学习(RL)和效法学习(IL)。

通过与环境的交互(即“Agent Interactive Closed-loop”),Agent 从到手和失败的教养中学习。环境的反映(Feedback)会回流至学习和牵记模块,用于优化畴昔的方案。

临了,即是牵记(Memory)。

传统模子的“牵记”频频局限于瞬息的凹凸文窗口,而 Agent AI 的牵记模块则是一个更历久、更结构化的系统。它存储着知识(Knowledge)、逻辑(Logic)、推理旅途(Reasoning)和估计(Inference)的结果。

这使得 Agent 好像从往常的教养中索求学识,变成长久牵记,从而在面对新任务时,不消从零初始,而是不错举一反三。

这五个模块共同组成了一个动态的、无间迭代的闭环。Agent 通过感知环境,在走漏核心的驱动下作念出方案,通过行动改造环境,再从环境的反映中学习和更新牵记,从而在每一次交互中,都比上一次更智能、更高效。

大模子如何驱动 Agent AI?

咱们刚才解读的 Agent AI 新范式,不错说是这篇综述蓝图中的一个维度。

Agent AI 的庞杂框架之是以在今天成为可能,其压根驱能源,源于大型基础模子(Foundation Models),十分是 LLM 和 VLM 的熟识。它们是 Agent 走漏才调的基石,但也带来了新的挑战。

LLMs(如GPT系列)和VLMs(如CLIP、LLaVA)通过在海量数据上的预考研,内化了对于宇宙的无数学问知识和专科知识。这使得 Agent 在启动之初就具备了强劲的零样本策画才调。

举例,当一个机器东谈主 Agent 收受到“帮我热一下昼餐”的指示时,它能应用 LLM 的知识,自动将这个依稀指示领悟为一系列具体的子任务:“掀开雪柜 -> 找到午餐盒 -> 把它放到微波炉里 -> 成就期间 -> 启动微波炉”。

这种才调极地面缩小了为每个任务编写复杂规矩的本钱。

除此以外,论漂后锐地指出了大模子的一个核心问题——“幻觉”,即模子可能生成与事实不符或毫无左证的执行。

这在需要与物理宇宙精准交互的场景中是致命的。举例,一个机器东谈主 Agent 若是“幻觉”出一个不存在的物体并试图抓取,可能会导致任务失败致使开导损坏。

Agent AI 范式通过“环境交互”为惩办幻觉问题提供了一个关节的“锚点”。因为 Agent 的方案和行动必须在真实或模拟的环境中赢得考据。

若是模子生成的策画在环境中不能实践(举例,试图穿过一堵墙),环境会立即提供负反映。这种无间的、基于物理规定的反映,会倒逼模子将其里面的知识与外部的现实宇宙对都,从而权臣减少幻觉的发生。

基础模子相似会袭取考研数据中的社会偏见。一个在充满偏见文本上考研的 Agent,其行径和言语也可能带有腻烦性。

论文强调,在假想 Agent AI 时,必须将包容性动作一项核心原则。这包括使用更多元化的数据进行考研、缔造偏见检测与修订机制,以及在东谈主机交互中假想合适谈德和尊重他东谈主的带领方针。

当 Agent(尤其是在医疗、家居等明锐限度)与用户进行深度交互时,会辘集无数个东谈主数据。如何确保这些数据的诡秘和安全,是一项缺欠的伦理和本事挑战。

论文提议,需要为 Agent AI 缔造明确的法例和监管框架,确保数据使用的透明度,并给以用户限定其数据的权力。举例,通过教唆工程(Prompt Engineering)放手模子的行径范围,或者增多一个由东谈主类监督的考据层,都是确保 Agent 在安全可控范围内运行的灵验妙技。

Agent AI 的应用后劲

论文不仅提议了表面框架,还深远探讨了 Agent AI 在三个前沿限度的巨大应用后劲,展示了其如何从表面走向现实。

率先就是游戏(Gaming)场景。

传统的游戏 NPC(非玩家脚色)行径由固定的剧本驱动,情势单一、可预计,而 Agent AI 将透顶改造这一近况。

举例,基于 LLM 的 Agent 不错饰演 NPC,领有我方的牵记、方针和感情。它们能与玩家进行真的专门旨的对话,左证玩家的行径和游戏宇宙的变化动态调节我方的行径,致使变成复杂的社会关系。斯坦福的“生成式智能体”小镇实验(Generative Agents)恰是这一理念的早期探索。

况兼,玩家不错用当然言语与游戏宇宙互动,比如告诉 NPC“咱们去丛林里寻找草药”,NPC 好像意会并协同业动。这为通达宇宙游戏带来了前所未有的千里浸感息争放度。

Agent 还不错动作创作家的“AI 副驾驶”,左证粗放的指示或草图,自动生成游戏关卡、谈具致使完满的 3D 场景,极地面提高游戏开发效果。

其次是机器东谈主(Robotics)场景。

机器东谈主不错说是 Agent AI 最径直的物理化身(Embodiment),用户只需用泛泛言语下达指示(如“把桌子打理干净”),机器东谈主 Agent 就能自主策画并实践一系列复杂的物理操作。

论文展示了使用 GPT-4V 来意会东谈主类视频演示,并将其转移为机器东谈主可实践任务序列的实验,这让机器东谈主编程变得如“教孩子作念事”般直不雅。

在模拟环境中考研机器东谈主本钱低、效果高,但如何将学到的技能迁徙到物理宇宙是一个核心挑战。Agent AI 通过限度马上化(Domain Randomization)等本事,在模拟考研中引入充足多的变化(如光照、材质、物理参数的变化),使学到的战略对真实宇宙的轻飘相反更具鲁棒性。

机器东谈主 Agent 会通视觉、言语、触觉等多种信息来意会环境。举例,它不仅“看到”一个杯子,还能通过言语指示意会这个杯子是“易碎的”,从而在抓取时接管更蔼然的力度。

临了,在医疗健康(Healthcare)中,Agent AI 相似具备巨大的应用后劲。

Agent 不错动作医疗聊天机器东谈主,初步问诊、辘集病史,并基于医学知识库为大夫提供会诊建议,十分是在医疗资源匮乏的地区,能极地面教养低级诊疗的障翳率和效果。

医疗限度的知识更新极快,任何装假都可能危及生命。Agent AI 不错连续泰斗的、实时更新的医学数据库,在生成会诊建议时,同步进行事实核查和来源援用,这对于阻挡模子幻觉、保证信息的准确性至关迫切。

Agent 不错匡助处理和分流无数的患者信息,监控慢性病患者的生命体征数据,并实时向大夫发出预警,已毕更高效的个性化健康管束。

结语

尽管出路精深,但这篇综述也澄澈地雄厚到,Agent AI 仍处于早期阶段,濒临着跨越模态、限度和现实的多重领域。

举例,如何让 Agent 真的已毕视觉、言语、听觉、动作等模态的深度会通,而不仅仅浅层拼接,是畴昔的核心策动办法。

以及如何考研一个能在游戏、机器东谈主和医疗等截然不同限度都能高效责任的“通用 Agent”,而不是为每个限度定制一个模子,是通往 AGI 的关节一步。

况兼在评测与基准方面,如何科学地评测一个 Agent 的智能水平亦然关节。为此,论文团队提议了新的评测基准,如用于多智能体配合的“CuisineWorld”和用于视频意会的“VideoAnalytica”。缔造轨范化的评测体系,对于指挥颈域发展、商酌本事跨越至关迫切。

追忆原文来看,李飞飞等东谈主的这篇《Agent AI》综述,远不啻是对现存策动的粗放梳理。它提议了一个妥协、完满的 Agent AI 走漏框架,讲述了大型基础模子在其中饰演的核心脚色,况兼系统性地剖析了其在关节应用限度的机遇与挑战。为现时略显喧嚣和碎屑化的 Agent 策动限度,提供了一张不能或缺的“舆图”。

临了,全球不错一键传送论文原文:https://arxiv.org/abs/2401.03568

本文来自微信公众号:划重心KeyPoints,作家:林易

官网
www.seewod.com
地址
资讯科技园大厦5868号
邮箱
4dfa1690@outlook.com

Powered by 云开yun体育登录入口Kaiyun官网首页 RSS地图 HTML地图


云开yun体育登录入口Kaiyun官网首页-开云体育可能会导致任务失败致使开导损坏-云开yun体育登录入口Kaiyun官网首页