发布日期:2025-09-22 10:08 点击次数:78
多年来,科技巨头的首席践诺官们一直宣扬AI智能体(AI agents)的愿景 —— 这类智能体可自主使用软件诈欺为东说念主类完成任务。但如今将消费者级 AI 智能体(不管是 OpenAI 的 ChatGPT Agent,如故 Perplexity 的 Comet)参加践诺使用便会发现,这项时期的局限性仍十分显然。要让 AI 智能体具备更强的庄重性,大致需要行业尚未彻底探索出的一系列新时期支执。
其中一项时期即是全心模拟 “使命空间”,让智能体在其中接受多智商任务磨真金不怕火 —— 这种 “使命空间” 被称为强化学习(reinforcement learning,简称 RL)环境。正如带标签的数据集鼓励了上一波 AI 发展波浪,强化学习环境正徐徐成为智能体开辟经由中的枢纽身分。
AI 谈论东说念主员、创业者及投资者走漏,现在顶尖 AI 实验室对强化学习环境的需求大幅增多,而特殊提供此类时期的初创公司也不在少数。
“通盘大型 AI 实验室齐在里面搭建强化学习环境,” 安德森・霍洛维茨基金(Andreessen Horowitz)正常联合东说念主珍妮弗・李默示,“但可思而知,创建这类数据集的复杂度极高,因此 AI 实验室也在寻找能打造高质料环境与评估体系的第三方供应商。通盘这个词行业齐在柔软这一领域。”
对强化学习环境的需求催生了一批资金浑厚的新兴初创公司,举例 Mechanize Work 和 Prime Intellect,这些公司均接力于于在该领域占据当先地位。与此同期,Mercor、Surge 等大型数据标注公司默示,跟着行业正从静态数据集向交互式模拟转型,它们也在加大对强化学习环境的参加以跟上趋势。大型实验室相似在研究无数投资:据《The Information》报说念,Anthropic 的惩办层已究诘考虑在异日一年内,为强化学习环境参加超 10 亿好意思元。
投资者与创业者们盼愿,这些初创公司中能出生出 “强化学习环境领域的 Scale AI”—— 这里的 Scale AI 是估值 290 亿好意思元的数据标注巨头,曾为聊天机器东说念主期间的发展提供了迫切扶助。
现在的中枢问题在于,强化学习环境是否真能鼓励 AI 时期蹂躏现存鸿沟。
什么是强化学习(RL)环境?
从实质上讲,强化学习环境是模拟 AI 智能体在着实软件诈欺中操作场景的 “磨真金不怕火场”。一位创业者在近期采访中描述其构建经由 “就像制作一款相当败兴的电子游戏”。
举例,某个环境可模拟 Chrome 浏览器,并向 AI 智能体下达 “在亚马逊上购买一对袜子” 的任务。系统会对智能体的发扬进行评分,若任务见效(即买到适合的袜子),便会向其发送 “奖励信号”。
尽管这类任务听起来相对毛糙,但 AI 智能体在践诺经由中仍可能在多个枢纽出错:可能在网页下拉菜单中 “迷途”,也可能误购多双袜子。由于开辟者无法精确展望智能体可能出现的造作,环境本人必须具备迷漫的庄重性,既能捕捉所特殊生手为,又能提供有用的响应 —— 这使得构建环境的复杂度远高于创建静态数据集。
部分强化学习环境盘算推算十分复杂,可支执 AI 智能体使用器具、走访互联网或调用种种软件诈欺完成指定任务;另有部分环境则定位更细分,专注于匡助智能体学习企业级软件诈欺中的特定任务。
尽管强化学习环境如今是硅谷的热点时期,但使用这类时期的前例早已有之。2016 年,OpenAI 的首批神气之一即是构建 “RL Gyms”(强化学习场馆),其理念与当代强化学习环境高度相似;同庚,谷歌 DeepMind 的 AlphaGo AI 系统打败围棋寰宇冠军,该系统相似在模拟环境中接收了强化学习时期。
如今的强化学习环境之是以具有私有性,在于谈论东说念主员正尝试结合大型 Transformer 模子,打造能 “使用测度机” 的 AI 智能体。与 AlphaGo(仅适用于禁闭环境的专用 AI 系统)不同,如今的 AI 智能体旨在具备更通用的智力。刻下的 AI 谈论东说念主员虽领有更坚实的时期滥觞,但目标也更为复杂,可能出现的问题也更多。
竞争强烈的领域
Scale AI、Surge、Mercor 等 AI 数据标注公司正积极顺应趋势,效劳打造强化学习环境。这些公司不仅比该领域多数初创企业领有更充足的资源,还与 AI 实验室诞生了深厚的连接相关。
Surge 首席践诺官埃德温・陈(Edwin Chen)默示,近期已不雅察到 AI 实验室对强化学习环境的需求 “权臣增长”。他走漏,Surge 客岁通过与 OpenAI、谷歌、Anthropic、Meta 等 AI 实验室连接,营收条称达到 12 亿好意思元;该公司近期已树立专门的里面团队,厚爱强化学习环境的搭建使命。
紧随 Surge 之后的是估值 100 亿好意思元的初创公司 Mercor,该公司相似与 OpenAI、Meta、Anthropic 有连接。TechCrunch 获取的营销材料骄横,Mercor 正向投资者推介其中枢业务 —— 为编程、医疗、法律等特定领域任务打造强化学习环境。
Mercor 首席践诺官布伦丹・富迪(Brendan Foody)在采访中默示:“很少有东说念主真确矍铄到,强化学习环境领域蕴含的机遇究竟有多大。”
Scale AI 曾在数据标注领域占据主导地位,但自 Meta 投资 140 亿好意思元并挖走其首席践诺官后,该公司的市集份额徐徐下滑。尔后,谷歌和 OpenAI 不再将 Scale AI 列为数据供应商,以致在 Meta 里面,Scale AI 也面对数据标注业务的竞争压力。尽管如斯,Scale AI 仍在极力顺应趋势,投身强化学习环境的构建。
“这恰是(Scale AI)所处行业的实质,”Scale AI 厚爱智能体与强化学习环境的居品厚爱东说念主切坦・拉内(Chetan Rane)默示,“Scale 已解释其快速顺应的智力:在咱们的首个业务板块 —— 自动驾驶领域的早期阶段,咱们作念到了这一丝;ChatGPT 问世后,Scale AI 也见效顺应了新趋势;如今,咱们再次在智能体、环境等新前沿领域进行退换。”
部分新兴企业从创立之初便专注于强化学习环境领域。树立约 6 个月的初创公司 Mechanize Work 即是其中之一,该公司提倡了 “竣事通盘使命自动化” 的果敢目标。不外,聚来源创东说念主马修・巴尼特(Matthew Barnett)向 TechCrunch 走漏,其公司现在正从为 AI 编程智能体打造强化学习环境起步。
巴尼特默示,Mechanize Work 考虑为 AI 实验室提供小数高庄重性的强化学习环境,而非像大型数据公司那样打造多量毛糙的强化学习环境。为此,该初创公司为软件工程师开出了 50 万好意思元的年薪(用于构建强化学习环境),这一薪资远高于在 Scale AI 或 Surge 从事小时工性质使命的报答。
两位知情东说念主士走漏,Mechanize Work 已运行与 Anthropic 连接开辟强化学习环境。对此,Mechanize Work 与 Anthropic 均阻隔就连接细节置评。
另有部分初创公司押注强化学习环境在 AI 实验室以外的领域也将产生影响力。由 AI 谈论员安德烈・卡帕西(Andrej Karpathy)、Founders Fund 风投、Menlo Ventures 风投支执的初创公司 Prime Intellect,正将其强化学习环境定位为作事中微型开辟者。
上个月,Prime Intellect 推出了强化学习环境中心,目标是打造 “强化学习环境领域的 Hugging Face”(Hugging Face 为 AI 领域知名开源社区)。该平台旨在让路源开辟者赢得与大型 AI 实验室同等的资源支执,同期在此经由中向开辟者出售测度资源走访权限。
Prime Intellect 谈论员威尔・布朗(Will Brown)默示,在强化学习环境中磨真金不怕火具备通用智力的智能体,所需的测度资本可能高于以往的 AI 磨真金不怕火时期。因此,除了打造强化学习环境的初创公司,为这也曾由提供算力支执的 GPU 供应商也将迎来机遇。
“莫得任何一家公司能独自主导强化学习环境领域,其鸿沟太大了,” 布朗在采访中说,“咱们现在所作念的部单干作,仅仅尝试围绕该领域搭建邃密的开源基础设施。咱们的中枢作事是提供测度资源,这如实是使用 GPU 的毛糙进口,但咱们更着眼于永久发展。”
能否竣事鸿沟化发展?
对于强化学习环境,现在尚未有定论的问题是:这项时期能否像以往的 AI 磨真金不怕火轨范那样竣事鸿沟化发展?
往日一年,强化学习鼓励了 AI 领域多项紧要蹂躏,包括 OpenAI 的 o1 模子、Anthropic 的 Claude Opus 4 模子等。这些蹂躏兴致紧要,因为此前用于改换 AI 模子的轨范如今正显现出 “收益递减” 的趋势。
强化学习环境是 AI 实验室对强化学习时期 “更大押注” 的一部分 —— 好多东说念主以为,跟着在该时期中参加更多数据与测度资源,强化学习将执续鼓励 AI 向上。OpenAI 厚爱 o1 模子的部分谈论东说念主员此前走漏,该公司最初之是以投资 AI 推理模子(通过对强化学习和测试时测度的参加开辟而成),恰是因为他们以为这类模子具备邃密的鸿沟化后劲。
现在,强化学习竣事鸿沟化的最好旅途尚不解确,但强化学习环境似乎是颇具后劲的地点。与仅通过文本复兴奖励聊天机器东说念主不同,强化学习环境能让智能体在模拟场景中操作器具、使用测度机完成任务 —— 这种神情天然对资源的破钞远更高,但潜在的讲演也更大。
也有部分东说念主士对强化学习环境的发展出息执怀疑魄力。曾担任 Meta AI 谈论厚爱东说念主、现聚开创立 General Reasoning 公司的罗斯・泰勒默示,强化学习环境容易出现 “奖励舞弊”(reward hacking)满足 —— 即 AI 模子为赢得奖励而 “舞弊”,并未真确完成任务。
“我以为东说念主们低估了环境鸿沟化的难度,” 泰勒说,“即即是现在公开可用的最好(强化学习环境),若不进行大幅修改,频繁也无法正常使用。”
OpenAI API 业务工程厚爱东说念主舍温・吴(Sherwin Wu)在近期播客中默示,他对强化学习环境领域的初创公司 “执看空魄力”。吴指出,该领域竞争非常强烈,且 AI 谈论发展速率极快,要为 AI 实验室提供优质作事难度很大。
卡帕西(算作 Prime Intellect 的投资者,曾称强化学习环境可能成为蹂躏性时期)也对通盘这个词强化学习领域抒发了严慎魄力。他在酬酢平台 X 的帖子中提倡疑问:通过强化学习时期,AI 还能竣事多猛进度的向上?
“我对环境与智能体交互执乐不雅魄力,但对强化学习本人执悲不雅魄力。” 卡帕西默示。
攀扯裁剪:丁文武