明略科技(2718.HK)自研大模型Mano再获世界级突破!
据OS-WorldE2E官方榜单最新数据(截至2025年10月),明略科技自研的GUI智能体大模型Mano以54.0%的任务成功率刷新纪录,位列Specialized模型第一、模型总榜第二,仅次于Anthropic最新发布的Claude 4.5。
Mano以72B参数在OSWorld-Verified榜单的FoundationE2EGUI评测总榜位列第二。
与今年9月首次提交的数据相比,Mano的参数规模从7B扩展至72B(约720亿),任务完成率从40.1%提升到54.0%,性能实现了显著提升。这也标志着专用智能体在真实操作任务中的执行能力达到新高度。
Mano以72B参数在OS World-Verified榜单的Foundation E2E GUI&Specialized Model评测中位列第一。
从语言到行动:智能体的下一阶段
OSWorld是目前全球最具权威的“操作智能”评测体系,涵盖10类应用、369个跨应用任务。它要求模型在真实的桌面和浏览器环境中执行连续操作——例如打开电子表格、搜索信息、整理数据、完成填报。这类任务远比问答生成复杂,因为每一步都需要模型既理解内容,又理解“界面结构”,并能在多次操作中保持逻辑连贯。
在此前的测试中,即便是顶级的通用大模型,在OSWorld上的成功率也常停留在30%–40%区间。而Mano72B的最新成绩——54.0%的端到端任务成功率——不仅刷新了中国模型的最高纪录,也让“专用智能体”第一次在这个“AI操作考场”中站上了前列。
这背后的技术路线也与传统语言模型截然不同。明略科技在最新版技术报告《ManoTechnicalReport》(报告链接:https://arxiv.org/abs/2509.17336)中系统阐述了其方法:模型的训练并不是基于单纯的文本对话,而是在高保真的模拟电脑环境中反复尝试与学习。可以理解为,Mano被放进了一个巨大的虚拟操作系统,在其中学习如何移动光标、点击按钮、识别菜单、输入数据,并通过反复试错掌握任务完成的最佳路径。
技术原理:让模型在“真实环境”中学习
Mano的训练框架包含三个阶段:监督微调(SFT)、离线强化学习(OfflineRL)和在线强化学习(OnlineRL)。简单来说,SFT阶段相当于“老师教范例”,模型学习基础操作方法;离线强化学习阶段让模型通过过去的任务经验学会“举一反三”;而在线强化学习阶段则是在真实环境中持续练习、发现新策略。
明略科技还引入了一个名为“Think–Act–Verify”的执行闭环:模型在操作时,会先判断当前界面状态(Think),再执行具体动作(Act),最后验证结果是否正确(Verify)。如果执行出错,模型会自动调整步骤重新尝试。这让Mano在面对复杂、多变的操作场景时,能够实现自我修正和容错。
举个通俗的例子:当你让智能体“下载一份财务报表”时,通用大模型可能只会给出一段操作说明,而Mano会真的打开浏览器、登录账户、识别下载按钮、选择正确的日期范围,并在出现错误提示时重新登录、重试。这种能力的获得,正是通过强化学习与高保真训练环境协同实现的。
根据论文数据,Mano在加入在线强化学习后,模型平均任务完成率提升了约14个百分点,尤其在多步骤任务(multi-turntask)中表现稳定。研究团队指出,这种“在环境中学习”的方式,是实现操作智能的关键:模型不再依赖静态语料,而是通过持续交互获得反馈,从而具备“学习如何行动”的能力。
专用智能体的竞争力
长期以来,大模型的性能评估主要集中在语言理解、知识问答或内容生成任务上。而GUI智能体的出现,让AI的边界从“文字世界”延伸到了真实的操作系统中。与通用大模型相比,专用智能体的核心优势在于——它们不追求覆盖所有知识,而是致力于在特定任务上实现更高的执行深度与稳定性。
Mano的成绩正是这一趋势的体现。通过结构化的任务数据、针对性的强化学习和验证机制,模型在界面识别、动作规划和过程稳定性方面表现出了持续进步。OSWorld官方评述指出,这一成果“展示了专用智能体在真实任务执行中的潜力,也标志着多模态智能体研究的工程化进展。”
对明略科技而言,Mano不仅是一项研究成果,也正逐步成为企业智能系统的底层技术。公司正在探索如何将Mano的操作智能嵌入到数据分析、营销自动化、合规管理等具体场景,使模型能在实际业务流程中承担“数字助理”的角色。研究团队同时提到,未来的方向包括提升推理效率、减少交互步长,并推动端侧轻量化部署,让智能体在普通硬件环境中也能稳定运行。
从7B到72B,从40.1%到54.0%,Mano的进化历程不仅是一次参数增长,更是一种能力迁移——从语言理解到操作智能的跨越。明略科技技术团队在报告中表示,未来Mano将继续优化推理效率与任务泛化能力,并探索端侧部署与行业级落地路径,使智能体能力真正融入企业生产流程。当模型不再只“输出答案”,而是真正“完成任务”,人工智能才开始具备通往真实世界的执行力。
新闻来源 (不包括新闻图片): 有连云