隔热条PA66厂家_建仓机械

隔热条PA66厂家_建仓机械

你的位置:隔热条PA66厂家_建仓机械 > 关于我们 >

天门塑料挤出机设备 教龙虾玩手机!通GUI智能体老师-评测-部署全历程,老师、真机、评测站处分

点击次数:114 发布日期:2026-04-21
塑料管材设备

莫得东谈主工搅扰天门塑料挤出机设备,莫得预设剧本,AI 我方看屏幕、判断所在、贪图放置旅途、实际。

看着它步步把块消掉,难熬有种解压感。

这不是游戏外挂,而是个通用 GUI 智能体在「肃穆责任」:它用的是和操作手机 App、填写表单、浏览网页换取的视觉领路与操控才能。能玩消消乐,仅仅因为它确实学会了「看懂屏幕并操作」这件事。

那么问题来了:个能我方玩消消乐的 AI,离替你完成宽广手机操作还有多远?不是那种「帮我设个闹钟」的语音助手,而是着实像东谈主样,看屏幕、领路界面、滑动、徐徐完成复杂任务的智能体。

现时 GUI 智能体商讨普遍面对个结构挑战:老师、评测、部署三个枢纽彼此割裂,难以形成闭环。模子在仿真环境里老师完成后,经常枯竭配套的工程旅途挪动到真实修复;评测体系圭臬不,不同框架下的数字难以横向相比;而部署到真实修复,又需要立搭建套工程基础表率。三个枢纽各利己战,全体进的老本。

今天,来自ZJU-REAL的团队带来了ClawGUI,个掩盖 GUI 智能体在线 RL 老师、圭臬化评测、真机部署无缺生命周期的开源框架。不是三个立器具的简便拼接,而是条通的活水线:用 ClawGUI-RL 老师,用 ClawGUI-Eval 评测,用 OpenClaw-GUI 部署,端到端考证。

基于这套活水线,个仅 2B 参数的小模子 ClawGUI-2B,在 MobileWorld 基准上取得17.1 SR,大幅越基线的11.1,达到了接近 8B 模子的水平。

Q Q:183445502

△  ClawGUI 系统架构总览 ClawGUI-RL:让 GUI 模子在环境中稳步进步

GUI Agent 的 RL 老师需要与真实修复进行握续交互,截屏、领会、操作、获取响应,形成无缺的 episode。这意味着老师基础表率不仅需要模子老师框架,还需要大规模环境仿真和修复照应才能。ClawGUI-RL 是当今开源社区中为数未几的、经过端到端考证的 GUI Agent Online RL 处分案。

具体来说,ClawGUI-RL 将所有这个词这个词老师基础表率拆解为三层:环境照应、励想象、战略化。

环境层面,所有这个词修复后端(Docker 虚构机和物理手机)被统详尽为同套接口,老师代码需差别底层是模拟器如故真机。每个环境遵守「重置→实际→评估→回收」的圭臬生命周期,配 Spare Server 轮转和周期重启,保证万古辰老师的自如。

励层面,ClawGUI-RL 秉承二元着力励 +PRM 徐徐励的双层想象。着力励在 episode 末端时给出得手 / 失败的 0/1 信号,PRM 则在每步操作后证据前后截图和历史当作判断现时操作是否有进了任务,两者相加组成终励。这种茁壮的徐徐响应大缓解了 GUI 长序列有盘算中励寥落的问题,让化器能够差别哪些中间枢纽是有价值的、哪些是绕路。

战略化层面,ClawGUI-RL 相沿 GRPO、GiGPO 等主流强化学习算法,并提供统的老师接口,便商讨者证据任务特机动切换和对比不同化战略。

△  ClawGUI-RL 架构图

ClawGUI-RL 在线环境老师 Demo:

虚构环境与真机老师

基于 Docker 的 Android 虚构环境,ClawGUI-RL 相沿无数虚构 Android 环境同期并行开动。内置的 Spare Server 轮革新制保证了老师的鲁棒,当某个容器截图失败或修复不健康时,系统自动切换至备用工作器,老师不中断。团队提供了经过考证的端到端真机 RL 老师历程,物理手机和云手机均可接入。真机老师的交互公约与虚构环境致,为后续大规模云手机老师铺平了谈路。

PRM 徐徐励:不啻看着力,每步都给分

圭臬 GRPO 为所有这个词这个词 Episode 分拨个单的势分数,得手了即是 1,失败了即是 0,中间枢纽好不好无论。这就像磨砺只看总分,不知谈哪谈题作念对了哪谈作念错了。ClawGUI-RL 通过引入过程励模子(PRM)更正了这点,对每步操作进行评估,提供密集的梯度信号,末端致密的战略化。

实验着力

以 MAI-UI-2B 为基座,ClawGUI-2B 在 MobileWorld 基准上的进展:

几个重要数字:ClawGUI-2B 达到17.1 SR,大幅越 MAI-UI-2B 基线(11.1),进步幅度达6。个 2B 小模子,达到了接近 8B 模子的水平。

ClawGUI-Eval:95.8 复现率,塑料挤出机设备让评测着力着实

GUI 模子评测域长久面对复现致的挑战:不同框架、不同末端细节下,同模子的评测数字经常存在彰着各异。差个 prompt 形态、搞混坐标系、调错分辨率,着力就可能偏差数个百分点。

ClawGUI-Eval 通过圭臬化的Infer → Judge → Metric三阶段活水线系统地处分了这个问题。

△  ClawGUI-Eval 评测框架

掩盖 6 大 Benchmark(ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl),相沿 11+ 模子(Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8 等)。48 个有官基准的格子中得手复现 46 个,总体复现率 95.8。前沿模子 Gemini 3.0 Pro 和 Seed 1.8 在 ScreenSpot-Pro 上末端 复现,并次评测了 Gemini 3.1 Pro(85.01)。

踩坑踩出来的复现 Tips

比数字有价值的,是团队悲哀的重要复现阅历,每条都是用准确率换来的造就:

1. 坐标系统不匹配 = 准确率归。Qwen2.5-VL 输出对像素坐标,Qwen3-VL 输出 [ 0,1000 ] 归化,StepGUI 用 [ 0,999 ] ,搞混个即是灾祸。

2. 图文输入律例(tv vs. vt)可致数个百分点各异。大部分模子需要图片在前(vt),MAI-UI 需要文本在前(tv),用错径直崩盘。

3. 哪怕句" You are a helpful assistant. "也能带来约 1 的进步。System prompt 须严格对皆官。

4. Prompt 形态须逐字对皆。措辞轻微各异就可能影响着力。

5. 温度提议设为 0.0。非温度影响坐标精度。

所有这个词理着力已沿途开源,迎接下载考证。

OpenClaw-GUI:句话适度手机

GUI 智能体着实的价值,在于能够在用户手边的真实修复上开动、帮东谈主完成本色任务。OpenClaw-GUI 恰是为此而生,把 GUI 智能体带到真机上落地。

基于 nanobot 框架构建天门塑料挤出机设备,OpenClaw-GUI 末端了通过当然话语适度真实手机。接入飞书、QQ、Telegram、Discord、Slack、钉钉等 12+ 聊天平台,用户在聊天窗口发句领导,Agent 就能截屏领路界面、贪图操作旅途、实际和输入。

OpenClaw-GUI 操控手机 Demo:

重要的是,OpenClaw-GUI 把评测也集成进来了。说句「帮我测下 qwen3vl 在 screenspot-pro 上的主意」,Agent 会自动完成环境检测→多 GPU 理→判分→主意狡计→着力对比。这自己即是 CLI+GUI 联结的佳例证,狡计密集型责任由 CLI 完成,东谈主机交互和着力呈现依赖 GUI。

中枢才能:跨平台相沿 Android(ADB)、鸿蒙(HDC)、iOS(XCTest);多模子接入 AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS;个化缅念念,自动学惯用户偏好,跨任务握续复用;Episode 记载,每次实际以结构化 Episode 保存,相沿回放与数据集构建;Web UI 基于 Gradio,相沿修复照应、任务实际与缅念念检讨。

瞻望:GUI 的故事远未末端

2026 年,CLI Agent 疑是火的赛谈。Claude Code、Gemini CLI、CodeBuddy ……个当然的问题暴露:GUI 智能体还有要吗?

商讨团队倾向于合计:GUI 的故事远莫得末端,CLI+GUI 的融概况是通往通用 Agent 的条热切旅途。

东谈主类短期内离不开 GUI。从笔墨到图片到,越容易被感知的弁言越具备传播势。外、车、酬酢、购物,出动互联网大多数的交互发生在图形界面上。至少在可见的改日,GUI 仍将是数字宇宙的主要进口。

不是所有这个词 App 都有 API。微信、银行、无数企业里面系统唯有图形界面。CLI 面向 Agent 实际,干活;GUI 面向东谈主类领路,感知和交互。两者像是互补相关而非替代相关。

GUI 的「可见」提供了种特的信任机制。假如 Agent 在实际任务时触及支付操作,CLI 以用户看不见的式径直完成了付款,形成的赔本谁来承担?GUI 操作到重要枢纽时,用户不错看到屏幕上正在发生什么、随时介入。这种可控可能是纯 CLI 案较难提供的。

Online RL 的工程挑战远未被处分。GUI Agent 的 RL 老师需要与真实 App 交互,登录考证、反爬机制、动态 UI 变化,大规模 RL Scaling 的自如也曾行业清贫。ClawGUI-RL 的 Spare Server 轮转和周期重启机制是个初步的探索,距离大规模分娩老师还有很长的路要走。

路子图

ClawGUI 的贪图不啻于此:OpenClaw-GUI 相沿当然话语手机操控与评测;ClawGUI-RL 可彭胀的 Mobile Online RL 老师基础表率,相沿 PRM 徐徐励;ClawGUI-Eval 圭臬化评测套件,6 个 Benchmark,95+ 复现率;ClawGUI-2B 达到 17.1 SR(基线 11.1);后续将进真机部署 OpenClaw-GUI,径直部署在手机上避云霄隐讳涌现;Desktop / Web Online RL,将在线 RL 彭胀至桌面和网页环境;以及基于 OPD 算法的及时强化学习。

悲哀

ClawGUI 不是要阐发 GUI 比 CLI 好,而是念念探索种可能:老师、评测、部署通之后,GUI 智能体能走多远?CLI 和 GUI 的联结又能开释出奈何的后劲?

ClawGUI-RL 让 GUI Agent 的在线老师从虚构环境走向真机,ClawGUI-Eval 为社区提供了套着实赖的评测圭臬,OpenClaw-GUI 把 GUI 智能体从商讨带到了真实修复。

面目已开源,迎接 Star 相沿,让多东谈主看到 GUI Agent 的可能。

面目地址:

https://github.com/ZJU-REAL/ClawGUI

面目主页:

https://zju-real.github.io/ClawGUI-Page/

键三连「点赞」「转发」「防卫心」

迎接在批驳区留住你的念念法!

—  完  —

咱们正在招聘名眼疾手快、温和 AI 的学术裁剪实习生  � �

感趣味趣味的小伙伴迎接温和 � �  了解确定

� � 点亮星标 � �

科技前沿进展逐日见

相关词条:设备保温     塑料挤出机厂家     预应力钢绞线    玻璃丝棉    万能胶厂家

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》天门塑料挤出机设备,以此来变相勒索商家索要赔偿的违法恶意行为。