ScreenAgent

ScreenAgent

一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。ScreenAgent包含了Scree...

更新时间：2025-05-31

ScreenAgent是由吉林大学人工智能学院与知识驱动的人工智能教育部工程研究中心联合开发的一个基于视觉语言模型（VLM）的计算机控制智能体。该智能体能够与真实计算机屏幕进行交互，执行多步骤任务。

屏幕观察： ScreenAgent观察桌面操作系统的实时图像。

动作生成： 根据屏幕截图生成移动鼠标、点击、滚动等动作命令。

任务规划： 将用户任务如“打开网页浏览器”分解为具体步骤。

执行动作： 执行打开浏览器、输入网址、搜索信息等动作。

反思评估： 在尝试打开网页后，评估操作是否成功，决定是否需要重试。

ScreenAgent是一个先进的计算机控制智能体，它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境，可以在真实计算机屏幕上执行多步骤任务。ScreenAgent的控制流程和评估指标使其成为一个强大的工具，可用于自动化各种数字任务，提高效率和便利性。

ScreenAgent网站数据

ScreenAgent浏览人数已经达到3,649，如你需要查询该站的相关权重信息，可以点击"5118数据""爱站数据""Chinaz数据"进入！

ScreenAgent特别声明

本站AI导航网提供的ScreenAgent都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由AI导航网实际控制，在2025年5月31日上午2:37收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，AI导航网不承担任何责任。

AI导航网致力于优质、实用的网络站点资源收集与分享！本文地址https://ai.xxhtd.cn/aisites/2254.html转载请注明

暂无评论...