谷歌发布Gemini 2.5计算机使用模型:专门针对浏览器交互

Homeoctuber 8 新闻 Google Advisa 一种新的 Gemini 人工智能模型,旨在通过浏览器导航网络,允许代理在为人类而不是机器人设计的用户界面中执行操作。该模型被称为“使用GEMINI 2.5”计算机,利用“视觉理解和推理能力”来分析用户应用程序并完成相应的任务,例如填写和发送表格。该模型可用于用户界面测试或针对人类用户的操作系统。不提供API或其他直接接口。此前,此类模型应用于谷歌的AI模式功能(AI模式)。此外,还应用了“Marinero”研究原型项目,该项目使用AI代理在浏览器中独立执行任务。谷歌的发布恰逢Operai在其年度开发日宣布推出新的chatgpt应用程序的第二天。 OpenAI继续专注于代理Chatgpt的功能,它允许ws 用户以自己的名义执行复杂的任务。与此同时,Humanity 去年推出了基于计算机的 Claude AI 模型。他意识到谷歌已经发布了多个演示视频,展示了其“使用计算机”工具的真实操作,并指出视频播放速度提高了三倍。谷歌表示,计算机使用模型“在多个网络和移动参考点上超过了主要解决方案”。与 Chatgpt 代理和人类计算机的使用工具不同,谷歌的新 AI 模型仅限于访问浏览器环境,无法控制整个计算机系统。谷歌特别指出,该模型“并未针对 Controlis 桌面操作系统级别进行优化”,并且该模型“支持 13 种操作,包括文本输入、打字以及页面元素的拖拽”。 Gemini 2.5计算机使用模型是Google Ai St,通过UDIO和Vertex AI向开发者开放。此外,浏览器库平台还提供在线演示。用户可以实时查看模型。真正要完成诸如“玩游戏2048”和“在黑客新闻上查看流行讨论”之类的任务。
特别声明:上述内容(包括照片和视频(如果有))已由NetEase自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。
注意:上述内容(如果有)是由社交媒体平台NetEase Hao的用户上传和发布的,仅提供信息存储服务。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注