新闻动态

谷歌版“豆包手机”发布，GUI路线会成为主流吗？_王帅_操作_用户

当前位置：首页 >

GUI路线与API路线解决的是不同场景下的不同问题，与其争论孰优孰劣，行业应当着眼于合力推动将数据与隐私保护机制标准化、强制化的落地。

GUI路线与API路线解决的是不同场景下的不同问题，与其争论孰优孰劣，行业应当着眼于合力推动将数据与隐私保护机制标准化、强制化的落地。

文丨樊朔

作为AI能力落地的重要场景，手机智能体赛道正在涌入更多玩家。

2月26日凌晨，三星发布了搭载了谷歌Gemini AI的最新Galaxy S26系列。在展示中，Gemini AI可以自动打开外卖应用、选择餐厅订购披萨、下单支付，也可以调用打车App完成设定目的地、自动叫车等操作。中兴终端事业部总裁、努比亚总裁倪飞表示，三星与Gemini的组合，***用了GUI（图形界面识别）技术。

事实上，Gemini AI展现出的能力并不新鲜。

就在三个月前，字节跳动豆包手机助手团队联合中兴发布了具有类似能力的努比亚M153，通过 GUI技术实现了帮助用户跨越应用壁垒、像***一样操作手机的能力。

不过，豆包手机助手陷入争议。有用户反馈称，豆包手机助手因调用“无障碍”及“屏幕共享”权限，触发了一些App的通用风控策略，导致其账号受限。对此，豆包方面紧急下线相关功能并协助解封，同时公开重申其操作合规、无隐私侵入，仅为既定权限调用而非黑客行为。

对于GUI路线，外界争议最多是其调用了INJECT_EVENTS 权限，豆包手机助手团队表示，已经在权限清单中进行了明确披露。据了解，INJECT_EVENTS 确实是系统级权限，但有更严格的使用限制，而且大多手机厂商的助手服务也都涉及调用该权限。拥有该权限许可，相关产品才能跨屏、跨应用来模拟点击***，完成用户操作手机的任务需求。豆包手机助手需要用户主动授权，才可以调用该权限，使用操作手机功能。

豆包手机助手团队同时表示，据他们了解，目前行业的AI助手，均需要使用该权限（或与其类似的无障碍权限）才能提供操作手机的服务。

目前来看，手机智能体主要分为以豆包手机助手为代表的GUI路线和以苹果等厂商为代表的API路线。

展开全文

GUI路线是指，AI 利用多模态大模型对手机屏幕进行 OCR（文字识别）和布局分析，理解界面上的每一个图标和按钮，并通过意图推理规划操作路径，最终实现动作的执行。

API路线则更为传统，智能体厂商需要通过规范化的API接口调用App功能，从而完成任务，而非直接操作App界面。

在手机智能体赛道的火热竞争之下，外界也在关注哪种技术路线可以在博弈中胜出。

香港科技大学计算机科学及工程学系副教授王帅表示，GUI路线与API路线解决的是不同场景下的不同问题，将两者对立没有太大的意义。从技术上来说，目前智能体不缺少保护数据与隐私安全的工具和手段，行业应当合力推动这些机制标准化、强制化的落地。

“与其把精力花在争论哪条路线更危险，不如把力气用在确保每条路线都能达到应有的安全水位上。”王帅说。

哪条路线是最优解？

王帅认为，GUI路线有着三大优势。

第一，适用范围更广。API路线成立的前提在于App开发者必须愿意开放API接口。但在现实中，大量中小应用、长尾服务没有标准化API，也没有动力去做。相比之下，GUI路线对服务端的要求低很多。理论上只要有可交互的界面，就存在被感知和操作的可能，不用等生态里各方慢慢谈合作、定标准。对于缓解“生态孤岛”问题而言，这条路会走得更快一些。

第二，透明度更高。GUI路线下，智能体的操作过程大部分都能映射在屏幕上，用户可直观地看到它在做什么。这种“所见即所得”的模式，在建立用户信任上有天然的好处。“坦率地讲，黑箱操作谁都不太踏实，监管侧对算法透明度的关注也在持续升温。”王帅说。

第三，在生态层面，API 路线在发展过程中可能会比较容易演变成几个大平台主导的格局，在“接口谁来定”“数据往哪流”等问题上，话语权容易向头部平台集中。GUI 路线的接入门槛相对较低，“小而美”的服务也更有机会被智能体发现和调用，对维护多元竞争格局有正面的意义。

不过，王帅提醒，GUI路线的鲁棒性、执行效率较低等老问题仍然存在。长远来看，GUI路线和 API路线融合可能才是更优解。不过，眼下 API 生态远谈不上成熟，GUI 路线提供的是一条务实的、能先跑起来的路，行业不妨多给它一些探索空间。

智能体已具备安全机制

对于引发公众关注的隐私和安全问题，王帅认为，公众有顾虑很正常，但这些顾虑不应该绑定在某条技术路线上，而应该评估技术路线本身的机制。从技术和制度两个维度看，目前保障用户权利的工具箱其实已经相当充实。

王帅指出，从用户控制来看，目前成熟的智能体方案基本都跑通了一条链路：事前——明确告知权限和隐私政策，让用户知情授权；事中——操作过程实时可见，在支付、登录、签协议等敏感节点，主动交还控制权给用户；事后——完整的操作日志随时可查。

“这套设计的逻辑是，智能体是替你干活的，不是替你做主的。”王帅说。

对于公众关心的数据和隐私保护问题，王帅表示，《中华人民共和国个人信息保护法》规定了数据处理的两大基本原则——数据最小化原则和目的限定原则。数据最小化原则是只处理为实现特定目的所必需的最少量的个人信息；目的限定原则是指处理个人信息应当具有明确、合理的目的，且处理活动应当与处理目的直接相关。

为实现这两项原则，智能体也有相应的工程手段，能在端侧处理的就不上云，必须用云端处理的数据“用完即删””，同时***用传输加密和信息脱敏技术，把数据暴露面压到最小。

王帅介绍，隐私影响评估（PIA）、合规检测等机制也为智能体的运行提供了较为严格的制度性保障。需要强调的是，无论 GUI还是 API，隐私保护与合规要求是所有技术路线都必须同等遵守的底线，不存在某条路线天然更安全或者某条技术路线更危险的问题。真正决定安全水平的，是开发者是否严格落实了已有机制。返回搜狐，查看更多