你让 AI Agent 帮你订机票。它说:"好的,请先登录航空公司官网。"
你让 AI Agent 帮你发公众号。它说:"好的,请提供账号密码,我帮你用 Playwright 登录。"
你让 AI Agent 帮你查银行流水。它说:"抱歉,我无法访问需要登录的页面。"
AI 已经很聪明了,但它像个没带身份证的游客——每个需要身份验证的门口,它都被拦下来。
这就是今天所有 AI Agent 的死穴:没有登录态。
上周我在研究 Kimi 的新产品 WebBridge,一个让 AI Agent 直接控制你浏览器、带上真实登录态的工具。
我花了半天时间读完整套文档,越读越兴奋——这不就是我一直想做的事吗?
简单说 WebBridge 是什么:
我立马想:这个功能,WorkBuddy 能不能做?
为什么说登录态是圣杯?因为:
订机票、发文章、查数据、审批流程... 所有真正有用的场景,都在登录墙后面。
没有登录态的 AI Agent,就像给了你一辆法拉利,但不让你上高速公路。
你可以说:"那让 AI 用 Playwright 模拟登录不就行了?"
不行,原因有三个:
唯一可靠的方案:用用户已经登录的浏览器。
登录态背后是信任。你登录了某个网站,意味着你授权它代表你操作。
AI Agent 要获得这种授权,最自然的方式就是:用它,而不是代替它。
读完 WebBridge 文档,我决定自己实现一个类似的能力。
核心思路很简单:
--remote-debugging-port=9222chromium.connectOverCDP('http://localhost:9222') 连接我花了一下午时间验证这个方案,结论是:完全可行。
| 测试项 | 结果 |
|---|---|
| Chrome 启动 + debug port | ✅ |
| Playwright connectOverCDP 连接 | ✅ |
| 页面导航 | ✅ |
| DOM 内容提取 | ✅ |
| 截图 | ✅ |
| 元素操作 | ✅ |
最关键的是:用真实 Chrome profile 启动,所有登录态完整保留。
做完这个技术验证,我意识到一件事:
AI Agent + 登录态,不只是技术问题,这是对"AI 真正融入工作流"的重新思考。
今天的 AI 工具(ChatGPT、Claude、Kimi)都是"外部顾问"模式:你去问它,它告诉你答案,然后你自己去执行。
明天的 AI 工具应该是"数字同事"模式:你告诉它目标,它直接帮你完成,包括所有需要登录的操作。
从这个角度看,登录态是 AI 从"顾问"升级为"同事"的必经之路。
WebBridge 走出了第一步。我们也要跟上。
本文是阿优科技团队在研发 WorkBuddy(AI 工作助手)过程中的技术思考。欢迎交流。