频率限制

Rate Limit 和 quota 不是一回事。

区别

Rate Limit

限制单位时间内的请求频率,主要用于保护系统稳定性和异常使用检测。

截至 2026-06-04,当前实现里的默认保护值是 每个 credential bucket 每分钟 30 次请求。API-key 请求按 API key 分桶;OAuth Remote MCP 请求按 OAuth 审计身份分桶,例如 client 与 token metadata。触发后,对外错误码为 RATE_LIMITED

Remote MCP 复用同一套频率保护机制,无论部署在 API-key、OAuth 还是 dual 模式。

Quota

限制当前账号在某个周期内可使用的能力范围和次数,可能同时包含:

  • Skill 技能额度
  • 底层服务配额

你应该如何理解

  • 即使 quota 还有余额,过于密集的请求也可能触发频率保护
  • 即使没有触发 rate limit,也可能因为 quota 不足而无法继续使用

实际恢复建议

  • 同一个 API key 先等待约 1 分钟再重试
  • 降低 Agent 或工作流里的突发重试频率
  • 如果遇到 Cloudflare 或代理链路问题,应按网络问题处理,而不是误判成 rate limit
  • 自动化场景应使用 CLI exit codes,避免立即密集重试

当前公开口径

具体数字会按套餐、能力和发布阶段持续调整,因此本页只解释机制,不固定承诺具体阈值。