Claude API
  1. API 参考
Claude API
  • API 参考
    • 入门指南
    • IP 地址
    • 版本
    • 错误
    • 速率限制
    • 客户端 SDK
    • 支持地区
    • 获取帮助
    • 亚马逊 BEDROCK API
      • Amazon Bedrock API
    • Vertex AI
      • Vertex AI API
    • 消息
      • 流式消息
      • 从文本补全迁移
      • 消息示例
      • 消息
      • 计算消息令牌数
    • 模型
      • 列出模型
      • 获取模型
    • 消息批次
      • 消息批次示例
      • 创建消息批次
      • 检索消息批次
      • 获取消息批次结果
      • 列出消息批次
      • 取消消息批次
      • 删除消息批次
    • 文本补全(传统)
      • 流式文本补全
      • 提示验证
      • 创建文本补全
    • 管理员 API
      • 组织成员管理
        • 获取用户
        • 列出用户
        • 更新用户
        • 移除用户
      • 组织邀请
        • 获取邀请
        • 列出邀请
        • 创建邀请
        • 删除邀请
      • 工作区管理
        • 获取工作区
        • 列出工作区
        • 更新工作区
        • 创建工作区
        • 归档工作区
      • 工作区成员管理
        • 获取工作区成员
        • 列出工作空间成员
        • 添加工作区成员
        • 更新工作空间成员
        • 删除工作区成员
      • API 密钥
        • 获取API密钥
        • 列出API密钥
        • 更新API密钥
  1. API 参考

速率限制

为了减少滥用并管理我们API的容量,我们对组织使用Claude API的数量实施了限制。
我们有两种类型的限制:
1.
消费限制设定组织每月API使用的最高成本。
2.
速率限制设定组织在指定时间段内可以发出的最大API请求数。
我们在组织层面执行服务配置的限制,但您也可以为组织的工作空间设置用户可配置的限制。

关于我们的限制#

限制旨在防止API滥用,同时最大限度地减少对常见客户使用模式的影响。
限制由使用层级定义,每个层级都有不同的消费和速率限制。
当您在使用API时达到某些阈值,您的组织将自动提升层级。 限制在组织层面设置。您可以在Anthropic控制台的限制页面查看您组织的限制。
您可能在较短时间间隔内达到速率限制。例如,每分钟60个请求(RPM)的速率可能被强制执行为每秒1个请求。短时间内大量的请求可能超过速率限制并导致速率限制错误。
以下概述的是我们的标准限制。如果您需要更高的自定义限制,请通过Anthropic控制台联系销售团队。
我们使用令牌桶算法进行速率限制。这意味着您的容量会持续补充到最大限制,而不是在固定间隔重置。
这里描述的所有限制代表最大允许使用量,而不是保证的最小值。这些限制旨在防止过度使用并确保用户之间资源的公平分配。

消费限制#

每个使用层级对您每个日历月可以在API上花费的金额都有限制。一旦您达到当前层级的消费限制,在有资格升级到下一层级之前,您需要等到下个月才能再次使用API。
要获得下一层级的资格,您必须满足存款要求和强制等待期。更高层级需要更长的等待期。注意,为了最小化超额注资账户的风险,您不能存入超过每月消费限制的金额。

提升层级的要求#

使用层级信用购买首次购买后等待时间每月最大使用量
第1层$50天$100
第2层$407天$500
第3层$2007天$1,000
第4层$40014天$5,000
月度开票不适用不适用不适用

更新的速率限制#

我们对消息API的速率限制以每分钟请求数(RPM)、每分钟输入令牌数(ITPM)和每分钟输出令牌数(OTPM)来衡量,针对每个模型类别。 如果您超过任何速率限制,您将收到429错误。
ITPM速率限制在每个请求开始时根据提示长度进行估算,并在请求结束时根据实际使用的输入令牌数进行调整。 请注意,所有类型的输入令牌(input_tokens、cache_creation_input_tokens和cache_read_input_tokens)都同等计入ITPM速率限制,即使它们的计费率不同。
OTPM速率限制在每个请求开始时根据max_tokens进行估算,并在请求结束时根据实际使用的输出令牌数进行调整。 如果您比预期更早达到OTPM限制,请尝试减少max_tokens以更好地估计完成的大小。
点击表格中的速率限制层级以查看相关速率限制。 速率限制按模型单独跟踪;因此,同一层级内的模型不共享速率限制。
第1层
第2层
第3层
第4层
自定义
模型每分钟最大请求数 (RPM)每分钟最大输入令牌数 (ITPM)每分钟最大输出令牌数 (OTPM)
Claude 3.5 Sonnet 2024-10-225040,0008,000
Claude 3.5 Sonnet 2024-06-205040,0008,000
Claude 3.5 Haiku5050,00010,000
Claude 3 Opus5020,0004,000
Claude 3 Sonnet5040,0008,000
Claude 3 Haiku5050,00010,000

消息批处理API#

消息批处理API有其自己的速率限制,这些限制在所有模型之间共享。这包括对所有API端点的每分钟请求数(RPM)限制,以及同时在处理队列中的批处理请求数量限制。这里的”批处理请求”指的是消息批处理的一部分。您可以创建包含数千个批处理请求的消息批处理,每个请求都计入此限制。当批处理请求尚未被模型成功处理时,它被视为处理队列的一部分。
第1层
第2层
第3层
第4层
自定义
每分钟最大请求数 (RPM)处理队列中的最大批处理请求数每批最大批处理请求数
50100,000100,000

为工作空间设置较低限制#

为了保护组织中的工作空间免受潜在过度使用的影响,您可以为每个工作空间设置自定义消费和速率限制。
示例:如果您组织的限制是每分钟48,000个令牌(40,000个输入令牌和8,000个输出令牌),您可能会将一个工作空间限制为每分钟30,000个总令牌。这可以保护其他工作空间免受潜在过度使用的影响,并确保组织内资源的更公平分配。剩余未使用的每分钟令牌(如果该工作空间未使用限制,则可能更多)则可供其他工作空间使用。
注意:
您不能对默认工作空间设置限制。
如果未设置,工作空间限制与组织限制相匹配。
即使工作空间限制加起来更多,组织范围的限制始终适用。
未来将为工作空间添加输入和输出令牌限制支持。

响应头#

API响应包含显示强制执行的速率限制、当前使用情况和限制重置时间的头部。
返回以下头部:
头部描述
anthropic-ratelimit-requests-limit任何速率限制期内允许的最大请求数。
anthropic-ratelimit-requests-remaining在被速率限制之前剩余的请求数。
anthropic-ratelimit-requests-reset请求速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-tokens-limit任何速率限制期内允许的最大令牌数。
anthropic-ratelimit-tokens-remaining在被速率限制之前剩余的令牌数(四舍五入到最接近的千)。
anthropic-ratelimit-tokens-reset令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-input-tokens-limit任何速率限制期内允许的最大输入令牌数。
anthropic-ratelimit-input-tokens-remaining在被速率限制之前剩余的输入令牌数(四舍五入到最接近的千)。
anthropic-ratelimit-input-tokens-reset输入令牌速率限制将完全补充的时间,以RFC 3339格式提供。
anthropic-ratelimit-output-tokens-limit任何速率限制期内允许的最大输出令牌数。
anthropic-ratelimit-output-tokens-remaining在被速率限制之前剩余的输出令牌数(四舍五入到最接近的千)。
anthropic-ratelimit-output-tokens-reset输出令牌速率限制将完全补充的时间,以RFC 3339格式提供。
retry-after您可以重试请求前的秒数。
anthropic-ratelimit-tokens-*头部显示当前生效的最严格限制的值。例如,如果您超过了工作空间每分钟令牌限制,头部将包含工作空间每分钟令牌速率限制值。如果工作空间限制不适用,头部将返回剩余的总令牌数,其中总数是输入和输出令牌的总和。这种方法确保您能够看到当前API使用的最相关约束。

旧版速率限制#

我们的速率限制以前是按每个模型类别的每分钟请求数、每分钟令牌数和每天令牌数来衡量的。如果您超过任何速率限制,您将收到429错误。点击速率限制层级以查看相关限制。
速率限制按模型单独跟踪,因此同一层级内的模型不共享速率限制。
第1层
第2层
第3层
第4层
自定义
模型每分钟最大请求数 (RPM)每分钟最大令牌数 (TPM)每天最大令牌数 (TPD)
Claude 3.5 Sonnet 2024-10-225040,0001,000,000
Claude 3.5 Sonnet 2024-06-205040,0001,000,000
Claude 3.5 Haiku5050,0005,000,000
Claude 3 Opus5020,0001,000,000
Claude 3 Sonnet5040,0001,000,000
Claude 3 Haiku5050,0005,000,000
修改于 2025-02-25 07:55:38
上一页
错误
下一页
客户端 SDK
Built with