文档快速开始基础知识
按量计费
文本模型最常见的计费方式,通常按输入和输出 Token 消耗计费
按量计费 是文本模型里最常见的计费方式。
简单来说,就是:
- 你输入给模型的内容,会消耗一部分 Token
- 模型返回给你的内容,也会消耗一部分 Token
- 系统根据这些实际消耗来结算费用
为什么大多数文本模型都按量计费
因为文本请求的长度差异很大。
例如:
- 你发一句“你好”,消耗很少
- 你发一大段上下文、长提示词、长文档,再让模型输出长答案,消耗就会更多
所以按量计费会更公平,也更精细。
按量计费最值得关注的是什么
对于新手来说,真正重要的不是死记计费公式,而是理解下面这件事:
输入越长、上下文越多、输出越长,通常花费就越高。
这也是为什么很多人一开始觉得“明明只问了一个问题,为什么费用不低”——因为模型看到的不一定只有最后那一句话,还可能包含:
- 历史对话
- 系统提示词
- 附加上下文
- 工具调用相关内容
常见影响成本的因素
1. 输入长度
提示词越长、附带材料越多,输入 Token 越高。
2. 输出长度
模型回答越长,输出 Token 越高。
3. 历史上下文
多轮对话场景下,客户端可能会把前面的聊天记录一起带上。
4. 模型本身
不同模型的单价不同,即使 Token 数量相近,费用也可能不同。
5. 分组策略
同一个模型在不同分组下,价格策略也可能不同。
怎么优化按量计费成本
如果你想节省费用,最有效的办法通常不是“少用模型”,而是“减少无效消耗”。
推荐做法
- 精简提示词,避免重复背景说明
- 控制历史消息长度
- 不要无意义地让模型输出超长答案
- 给不同业务匹配不同价格档位的模型
- 用不同 Key 和分组拆分测试流量与正式流量
常见误区
- 误以为只看最后一句提问
- 不知道客户端在偷偷携带大量历史上下文
- 高价模型被测试用途反复调用
一句话理解
按量计费的核心,不是“发一次请求多少钱”,而是“这次请求一共消耗了多少输入和输出”。
那我什么时候看按次计费?
如果你主要在用图片、视频或固定动作型接口,可以再去看:
这篇文档对您有帮助吗?
最后更新于