首页开发文档 API 参考工具集成帮助支持模型目录控制台

文档快速开始基础知识

按量计费

文本模型最常见的计费方式，通常按输入和输出 Token 消耗计费

按量计费 是文本模型里最常见的计费方式。

简单来说，就是：

你输入给模型的内容，会消耗一部分 Token
模型返回给你的内容，也会消耗一部分 Token
系统根据这些实际消耗来结算费用

为什么大多数文本模型都按量计费

因为文本请求的长度差异很大。

例如：

你发一句“你好”，消耗很少
你发一大段上下文、长提示词、长文档，再让模型输出长答案，消耗就会更多

所以按量计费会更公平，也更精细。

按量计费最值得关注的是什么

对于新手来说，真正重要的不是死记计费公式，而是理解下面这件事：

输入越长、上下文越多、输出越长，通常花费就越高。

这也是为什么很多人一开始觉得“明明只问了一个问题，为什么费用不低”——因为模型看到的不一定只有最后那一句话，还可能包含：

历史对话
系统提示词
附加上下文
工具调用相关内容

常见影响成本的因素

1. 输入长度

提示词越长、附带材料越多，输入 Token 越高。

2. 输出长度

模型回答越长，输出 Token 越高。

3. 历史上下文

多轮对话场景下，客户端可能会把前面的聊天记录一起带上。

4. 模型本身

不同模型的单价不同，即使 Token 数量相近，费用也可能不同。

5. 分组策略

同一个模型在不同分组下，价格策略也可能不同。

怎么优化按量计费成本

如果你想节省费用，最有效的办法通常不是“少用模型”，而是“减少无效消耗”。

推荐做法

精简提示词，避免重复背景说明
控制历史消息长度
不要无意义地让模型输出超长答案
给不同业务匹配不同价格档位的模型
用不同 Key 和分组拆分测试流量与正式流量

常见误区

误以为只看最后一句提问
不知道客户端在偷偷携带大量历史上下文
高价模型被测试用途反复调用

一句话理解

按量计费的核心，不是“发一次请求多少钱”，而是“这次请求一共消耗了多少输入和输出”。

那我什么时候看按次计费？

如果你主要在用图片、视频或固定动作型接口，可以再去看：

按次计费

这篇文档对您有帮助吗？

最后更新于

按次计费

某些模型按一次请求直接计费，适合单次成本清晰的场景

站内基础教程

继续熟悉 MoleAPI 控制台中的余额、模型、通知和排障能力

本页目录

为什么大多数文本模型都按量计费

按量计费最值得关注的是什么

常见影响成本的因素

1. 输入长度

2. 输出长度

3. 历史上下文

4. 模型本身

5. 分组策略

怎么优化按量计费成本

那我什么时候看按次计费？

For Agent

该文档已面向 agent 优化，将此提示发送给你的 agent 以阅读。

/zh-CN/docs/getting-started/basics/billing-per-token