谁在制造Token的通胀?
Token的狂飙不是自然生长的。从产业链看,有四层玩家,每一层都在向上传递成本,最终压到最末端的普通用户身上。
先看最底层:英伟达。
第一层是英伟达。以前它卖芯片,一次买卖。现在不一样了。CUDA生态绑住了全球绝大多数AI开发者,二十年来积累的工程师、开源项目、代码库都长在这个生态里,切换成本极高。它自己又开了云服务DGX Cloud,用户直接在它平台上按Token付费,不用自己买芯片。
黄仁勋在GTC 2026上提出了“Token工厂经济学”,核心就一句话:以后AI的衡量单位不再是芯片,而是Token。他的野心也不止于卖云服务——英伟达正在试图把商业模式延伸到按Token抽成。
这套打法让英伟达掌握了定价权。2026年一季度,HBM内存供不应求,内存价格在几个月内上涨了数百个百分点。英伟达的GPU也跟着涨价——AI芯片H200所用的HBM3E供应价格上涨约20%。
英伟达芯片涨价,直接推高了云厂商的采购成本。
阿里云、腾讯云、百度智能云,它们从英伟达买芯片,搭好服务器,再把算力租给下游。现在英伟达芯片涨价,HBM内存涨价,它们自己的成本在涨。同时需求又爆发——龙虾这类智能体火了,所有人都想跑Agent。需求太大,服务器、电力都跟不上。于是它们只能涨价。阿里云AI算力产品最高涨了34%,百度涨了5%到30%。
第三层是大模型厂商。DeepSeek、MiniMax、智谱这些公司,处境最微妙。它们从英伟达买芯片,从云厂商租算力,训练出模型,再把Token卖给用户。
上游,芯片涨价、内存涨价、云厂商涨价,成本在涨。下游,2024年DeepSeek带头打价格战,把Token价格打到了地板上。想涨价怕用户跑,不涨价自己的算力账单在飞涨。所以这一轮云厂商涨价,它们反而最沉默。
第四层是AI应用公司。Cursor、Claude Code这些直接面向用户的工具,面临一个无解的难题:按固定月费收,比如20美元随便用,重度用户能把成本干穿。
Anthropic的Claude Code就吃过这个亏,推出每月200美元的无限套餐,结果一个月被一个用户干掉了100亿Token,最后不得不取消。
按量付费呢?用户会被不确定的账单吓跑。大多数人喜欢固定月费,哪怕贵一点,至少心里有数。
怎么办?只能硬着头皮选固定月费,但在这个模式下做各种限制来保命。
最常见的是用量封顶。每月给你一定额度的Token,用完了要么等重置,要么补差价,要么升级。比如Claude Code取消无限套餐后,改成了按实际用量付费加基础月费的混合模式。
另一种是分级套餐。轻度用户20美元,重度用户40或60美元,把高消耗用户筛到更高的付费档位。还有些公司在技术层面做优化——缓存常用请求、限制上下文长度、在用户无感知的情况下把复杂任务切给便宜模型跑。这些做法用户看不到,但每一招都在省Token。
可以看到,越往下游,利润越薄,处境越难。最上游的英伟达稳赚,最下游的应用公司在生死线上挣扎。而用户的直观感受就是,Token越来越贵了。
节选 https://www.woshipm.com/ai/6365968.html