从0到1，什么是Token，一篇文章彻底讲透了AI？如何实际应用？

2025-06-24 12:18:54 来源：新华社

字号：默认大超大 | 打印 |

Token背景。

讲理论没用󿀌很少有人会看长篇大论的知识文，大多数人都在关注如何使用#xff0c;实际使用时应注意哪些问题？

我的视频课程从应用层面开始，从小白到精通󿀌新手看了。易理解。，高手看了。更通透。，不要死记硬背#xff00c;今年不参加考试󿀌但是你能不能拿到。结果。是最大的。考题。。

本文将对token在我们身上进行透明的解释。实际使用人工智能。在࿱的过程中发挥了什么作用？f;

官方解释。

文本生成模型 Token 处理基本单位的文本。Token 代表常见的字符序列。例如，单个汉字"夔"它可以分解成几个 Token 组合，而像"中国"如此短而常见的短语可能会使用单个短语 Token。

一般来说，，对于一个通常的中文文本，1 个 Token 大约相当于 1.5-2 个汉字。

需要注意的是，，我们的文本模型，Input 和 Output 总长度不得超过模型的最大上下文长度。

我的解释。

为什么token代表1.5-2个汉字࿰？c;为什么不固定？

在不同的语言中，Token的长度和构成有很大的不同。例如，我们将一段分为一小段和一小段，每一段都代表着意思，所以这些小段就是我们所说的“Token”。

英语，说token很简单󿀌因为单词之间有空间，根据空格，我们知道一个单词已经结束了，下一个单词即将开始。例如，“I love Moonshot AI“这句话󿀌它被分成四个Token：I、love、Moonshot、AI。

但是中文不一样󿀌中文字是连在一起的，没有空格。所以，我们需要用一种特殊的方法来决定哪些词应该放在一起成为Token。例如，“我爱Moonshot AI“这句话󿀌我们可以把它分成以下几个Token：

我。- Token，说话的人。
爱。- Token，表达你喜欢的意思。
Moonshot AI。- Token，因为是专有名词，表示特定的公司或产品。

但是，如果我们遇到更复杂的句子，比如“我很喜欢我的女朋友”，这里的“非常喜欢”可以看作是Token，因为它表达了一个完整的爱。这样，一个Token包含三个汉字。

所以，为什么Token大约等于1.5到2个汉字࿱？f;这是因为：

简单词。：有些词很简单󿀌比如“我”、“你”、“好”，这些词都是单独的汉字，所以每个Token都是一个汉字。
复合词。：有些词是由两个或两个以上的汉字组成的，比如“喜欢”、“我的”、“女朋友”󿀌这些词由两个汉字组成，所以每个Token大约有两个汉字。
成语和短语。：还有一些特殊的短语，比如“马到成功”、“画龙点睛”，这些成语由四个汉字组成，如果我们把它们看作是一个整体，所以每个Token大约有四个汉字。

在与AI的交互中，如何计算token࿱？f;

࿰在与AI的互动中c;基于输入和输出的文本内容是Token的计算。每次你给AI发消息或AI回复时󿀌所有这些都涉及到Token的计算。例如，当你向AI发送消息时󿀌这条消息中的所有文字都将被转换成Token。

当AI回复您的消息时，它的回复内容也会转换成Token。Token的计算方法取决于人工智能模型和分词算法。

不同的模型可以不同的方式将文本分割成Token。

举个例子。，假设你问AI：“明天会议什么时候开始？这句话可能会被转换成五个Token。然后AI回答：会议定于上午9点开始。这句话可能会被转换成六个Token。

在这个例子中，Token࿰分别计算您的输入和AI输出c;然后加上两者的Token数。Token༈提问）+ 六个Token༈回答）= 十一个Token。这就是Token在这次对话中消耗的总数。

在token的计算中，上下文是指单词对话，还是整个页面的所有对话？

上下文是指大模型处理任务时，可考虑的信息范围。这个范围可能包括对话历史、文档内容、用户查询等c;并非简单地指整个页面的所有对话。。

例如，你在和朋友聊天。你的话题可能会从天气到电影，晚上吃什么。在这次对话中，每个话题都是基于之前的对话内容。例如：

你说：“今天天气真好。”。
朋友回答：“是的，，适合出去散步。”。
然后你说：“我们去看电影怎么样？#xff1f;”。
朋友们说：“好主意󿀌最近有一部新上映的电影评价不错。”。

在这次对话中，每个答案都是基于之前的对话内容（也就是说，上下文󿂙来回应的。

如果你的朋友突然跳到一个完全不相关的话题，例如，在你说“今天天气真好”之后，他突然说:“我昨天吃了一个美味的披萨”，这个答案会显得有点突兀󿀌因为之前的对话没有考虑上下文。

在AI聊天或处理文本时，也差不多。人工智能需要了解你的问题是基于什么背景或之前的对话，只有这样，它才能给出合适的答案。例如：

问问AI：“余华作品最后一本书是什么时候出版的࿱？f;”。
AI回答：余华的最后一部小说《第七天》于2013年出版。”。

在这个例子中，人工智能需要了解你的问题是关于余华系列的书籍，然后根据上下文给出正确的答案。

如何选择模型࿱？f;

8kkimi模型有8kimi模型、32k、这些数字128k。这些数字实际上是指AI在处理你的对话或文本时，能记住和考虑的信息量。就像人的短时记忆，AI也有“记忆限制”，它不能无限期地记住所有的对话。

8k模型。：就像记忆只能记住8000个单词的短对话。
32k模型。：更好的记忆力，能记住3.2万个单词的长对话。
128k模型。：记忆力很好󿀌能记住128000个单词的超长对话。

所以，如果你和AI的对话很长，或者你需要AI处理一篇很长的文章，你可能需要一个。记忆力更好的模型。（例如，32k或128k模型），这样，人工智能就可以更好地理解整个对话或文章的内容，给出更合适的答案或生成更连贯的文本。

如果是中文󿼌8k，32k，文章的上下文可以分别处理128k的字数。

因为一个Token大约相当于1.5到2个汉字，我们可以估计8k、32k、可以分别处理128k模型中的汉字数量。在这里，我们取1.5和2的平均值，1.75，估计，这可以提供一个大致的估计范围。

8k模型。：

最小估计：8000 Tokens×1.5 字/Token=12000 字8000 Tokens×1.5 字/Token=12000 字。
最大估计：8000 Tokens×2 字/Token=16000 字8000 Tokens×2 字/Token=16000 字。
平均估计：8000 Tokens×1.75 字/Token=14000 字8000 Tokens×1.75 字/Token=14000 字。

对于32k模型。：

最小估计：32000 Tokens×1.5 字/Token=48000 字32000 Tokens×1.5 字/Token=48000 字。
最大估计：32000 Tokens×2 字/Token=64000 字32000 Tokens×2 字/Token=64000 字。
平均估计󿄚32000 Tokens×1.75 字/Token=56000 字32000 Tokens×1.75 字/Token=56000 字。

对于128k模型。：

最小估计：128000 Tokens×1.5 字/Token=192000 字128000 Tokens×1.5 字/Token=192000 字。
最大估计：128000 Tokens×2 字/Token=256000 字128000 Tokens×2 字/Token=256000 字。
平均估计：128000 Tokens×1.75 字/Token=224000 字128000 Tokens×1.75 字/Token=224000 字。

所以，根据此估算：

8k模型可以处理。 14000。文章的上下文。
32k模型可以处理。 56000。文章的上下文。
大约可以处理128k模型。 224000。文章的上下文。

总结。

token不是固定的中文或英文字母，而是以词的形式存在，单词可能是一个单词，两个单词，或四个单词，如果是英语󿼌是一串不知道长度的单词。

token的使用量将根据用户和AI在当前页面上的交互情况，判断应该消耗多少token࿰？c;页面总消耗不会重叠，即使你在这个页面上交互100次＀次c;所以这100次的总和是所有消耗的token数量。

因此，在实际应用中，8k可以处理我们日常生活中所有的小文案，和千字文章。32k可以处理万字文章󿀌这是一部短篇网文小说。128k处理超长交互，和长篇小说（在我的课程中，小说是分布的，不需要128k），

你明白token吗？

本文由 mdnice 多平台发布。

【我要纠错】责任编辑：新华社