输入时token计算模拟 #90

orangelckc · 2023-03-23T22:15:39Z

import GPT3Tokenizer from 'gpt3-tokenizer';
const tokenizer = new GPT3Tokenizer({ type: 'gpt3' });
export function estimateTokens(str: string): number {
    const encoded: { bpe: number[]; text: string[] } = tokenizer.encode(str);
    return encoded.bpe.length;
}

参考demo

需要同时计算输入的字符+角色描述的字符
如果开启了记忆模式，还需要增加记忆所消耗的字符
总上传token必须少于4096，建议留200的余量，因为计算可能和实际有误差

需要将计算token的方法抽离，之后会用到计算返回答案的token计算

orangelckc self-assigned this Mar 23, 2023

orangelckc added a commit that referenced this issue Mar 24, 2023

feat: add GPT3Tokenizer #90

666a45e

orangelckc added a commit that referenced this issue Mar 24, 2023

feat: add GPT3Tokenizer #90

74039ae

ayangweb pushed a commit that referenced this issue Mar 25, 2023

feat: add GPT3Tokenizer #90 (#94)

49b7ff1

ayangweb closed this as completed Mar 25, 2023

ayangweb reopened this Mar 25, 2023

ayangweb closed this as completed Mar 25, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

输入时token计算模拟 #90

输入时token计算模拟 #90

orangelckc commented Mar 23, 2023

输入时token计算模拟 #90

输入时token计算模拟 #90

Comments

orangelckc commented Mar 23, 2023