In [1]:
import tiktoken

def get_tokens(text, encoding_name="cl100k_base"):
    """使用tiktoken将文本转为Token序列"""
    encoding = tiktoken.get_encoding(encoding_name)
    return encoding.encode(text)

def generate_ngrams(tokens, n):
    """从Token序列中生成n-gram列表"""
    if n < 1 or len(tokens) < n:
        return []
    ngrams = []
    for i in range(len(tokens) - n + 1):
        # 提取连续n个Token组成一个n-gram
        ngram = tuple(tokens[i:i + n])
        ngrams.append(ngram)
    return ngrams

def search_ngram(text, target_ngram_tokens, n, encoding_name="cl100k_base"):
    """检索目标n-gram在文本中的出现次数和位置"""
    tokens = get_tokens(text, encoding_name)
    ngrams = generate_ngrams(tokens, n)
    target_tuple = tuple(target_ngram_tokens)
    
    count = 0
    positions = []
    for idx, ngram in enumerate(ngrams):
        if ngram == target_tuple:
            count += 1
            positions.append(idx)  # 记录n-gram在序列中的起始位置
    return count, positions, tokens

# 示例使用
if __name__ == "__main__":
    # 待处理文本
    sample_text = "tiktoken is great! tiktoken helps with tokenization."
    # 目标2-gram对应的文本（先转为Token）
    target_text = "tiktoken is"
    encoding = tiktoken.get_encoding("cl100k_base")
    target_tokens = encoding.encode(target_text)
    
    # 检索2-gram
    n = 2
    count, positions, all_tokens = search_ngram(sample_text, target_tokens, n)
    
    print(f"目标{target_text}对应的Token：{target_tokens}")
    print(f"该{ n }-gram出现次数：{count}")
    print(f"出现位置（Token序列中的起始索引）：{positions}")
    print(f"文本完整Token序列：{all_tokens}")

目标tiktoken is对应的Token：[83, 1609, 5963, 374]
该2-gram出现次数：0
出现位置（Token序列中的起始索引）：[]
文本完整Token序列：[83, 1609, 5963, 374, 2294, 0, 87272, 5963, 8779, 449, 4037, 2065, 13]
