# N-gram 模型详解与示例

## 什么是 N-gram？

N-gram 是一种在文本分析中广泛使用的基本概念。简单来说，一个 N-gram 是文本中连续的 N 个项（items）的序列。这些“项”可以是字符、单词、音节或其他语言单位，具体取决于应用场景。

- **N** 代表序列中项的数量。
  - 当 N=1 时，称为 **unigram** (或 1-gram)。
  - 当 N=2 时，称为 **bigram** (或 2-gram)。
  - 当 N=3 时，称为 **trigram** (或 3-gram)。
  - 以此类推。

N-gram 模型在自然语言处理 (NLP) 中有多种应用，例如：
- **语言建模**：预测序列中的下一个词或字符。
- **文本分类**：将文档归类到预定义的类别。
- **机器翻译**：在不同语言之间转换文本。
- **拼写纠错**：识别和修正拼写错误。
- **信息检索**：查找与查询相关的文档。
- **语音识别**：将口语转换为文本。

在本 Notebook 中，我们将重点演示基于**单词**的 N-grams，并展示如何生成它们。

In [1]:
import re

def generate_ngrams(text: str, n: int, word_based: bool = True) -> list:
    """
    从文本生成 n-grams。

    参数:
    text (str): 输入文本。
    n (int): n-gram 中项的数量 (例如，1 表示 unigram, 2 表示 bigram)。
    word_based (bool): True 表示基于单词的 n-gram, False 表示基于字符的 n-gram。

    返回:
    list: 生成的 n-grams 列表。每个 n-gram 是一个元组（对于基于单词的）或字符串（对于基于字符的）。
    """
    if not text:
        return []
    
    if word_based:
        # 简单分词：按空格分割，并移除标点符号（可选，这里简化处理）
        # 更复杂的场景可能需要专门的分词库 (如 NLTK, SpaCy, Jieba for Chinese)
        # 为了演示，我们先转换为小写，然后用正则表达式匹配单词
        processed_text = text.lower()
        # 移除非字母数字字符，但保留空格用于分词
        processed_text = re.sub(r'[^\w\s]', '', processed_text) 
        tokens = processed_text.split()
        
        if len(tokens) < n:
            return [] # 如果词数少于n，则无法生成n-gram
            
        ngrams = []
        for i in range(len(tokens) - n + 1):
            ngrams.append(tuple(tokens[i:i+n]))
        return ngrams
    else: # Character-based n-grams
        # 对于字符 n-gram，通常不需要复杂的预处理，但可以移除多余空格
        processed_text = re.sub(r'\s+', ' ', text).strip()
        if len(processed_text) < n:
            return []
        
        ngrams = []
        for i in range(len(processed_text) - n + 1):
            ngrams.append(processed_text[i:i+n])
        return ngrams

print("N-gram 生成函数已定义。")

N-gram 生成函数已定义。


## 1. Unigrams (1-grams)

Unigram 是文本中单个的项。如果基于单词，它就是文本中的每个单词。如果基于字符，它就是文本中的每个字符。

Unigram 模型是最简单的语言模型，它假设每个单词（或字符）的出现是独立的，不依赖于前面的单词（或字符）。

In [4]:
# 英文示例文本
english_text_example = "The quick brown fox jumps over the lazy dog."
# 中文示例文本
chinese_text_example = "我爱自然语言处理技术"

print("--- 英文 Unigrams (基于单词) ---")
unigrams_en_word = generate_ngrams(english_text_example, 1, word_based=True)
print(f"文本: '{english_text_example}'")
print(f"Unigrams: {unigrams_en_word}")
print(f"数量: {len(unigrams_en_word)}\n")

print("--- 中文 Unigrams (基于单词，使用空格分词) ---")
# 注意：对于中文，简单的空格分词通常不适用。实际应用中需要使用中文分词工具。
# 这里为了演示，我们手动在词之间加入空格。
chinese_text_segmented = "我 爱 自然语言 处理 技术"
unigrams_zh_word = generate_ngrams(chinese_text_segmented, 1, word_based=True)
print(f"分词后文本: '{chinese_text_segmented}'")
print(f"Unigrams: {unigrams_zh_word}")
print(f"数量: {len(unigrams_zh_word)}\n")

print("--- 英文 Unigrams (基于字符) ---")
unigrams_en_char = generate_ngrams(english_text_example, 1, word_based=False)
print(f"文本: '{english_text_example}'")
print(f"Unigrams: {unigrams_en_char}") # 输出会很长，可以考虑只打印前几个
print(f"数量: {len(unigrams_en_char)}\n")

print("--- 中文 Unigrams (基于字符) ---")
unigrams_zh_char = generate_ngrams(chinese_text_example, 1, word_based=False)
print(f"文本: '{chinese_text_example}'")
print(f"Unigrams: {unigrams_zh_char}")
print(f"数量: {len(unigrams_zh_char)}")

--- 英文 Unigrams (基于单词) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Unigrams: [('the',), ('quick',), ('brown',), ('fox',), ('jumps',), ('over',), ('the',), ('lazy',), ('dog',)]
数量: 9

--- 中文 Unigrams (基于单词，使用空格分词) ---
分词后文本: '我 爱 自然语言 处理 技术'
Unigrams: [('我',), ('爱',), ('自然语言',), ('处理',), ('技术',)]
数量: 5

--- 英文 Unigrams (基于字符) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Unigrams: ['T', 'h', 'e', ' ', 'q', 'u', 'i', 'c', 'k', ' ', 'b', 'r', 'o', 'w', 'n', ' ', 'f', 'o', 'x', ' ', 'j', 'u', 'm', 'p', 's', ' ', 'o', 'v', 'e', 'r', ' ', 't', 'h', 'e', ' ', 'l', 'a', 'z', 'y', ' ', 'd', 'o', 'g', '.']
数量: 44

--- 中文 Unigrams (基于字符) ---
文本: '我爱自然语言处理技术'
Unigrams: ['我', '爱', '自', '然', '语', '言', '处', '理', '技', '术']
数量: 10


## 2. Bigrams (2-grams)

Bigram 是文本中连续的两个项的序列。如果基于单词，它就是文本中连续的两个单词。

Bigram 模型考虑了前一个单词对当前单词出现概率的影响，比 Unigram 模型能捕捉到更多的上下文信息。例如，“New York” 是一个常见的 Bigram，单独的 “New” 和 “York” 可能意义不同。

In [5]:
print("--- 英文 Bigrams (基于单词) ---")
bigrams_en_word = generate_ngrams(english_text_example, 2, word_based=True)
print(f"文本: '{english_text_example}'")
print(f"Bigrams: {bigrams_en_word}")
print(f"数量: {len(bigrams_en_word)}\n")

print("--- 中文 Bigrams (基于单词，使用空格分词) ---")
bigrams_zh_word = generate_ngrams(chinese_text_segmented, 2, word_based=True)
print(f"分词后文本: '{chinese_text_segmented}'")
print(f"Bigrams: {bigrams_zh_word}")
print(f"数量: {len(bigrams_zh_word)}\n")

print("--- 英文 Bigrams (基于字符) ---")
bigrams_en_char = generate_ngrams(english_text_example, 2, word_based=False)
print(f"文本: '{english_text_example}'")
print(f"Bigrams (前20个): {bigrams_en_char[:20]}") # 截断输出
print(f"数量: {len(bigrams_en_char)}\n")

print("--- 中文 Bigrams (基于字符) ---")
bigrams_zh_char = generate_ngrams(chinese_text_example, 2, word_based=False)
print(f"文本: '{chinese_text_example}'")
print(f"Bigrams: {bigrams_zh_char}")
print(f"数量: {len(bigrams_zh_char)}")

--- 英文 Bigrams (基于单词) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Bigrams: [('the', 'quick'), ('quick', 'brown'), ('brown', 'fox'), ('fox', 'jumps'), ('jumps', 'over'), ('over', 'the'), ('the', 'lazy'), ('lazy', 'dog')]
数量: 8

--- 中文 Bigrams (基于单词，使用空格分词) ---
分词后文本: '我 爱 自然语言 处理 技术'
Bigrams: [('我', '爱'), ('爱', '自然语言'), ('自然语言', '处理'), ('处理', '技术')]
数量: 4

--- 英文 Bigrams (基于字符) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Bigrams (前20个): ['Th', 'he', 'e ', ' q', 'qu', 'ui', 'ic', 'ck', 'k ', ' b', 'br', 'ro', 'ow', 'wn', 'n ', ' f', 'fo', 'ox', 'x ', ' j']
数量: 43

--- 中文 Bigrams (基于字符) ---
文本: '我爱自然语言处理技术'
Bigrams: ['我爱', '爱自', '自然', '然语', '语言', '言处', '处理', '理技', '技术']
数量: 9


## 3. Trigrams (3-grams)

Trigram 是文本中连续的三个项的序列。如果基于单词，它就是文本中连续的三个单词。

Trigram 模型考虑了前面两个单词对当前单词出现概率的影响，能捕捉到比 Bigram 模型更长的上下文依赖关系。例如，“natural language processing” 是一个常见的 Trigram。

In [6]:
print("--- 英文 Trigrams (基于单词) ---")
trigrams_en_word = generate_ngrams(english_text_example, 3, word_based=True)
print(f"文本: '{english_text_example}'")
print(f"Trigrams: {trigrams_en_word}")
print(f"数量: {len(trigrams_en_word)}\n")

print("--- 中文 Trigrams (基于单词，使用空格分词) ---")
trigrams_zh_word = generate_ngrams(chinese_text_segmented, 3, word_based=True)
print(f"分词后文本: '{chinese_text_segmented}'")
print(f"Trigrams: {trigrams_zh_word}")
print(f"数量: {len(trigrams_zh_word)}\n")

print("--- 英文 Trigrams (基于字符) ---")
trigrams_en_char = generate_ngrams(english_text_example, 3, word_based=False)
print(f"文本: '{english_text_example}'")
print(f"Trigrams (前20个): {trigrams_en_char[:20]}") # 截断输出
print(f"数量: {len(trigrams_en_char)}\n")

print("--- 中文 Trigrams (基于字符) ---")
trigrams_zh_char = generate_ngrams(chinese_text_example, 3, word_based=False)
print(f"文本: '{chinese_text_example}'")
print(f"Trigrams: {trigrams_zh_char}")
print(f"数量: {len(trigrams_zh_char)}")

--- 英文 Trigrams (基于单词) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Trigrams: [('the', 'quick', 'brown'), ('quick', 'brown', 'fox'), ('brown', 'fox', 'jumps'), ('fox', 'jumps', 'over'), ('jumps', 'over', 'the'), ('over', 'the', 'lazy'), ('the', 'lazy', 'dog')]
数量: 7

--- 中文 Trigrams (基于单词，使用空格分词) ---
分词后文本: '我 爱 自然语言 处理 技术'
Trigrams: [('我', '爱', '自然语言'), ('爱', '自然语言', '处理'), ('自然语言', '处理', '技术')]
数量: 3

--- 英文 Trigrams (基于字符) ---
文本: 'The quick brown fox jumps over the lazy dog.'
Trigrams (前20个): ['The', 'he ', 'e q', ' qu', 'qui', 'uic', 'ick', 'ck ', 'k b', ' br', 'bro', 'row', 'own', 'wn ', 'n f', ' fo', 'fox', 'ox ', 'x j', ' ju']
数量: 42

--- 中文 Trigrams (基于字符) ---
文本: '我爱自然语言处理技术'
Trigrams: ['我爱自', '爱自然', '自然语', '然语言', '语言处', '言处理', '处理技', '理技术']
数量: 8


## 总结与讨论

- **N 的选择**：N 的值越大，模型能捕捉到的上下文信息越长，但也更容易遇到数据稀疏问题（即很多 N-gram 在训练数据中从未出现过）。实际应用中，N 通常取 1 到 5 之间。
- **基于单词 vs. 基于字符**：
  - **基于单词**的 N-gram 更符合人类对语言的理解，但对于词汇量大的语言（如中文、日文、韩文，它们没有天然的空格分隔符，需要分词）和形态丰富的语言（如德语、俄语）处理起来更复杂，且更容易遇到未登录词 (Out-Of-Vocabulary, OOV) 问题。
  - **基于字符**的 N-gram 词汇表大小有限（例如，英文字母加数字标点），不易遇到 OOV 问题，对于形态丰富的语言和某些亚洲语言有优势。但单个字符通常不携带太多语义信息，需要更长的 N 才能捕捉上下文。
- **预处理**：文本预处理（如小写转换、标点移除、词干提取、停用词移除）对 N-gram 的生成和后续应用有重要影响。
- **中文处理**：对于中文等不使用空格分词的语言，生成基于单词的 N-gram 前必须先进行中文分词。常用的中文分词工具有 Jieba, THULAC, HanLP, spaCy 等。

这个 Notebook 提供了一个 N-gram 的基本介绍和生成方法。在实际的 NLP 项目中，N-gram 通常作为特征工程的一部分，或者作为更复杂模型（如神经网络语言模型）的基础。