# N-Gram模型（统计语言模型）

N-Gram 表示，定义一个长度为 N，步长为 1 的滑动窗口，切分原字符串得到的词段。假设 N = 2 时得到一个词段 w1w2，得到 P(w2|w1) 即 w1 出现时 w2 的概率，计算所有滑动窗口中词段的概率。
常用的有三种模型：
unigram：一元模型，单个word
bigram：二元模型，双word
trigram：三元模型，3 word

## 优点与缺点

优点：
● 考虑了词的顺序

缺点：
● 无法处理未登录词
● 词向量急剧膨胀

## 应用场景
● 语言模型：用于预测下一个单词，以实现自动完成、自动纠错等功能。（使用马尔科夫假设生成文本）
● 文本分类：用于文本分类，如情感分析、新闻分类等。
● 机器翻译：用于机器翻译，通过生成 N-gram 来预测下一个单词。
● 语音识别：用于语音识别，通过生成 N-gram 来预测下一个语音片段。
● 文本摘要：用于文本摘要，通过生成 N-gram 来预测下一个单词。
● 语言生成：用于语言生成，通过生成 N-gram 来生成新文本。


In [3]:
import os

# 读取文件路径
file_path = os.path.join("./data", "corpus.txt")

# 从文件中读取语料库
with open(file_path, encoding="utf-8") as f:
    corpus = f.readlines()


# 定义生成 N-gram 的函数
def generate_ngrams(text, n=2):
    """
    生成词级别的 N-gram
    """
    words = text.split()
    ngrams = [' '.join(words[i:i + n]) for i in range(len(words) - n + 1)]
    return ngrams


# 生成 N-gram
n = 2  # 可以调整 N 的大小
ngram_corpus = [generate_ngrams(sentence, n=n) for sentence in corpus]

# 打印 N-gram 结果
for sentence, ngrams in zip(corpus, ngram_corpus):
    print(f"句子: '{sentence.strip()}'")
    print(f"N-gram (n={n}): {ngrams}\n")


['John likes', 'likes to', 'to watch', 'watch moives,', 'moives, Mary', 'Mary likes', 'likes too.']
['John also', 'also likes', 'likes to', 'to watch', 'watch football', 'football games.']
句子: 'John likes to watch moives, Mary likes too.'
N-gram (n=2): ['John likes', 'likes to', 'to watch', 'watch moives,', 'moives, Mary', 'Mary likes', 'likes too.']

句子: 'John also likes to watch football games.'
N-gram (n=2): ['John also', 'also likes', 'likes to', 'to watch', 'watch football', 'football games.']



In [2]:
# 定义生成字符级别的 N-gram 的函数
def generate_char_ngrams(text, n=2):
    """
    生成字符级别的 N-gram。
    """
    ngrams = [text[i:i + n] for i in range(len(text) - n + 1)]
    return ngrams


# 生成字符级别的 N-gram
char_n = 2  # 可以调整 N 的大小
char_ngram_corpus = [generate_char_ngrams(sentence, n=char_n) for sentence in corpus]

# 打印字符级别的 N-gram 结果
for sentence, char_ngrams in zip(corpus, char_ngram_corpus):
    print(f"句子: '{sentence.strip()}'")
    print(f"字符级别的 N-gram (n={char_n}): {char_ngrams}\n")

句子: 'John likes to watch moives, Mary likes too.'
字符级别的 N-gram (n=2): ['Jo', 'oh', 'hn', 'n ', ' l', 'li', 'ik', 'ke', 'es', 's ', ' t', 'to', 'o ', ' w', 'wa', 'at', 'tc', 'ch', 'h ', ' m', 'mo', 'oi', 'iv', 've', 'es', 's,', ', ', ' M', 'Ma', 'ar', 'ry', 'y ', ' l', 'li', 'ik', 'ke', 'es', 's ', ' t', 'to', 'oo', 'o.', '.\n']

句子: 'John also likes to watch football games.'
字符级别的 N-gram (n=2): ['Jo', 'oh', 'hn', 'n ', ' a', 'al', 'ls', 'so', 'o ', ' l', 'li', 'ik', 'ke', 'es', 's ', ' t', 'to', 'o ', ' w', 'wa', 'at', 'tc', 'ch', 'h ', ' f', 'fo', 'oo', 'ot', 'tb', 'ba', 'al', 'll', 'l ', ' g', 'ga', 'am', 'me', 'es', 's.', '.\n']

