## N-Gram模型原理
马尔科夫链的假设

P(wi|w1,⋯,wi−1)=P(wi|wi−n+1,⋯,wi−1)

当 n=1, 一个一元模型（unigram model)即为
P(w1,w2,⋯,wm)=∏i=1mP(wi)

当 n=2, 一个二元模型（bigram model)即为
P(w1,w2,⋯,wm)=∏i=1mP(wi|wi−1)

当 n=3, 一个三元模型（trigram model)即为
P(w1,w2,⋯,wm)=∏i=1mP(wi|wi−2wi−1)

对于unigram model而言，其中c(w1,..,wn) 表示 n-gram w1,..,wn 在训练语料中出现的次数，M 是语料库中的总字数（例如对于 yes no no no yes 而言，M=5）
P(wi)=C(wi)M

对于bigram model而言，
P(wi|wi−1)=C(wi−1wi)C(wi−1)

对于n-gram model而言，
P(wi|wi−n−1,⋯,wi−1)=C(wi−n−1,⋯,wi)C(wi−n−1,⋯,wi−1)

## 使用N-Gram模型时的数据平滑算法

1. 为什么要采取平滑算法
        有研究人员用150万词的训练语料来训练 trigram 模型，然后用同样来源的测试语料来做验证，结果发现23%的 trigram 没有在训练语料中出现过。这其实就意味着上一节我们所计算的那些概率有空为 0，这就导致了数据稀疏的可能性。对语言而言，由于数据稀疏的存在，极大似然法不是一种很好的参数估计办法。       

2. 解决方案与平滑算法
        解决办法，我们称之为“平滑技术”（Smoothing）或者 “减值” （Discounting）。其主要策略是把在训练样本中出现过的事件的概率适当减小，然后把减小得到的概率密度分配给训练语料中没有出现过的事件。实际中平滑算法有很多种，例如：
　　▸ Laplacian (add-one) smoothing
　　▸ Add-k smoothing
　　▸ Jelinek-Mercer interpolation
　　▸ Katz backoff
　　▸ Absolute discounting
　　▸ Kneser-Ney

  


## N-Gram demo

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import jieba
data = ["他用报话机向上级呼喊：“为了祖国，为了胜利，向我开炮！向我开炮！",
        "记者：你怎么会说出那番话？",
        "韦昌进：我只是觉得，对准我自己打，才有可能把上了我哨位的这些敌人打死，或者打下去。"]

data = [" ".join(jieba.lcut(e)) for e in data] # 分词，并用" "连接

vec = CountVectorizer(min_df=1, ngram_range=(1,2)) 
# ngram_range=(1,1) 表示 unigram, ngram_range=(2,2) 表示 bigram, ngram_range=(3,3) 表示 thirgram

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\SYX\AppData\Local\Temp\jieba.cache
Loading model cost 1.981 seconds.
Prefix dict has been built succesfully.


In [2]:
X = vec.fit_transform(data) # transform text to metrix

In [3]:
vec.get_feature_names() # get features

['上级',
 '上级 呼喊',
 '下去',
 '为了',
 '为了 祖国',
 '为了 胜利',
 '只是',
 '只是 觉得',
 '可能',
 '可能 哨位',
 '呼喊',
 '呼喊 为了',
 '哨位',
 '哨位 这些',
 '对准',
 '对准 自己',
 '开炮',
 '开炮 开炮',
 '怎么',
 '怎么 说出',
 '或者',
 '或者 下去',
 '打死',
 '打死 或者',
 '报话机',
 '报话机 上级',
 '敌人',
 '敌人 打死',
 '番话',
 '祖国',
 '祖国 为了',
 '胜利',
 '胜利 开炮',
 '自己',
 '自己 可能',
 '觉得',
 '觉得 对准',
 '记者',
 '记者 怎么',
 '说出',
 '说出 番话',
 '这些',
 '这些 敌人',
 '韦昌进',
 '韦昌进 只是']

In [4]:
X.toarray()

array([[1, 1, 0, 2, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0,
        0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0,
        0],
       [0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1,
        1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1,
        1]], dtype=int64)

In [5]:
df = pd.DataFrame(X.toarray(), columns=vec.get_feature_names()) # to DataFrame
df.head()

Unnamed: 0,上级,上级 呼喊,下去,为了,为了 祖国,为了 胜利,只是,只是 觉得,可能,可能 哨位,...,觉得,觉得 对准,记者,记者 怎么,说出,说出 番话,这些,这些 敌人,韦昌进,韦昌进 只是
0,1,1,0,2,1,1,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,1,1,1,1,0,0,0,0
2,0,0,1,0,0,0,1,1,1,1,...,1,1,0,0,0,0,1,1,1,1
