## N-gram是一種統計模型，主要應用在『自然語言處理上』

### 使用時機：由於字典檔的限制，無法列出一些新的、或特別的術語(例如PTT中的詞彙、或是一些講話的口頭禪)。

## 馬可夫鏈與N-gram
### 簡單來說，就是同類型的事件依序發生的機率。ex:如果昨天是雨天，那麼今天是雨天的機率，會跟昨天是晴天，今天是雨天的機率不同。我們相信天氣現象在時間上有某種連續性，前面發生的狀態會影響到後面發生的狀態，而馬可夫模型就是描述這種前後關係的數學語言。假設只考慮前一天的天氣，為一階馬可夫鏈；把前N天的天氣都納入考慮，就成了N階馬可夫鏈。
### 中文的"字"是最小單位，也就是n=1。以馬可夫鏈的角度來看，因為前後關係為零，這是一種"0階馬可夫鏈"。二字詞"天氣"，"天"後面接著各種字的機率，構成了n=2，為一種一階馬可夫鏈
### 前一個狀態跟下一個狀態的關係。依此類推，我們可以進一步去建立 n=3,4,5… 的統計模型，而這些模型的集合，就是所謂的 n-gram 模型。

In [1]:
import codecs #處理編碼的套件
import operator #處理字典檔排序


In [2]:
cutlist = "<>/:：;；,、＂’，.。！？｢\"\'\\\n\r《》“”!@#$%^&*()「」﹖」"

In [3]:
def cutSentence(text_path, keywords): #放入原始文章路徑, 增加斷詞的list
    
    text = codecs.open(text_path,"r")
    sentence = ""
    textList = []
    
    for line in text.readlines():
        line = line.strip()
        
        for keyword in keywords:   #清除關鍵字
            line = "".join(line.split(keyword))
        
        for word in line:
            if word not in cutlist: #如果文字不是標點符號，就把字加到句子中
                sentence += word
            else:
                textList.append(sentence) #如果遇到標點符號，把句子加到 text list中
                sentence = ""
    return textList   #傳回一個文字陣列       

In [4]:
 #第一個參數放處理好的文章(LIST檔，utf-8編碼)，第二個參數放字詞的長度單位，第三個參數放至少要幾次以上
def ngram(textLists,n,minFreq):
    
    words = []
    words_freq = {}
    result = []
    for textList in textLists:
        for w in range(len(textList)-(n-1)):#要讀取的長度隨字詞長度改變
            words.append(textList[w:w+n]) #抓取長度w-(n-1)的字串
    
    for word in words:
        if word not in words_freq: #如果這個字詞還沒有被放在字典檔中
            words_freq[word] = words.count(word) #就開一個新的字詞，裡面放入字詞計算的頻次
     
    words_freq = sorted(words_freq.items(),key = operator.itemgetter(1),reverse = True)
    
    for word in words_freq:
        if word[1] >= minFreq:
            result.append(word)
    return result  #回傳一個陣列[詞,頻次]      

In [6]:
def longTermPriority(path, maxTermLength, minFreq):
    longTerms = [] #長詞
    longTermsFreq = [] #長詞+次數分配
    
    for i in range(maxTermLength,1,-1): #字詞數由大至小
        text_list = cutSentence(path, longTerms)
        
        words_freq = ngram(text_list,i,minFreq)
        
        
        for word_freq in words_freq:
            longTerms.append(word_freq[0]) #將跑出來的長詞加入 longTerms list 做為下次切割檔案的基礎
            
            longTermsFreq.append(word_freq) #將長詞和次數加入另外一個list  分成兩個檔儲存的用意是減少迴圈次數
    
    return longTermsFreq       

In [7]:
longTermFreq = longTermPriority("text.txt",6,5) #最長詞6個字、出現頻次5次以上

for i in longTermFreq:
    print(i[0],i[1])

空空道人 5
士隱聽了 5
那僧道 6
那道人 5
士隱 40
雨村 25
笑道 17
那僧 11
不知 10
道人 9
不過 8
一段 8
世人 8
丫鬟 8
弟子 8
二人 7
有一 7
石頭 7
了一 7
去了 7
故事 7
風流 7
原來 6
不可 6
神仙 6
富貴 6
這一 6
如此 6
聽了 6
意欲 6
蠢物 6
紅塵 6
英蓮 6
明白 5
說著 5
心中 5
只有 5
有些 5
封肅 5
幾個 5
其中 5
如今 5
之人 5
聽得 5
之事 5
自己 5
人都 5
不了 5
又有 5
也不 5
下世 5
不能 5
女子 5
