# nltk の条件付き頻度分布
条件付き頻度分布(condiotnal frequency distribution)を利用して n-gram を抽出する。

以下では bigram を例として説明する。

In [2]:
# NLTK (Natural Language ToolKit) のインポート
import nltk

In [27]:
# 文書を与えて，CFD を得る
doc = ['今日', '天気', 'とても', 'いいね']
corpus = nltk.Text(doc)
bigrams = nltk.bigrams(corpus)
cfd = nltk.ConditionalFreqDist(bigrams)

In [28]:
# CFD の中身を見る。cfd.items() を用いるのがコツである。
for key, values in cfd.items():
    print(key, values)
    for word in values:
        print(key, word)

今日 <FreqDist with 1 samples and 1 outcomes>
今日 天気
天気 <FreqDist with 1 samples and 1 outcomes>
天気 とても
とても <FreqDist with 1 samples and 1 outcomes>
とても いいね


### 複数の文書を扱う場合の処理

In [23]:
# 文書を２つ準備
d1 = ['今日', '天気', 'いいね', '天気']
d2 = ['昨日', '晴れ', 'いいね', '天気']

In [31]:
def get_cfd(doc):
    corpus = nltk.Text(doc)
    bigrams = nltk.bigrams(corpus)
    cfd = nltk.ConditionalFreqDist(bigrams)
    return cfd

def print_cfd(cfd):
    for key, values in cfd.items():
        # print(key, values)
        for word in values:
            print(key, word)

# CFD (条件付き頻度分布) を求める
cfd1 = get_cfd(d1)
cfd2 = get_cfd(d2)

print("--- cfd1 ---")
print_cfd(cfd1)
print("--- cfd2 ---")
print_cfd(cfd2)

# CFD の結合
cfd = cfd1 + cfd2

print("--- concatenated cfd ---")
print_cfd(cfd)

print("---結合したCFD の詳細 ---")
for key, values in cfd.items():
    print(key, values)

--- cfd1 ---
今日 天気
天気 いいね
いいね 天気
--- cfd2 ---
昨日 晴れ
晴れ いいね
いいね 天気
--- concatenated cfd ---
今日 天気
天気 いいね
いいね 天気
昨日 晴れ
晴れ いいね
---結合したCFD の詳細 ---
今日 <FreqDist with 1 samples and 1 outcomes>
天気 <FreqDist with 1 samples and 1 outcomes>
いいね <FreqDist with 1 samples and 2 outcomes>
昨日 <FreqDist with 1 samples and 1 outcomes>
晴れ <FreqDist with 1 samples and 1 outcomes>


In [26]:
# 「いいね」と共起する語とその頻度
cfd['いいね']

FreqDist({'天気': 2})

## (utility) 共起ペア ＆ 出現頻度への組み換え
後々，利用しやすいように「共起ペアとその出現頻度」の辞書を作る

In [33]:
# CFD から「共起ペア ＆ 頻度」への組み換え
result = dict()
for key, values in cfd.items():
    for word in values:
        result[(key, word)] = cfd[key][word]

print(result)

{('今日', '天気'): 1, ('天気', 'いいね'): 1, ('いいね', '天気'): 2, ('昨日', '晴れ'): 1, ('晴れ', 'いいね'): 1}
