# とても簡単な頻度分析
## はじめに
最も簡単な方法として、分析対象となる文章が保存されたローカルファイルを読み込み分析します。  
対象となる文章は英語で書いてあるものを用意して下さい。英語は単語と単語がスペースで区切られているため、単語のカウントが容易です。  
（日本語のように単語と単語が区切られていない言語は、分析前の前処理が大変なので最初は避けたいところです。）

なお、対象となる文章は英語で書いてあるものであれば何でも良いですが、ある程度長くないと分析しても面白くありません。  
ここでは例としてアメリカの音楽メディア「[Pitchfork](http://pitchfork.com/)」のサイトより拝借した[このレビューテキスト](http://pitchfork.com/reviews/albums/20935-compton/)を分析します。  

### ファイルの読み込み
まずテキストの内容が保存されているファイルを読み込みます。  
（対象のテキストをtarget.txtというファイル名で保存し、カレントディレクトリに置いておくこと）

In [None]:
with open("target.txt", "r", encoding="utf-8") as file:
  target_str = file.read()

表示してちゃんと読み込めたか確認しましょう。

In [None]:
print(target_str)

「.」「,」「"」「(」などが混ざると単純に単語に分割できなくなってしまうので、ここではこれらを一旦除去してしまいます。  
（雑ですいません。おまけに除去するのも、もっといい方法がありそうなもんです。）

In [None]:
target_str = target_str.replace(',', '').replace('.', '').replace('"', '').replace('(', '').replace(')', '')
print(target_str)

### 文章の分割
読み込みがうまく行ったので、早速、単語に分割してみましょう。
分割にはsplitメソッドを利用します。

In [None]:
word_list = target_str.split(' ')

これも表示して確認します。

In [None]:
print(word_list)

### 単語のカウント
単語のリストが出来たので、リストを上から順に眺めてカウントしていきます。

In [None]:
word_count = {}
for word in word_list:
    if word in word_count:
        word_count[word] = word_count[word] + 1
    else:
        word_count[word] = 1

結果はこんな感じになりました。

In [None]:
print(word_count)

登場した単語の数を調べるにはword_countの長さを調べればOKです。

In [None]:
print(len(word_count))

### ソート
頻度が高い順にソートしましょう。

In [None]:
for k, v in sorted(word_count.items(), key=lambda x:x[1], reverse=True):
    print (k.ljust(24), str(v).rjust(2))

当たり前ですが、「The」が多いですね。  
言語によって頻出する単語というのは決まっているため（英語だったら「the」「and」「a」など）、  
単純にアルファベットを入れ替えるだけというような暗号は比較的簡単にこの頻度分析で破られてしまうそうです。

## 終わりに
以上で簡単な頻度分析は終わりです。  
まぁ、これだけだとそんなに面白い分析は出来そうにありません。  
以降では関連する複数の文章を分析し、その類似や傾向を判断できるかどうか、にチャレンジしてみましょう。

### 追加課題
以下、3つ追加課題を挙げますので時間がある方はやってみて下さい。
* 今回分析した文章の中で最も長い単語はなんでしょうか
* 今回分析した文章に登場した単語の長さの平均はいくつでしょうか
* 今回分析した文章に登場した単語を先頭のアルファベットでグルーピングして出現数をヒストグラムにするとどのような分布になるでしょうか  