# 英語の頻度分析

In [4]:
using PyCall

## データの読み込み

文字数が近い
[Alice's Adventures in Wonderland by Lewis Carroll](https://www.gutenberg.org/ebooks/11)
を使用します。


In [5]:
open("Alice's Adventures in Wonderland by Lewis Carroll.txt") do f
    global all_text = read(f, String)
end

LoadError: UndefVarError: all_text not defined

## 前処理

全てのツイートの文章から以下の項目について処理を行います．

1. 大文字を小文字に変換
2. Tweet IDの削除
3. 改行文字の削除
4. 約物などの記号の削除

In [None]:
text = replace(lowercase.(all_text), r"@[0-9A-Z_a-z]+\W?|[\r\n!-@\[-`{-~“”]" => s"")

LoadError: UndefVarError: all_text not defined

## 文字数

In [None]:
length(text)

## 単語のリスト

In [None]:
words = split(text)

## 文字のリスト

In [None]:
letters = split(text, "")

## 単語ごとにおける頻度分析

In [None]:
using StatsBase
word_counter = StatsBase.countmap(words)

In [None]:
using StatsBase
sorted_word_counter = sort(collect(word_counter), by=x->x[2], rev=true)

In [None]:
using Plots
plot(map(x -> x[2], sorted_word_counter), yaxis=:log, label="word frequency")

## 文字ごとにおける頻度分析

In [None]:
using StatsBase
letter_counter = StatsBase.countmap(letters)

In [None]:
using StatsBase
sorted_letter_counter = sort(collect(letter_counter), by=x->x[2], rev=true)

In [None]:
using Plots
plot(map(x -> x[2], sorted_letter_counter), st=:bar, label="letter frequency")

In [None]:
println(sorted_letter_counter)

## 単語の長さと単語数の関係

In [None]:
using Plots, StatsBase
word_length_counter = StatsBase.countmap(map(x -> length(x[1]), sorted_word_counter))
sorted_word_length_counter = sort(collect(word_length_counter))
plot(map(x -> x[2], sorted_word_length_counter), st=:bar, xlabel="length", ylabel="number of words", label="words")

In [None]:
sorted_word_length_counter