# 3. Analyzer

**実行するには，メニューの「PLAYGROUNDで開く」を押してください。（Google アカウントが必要です。）**

[ここ](https://colab.research.google.com/drive/1rgBkcz0dhr3L0YsMnIfkDXGcLXcsaC_U) にハンズオンの解答例があります。解答を見る前に，なるべく自分で解いてみてください。

## 準備

1. Janome をインストール
2. IPA フォントの入手とアップロード

In [0]:
!pip install janome

In [0]:
# https://ipafont.ipa.go.jp/old/ipafont/download.html から TTFファイル「IPA P ゴシック」をダウンロードして手元で解凍し，`ipagp.ttf` ファイルを Google Colab にアップロード
from google.colab import files
uploaded = files.upload()

## ワードカウント

単語の出現回数を数えましょう。

参考

- https://mocobeta.github.io/janome/#analyzer-v0-3-5
- http://mocobeta.github.io/janome/api/janome.html#janome.tokenfilter.TokenCountFilter

In [0]:
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.tokenfilter import *
text = u'すもももももももものうち'
token_filters = [TokenCountFilter()]
a = Analyzer(tokenizer=Tokenizer(), token_filters=token_filters)
for k, v in a.analyze(text):
  print('%s: %d' % (k, v))

### ハンズオン課題 3-1

引数で指定されたファイルを読み，出現回数の多い上位20単語とその出現回数を，出現回数の多い順に返す関数 `wc(file)` を作成してください。

In [0]:
# janome-tutorial/hands-on/data/kazeno_matasaburo_utf8.txt (他のファイルでもよい) を Google Colab にアップロード
from google.colab import files
uploaded = files.upload()

In [0]:
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *

MAX_WORDS = 20

def wc(file):
    with open(file, encoding='utf8') as f:
        """
        ここに処理を書く。
        戻り値として，(単語, 出現回数) のタプルのリストを返す。
        """
      
counts = wc('kazeno_matasaburo_utf8.txt')
for k, v in counts:
    print('%s\t%d' % (k, v))

### ハンズオン課題 3-2

課題 3-1 を修正して，２番めの引数 pos が指定されたら，その品詞に絞り，かつ基本形 (base form) に正規化し，出現回数の多い上位20単語と，その出現回数を出力するようにしてください。

In [0]:
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *

MAX_WORDS = 20

def wc(file, pos=[]):
    with open(file, encoding='utf8') as f:
        """
        ここに処理を書く。
        戻り値として，(単語, 出現回数) のタプルのリストを返す。
        """
        
# 名詞と動詞に絞ってカウント
counts = wc('kazeno_matasaburo_utf8.txt', ['名詞','動詞'])
for k, v in counts:
    print('%s\t%d' % (k, v))

## カスタムフィルター

CharFilter, TokenFilter クラスを拡張して，独自のフィルタ処理を実装できます。


(参考) CharFilter の拡張

- http://mocobeta.github.io/janome/api/janome.html#module-janome.charfilter
- https://github.com/mocobeta/janome/blob/master/janome/charfilter.py

(参考) TokenFilter の拡張

- http://mocobeta.github.io/janome/api/janome.html#module-janome.tokenfilter
- https://github.com/mocobeta/janome/blob/master/janome/tokenfilter.py

### ハンズオン課題 3-3

janome.tokenfilter にいくつかの組み込みトークンフィルターがありますが，ストップワードを指定するフィルターがまだありません。

以下の仕様で，`StopWordFilter` を作成してください。

- 初期化時にストップワードのリストを受け取り，基本形と，いずれかのストップワードが一致したら出力しない。
- 可能であれば，ストップワードリストをファイル (1行1ワード) でも受け取れるようにしてください。

In [0]:
# StopWordFilter の実装
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *

class StopWordFilter(TokenFilter):
  def __init__(self, word_list=[], word_list_file=''):
    """
    ここに初期化コードを記述
    """
    
  def apply(self, tokens):
    """
    ここにフィルター処理を記述
    """

In [0]:
# stop word をリストで指定する
token_filters = [StopWordFilter(word_list=['プログラミング'])]
a = Analyzer(tokenizer=Tokenizer(), token_filters=token_filters)
for token in a.analyze('Pythonは人気の高いプログラミング言語です。'):
  print(token)

In [0]:
# stop word をファイルで指定する
!echo "プログラミング" > stop_words.txt
!echo "Python" >> stop_words.txt

token_filters = [StopWordFilter(word_list_file='stop_words.txt')]
a = Analyzer(tokenizer=Tokenizer(), token_filters=token_filters)
for token in a.analyze('Pythonは人気の高いプログラミング言語です。'):
  print(token)

## WordCloud 再考

### ハンズオン課題 3-4

課題 2-1 で作った WordCloud は，まだいまいちでした。

ここまでの知識（ユーザー辞書や Analyzer）を使って，いい感じの WordCloud を自由に作ってください。WordCloud を見て，それぞれの作品名がぱっとわかるくらいの特徴が出たら素敵です。

In [0]:
## write your code ##