# 文書中の単語をカウントして,WordCloudに出力する

準備：<br>
- 表示のためのフォント「IPAGTTC00303」（解凍済み)をフォルダごと同じディレクトリに置く。（英語の場合は指定しなくても動作する。）
- 入力ファイルは、一つ前にクレンジングした， wagahai_list.pickleを使います。
- 出力ファイルは、neko_cloud.txt,neko_cloud.pngを指定している。

以下のコードは、「吾輩は猫である」　 の内容に出現する名詞のみをカウントし、WordCloudに表示する。

#### WordCloud とは：
頻出語を頻度に比例する大きさで雲のように表示する。　.png形式で出力できる。

### 1. 「吾輩は猫である」"wagahai_list.pickle"を読み込み，名詞である単語のみを抽出する。
適宜、行頭 `#print(xxxx)` のコメントアウト記号"#"を適宜削除し、結果を確認しながら動作確認をしてみましょう。

In [None]:
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *
import pickle

#フォントは同じディレクトリにIPAGTTC00303をコピーしておく

#この場合の意味をなさない語を除外するためのストップワード辞書をリストにしておく
stop_words = ['する', 'せる', 'られる', 'あの', 'する', 'ある', 'とこ', 'なる', 'ない', 'ああ', 'れる', 'さん', 'やる', 'この', 'どう', 'そう', 'ある', 'その', 'そんな', 'いる', 'それで', 'また', 'なる']

#pickleにしたファイルを読み込んでリストにする．
with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)
#print(wagahai_list)　#wagashi_listの内容を確認する

wagahai_text = '\n' . join(wagahai_list) #wagahai_listの要素を改行コードで連結する．

#print(wagahai_text) #wagashi_textの内容を確認する

#Analyzeを用いた形態素を処理するフィルターを生成
token_filters = [ POSKeepFilter(['名詞']),#←形態素の種類を指定               
                 LowerCaseFilter(),
                 ExtractAttributeFilter('surface')]

a = Analyzer(token_filters=token_filters)#Analyzerに設定したフィルターを指定する．
             
path_w = 'neko_cloud.txt' #出力ファイル名の指定

#単語を空白で区切り出力する
with open(path_w, mode='w') as f:
    for token in a.analyze(wagahai_text): #wagahai_textをアナライザーに渡した結果を要素ひとつづつ取り出して処理
        line = token + ' ' #取り出した要素と空白1個を連結したものを一行とする．
        f.write(line) #出力ファイルに書き込む

#生成したファイルの内容確認
with open("./neko_cloud.txt", mode='r', encoding='utf-8') as f:
    s = f.read()    
#print(s)
    

名詞かつストップワードが除去された結果になっているか確認しましょう。　ストップワードに追加できそうな語はあるでしょうか。

### 2. 1で生成した名詞のみの単語を出力した"neko_cloud.txt"を使ってwordcloudモジュールを用いて、単語を可視化する。<br>
ライブラリ等<br>
- re : 正規表現を求める
- WordCloud : WordCloudの処理をする
- PIL: Python Image Library イメージを出力する
- numpy : ベクトルや行列などの数学的対象を処理する、機械学習やディープラーニングに便利

In [None]:
import re
from wordcloud import WordCloud
from PIL import Image
import numpy as np

#名詞のみ出力したファイルを読み込む，
infile = 'neko_cloud.txt'
with open(infile, encoding='utf-8') as f:
       text_n= f.readlines()

#デフォルト長方形に描画する場合
#WordCloudの実装
wordcloud = WordCloud(background_color='white',  #バックグラウンドの色
                      #colormap="summer", #カラーマップ（色味) お好みで指定してもしなくても
                      font_path='./IPAGTTC00303/ipag.ttc',  #フォント指定
                      max_words=200,   #単語数の指定
                      width=800, height=400, #長方形の大きさ指定
                      stopwords=set(stop_words)).generate(text_n[0]) #ストップワードの指定

#結果を画像に保存（出力ファイル名は適宜変更)
wordcloud.to_file("./neko_cloud.png")
               



結果は， noko_cloud.png に出力されました． <br>
ファイルをクリックして表示させてみましょう．<br>
各単語の大きさは，出現頻度に比例して大きさが違っています．
「吾輩は猫である」の特徴がわかる結果でしたか？

## 課題4:
ストップワードの追加、色あい， 大きさを変更してみましょう．<br>
上で出力したpngファイルと比較してみましょう．  
**参考：** カラーの変更　 https://karupoimou.hatenablog.com/entry/2019/05/17/153207

## 課題5:
前の方法では，　複合名詞がバラバラの状態になっています．複合名詞に対応するように変更してみてください。<br>
以下のコード中に　「#複合名詞の設定」がある行で，　カンマの直前に複合名詞の設定を挿入します。<br>
複合名詞を指定する設定：　CompoundNounFilter()

複合名詞を考慮したWordCloudを出力し、 .png ファイルを開き、複合名詞を考慮した場合としない場合の比較を行ってください。  
<font color="MediumBlue">出力するファイル名は、適宜変更して実行すること。上書きされてしまいます。</font>

In [None]:
from janome.tokenizer import Tokenizer
from janome.analyzer import Analyzer
from janome.charfilter import *
from janome.tokenfilter import *
import pickle

#フォントは同じディレクトリにIPAGTTC00303をコピーしておく

#この場合の意味をなさない語を除外するためのストップワード辞書をリストにしておく
stop_words = ['する', 'せる', 'られる', 'あの', 'する', 'ある', 'とこ', 'なる', 'ない', 'ああ', 'れる', 'さん', 'やる', 'この', 'どう', 'そう', 'ある', 'その', 'そんな', 'いる', 'それで', 'また', 'なる']

#pickleにしたファイルを読み込んでリストにする．
with open('wagahai_list.pickle', mode='rb') as f:
    wagahai_list = pickle.load(f)
#print(wagahai_list)　#wagashi_listの内容を確認する

wagahai_text = '\n' . join(wagahai_list) #wagahai_listの要素を改行コードで連結する．

#print(wagahai_text) #wagashi_textの内容を確認する

#Analyzeを用いたフィルター
token_filters = [,#←複合名詞の設定
                 POSKeepFilter(['名詞']),
                 LowerCaseFilter(),
                 ExtractAttributeFilter('surface')]

a = Analyzer(token_filters=token_filters)
             
path_w = 'neko_cloud.txt' #出力ファイル名の指定

#単語を空白で区切り出力する
with open(path_w, mode='w') as f:
    for token in a.analyze(wagahai_text): #wagahai_textをアナライザーに渡した結果を要素ひとつづつ取り出して処理
        line = token + ' ' #取り出した要素と空白1個を連結したものを一行とする．
        f.write(line) #出力ファイルに書き込む

#生成したファイルの内容確認
with open("./neko_cloud.txt", mode='r', encoding='utf-8') as f:
    s = f.read()    
print(s)

## 課題6:
同様に前の課題で各自青空文庫からダウンロードして前処理をしたファイル(.pckle)を用いて、複合名詞を考慮した場合のWordCloudを生成してみてください。
小説の特徴を表している単語が大きく見えているでしょうか？