<a href="https://colab.research.google.com/github/addone/datascience-gt/blob/main/TM_practice.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 準備

文系分野の研究では、論文、書籍、新聞記事、Webページ、SNS、アンケートへの自由回答など、テキストデータを扱うことが一般的です。

テキストマイニングは膨大な量の文章データに特化した分析手法で、キーワード検索だけでは見つけられないような、新たな知見やパターンを発見することができます。

（参考：[テキストマイニングとは](https://gmo-research.ai/research-column/text-mining/)）

テキストマイニングには**形態素の解析**が必要です。まずは形態素解析器[janome](https://janome.mocobeta.dev/ja/)をインストールします。

形態素解析には**辞書**が必要であるが、janomeの場合は日本語解析エンジン[MeCab](http://taku910.github.io/mecab/)用辞書が内蔵されたため、単独インストール不要となります。

（参考：[形態素解析とは](https://www.cogent.co.jp/blog/morphological-analysis-natural-language-processing/)）

In [None]:
!pip install janome

日本語文章を扱う場合、日本語フォントおよびグラフへ日本語出力用ツールをインストールする必要があります。

In [None]:
!apt-get -y install fonts-ipafont-gothic
!pip install japanize-matplotlib

---

## 形態素解析体験

形態素解析で指定テキストをトークンに分割する：

In [None]:
from janome.tokenizer import Tokenizer
tokenizer = Tokenizer()

# 分析用文章を指定
text = """
ただし、曖昧な意味を持つ単語などは、対象によって解釈が異なる場合もあります。
例えば、「ヤバい」という言葉は元々悪い意味で使われていましたが、最近ではポジティブな意味で使われるケースも出てきました。
文脈によって意味の変わる言葉を扱う際には、注意が必要です。
"""

for token in ____:
    print(token)

---

## 実データ解析練習

内閣府[「景気ウォッチャー調査」](https://www5.cao.go.jp/keizai3/watcher/watcher_menu.html)データを利用し、街角の景気実感（タクシー運転手や小売店主の声）をテキスト化したものをテキストマイニング手法で分析しましょう。

### ステップ１：データをダウンロード

[調査概要](https://www5.cao.go.jp/keizai3/watcher/watcher_mokuteki.html#mokuteki)を確認してから、「公表資料（統計表一覧）」から最新の月次統計表（csv形式）をダウンロードします。

Excelなどでデータを確認し、「追加説明及び具体的状況の説明」列に注目させます。

### ステップ２：データを読み込み

ダウンロードしたcsvファイルをColabの「ファイル」にアップロードしてください。
（*接続を解除したら自動で削除されるため、使うたびにアップロードが必要です。*）

次に、データを読み込み、中身を確認しましょう。

In [None]:
import pandas as pd

# データの読み込み（内閣府からダウンロードしたCSVファイル）
df = pd.read_csv(_____)

# データの中身を見てみる
print("--- 元のデータ ---")
df.head()

### ステップ３：テキスト抽出と形態素解析

まずはテキストマイニング用に文章を抽出します。

In [None]:
# 注目される列のデータだけを取り出してリストにします
text_list = ______.tolist()

# 欠損値（空欄）があるとうまくいかないので、文字列型に変換して結合
text_data = ' '.join(map(str, text_list))

# 最初の100文字だけを確認
print("▼ 分析対象のテキストデータ:")
print(______)

次に、形態素解析（文章を単語にバラバラにする）を行い、名詞と形容詞だけを取り出します。

In [None]:
words_list = []

# 名詞と形容詞だけを取り出す
for token in tokenizer.tokenize(text_data):
    if token.part_of_speech.split(',')[0] in [______]:
        # 「する」「いる」などの一般的すぎる言葉を除外（ストップワード）
        if token.base_form not in ["こと", "ため", "よう", "いる", "ある", "する"]:
            words_list.append(token.base_form)

# 最初の10単語だけを確認
print("抽出された単語:", ______)

### ステップ４：頻出語ランキングの集計とグラフ化

In [None]:
import collections

# 単語の出現回数を数える


# 上位10個を取り出す


# 表（データフレーム）にして表示
df_freq = pd.DataFrame(top_10, columns=['単語', '出現回数'])
print("▼ 頻出語ランキングベスト10")
display(df_freq)

次に、棒グラフで可視化します。

In [None]:
import matplotlib.pyplot as plt
import japanize_matplotlib

# グラフ用にデータを分ける
words = [x[0] for x in top_10]
counts = [x[1] for x in top_10]

# グラフの作成
plt.figure(figsize=(10, 6))
# 横棒グラフ (barh) を作成
plt.barh(_______)
plt.title(____)
plt.xlabel(____)
plt.ylabel(____)

# 上位が上に来るように順番を反転
plt.gca().invert_yaxis()
plt.grid(axis='x', linestyle='--', alpha=0.6) # グリッド線
plt.show()