# 事前準備：パッケージ読み込み、各種設定

## パッケージ読み込み

In [None]:
### 必要なパッケージ（ライブラリ）の読み込み ###
import pandas as pd             # データフレーム型変数を取り扱えるパッケージ"pandas"を読込み（以降"pd"と略記）
import matplotlib.pyplot as plt # グラフ描画のパッケージ"matplotlib"を読込み（以降"plt"と略記）
import seaborn as sns           # 上記matplotlibをベースにした高機能可視化モジュール"saeborn"を読込み（以降"sns"と略記）
import numpy as np              # 数値演算のためのパッケージ"numpy"を読込み（以降"np"と略記）

## 文字化け対策

In [None]:
### 文字化け対策用のコード ###
# 自身のPC環境に合わせて、該当する方のみ残す（もう片方はコメントアウトする）

# for Win
plt.rcParams['font.sans-serif'] = ['Yu Gothic'] #もしくは、['Yu Mincho’]

# for Mac
# plt.rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro']

## グラフの細かい設定（お好みで）

In [None]:
### その他細かいデザイン設定 ###

# 出力されるグラフ画像の解像度を上げる
%config InlineBackend.figure_formats = {'png', 'retina'}

# グラフのサイズ指定
# plt.rcParams['figure.figsize'] = 10, 5

# # 実行環境に依らず、フォント設定を横断的に設定したい場合
# plt.rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic', 'Meirio', 'Takao',
#                                    'IPAexGothic', 'IPAPGothic', 'VL PGothic', 'Noto Sans CJK JP']

# フォントサイズ一括指定
plt.rcParams['font.size'] = 14

# グラフ同士が重ならないようにする
plt.tight_layout()

# グリッド表示ON
# plt.grid(True)

# 各種設定の反映
plt.show()

# 演習7-1：形態素解析（インストールが簡単なjanome）

## Anaconda Promptでのインストールコマンド

In [None]:
### Anaconda Promptでのお手軽形態素解析パッケージ "janome" インストール ###
# （※Macの場合はターミナル上からでOK）

# 下記コマンドをコピペして使用
# conda install -c conda-forge janome

# ※どうしても上記でエラーが出てうまくいかない場合は、 pip install janome を用いる
#.  ただし、conda install と pip install は相性が悪い部分もあり、公式でも非推奨

## 形態素解析お試し

In [None]:
### 形態素解析のテスト ###
from janome.tokenizer import Tokenizer
 
t = Tokenizer()
tokens = t.tokenize('すもももももももものうち')
 
for token in tokens:
    print(token)

## サンプルテキスト

In [None]:
text = """岸田総理大臣は、テレビ会議形式で行われたAPEC＝アジア太平洋経済協力会議の関連会合に参加し、
成長に向けた大胆な投資や改革と分配による所得の増加により日本経済を新たな成長軌道に乗せ、
アジア太平洋地域の成長に貢献していくと強調しました。"""

In [None]:
GalText1 = "黒岳の赤色がエグイ!!紅葉が卍　超絶見ごろなう\
大雪山系黒岳では標高1300m付近の紅葉がありよりのありとなっております。\
さりげに旭岳でもカエデやナナカマドなどの赤色が鬼色づき、過去10年の中で最もエモいということです。\
とりま、山は大勢のパリピですでにバイブスも上がっており、今週末もワンチャン混雑するとみられます。"

GalText2 = "「今日この課題〆切なの忘れてたー…」\
「ちゃけばヤバくね？ショッキングピーポーマックスなんですけど。テン下げ↓」\
「完全なえぽよピーナッツだわ。」"

In [None]:
### 形態素解析のテスト ###
from janome.tokenizer import Tokenizer
 
t = Tokenizer()
tokens = t.tokenize(text)
 
for token in tokens:
    print(token)

# 演習7-2：単語のベクトル化 (Word2Vecモデル)

## Anaconda Promptでのインストールコマンド

In [None]:
### Anaconda Promptでのベクトル化(Word2Vecモデル)パッケージ 'gensim'のインストール ###
# （※Macの場合はターミナル上からでOK）

# 下記コマンドをコピペして使用
# conda install -c conda-forge gensim

# ※どうしても上記でエラーが出てうまくいかない場合は、 pip install gensim を用いる
#.  ただし、conda install と pip install は相性が悪い部分もあり、公式でも非推奨

## ライブラリの読み込み

In [None]:
from gensim.models import word2vec

## Word2Vecモデル (Wikipediaから作成) の読み込み

In [None]:
model = word2vec.Word2Vec.load('wiki.model')

### modelファイルをこのjupyter notebookプログラム (.ipynb) と同じフォルダ内に配置する
# wiki.model
# wiki.model.trainables.syn1neg.npy
# wiki.model.wv.vectors.npy

## 単語ベクトルを用いた計算

### 類似ベクトルのランキング

In [None]:
model.wv.most_similar(positive = ['データ'], topn=20)

### 単語同士の引き算

In [None]:
model.wv.most_similar(positive=['女', '国王'], negative=['男'], topn=20)  #女＋国王-男

# positive=['足し算したい単語']
# negative=['引き算したい単語']
# topn=表示したい単語数

### 単語間の類似度算出

In [None]:
model.wv.similarity('大学', '高校')

# 参考：形態素解析MeCab

## MeCabインストール方法

In [None]:
### Macの場合のインストール方法

# 1. (対象者のみ) Homebrewをインストール ※時間かかる
#    Homebrewが入っていない場合は、ターミナル上で下記を実行
#       /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
#   参考: https://brew.sh/index_ja

# 2. MeCab (形態素解析ツール) のインストール ※時間かかる
#    ターミナル上で下記を実行
#       brew install mecab
#       brew install mecab-ipadic

# 3. PythonからMeCabを呼び出せるように設定
#    ターミナル上で下記を実行
#       pip install mecab-python3
#
# 4. Jupyter Notebook再起動

In [None]:
### Windowsの場合のインストール方法
# 1. Mecabのインストール
#    https://github.com/ikegami-yukino/mecab/releases/tag/v0.996
#    pathを通す設定あり。やや上級者向け。共用PCではやらない方が良い
#    参考: https://qiita.com/wanko5296/items/eeb7865ee71a7b9f1a3a
# 2. PythonからMeCabを呼び出せるように設定
#    以下のコードをJupyter Notebook上で実行
#
# import sys
# !{sys.executable} -m pip install mecab-python3 --user

## MeCabお試し

In [None]:
import MeCab

#Taggerの引数に-dオプションとmecab-ipadic-neologdの場所を指定する
#場所の確認： echo `mecab-config --dicdir`"/mecab-ipadic-neologd"
m_wakati =      MeCab.Tagger('-Owakati')
m_pos =         MeCab.Tagger()

#MeCab出力オプションd
# -Owakati：分かち書きのみ
# -Oyomi：ヨミ読み
# -Ochasen：ChaSen互換
# -Odump

In [None]:
w1 = m_wakati.parse(text)
w2 = m_pos.parse(text)

print('[分かち書き]\n'+w1+'\n' + '[品詞など詳細情報]\n'+w2)

In [None]:
m_wakati.parse(GalText2)