# 演習問題1
## Word2Vecを用いて単語の分散表現を得る

下記のコードでエラーが出る場合は，コマンドプロンプトで実行するか，`pip install gensim=4.3.3 --user`に書き換えて実行して下さい．

In [None]:
#pip install gensim=4.3.3

### 使用データセット
### **livedoor ニュースコーパス**
NHN Japan株式会社が運営するlivedoor ニュースの記事から可能な限りHTMLタグを取り除いて作成したもの．<br>
ニュース記事は分野ごとに分けられており，今回は"ITライフハック"についての記事をコーパスに用いる．<br>

参考記事：<a>https://www.rondhuit.com/download.html#ldcc

In [None]:
import numpy as np
import pandas as pd
import MeCab
import ipadic
import re
from sklearn.decomposition import PCA
%matplotlib inline
import matplotlib.pyplot as plt
from matplotlib import rcParams

#rcParamsに文字化けしないようにフォントの設定を行う
rcParams['font.family'] = 'sans-serif'
rcParams['font.sans-serif'] = ['Hiragino Maru Gothic Pro', 'Yu Gothic', 'Meirio', 'Takao', 'IPAexGothic', 'IPAPGothic', 'VL PGothic', 'Noto Sans CJK JP']

In [None]:
# 形態素解析器の初期化
tagger = MeCab.Tagger(ipadic.MECAB_ARGS)
tagger.parse("")  # MeCabの初期化（空文字列を解析することで初期化）

In [None]:
# トークナイズ関数
def tokenize(text):
    node = tagger.parseToNode(text)
    words = []
    while node:
        pos = node.feature.split(",")[0]
        if pos in ["名詞", "接頭詞", "動詞", "形容詞", "副詞", "助詞", "助動詞", "連体詞", "接続詞", "感動詞", "記号", "フィラー"]:
            words.append(node.surface)
        node = node.next
    return words

In [None]:
# 文章を入力しトークナイズができるか確認
print(tokenize("ここに文章を入力"))

In [None]:
# コーパスの読み込み
df = pd.read_csv("./csv/it-life-hack.csv")

# トークン化
sentences = df["body"].apply(tokenize)

### 元文章とトークン化した文章を見比べる

In [None]:
# 元文章を表示
print("元文章：")
print(df["body"][0])

print("")
# トークン化した結果を表示
print("トークン化結果：")
before_sentence = sentences[0]
print(before_sentence)

### 問1 Word2Vecを用いてモデルを作成

今回は，パラメータを vector_size=100, window=5, min_count=1, sg=0, seed=42に設定して学習を実行してください．

In [None]:
from gensim.models import Word2Vec

model = Word2Vec(
    sentences=
)

### 問2 任意の単語が持つ単語ベクトルを取得
今回はtarget_wordを"スマホ"とします

In [None]:
# ターゲットワードを設定
target_word = "スマホ"

In [None]:
vec = 
print(vec)

### 問3 任意の単語と類似度の高い単語上位10個を表示

In [None]:
# 任意の単語と類似度が高い単語トップ10を表示
print(f"\"{target_word}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in 解答欄:
    print(f"{ranking[0]}\t :{ranking[1]}")

### 問4 任意の2単語間における類似度を表示
今回はtarget_word2を"難しい"とします

In [None]:
# ターゲットワード2を設定
target_word2 = "難しい"

In [None]:
# 任意の2単語の類似度を表示
print(f"\"{target_word}\"と\"{target_word2}\"の類似度")
print(解答欄)

### 問5 任意の2単語のベクトルの差を取り，結果ベクトルの周辺単語を表示
今回は"スマホ"-"難しい"を計算してください

In [None]:
# ベクトルの差を計算
print(f"\"{target_word}\"-\"{target_word2}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in 解答欄:
    print(f"{ranking[0]}\t :{ranking[1]}")

### 問6 学習済みモデルを保存
モデル名は"simple_model.model"にしてください．

In [None]:
model.save(解答欄)

## 前処理の導入
ipadeic辞書は品詞の大枠を[名詞, 接頭辞, 動詞, 形容詞, 副詞, 助詞, 助動詞, 連体詞, 接続詞, 感動詞, 記号, フィラー]で分類する．

In [None]:
# ipadeicの辞書が分類する品詞を表示
parsed = tagger.parse("人間 お 働く 忙しい まるで を らしい この そして はぁ ! あのー")
print(parsed)

### 問7 品詞, ストップワードの除去
`stop_words.txt`を読み込みストップワード(不要単語)を除去する．<br>
英単語を正規化し，数字や空白を削除する．<br>
意味の重要度が高い可能性がある"名詞", "動詞", "形容詞"のみを使う．

In [None]:
# 形態素解析器の初期化
tagger = MeCab.Tagger(ipadic.MECAB_ARGS)
tagger.parse("")  # MeCabの初期化（空文字列を解析することで初期化）

In [None]:
# ストップワードの読み込み
# "stop_words.txt"をパス指定する
with open(解答欄1, encoding="utf-8") as f:
    stop_words = set(line.strip().lower() for line in f if line.strip())

# 英数字・記号などの正規化関数
def clean_token(surface):
    # 英字を小文字に正規化
    surface = surface.lower()
    # 数字は削除（全角・漢数字も含む）
    surface = re.sub(r'[0-9０-９一二三四五六七八九十百千万億兆]+', '', surface)
    # 記号・空白・改行を除去
    surface = re.sub(r'[^\wぁ-んァ-ン一-龥ー]+', '', surface)
    return surface

# トークナイズ＋クレンジング
def tokenize_clean(text):
    node = tagger.parseToNode(text)
    tokens = []
    while node:
        surface = node.surface
        features = node.feature.split(',')
        # 品詞取得
        pos = features[0]
        # 原形取得
        if len(features) > 6 and features[6] != '*':
            base = features[6]
        else:
            base = surface
        norm = clean_token(base)
        # 指定する品詞（今回は"名詞", "動詞", "形容詞"）に含まれる
        if pos in 解答欄2:
            # norm が削除されず存在している
            if norm:
                # norm がstop_words に含まれていない
                if norm not in stop_words:
                    tokens.append(norm)
        node = node.next
    return tokens

In [None]:
# トークナイズを含めた前処理の実行
sentences = df["body"].apply(tokenize_clean)
# ストップワード除去前後の結果を表示
print("ストップワード除去前：")
print(before_sentence)
print("ストップワード除去後：")
print(sentences[0])

### 前処理したsentencesでWord2Vecを作成

In [None]:
model = Word2Vec(
    sentences,
    vector_size=100,
    window=5,
    min_count=1,
    sg=0,
    seed=42
)

In [None]:
# 任意の単語と類似度が高い単語トップ10を表示
print(f"\"{target_word}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in model.wv.most_similar(target_word, topn=10):
    print(f"{ranking[0]}\t :{ranking[1]}")

In [None]:
# 任意の2単語の類似度を表示
print(f"\"{target_word}\"と\"{target_word2}\"の類似度")
print(model.wv.similarity(target_word, target_word2))

In [None]:
# ベクトルの差を計算
print(f"\"{target_word}\"-\"{target_word2}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in model.wv.most_similar(positive=[target_word], negative=[target_word2]):
    print(f"{ranking[0]}\t :{ranking[1]}")

## ストップワード除去前と後で単語ベクトルの結果の違いを確認
### 問8 学習済みモデルを読み込み

In [None]:
simple_model = 

In [None]:
# ストップワードの有無による語彙数の確認
print(f"ストップワード除去前の語彙数：{len(simple_model.wv)}")
print(f"ストップワード除去後の語彙数：{len(model.wv)}")

In [None]:
# 任意の単語と類似度が高い単語トップ10を表示
print(f"\"{target_word}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
print("ストップワード除去前：")
for ranking in simple_model.wv.most_similar(target_word, topn=10):
    print(f"{ranking[0]}\t :{ranking[1]}")
print("")
print("ストップワード除去後：")
for ranking in model.wv.most_similar(target_word, topn=10):
    print(f"{ranking[0]}\t :{ranking[1]}")

In [None]:
# 任意の2単語の類似度を表示
print(f"\"{target_word}\"と\"{target_word2}\"の類似度")
print("ストップワード除去前：")
print(simple_model.wv.similarity(target_word, target_word2))
print("ストップワード除去後：")
print(model.wv.similarity(target_word, target_word2))

In [None]:
# ベクトルの差を計算
print(f"\"{target_word}\"-\"{target_word2}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
print("ストップワード除去前：")
for ranking in simple_model.wv.most_similar(positive=[target_word], negative=[target_word2]):
    print(f"{ranking[0]}\t :{ranking[1]}")
print("")
print("ストップワード除去後：")
for ranking in model.wv.most_similar(positive=[target_word], negative=[target_word2]):
    print(f"{ranking[0]}\t :{ranking[1]}")

## 考察問題
### 問9 内省的評価によって前処理前と後のモデルの精度を評価してください

回答欄

### 問10 Word2Vecを用いた自然言語処理において前処理が重要な理由を考察してください

回答欄

## 時間が余った場合
自分でtarget_wordを設定してみてください．<br>
学習に使われなかった単語をキーにすると以下のようなエラーが出ます．<br>
`KeyError: "Key '???' not present in vocabulary"`

In [None]:
# 任意の単語が語彙に存在するか確認(Trueなら存在， Falseなら不在)
"単語" in model.wv

In [None]:
target_word1 = "pc"
target_word2 = "it"

In [None]:
# 任意の単語と類似度が高い単語トップ10を表示
print(f"\"{target_word1}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in model.wv.most_similar(target_word1, topn=10):
    print(f"{ranking[0]}\t :{ranking[1]}")

In [None]:
# 任意の2単語の類似度を表示
print(f"\"{target_word1}\"と\"{target_word2}\"の類似度")
print(model.wv.similarity(target_word, target_word2))

In [None]:
# ベクトルの差を計算
print(f"\"{target_word1}\"-\"{target_word2}\"と類似度の高い単語トップ10")
print("単語\t :類似度(最大値1, 最小値-1)")
for ranking in model.wv.most_similar(positive=[target_word1], negative=[target_word2]):
    print(f"{ranking[0]}\t :{ranking[1]}")