# 第5回課題：tf-idfを使って「銀河鉄道の夜」の重要語を抽出しよう

## 入力データの説明

`texts/novels_miyazawa_wakati.json`には、宮沢賢治の全小説の分かち書き文がjson形式で記録されています。   
記録形式は以下の通りです。

```
[
    {
        "author": "宮沢賢治",
        "title": "『春と修羅』",
        "text": "目次 \n『 春 と 修羅 』 \n春 と...(本文続く）
    },
    ...
]
```
`title`が`銀河鉄道の夜`であるような要素の`text`の値には「銀河鉄道の夜」の本文の分かち書き文が納められています。

## 課題１：tf-idfモデルの学習

宮沢賢治の全作品を使って、各作品を1文書としたときのtf-idfを学習してください。   
tf-idfの学習には、`sklearn.feature_extraction.text`の`TfidfVectorizer`を使ってください。   
ここで、TfidfVectorizerのパラメータは以下のようにしてください。
-    max_features=1000 (語彙サイズは最大1000個)
-    max_df=5　（5つ以下の小説までに現れる語彙）
-    min_df=3　（3つ以上の小説に現れる語彙）

## 課題２：「銀河鉄道の夜」の重要語の抽出

小説「銀河鉄道の夜」のtf-idf値が大きい単語上位10単語とそのtf-idf値を、   
各行にカンマ区切りで単語とtf-idf値が並んだ形式で、ex5-tfidf.txtという名前のファイルに出力してください。

## ヒント

`TfidfVectorizer`には、各要素が1つの小説の本文全体（単語が半角空文字で区切られた分かち書き文）であるようなリストを渡します。   
今回入力とするjsonファイルには249作品が納められているので、`TfidfVectorizer`に渡す行列は249個の要素を持つのベクトルということになります。   
このようなリストは以下のプログラムで作成することができます。

以下のプログラムでは、

1. `texts/novels_miyazawa_wakati.json`の本文（jsonファイルを辞書として読み込んだ時の各要素のキーが`text`）を読み込み
'\n'を空白に置換（replace('\n', ' '))した後で、`wakati`という名前のリストに追加(append)しています。   
つまり、`wakati`の$i$番目の要素は、$i$番目に登録されている小説の本文（全文の分かち書き文）というわけです。   
`novels_miyazawa_wakati.json`には249作品が納められているので、このリストは249次元となります。   

2. また同時に、`novels_miyazawa_wakati.json`において、ある作品名の小説が何番目に登録されているかを返す辞書`title2ID`を生成しています。   
つまり、`title2ID['作品名'] = [登場順]`です。   
たとえば「銀河鉄道の夜」は0番目から数えて225番目に現れるので、  
    `title2ID['銀河鉄道の夜'] = 225`  
となります。


In [1]:
############################################
### このセルは変更しないでください！！！ ###
############################################

import json
import numpy as np

file = 'texts/novels_miyazawa_wakati.json'

with open(file, 'r', encoding='utf-8') as fi:
    novels = json.load(fi)

print('小説の数:', len(novels))

wakati = []
num = 0
title2ID = {}
for novel in novels:
    wakati.append(novel['text'].replace('\n',' ')) 
    title2ID[novel['title']] = num
    num += 1
    
print(title2ID['銀河鉄道の夜'])


小説の数: 249
225


## 課題１：tf-idfモデルの学習

以下にtf-idfを学習するプログラムを書いてください。   
上のヒントを使ってもいいし使わなくてもいいです。

In [1]:
import json
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

file = 'texts/novels_miyazawa_wakati.json'

with open(file, 'r', encoding='utf-8') as fi:
    novels = json.load(fi)
wakati = []
num = 0
title2ID = {}
for novel in novels:
    wakati.append(novel['text'].replace('\n',' ')) 
    title2ID[novel['title']] = num
    num += 1

vectorizer = TfidfVectorizer(max_features=10000, max_df=5, min_df=3)
corpus=np.array(wakati)##一つ目のブロックを実行してwakatiを求めた後に実行する。
X = vectorizer.fit_transform(corpus)

## 課題２：「銀河鉄道の夜」の重要語の抽出

小説「銀河鉄道の夜」のtf-idf値が大きい単語上位10単語とそのtf-idf値を、   
**各行にカンマ区切りで単語とtf-idf値が並んだ形式で、`ex5-tfidf.txt`という名前のファイルに出力**してください。

ex5-tfidf.txt`は以下のようにります。
```
神さま,0.447
切符,0.289
牛乳,0.263
ぱいに,0.237
十字架,0.22
向う岸,0.22
白鳥,0.22
さそり,0.202
烏瓜,0.192
もろこし,0.165
```

In [2]:
novel_no=title2ID['銀河鉄道の夜']
feature_names = vectorizer.get_feature_names() #単語のリストを獲得します
# 単語とそのtf-idf値の対を辞書として登録
pair = dict(zip(feature_names, X[novel_no,:].toarray()[0]))
# tf-idfの高い順にソートして、単語とtf-idfの対をタプルとしてリスト化する
ans_ginga=[(x, pair[x]) for x in sorted(pair, key=lambda x:-pair[x])]

output10=''
# 上位10件
tmp=ans_ginga[:10]
for p in tmp:
    output10+=p[0]+','+str(p[1])+'\n'
print(output10)
with open('ex5-ifidf.txt', 'w') as fw:
    fw.write(output10)
fw.close()

神さま,0.4102159427505732
切符,0.2654338453091944
牛乳,0.24130349573563128
ぱいに,0.21717314616206815
十字架,0.20181235144172602
向う岸,0.20181235144172602
白鳥,0.20181235144172602
さそり,0.18587754855058236
烏瓜,0.17658580751151026
もろこし,0.15135926358129453

