# 第6章: 機械学習(50〜54)
本章では，Fabio Gasparetti氏が公開しているNews Aggregator Data Setを用い，ニュース記事の見出しを「ビジネス」「科学技術」「エンターテイメント」「健康」のカテゴリに分類するタスク（カテゴリ分類）に取り組む．

# 50.データの入手・整形
*News Aggregator Data Setをダウンロードし、以下の要領で学習データ（train.txt），検証データ（valid.txt），評価データ（test.txt）を作成せよ．*

1. ダウンロードしたzipファイルを解凍し，readme.txtの説明を読む．
2. 情報源（publisher）が”Reuters”, “Huffington Post”, “Businessweek”, “Contactmusic.com”, “Daily Mail”の事例（記事）のみを抽出する．
3. 抽出された事例をランダムに並び替える．
4. 抽出された事例の80%を学習データ，残りの10%ずつを検証データと評価データに分割し，それぞれtrain.txt，valid.txt，test.txtというファイル名で保存する．ファイルには，１行に１事例を書き出すこととし，カテゴリ名と記事見出しのタブ区切り形式とせよ（このファイルは後に問題70で再利用する）．

*学習データと評価データを作成したら，各カテゴリの事例数を確認せよ．*

【参考】
scikit-learnでデータを訓練用とテスト用に分割するtrain_test_split
https://note.nkmk.me/python-sklearn-train-test-split/

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
# from functools import reduce

#    2. 事例抽出
# readme.txtに従いヘッダーを追加する
# read_csvの引数にnames＝['...', ...]
news_corpora = pd.read_csv('NewsAggregatorDataset/newsCorpora.csv', delimiter='\t', names = ['ID', 'TITLE', 'URL', 'PUBLISHER', 'CATEGORY', 'STORY', 'HOSTNAME', 'TIMESTAMP'])

# 情報源（publisher）が”Reuters”, “Huffington Post”, “Businessweek”, “Contactmusic.com”, “Daily Mail”の事例（記事）のみを抽出する
df = news_corpora[(news_corpora['PUBLISHER']=='Reuters') | (news_corpora['PUBLISHER']=='Huffington Post') | (news_corpora['PUBLISHER']=='Businessweek') | \
      (news_corpora['PUBLISHER']=='Contactmusic.com') | (news_corpora['PUBLISHER']=='Daily Mail')]

#    3. 並び替え
df = df.sample(frac=1) # すべてをサンプリング

#    4. 保存
train_df, valid_test_df = train_test_split(df, test_size=0.2) # 8:2
valid_df, test_df = train_test_split(valid_test_df, test_size=0.5) # 8:1:1
train_df.to_csv('./NewsAggregatorDataset/train.txt', columns = ['CATEGORY','TITLE'], sep='\t',header=False, index=False)
valid_df.to_csv('./NewsAggregatorDataset/valid.txt', columns = ['CATEGORY','TITLE'], sep='\t',header=False, index=False)
test_df.to_csv('./NewsAggregatorDataset/test.txt', columns = ['CATEGORY','TITLE'], sep='\t',header=False, index=False)

#  事例数の確認
df['CATEGORY'].value_counts()

b    5627
e    5279
t    1524
m     910
Name: CATEGORY, dtype: int64

In [2]:
df

Unnamed: 0,ID,TITLE,URL,PUBLISHER,CATEGORY,STORY,HOSTNAME,TIMESTAMP
70359,70435,UPDATE 1-Telus names CEO as Entwistle becomes ...,http://in.reuters.com/article/2014/03/31/telus...,Reuters,b,dGBqh_i-77gZ42Ml87cz01GSVlPnM,in.reuters.com,1396283859143
126113,126449,"First Nighter: Franco, O'Dowd, Meester Disting...",http://www.huffingtonpost.com/david-finkle/fir...,Huffington Post,e,d453Y4zVT_O7yQMfBfhZzxNb8XOeM,www.huffingtonpost.com,1397711777663
347805,348265,"Hong Kong benchmark slips, China stocks gain a...",http://in.reuters.com/article/2014/07/03/marke...,Reuters,b,dhFoIQ7b1n6alyM_m9nC-lv_dSNXM,in.reuters.com,1404373113509
77183,77259,Pound Falls for First Time in Seven Days as Ma...,http://www.businessweek.com/news/2014-04-01/po...,Businessweek,b,dn9I4_GpQnctQNMOAl9jKLeuJlfQM,www.businessweek.com,1396370460027
146156,146492,Philips CEO says 2014 earnings improvement now...,http://www.reuters.com/article/2014/04/22/us-p...,Reuters,b,doG1F8gdEKp7IxMCNPJs9cJtr6gVM,www.reuters.com,1398157038609
...,...,...,...,...,...,...,...,...
351961,352421,Lindsay Lohan sports painful-looking cuts and ...,http://www.dailymail.co.uk/tvshowbiz/article-2...,Daily Mail,e,dCgKp5Dryw7NaJMV43bL3DMhdR5OM,www.dailymail.co.uk,1404401917639
263350,263796,"GLOBAL MARKETS-US, euro zone bonds rally on ex...",http://in.reuters.com/article/2014/05/28/marke...,Reuters,b,dstMYX5TPmpOkUM8aMg0Q-mfPeioM,in.reuters.com,1401354107920
358191,358651,Lea Michele - Lea Michele insists she isn't pr...,http://www.contactmusic.com/story/lea-michele-...,Contactmusic.com,e,dDzZDd7pVNZDDBMpnG7rkeM4MG6EM,www.contactmusic.com,1404533104604
105646,105843,UPDATE 1-BMW to recall more than 156000 vehicl...,http://in.reuters.com/article/2014/04/10/bmw-r...,Reuters,t,dAYaXV4JtRBtQJMGb8EmLlwTIToUM,in.reuters.com,1397348607426


# 51.特徴量抽出
*学習データ，検証データ，評価データから特徴量を抽出し，それぞれtrain.feature.txt，valid.feature.txt，test.feature.txtというファイル名で保存せよ． なお，カテゴリ分類に有用そうな特徴量は各自で自由に設計せよ．記事の見出しを単語列に変換したものが最低限のベースラインとなるであろう．*

【参考】単語をカウントして特徴量とする https://qiita.com/fujin/items/b1a7152c2ec2b4963160

scikit-learnのTfidfVectorizerを使う。単語の出現頻度とレア度を掛け合わせた手法。

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as np

vectorizer = TfidfVectorizer()

X_train = vectorizer.fit_transform(train_df['TITLE'])
X_valid = vectorizer.transform(valid_df['TITLE'])
X_test = vectorizer.transform(test_df['TITLE'])

np.savetxt('./NewsAggregatorDataset/train.feature.txt', X_train.toarray(), fmt='%d') # 疎行列から密行列に変換
np.savetxt('./NewsAggregatorDataset/valid.feature.txt', X_valid.toarray(), fmt='%d')
np.savetxt('./NewsAggregatorDataset/test.feature.txt', X_test.toarray(), fmt='%d')

# 52. 学習
*51.で構築した学習データを用いて，ロジスティック回帰モデルを学習せよ．*

【参考】
Scikit-learn でロジスティック回帰（クラス分類編）
https://qiita.com/0NE_shoT_/items/b702ab482466df6e5569

In [4]:
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression()
clf.fit(X_train, train_df['CATEGORY']) # ロジスティック回帰モデルの重みを学習

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


LogisticRegression()

# 53. 予測
*52. で学習したロジスティック回帰モデルを用い，与えられた記事見出しからカテゴリとその予測確率を計算するプログラムを実装せよ．*

【参考】
【sklearn】TfidfVectorizerの使い方を丁寧に
https://gotutiyan.hatenablog.com/entry/2020/09/10/181919#transform

In [5]:
dic = {'b':'business', 't':'science and technology', 'e' : 'entertainment', 'm' : 'health'}

# 与えられた記事見出しからカテゴリとその予測確率を計算する関数
def predict(text):
    text = [text]
    X = vectorizer.transform(text) # 文書をtf-idf行列に変換
    
    ls_proba = clf.predict_proba(X) # [データ数]行 × [次元数]列の特徴量行列 X を引数にして、各データがそれぞれのクラスに所属する確率を返す
    print(ls_proba)
    
    for proba in ls_proba:
        for c, p in zip(clf.classes_, proba):
            print (dic[c]+':',p)
            
            
s = train_df.iloc[0]['TITLE']
print("与えられた記事見出し：" + s)

predict(s)

与えられた記事見出し：SARAH VINE: ADHD and why we working mums need to look in the mirror
[[0.13902383 0.51438985 0.15680073 0.1897856 ]]
business: 0.13902382553375126
entertainment: 0.5143898471862146
health: 0.15680072633964356
science and technology: 0.1897856009403905


# 54. 正解率の計測
*52で学習したロジスティック回帰モデルの正解率を，学習データおよび評価データ上で計測せよ．*

accuracy_scoreを使う。

In [6]:
from sklearn.metrics import accuracy_score

y_train_pred = clf.predict(X_train)
y_test_pred = clf.predict(X_test)

y_train = train_df['CATEGORY']
y_test = test_df['CATEGORY']

print (accuracy_score(y_train, y_train_pred))
print (accuracy_score(y_test, y_test_pred))

0.9447151424287856
0.8913043478260869
