# 第6章: 機械学習
本章では，Fabio Gasparetti氏が公開しているNews Aggregator Data Setを用い，ニュース記事の見出しを「ビジネス」「科学技術」「エンターテイメント」「健康」のカテゴリに分類するタスク（カテゴリ分類）に取り組む．

## 50. データの入手・整形
News Aggregator Data Setをダウンロードし、以下の要領で学習データ（train.txt），検証データ（valid.txt），評価データ（test.txt）を作成せよ．

1.ダウンロードしたzipファイルを解凍し，readme.txtの説明を読む．


2.情報源（publisher）が”Reuters”, “Huffington Post”, “Businessweek”, “Contactmusic.com”, “Daily Mail”の事例（記事）のみを抽出する．


3.抽出された事例をランダムに並び替える．


4.抽出された事例の80%を学習データ，残りの10%ずつを検証データと評価データに分割し，それぞれtrain.txt，valid.txt，test.txtというファイル名で保存する．ファイルには，１行に１事例を書き出すこととし，カテゴリ名と記事見出しのタブ区切り形式とせよ（このファイルは後に問題70で再利用する）．


5.学習データと評価データを作成したら，各カテゴリの事例数を確認せよ

参考情報
- データの削除：https://note.nkmk.me/python-pandas-query/
- シャッフル：https://note.nkmk.me/python-pandas-random-sort-shuffle/

In [24]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [46]:
def data_split(data):
    df_news = pd.read_csv(data,header=None,sep='\t',names=['ID','TITLE','URL','PUBLISHER','CATEGORY',
                                                                                               'STORY','HOSTNAME','TIMESTAMP'])
    #必要な記事を抽出してランダムに入れ替える
    df_news=df_news[df_news['PUBLISHER'].isin(["Reuters", "Huffington Post", "Businessweek", "Contactmusic.com", "Daily Mail"])]
    df_news_suffle = df_news.sample(frac=1,random_state=0)
    
    #データの分割
    train,temp = train_test_split(df_news_suffle,test_size=0.2 )
    val,test=train_test_split(temp,test_size=0.5)
    
    #データの保存
    train.to_csv('../data/train.txt', sep='\t', index=False)
    val.to_csv('../data/valid.txt', sep='\t', index=False)
    test.to_csv('../data/test.txt', sep='\t', index=False)
    
    #学習データと評価データの事例の確認
    ans1=print("訓練データ\n{}".format(train['CATEGORY'].value_counts()))
    ans2=print("検証データ\n{}".format(val['CATEGORY'].value_counts()))
    ans3=print("評価データ\n{}".format(test['CATEGORY'].value_counts()))
    
    return ans1,ans2
    

In [47]:
data = '../data/NewsAggregatorDataset/newsCorpora.csv'

In [48]:
data_split(data)

訓練データ
b    4505
e    4209
t    1228
m     730
Name: CATEGORY, dtype: int64
検証データ
b    551
e    540
t    147
m     96
Name: CATEGORY, dtype: int64
評価データ
b    571
e    530
t    149
m     84
Name: CATEGORY, dtype: int64


(None, None)

### 過程

In [3]:
data = pd.read_csv('../data/NewsAggregatorDataset/newsCorpora.csv',header=None,sep='\t',names=['ID','TITLE','URL','PUBLISHER','CATEGORY',
                                                                                               'STORY','HOSTNAME','TIMESTAMP'])

In [4]:
data=data[data['PUBLISHER'].isin(["Reuters", "Huffington Post", "Businessweek", "Contactmusic.com", "Daily Mail"])]

In [5]:
data_s = data.sample(frac=1,random_state=0)

In [6]:
data_s.head()

Unnamed: 0,ID,TITLE,URL,PUBLISHER,CATEGORY,STORY,HOSTNAME,TIMESTAMP
310638,311098,RPT-Fitch Updates EMEA Consumer ABS Rating Cri...,http://in.reuters.com/article/2014/06/24/fitch...,Reuters,b,d3tIMfB2mg-9MZM4G_jGTEiRVl3jM,in.reuters.com,1403633888597
49197,49198,"Gurlitt Wants to Return Nazi-Looted Art, Suedd...",http://www.businessweek.com/news/2014-03-26/gu...,Businessweek,e,dWeC4g3bvX-bI6MKAcxt43Jp7MzSM,www.businessweek.com,1395886231417
410059,410578,"UPDATE 1-Fairfax Financial, CEO probed over po...",http://in.reuters.com/article/2014/08/01/fairf...,Reuters,b,d6s61cXf9rASExMO8inpkRujc9VTM,in.reuters.com,1406929609070
270222,270668,Angelina Jolie - Angelina Jolie Will Not Tight...,http://www.contactmusic.com/story/angelina-jol...,Contactmusic.com,e,d7SbUKanRaD34YMwE64lo09d_qCnM,www.contactmusic.com,1401828902205
301196,301656,Patent Officials Cancel the Washington Redskin...,http://www.businessweek.com/articles/2014-06-1...,Businessweek,b,dXVU3KhKpHSxleMNmc46pQj6e5zwM,www.businessweek.com,1403113194649


In [1]:
from sklearn.model_selection import train_test_split

In [7]:
test,temp = train_test_split(data_s,test_size=0.2 )

In [14]:
val,eva=train_test_split(temp,test_size=0.5)

In [19]:
test.to_csv('../data/train.txt', sep='\t', index=False)

In [20]:
val.to_csv('../data/valid.txt', sep='\t', index=False)

In [21]:
eva.to_csv('../data/test.txt', sep='\t', index=False)

In [23]:
test['CATEGORY'].value_counts()

b    4513
e    4209
t    1217
m     733
Name: CATEGORY, dtype: int64

## 51. 特徴量抽出Permalink
学習データ，検証データ，評価データから特徴量を抽出し，それぞれtrain.feature.txt，valid.feature.txt，test.feature.txtというファイル名で保存せよ． なお，カテゴリ分類に有用そうな特徴量は各自で自由に設計せよ．記事の見出しを単語列に変換したものが最低限のベースラインとなるであろう

- ニュース記事をロジ回帰するにはTF-IDFがいいらしい：https://poniti.hatenablog.com/entry/2020/01/02/185114

一般的に自然言語の特徴抽出に使われるのは以下
<br>BOW
<br>TF-IDF(単語の頻度だけでなく、重要度も考慮)
<br>BM25（TF-IDFより文章の長さを考慮)
<br>N-gram


In [50]:
#今回はTITLEをカテゴリーに分類するのが目的

In [49]:
val.head()

#
#
#

Unnamed: 0,ID,TITLE,URL,PUBLISHER,CATEGORY,STORY,HOSTNAME,TIMESTAMP
85414,85490,Apple Loses Patent-Use Bid in $2 Billion Samsu...,http://www.businessweek.com/news/2014-04-04/ap...,Businessweek,t,dsTGq32jaZsIVdMHcazy-9ES3EKuM,www.businessweek.com,1396876291107
379276,379736,Is your iPad giving you a rash? Nickel in tabl...,http://www.dailymail.co.uk/news/article-269116...,Daily Mail,m,d1vnrTWUy_ZalkMgcBoaBTFrjtT1M,www.dailymail.co.uk,1405444124659
353153,353613,UPDATE 3-US grounds entire F-35 fleet pending ...,http://in.reuters.com/article/2014/07/04/lockh...,Reuters,b,dVrXxSw8gzfRlqMD6cVTY5zkuoG8M,in.reuters.com,1404453734370
307638,308098,BNP Dividend Future Slides on Report Settlemen...,http://www.businessweek.com/news/2014-06-23/bn...,Businessweek,b,dONUzFKBMKkeBSMpNbUZsRcp4gT5M,www.businessweek.com,1403541743853
202441,202877,Austria's Eurovision entry Conchita Wurst spli...,http://www.dailymail.co.uk/tvshowbiz/article-2...,Daily Mail,e,dyaHTRyzxDOk6fMoGuMjh-2X5JsQM,www.dailymail.co.uk,1399701886441
