◯　PythonでMeCabを利用する

In [1]:
import MeCab
m = MeCab.Tagger('-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')
m.parse("日本シリーズでソフトバンクが勝利")

'日本シリーズ で ソフトバンク が 勝利 \n'

In [2]:
# 半角スペース区切りで単語を分解する
m.parse("日本シリーズでソフトバンクが勝利").split(' ')

['日本シリーズ', 'で', 'ソフトバンク', 'が', '勝利', '\n']

In [3]:
# 名詞だけをカウントする
nodes = m.parseToNode("日本シリーズでソフトバンクが勝利")
surfaces = []
while nodes:
    if nodes.feature[:2] == '名詞':
        surfaces.append(nodes.surface)
    nodes = nodes.next
print(surfaces)

['日本シリーズ', 'ソフトバンク', '勝利']


In [4]:
# 文書をベクトルにする
# Bag of Wordsの形式を示す　→　該当する文書に単語が含まれているかを指す
# 各次元がどの単語に対応しているかはcount_vectorizer.get_feature_names()で確認できる
import MeCab
from sklearn.feature_extraction.text import CountVectorizer
count_vectorizer = CountVectorizer()
doc_1 = m.parse("日本シリーズでソフトバンクが勝利")
doc_2 = m.parse("ソフトバンクが新機種を発売")
doc_3 = m.parse("錦織圭が勝利")
vectors = count_vectorizer.fit_transform([doc_1, doc_2, doc_3])
vectors.toarray(), count_vectorizer.get_feature_names()

(array([[1, 1, 0, 1, 0, 0],
        [1, 0, 1, 0, 1, 0],
        [0, 1, 0, 0, 0, 1]]), ['ソフトバンク', '勝利', '新機種', '日本シリーズ', '発売', '錦織圭'])

◯　文書分類を行う

In [9]:
# データセットのニュース記事がどのメディアの記事なのかを予測する準備
import os
import MeCab
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

MEDIA_LIST = [
    'dokujo-tsushin',
    'it-life-hack',
    'kaden-channel',
    'livedoor-homme',
    'movie-enter',
    'peachy',
    'smax',
    'sports-watch',
    'topic-news',
]

def get_title_from_txt(txt):
    title = ' '.join(txt.split('\n')[2:])
    return title

def load_livedoornews_corpus():
    corpus = []
    for media_idx, media in enumerate(MEDIA_LIST):
        for filename in os.listdir('./livedoor_newscorpus/{}/'.format(media)):
            txt = open('./livedoor_newscorpus/{}/{}'.format(media, filename), encoding="utf8", errors='ignore').read()
            title = get_title_from_txt(txt)
            corpus.append((media_idx, title))
    return corpus

In [10]:
corpus = load_livedoornews_corpus()
media_labels = []
docs = []
m = MeCab.Tagger('-Owakati -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd')

for media_idx, title in corpus:
    
    media_labels.append(media_idx)
    words = m.parse(title)
    docs.append(words)
    
count_vectorizer = CountVectorizer()
count_vectors = count_vectorizer.fit_transform(docs)

tfidf_vectorizer = TfidfVectorizer()
tfidf_vectors = tfidf_vectorizer.fit_transform(docs)

In [11]:
# 出現頻度を用いた場合
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=300)
cross_val_score(model, count_vectors, media_labels, cv=5)

array([0.94241192, 0.95389831, 0.95457627, 0.95322034, 0.93830508])

In [12]:
# TF-IDFを用いた場合
model = LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=300)
cross_val_score(model, tfidf_vectors, media_labels, cv=5)

array([0.91802168, 0.91932203, 0.92745763, 0.92745763, 0.91389831])