In [85]:
import glob

def load_livedoor_news_corpus():
    category = {
        'it-life-hack':2,
        'livedoor-homme': 3,
        'movie-enter': 4,
        'peachy': 1,
        'sports-watch': 5,
        'topic-news':6
    }
    docs  = []
    labels = []

    for c_name, c_id in category.items():
        files = glob.glob("./text/{c_name}/{c_name}*.txt".format(c_name=c_name))

        text = ''
        for file in files:
            with open(file, 'r') as f:
                lines = f.read().splitlines() 

                url = lines[0]
                datetime = lines[1]
                subject = lines[2]
                body = "\n".join(lines[3:])
                text = subject + "\n" + body

            docs.append(text)
            labels.append(c_id)

    return docs, labels

docs, labels = load_livedoor_news_corpus()
print(len(docs))
print(len(labels))

4763
4763


In [86]:
import random

## indices は 0〜7366 の整数をランダムに並べ替えた配列
random.seed()
indices = list(range(len(docs)))
random.shuffle(indices)

train_data   = [docs[i] for i in indices[0:4500]]
train_labels = [labels[i] for i in indices[0:4500]]
test_data    = [docs[i] for i in indices[4500:]]
test_labels  = [labels[i] for i in indices[4500:]]

In [87]:
from natto import MeCab
from sklearn.feature_extraction.text import TfidfVectorizer

def tokenize(text):
    tokens = []
    with MeCab('-F%f[0],%f[6]') as nm:
        for n in nm.parse(text, as_nodes=True):
            # ignore any end-of-sentence nodes
            if not n.is_eos() and n.is_nor():
                klass, word = n.feature.split(',', 1)
                if klass in ['名詞', '形容詞', '形容動詞', '動詞']:
                    tokens.append(word)

    return tokens

vectorizer = TfidfVectorizer(tokenizer=tokenize)
train_matrix = vectorizer.fit_transform(train_data)

In [88]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(train_matrix, train_labels) # 学習させる

test_matrix = vectorizer.transform(test_data)
print(clf.score(train_matrix, train_labels)) # 0.881
print(clf.score(test_matrix, test_labels)) # 0.825613079019

0.903333333333
0.847908745247


In [89]:
import pickle
# pickle.dump(clf, open("model_origin.pkl", "wb")) #モデル保存  もとの９クラス分類
pickle.dump(clf, open("model_latest.pkl", "wb")) #モデル保存  プロコン用6クラス分類       1 女性 2 IT 3 男 4 映画　５　スポーツ 6　その他
pickle.dump(vectorizer, open("vectorizer_latest.pkl", "wb"))
# #clf = pickle.load(open("model.pkl", "rb")) 　#モデル読み込み　

In [90]:
# 未知のデータ
input_data = [
   """本日のテーマMicrosoftFlow#MicrosoftFlowJapanSharePointGroup
   本日のゴールMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう
   JapanSharePointGroupMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう
   JapanSharePointGroupSharePointGroup""",
    """セ・パ交流戦、ロッテ６－９ヤクルト、３回戦、ロッテ２勝１敗、１１日、ゾゾマリン）１０連敗中だったヤクルトは新外国人、デービッド・ブキャナン投手（２７）が７回２失点で今季３勝目（４敗）。
    ２番・上田剛史外野手（２８）が３安打４打点と活躍するなど打線もつながった。
    泥沼の大型連敗をストップし、交流戦１２試合目にしてようやく初勝利となった。(サンケイスポーツ)
    """,
    """政府の郵政民営化委員会（委員長・岩田一政日本経済研究センター理事長）は、
    ゆうちょ銀行が総務省と金融庁に新規業務として申請した個人向け無担保融資について、
    「実施に問題はない」とする意見を表明する方針を固めた。関係筋が10日明らかにした。
    14日にも開く民営化委で正式に意見書をまとめ、高市早苗総務相と森信親金融庁長官に提出する。(時事通信)""",
    """　国連の特別報告者らが日本政府の方針に批判的な見解を示し、
    政府がその都度、反論するケースが相次いだ。「共謀罪」の成立要件を改めたテロ等準備罪を新設する組織犯罪処罰法改正案や特定秘密保護法、
    慰安婦問題に関する日韓合意が取り上げられ、政府の対決姿勢を野党が批判している。(毎日新聞)"""
]
input_matrix = vectorizer.transform(input_data)
print(clf.predict(input_matrix))


[2 5 6 6]
