In [15]:
import glob

def load_livedoor_news_corpus():
    category = {
        'dokujo-tsushin': 1,
        'it-life-hack':2,
        'kaden-channel': 3,
        'livedoor-homme': 4,
        'movie-enter': 5,
        'peachy': 6,
        'smax': 7,
        'sports-watch': 8,
        'topic-news':9
    }
    docs  = []
    labels = []

    for c_name, c_id in category.items():
        files = glob.glob("./text/{c_name}/{c_name}*.txt".format(c_name=c_name))

        text = ''
        for file in files:
            with open(file, 'r') as f:
                lines = f.read().splitlines() 

                url = lines[0]
                datetime = lines[1]
                subject = lines[2]
                body = "\n".join(lines[3:])
                text = subject + "\n" + body

            docs.append(text)
            labels.append(c_id)

    return docs, labels

docs, labels = load_livedoor_news_corpus()
print(len(docs))   # 7367
print(len(labels)) # 7367

7367
7367


In [40]:
import random

## indices は 0〜7366 の整数をランダムに並べ替えた配列
random.seed()
indices = list(range(len(docs)))
random.shuffle(indices)

train_data   = [docs[i] for i in indices[0:7000]]
train_labels = [labels[i] for i in indices[0:7000]]
test_data    = [docs[i] for i in indices[7000:]]
test_labels  = [labels[i] for i in indices[7000:]]
print (train_data[0])

ナイナイ矢部浩之の卒業文集がネット上で話題に
2月29日、日本テレビの「1番ソングSHOW！」で紹介されたナインティナイン矢部浩之の高校卒業文集がネット掲示板で話題を呼んでいる。

番組内で紹介された矢部の文集は「どうもこんにちは。99(ナインティナイン)です」という一文から始まり、「2丁目劇場をしきって、ダウンタウンの位置をいただきます」「東京に進出して、とんねるずの位置をいただきます」「エレベーター式にたけしの位置をいただくと同時に、欽ちゃんはその時点でおびえています」など、超大物芸人を引き合いに出したビッグマウス発言がズラリ。

これを受け、ネット掲示板では「センスあるな 」「これはすごい予言 」など、矢部を賞賛する声が相次ぐ一方で、「矢部が学生時代のころからお笑い界の上のやつらがあまり変わってない」など、新陳代謝が停滞するお笑い界への指摘の声も見られた。

矢部の卒業文集は「私たち99がお笑い界の帝王となるのです」という一文で締め括られていたが、現実となる日は来るのだろうか?

・1番ソングSHOW - 日本テレビ
・ 【画像あり】矢部浩之の卒業文集クソワロタｗｗｗｗｗｗ - 暇人速報


In [41]:
from natto import MeCab
from sklearn.feature_extraction.text import TfidfVectorizer

def tokenize(text):
    tokens = []
    with MeCab('-F%f[0],%f[6]') as nm:
        for n in nm.parse(text, as_nodes=True):
            # ignore any end-of-sentence nodes
            if not n.is_eos() and n.is_nor():
                klass, word = n.feature.split(',', 1)
                if klass in ['名詞', '形容詞', '形容動詞', '動詞']:
                    tokens.append(word)

    return tokens

vectorizer = TfidfVectorizer(tokenizer=tokenize)
train_matrix = vectorizer.fit_transform(train_data)

  (0, 33971)	0.0519735806234
  (0, 23042)	0.0823904808449
  (0, 159)	0.052044608846
  (0, 27520)	0.0408084942445
  (0, 23668)	0.0377505141075
  (0, 27102)	0.0448381917215
  (0, 29981)	0.083657913074
  (0, 2595)	0.0269073063243
  (0, 2510)	0.0246848490647
  (0, 19106)	0.0867535840959
  (0, 1955)	0.0263784044782
  (0, 28808)	0.0287060294693
  (0, 3688)	0.0194199073984
  (0, 32098)	0.0210415141326
  (0, 21614)	0.0489667683777
  (0, 12610)	0.0911166873469
  (0, 22497)	0.0743499034422
  (0, 2254)	0.0275194541838
  (0, 16735)	0.0341028894525
  (0, 3679)	0.038193722577
  (0, 3531)	0.0614510541772
  (0, 27534)	0.126941069817
  (0, 752)	0.171093497713
  (0, 1338)	0.0607886459016
  (0, 22947)	0.0337327047591
  :	:
  (0, 10453)	0.0687403645281
  (0, 17548)	0.0407584442163
  (0, 10315)	0.158589619646
  (0, 13218)	0.0326458358119
  (0, 27579)	0.0343615407366
  (0, 329)	0.0339135686042
  (0, 15729)	0.0361241511187
  (0, 21847)	0.073656751562
  (0, 36356)	0.0503960192449
  (0, 3713)	0.0362828147981
 

In [18]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(train_matrix, train_labels)

test_matrix = vectorizer.transform(test_data)
print(clf.score(train_matrix, train_labels)) # 0.881
print(clf.score(test_matrix, test_labels)) # 0.825613079019

0.882714285714
0.839237057221


In [19]:
# import pickle
# pickle.dump(clf, open("model_origin.pkl", "wb")) #モデル保存
# #clf = pickle.load(open("model.pkl", "rb")) 　#モデル読み込み　

In [42]:
test_data_real = [
   """本日のテーマMicrosoftFlow#MicrosoftFlowJapanSharePointGroup
   本日のゴールMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう
   JapanSharePointGroupMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう
   JapanSharePointGroupSharePointGroup"""""
]

test_matrix_real = vectorizer.fit_transform(test_data_real)
print (test_data_real)
print (test_matrix_real)
print(clf.predict(test_matrix_real))

['本日のテーマMicrosoftFlow#MicrosoftFlowJapanSharePointGroup\n   本日のゴールMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう\n   JapanSharePointGroupMicrosoftFlowというサービスを知ってもらうなにができそうかを知ってもらう\n   JapanSharePointGroupSharePointGroup']
  (0, 0)	0.272165526976
  (0, 1)	0.272165526976
  (0, 2)	0.272165526976
  (0, 3)	0.544331053952
  (0, 8)	0.544331053952
  (0, 5)	0.272165526976
  (0, 4)	0.136082763488
  (0, 6)	0.136082763488
  (0, 7)	0.272165526976


ValueError: dimension mismatch