In [1]:
import sys

sys.path.append('../src/')

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

from preprocessing import clean_html, tokenize
from utils import load_dataset

## テキスト分類

### データロード

In [3]:
x, y = load_dataset('../data/amazon_reviews_multilingual_JP_v1_00.tsv', n=5000)
x = [clean_html(text, strip=True) for text in x]

In [5]:
x[:2]

['現在、地球温暖化の悪影響が、ここまで顕在化しているとは想像していませんでした。特に、このまま海面温度が上昇を続けると、早晩、南極・北極の氷が大規模に溶けることによって相当の範囲の陸地が海に没し、十億人単位での難民が発生するという事実には、本当に衝撃を受けました。ある人が、「人間は地球にすくう癌細胞のようである。増殖・破壊を続け、最終的には自らも寄生先の死によって滅ぶ運命にある」と言っていたことを思い出しました。一方、主人公であるゴア氏が、聴衆が数十人〜数百人程度の世界中の教室・会議場をまわって危機を訴えるという、地道な「草の根」の活動にも大変感銘を受けました。個人的には、ゴア氏には、ブッシュ氏との大統領戦における、「賢いが傲慢で冷徹」というイメージが強かったのですが、およそそんなことはない（＝きっと、ブッシュ陣営のネガティブ・キャンペーンの影響を愚かにも受けていたのでしょう）、信念を持ち、実行力が伴った、特筆すべき政治家であることも分かりました。温暖化の危機、ゴア氏ほかの活動家・学者の行動に対する不明を恥じると共に、自らもCO2ゼロ化に向けて早速行動したいと思いました。なお、当作品は、語られる事象のすべてが具体的かつ客観的に科学的根拠に支えられており、ドキュメンタリーとしても秀逸だと思います。是非ご覧になってみて下さい。お奨めします。',
 'このアクション映画ほど、男気を感じたものはあったのだろうか。シンプル構成で時間をたっぷりと使った中身のあるアクション映画です。劇中、鉄斧を持った闇のサイコ集団（敵）が出てくるんですがスタローンがこれでもかと、鉄拳制裁っ！するあたりはまさに圧巻の連続です。シンプルな映画ですが、家族で見ててハラハラドキドキします。また、この頃の映画って何か麻薬的な中毒性がありますよね。何度も映画の世界に引きずり込まれてしまいます。最近のアクション映画に物足りなさを感じている方、ぜひこのスタローンアクションを見て日々の疲れきった人生にスパイスを与えましょう。']

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [8]:
vectorizer = TfidfVectorizer(tokenizer=tokenize)
x_train_vec = vectorizer.fit_transform(x_train)
x_test_vec = vectorizer.transform(x_test)

### 分類モデル

In [14]:
clf = LogisticRegression(solver='liblinear')
clf.fit(x_train_vec, y_train)

LogisticRegression(solver='liblinear')

In [15]:
y_pred = clf.predict(x_test_vec)
score = accuracy_score(y_test, y_pred)
print("Accuracy(test): {:.4f}".format(score))

Accuracy(test): 0.8440
