In [13]:
# データ分析・操作用ライブラリ
import numpy as np
import pandas as pd

# NLP用ライブラリ
import MeCab,re
from sklearn.feature_extraction.text import TfidfVectorizer

# スコア評価用ライブラリ
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import precision_recall_fscore_support

# エラー表示の抑制
import warnings

In [2]:
# 表示関連
# DataFrameの列数設定
pd.set_option('display.max_columns', 500)
pd.set_option("display.max_rows", 500)
warnings.filterwarnings('ignore')

In [3]:
# テキストデータの読み込み
wikiData = pd.read_csv("csv/train_cleaned.csv", encoding="utf-8")

# 読み込みデータの表示
wikiData.head()

Unnamed: 0,text,target
0,ドール・フード・カンパニー ドール・フード・カンパニー（Dole Food Compan...,1
1,南ヶ丘牧 南ヶ丘牧（みなみがおかぼくじょう）は、栃那須原に拠を置く酪農経営企。現在4つ...,1
2,岩瀬牧 岩瀬牧（いわせぼくじょう）は、福島岩瀬郡鏡石にある牧である。 鏡石シンボルソン...,1
3,"クラギ クラギ（くらぎ、""KURAGI Co.Ltd."" ）は、重を心に「農」を展開する...",1
4,"ハッピーネモファーム ハッピーネモファーム（""""）は、北海浦河郡浦河にある競走馬（サラブ...",1


In [4]:
# Numpy配列へ変換
X = wikiData.text.values
y = wikiData.target.values

In [5]:
# トレーニングデータ、テストデータの分割
X_train, X_test, y_train, y_test = train_test_split(X , y, test_size=0.2, random_state=42, stratify=y)

In [48]:
# 形態素解析用関数
def tokenize(text):
    tokens = []
    tagger = MeCab.Tagger( "-Ochasen" )
    node = tagger.parseToNode(text)
    while node:
        if node.feature.split(",")[0] in ['形容詞', '動詞','名詞', '副詞'] :
                replace_node = re.sub( re.compile( "[!-/:-@[-`{-~]" ), "", node.surface )
                if replace_node != "" and replace_node != " ":
                    tokens.append(replace_node)
        node = node.next
    return tokens

In [51]:
# 形態素解析を実行
vectorizer = TfidfVectorizer(tokenizer=tokenize)
vectorizer.fit(X)
train_matrix = vectorizer.transform(X_train)
test_matrix = vectorizer.transform(X_test)

In [52]:
# ナイーブベイズ
from sklearn.naive_bayes import MultinomialNB

clf = MultinomialNB()
clf.fit(train_matrix, y_train)
cv_scores = cross_val_score(clf, train_matrix, y_train, cv=5)

print("Training score：" + str(clf.score(train_matrix, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf.score(test_matrix, y_test)))

Training score：0.462914485166
Cross-Validation score：0.367699049508
Test score：0.37260034904


In [36]:
# テストデータのクラス別適合率を確認
pred = clf.predict(test_matrix)
p_r_f = precision_recall_fscore_support(y_test, pred)

for precision in p_r_f[0]:
    print("precision score：" + str(precision))

precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.82183908046
precision score：0.0
precision score：0.0
precision score：0.666666666667
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：1.0
precision score：0.578947368421
precision score：0.0
precision score：0.0
precision score：0.0
precision score：1.0
precision score：0.237545565006
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.979591836735
precision score：0.0
precision score：0.0
precision score：0.0
precision score：0.767441860465
precision score：0.0
precision score：0.852941176471


In [38]:
# テストデータのクラス別再現率を確認
for recall in p_r_f[1]:
    print("recall score：" + str(recall))

recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.593360995851
recall score：0.0
recall score：0.0
recall score：0.0235294117647
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.047619047619
recall score：0.0964912280702
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.021897810219
recall score：0.987373737374
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.457142857143
recall score：0.0
recall score：0.0
recall score：0.0
recall score：0.779527559055
recall score：0.0
recall score：0.444444444444


In [39]:
# テストデータのクラス別F1値を確認
for ｆ1 in p_r_f[2]:
    print("F1 score：" + str(f1))

F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.689156626506
F1 score：0.0
F1 score：0.0
F1 score：0.0454545454545
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0909090909091
F1 score：0.165413533835
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0428571428571
F1 score：0.382957884427
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.623376623377
F1 score：0.0
F1 score：0.0
F1 score：0.0
F1 score：0.7734375
F1 score：0.0
F1 score：0.584382871537


In [9]:
# ランダムフォレスト
from sklearn.ensemble import RandomForestClassifier

clf2 = RandomForestClassifier(n_estimators=50,random_state=42)
clf2.fit(train_matrix, y_train)
cv_scores = cross_val_score(clf2, train_matrix, y_train, cv=5)

print("Training score：" + str(clf2.score(train_matrix, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf2.score(test_matrix, y_test)))

Training score：1.0
Cross-Validation score：0.66221177878
Test score：0.657068062827


In [None]:
# Light GBM
import lightgbm as lgb

clf3 = lgb.LGBMClassifier(objective='multiclass', num_class=33)
clf3.fit(train_matrix, y_train)
cv_scores = cross_val_score(clf3, train_matrix, y_train, cv=5)

print("Training score：" + str(clf3.score(train_matrix, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf3.score(test_matrix, y_test)))

In [None]:
# テストデータのクラス別適合率を確認
pred = clf3.predict(test_matrix)
p_r_f = precision_recall_fscore_support(y_test, pred)

for precision in p_r_f[0]:
    print("precision score：" + str(precision))

In [None]:
# テストデータのクラス別再現率を確認
for recall in p_r_f[1]:
    print("recall score：" + str(recall))

In [None]:
# テストデータのクラス別F1値を確認
for ｆ1 in p_r_f[2]:
    print("F1 score：" + str(f1))

In [None]:
scores = []
for i in range(1,34):
    tmp_y = np.copy(y_train)
    tmp_y[tmp_y != i] = 0
    
    cv_scores_class = cross_val_score(clf2, train_matrix, tmp_y, cv=5, scoring='roc_auc')
    
    scores.append(cv_scores_class)
    print("CV score for class：" + str(np.mean(cv_scores_class)))
    
print("Total CV score：" + str(np.mean(scores)))

In [11]:
# SVM
from sklearn.svm import SVC

## パラメーター設定
C = 1.
kernel = 'rbf'
gamma  = 0.01

## One-versus-the-rest
clf4 = SVC(C=C, kernel=kernel, gamma=gamma, decision_function_shape='ovr')
clf4.fit(train_matrix, y_train)
cv_scores = cross_val_score(clf4, train_matrix, y_train, cv=5)

print("Training score：" + str(clf4.score(train_matrix, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf4.score(test_matrix, y_test)))


## One-versus-the-one(multi-class default)
clf5 = SVC(C=C, kernel=kernel, gamma=gamma, decision_function_shape='ovo')
clf5.fit(train_matrix, y_train)
cv_scores = cross_val_score(clf5, train_matrix, y_train, cv=5)

print("Training score：" + str(clf5.score(train_matrix, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf5.score(test_matrix, y_test)))

Training score：0.206806282723
Cross-Validation score：0.188141785068
Test score：0.200261780105
Training score：0.206806282723
Cross-Validation score：0.188141785068
Test score：0.200261780105
