In [1]:
# データ分析・操作用ライブラリ
import numpy as np
import pandas as pd

# NLP用ライブラリ
import MeCab,re
from sklearn.feature_extraction.text import TfidfVectorizer
from gensim.models import word2vec

# スコア評価用ライブラリ
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.metrics import precision_recall_fscore_support

# エラー表示の抑制
import warnings

In [2]:
# 表示関連
# DataFrameの列数設定
pd.set_option('display.max_columns', 500)
pd.set_option("display.max_rows", 500)
warnings.filterwarnings('ignore')

In [3]:
def MeanEmbeddingVectorizer(text, w2v):
    vector = []
    tagger = MeCab.Tagger("-O wakati")
    node = tagger.parseToNode(text)
    while node:
        if node.feature.split(",")[0] in ['名詞'] :
                replace_node = re.sub( re.compile( "[!-/:-@[-`{-~]" ), "", node.surface )
                if replace_node != "" and replace_node != " ":
                    #vector.append(np.mean(w2v.__dict__['wv'][replace_node]))
                    vector.append(np.mean(w2v[replace_node]))
        node = node.next
    return vector

In [4]:
# テキストデータの読み込み
wikiData = pd.read_csv("csv/train_cleaned.csv", encoding="utf-8")

# 読み込みデータの表示
wikiData.head()

Unnamed: 0,text,target
0,ドール・フード・カンパニー ドール・フード・カンパニー Dole Food Comp...,1
1,南ヶ丘牧場 株式会社 南ヶ丘牧場 みなみ じょう 栃木県 那須高原 本拠 酪...,1
2,岩瀬牧場 岩瀬牧場 ぼくじょう 日本 福島県 岩瀬 郡 鏡石町 牧場 鏡石...,1
3,くら ぎ GI Co Ltd 三重県 中心 農業 店舗 展開 会社 本...,1
4,ハッピーネモファーム 株式会社 ハッピーネモファーム 北海道 浦河 郡 浦河町 ...,1


In [5]:
# Numpy配列へ変換
X = wikiData.text.values
y = wikiData.target.values

In [6]:
# トレーニングデータ、テストデータの分割
X_train, X_test, y_train, y_test = train_test_split(X , y, test_size=0.2, random_state=42, stratify=y)

In [7]:
model_dir = 'model/shiroyagi_word2vec.gensim.model'
model = word2vec.Word2Vec.load(model_dir)

In [8]:
# Word2Vecモデルの追加学習
sentences = [token.split(" ") for token in wikiData.text]
#model = word2vec.Word2Vec(sentences, size=100, min_count=1, window=5, iter=100, seed=42)
model.train(sentences, total_examples=len(sentences), epochs=100)
#model.save('model/word2vec.gensim.model')

(144344201, 321209400)

In [9]:
for i in range(len(X_train)):
    X_train[i] = MeanEmbeddingVectorizer(X_train[i], model)
    
for i in range(len(X_test)):
    X_test[i] = MeanEmbeddingVectorizer(X_test[i], model)

KeyError: "word 'YOCASOL' not in vocabulary"

In [None]:
# Light GBM
import lightgbm as lgb

clf = lgb.LGBMClassifier(objective='multiclass', num_class=33)
clf.fit(X_train, y_train)
cv_scores = cross_val_score(clf, X_train, y_train, cv=5)

print("Training score：" + str(clf.score(X_train, y_train)))
print("Cross-Validation score：" + str(np.mean(cv_scores)))
print("Test score：" + str(clf.score(X_test, y_test)))