In [1]:
import csv
import copy
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

In [2]:
from feature import Feature
import sys
sys.dont_write_bytecode = True
sys.path.append('../')
from datatool.preprocess import  Preprocessor
from datatool.maneger import DataManager



In [3]:
path = "../corpus/data_augment.csv"

In [4]:
data = []
with open(path) as f:
    reader = csv.reader(f)
    for row in reader:
        data.append(row)

In [5]:
def make_classes_dict(data):
    classes_dict = dict()
    for row in data:
        c = row[1]
        if c not in classes_dict:
            classes_dict[c] = len(classes_dict)
    return classes_dict

In [6]:
def class_filter(data, remain_classes:list):
    new_data = []
    for row in data:
        c = row[1]
        if c in remain_classes:
            new_data.append(row)
    return new_data

In [7]:
classes_dict_ = make_classes_dict(data)

In [8]:
remain_classes = "how what when where who why YN plain".split()
data_n = class_filter(data, remain_classes)
classes_dict = dict(zip(remain_classes, list(range(len(remain_classes)))))

In [9]:
def extract_X_y(data, classes_dict):
    X = []
    y = []
    for d in data:
        X.append(d[0])
        y.append(classes_dict[d[1]])
    return X, y

In [10]:
import random
def extract_X_y_limit(data, classes_dict:dict, limit=400):
    data_ = random.sample(data, len(data))
    X = []
    y = []
    each_len = dict(zip(classes_dict.keys(), [0]*len(classes_dict)))
    for d in data_:
        if each_len[d[1]] <= limit:
            X.append(d[0])
            y.append(classes_dict[d[1]])
            each_len[d[1]] += 1
    return X, y

In [11]:
# X, y = extract_X_y(data_n, classes_dict)

In [12]:
X, y = extract_X_y_limit(data_n, classes_dict)

In [13]:
len(X)

3208

In [14]:
X_train_str, X_test_str, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=5)

In [15]:
F = Feature()
F.set_preprocessor(Preprocessor())
F.make_features(X_train_str)

X_train = []
X_test = []
for i, x_t_str in enumerate( X_train_str ):
    x = F.featurization(x_t_str)
    X_train.append(x)
for i, x_t_str in enumerate( X_test_str ):
    x = F.featurization(x_t_str)
    X_test.append(x)
X_train = np.array(X_train)
X_test = np.array(X_test)

300


In [16]:
F_path = "../X_y_data/"
F_name = "typeClassify_F2.pickle"
import dill
import pickle
# featureM = DataManager(F_path, format_="dill")
with open(F_path+F_name, "wb") as f:
    pickle.dump(F, f)

In [17]:
lr = LogisticRegression(solver='sag', max_iter=100)
lr.fit(X_train, y_train)



LogisticRegression(solver='sag')

In [18]:
y_pred = lr.predict(X_test)

In [19]:
print(classes_dict)
dis = 30
for y_p, x_s in zip(y_pred[:dis], X_test_str[:dis]):
    print("{0} : {1}".format(y_p, x_s))

{'how': 0, 'what': 1, 'when': 2, 'where': 3, 'who': 4, 'why': 5, 'YN': 6, 'plain': 7}
5 : どうして？
2 : 夏のバイトはいつ終わるの？
6 : 向こうで雨宿りしない？
7 : 私はこのところボランティアの指導員として、地元の10代の若者たち数人が整理能力と時間管理能力を向上させる支援をしています。
7 : 初めての現代的なオリンピックがギリシャで1896年に開かれたということを知っていましたか？
2 : いつ見えなくなったの？
1 : どういうことなの？
6 : どうにか不自由なくなじんできましたか。
0 : 台本の進み具合はどう？
5 : ひと休みしませんか？
2 : このお店はいつオープンしましたか？
7 : ねえ、たいていの人は、「スロー」ということばを聞くと否定的な反応をしますよね。
2 : クローディアが自分の財布を捜して遺失物取扱所に電話したとき、顧客係は「それはどんなものだったのか私に説明してもらえますか？」と尋ねました。
4 : だれがこんなところに置いていったのかしら？
6 : それはフィルム式のカメラ？
4 : そこの城主はだれだったのですか？
5 : 今夜、茶碗蒸しを作ったらどうかしら?
5 : なぜそれらをもっと使わないのですか？
2 : 智美の出る競技は、いつ始まるかな？
1 : みんなは今何をしているの？
2 : サッカーの練習はいつなの？
5 : 小学校で体育を取らなかったの？
5 : いったい全体、なんでイギリス人はバスルームやトイレにカーペットをしいているんだろう？
7 : あなたのご同胞の皆さんに温かく迎え入れてもらい、感激しましたよ。
5 : どうしておばあちゃんがここにいるんですか？
6 : 買ったの？
4 : これはだれの花束？
3 : ぼくの番号はどこだろう？　…な、ないよ、ぼくの番号がないんだ。
0 : 毎朝5時に起きるのですね。
2 : ティノはいつ着いたの？


In [20]:
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
print('confusion matrix = \n', confusion_matrix(y_true=y_test, y_pred=y_pred))
print('accuracy = ', accuracy_score(y_true=y_test, y_pred=y_pred))

confusion matrix = 
 [[ 99   9   0   0   0   8   6   4]
 [ 11  91   0   1   2   8   8   4]
 [  2   0 127   0   0   0   4   0]
 [  2   2   1  97   0   1   3   0]
 [  1   1   0   0 116   1   2   1]
 [ 10   3   0   1   0  94   7   4]
 [  5   8   1   0   3   8  75   9]
 [  2   2   0   1   2   2   6 108]]
accuracy =  0.838006230529595


In [21]:
model_path = "../models/"
model_name = "typeClassify_M2.pickle"
modelM = DataManager(model_path)
print(model_name)

typeClassify_M2.pickle


In [22]:
modelM.save_data(model_name, lr)

success save : ../models/typeClassify_M2.pickle
