In [3]:
import numpy as np
import pandas as pd
import janome
import matplotlib.pyplot as plt
import pickle
from janome.tokenizer import Tokenizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.model_selection import learning_curve
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizer
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score, classification_report
# from imblearn.under_sampling import RandomUnderSampler

class WordDivider:
    def __init__(self):
        self.wakati = Tokenizer(wakati=True)
        self.t = Tokenizer()

    def wakati_words(self, text):
        if not text:
            return []

        words = []
        text = list(self.wakati.tokenize(text))
        for word in text:
            words.append(word)

        return words

    def surface_words(self, text):
        if not text:
            return []

        words = []
        for token in self.t.tokenize(text):
            words.append(token.base_form)
        return words

    def wakati_text(self, text):
        if not text:
            return []

        words = []
        wakati = list(self.wakati.tokenize(text))
        for word in wakati:
            words.append(word)

        output = ""
        for word in words:
            output += word
            output += " "
        return output

In [5]:
wd = WordDivider()
text_list = []
text1 = "せんべいは固いほうが好き"
text2 = "その固い頭を柔らかくした方が生産的"
text3 = "頭のネジが飛んだのか？"
text4 = "本当生産性のない奴らw"
text5 = "固い頭をほぐしたほうがいいかもね"
text6 = "柔らかいのも好きだけど、"
text_list.append(text1)
text_list.append(text2)
text_list.append(text3)
text_list.append(text4)
text_list.append(text5)
keitaiso = [wd.wakati_text(text) for text in text_list]

['せんべい は 固い ほう が 好き ',
 'その 固い 頭 を 柔らかく し た 方 が 生産 的 ',
 '頭 の ネジ が 飛ん だ の か ？ ',
 '本当 生産 性 の ない 奴ら w ',
 '固い 頭 を ほぐし た ほう が いい かも ね ']

In [3]:
train = pd.read_csv("./experiment4_train.csv")
test = pd.read_csv("./experiment4_test.csv")
x_train, y_train = train.loc[:, "comment_sentence"].tolist(), train.loc[:, "label"].tolist()
x_test, y_test = test.loc[:, "comment_sentence"].tolist(), test.loc[:, "label"].tolist()
wd = WordDivider()
x_train = [wd.wakati_text(text) for text in x_train]
x_test = [wd.wakati_text(text) for text in x_test]

tfidf = TfidfVectorizer(ngram_range=(1, 5))
# tfidf = TfidfVectorizer()
tfidf.fit(keitaiso)
print(tfidf.vocabulary_)
doc = []
doc.append(keitaiso[1])
print(keitaiso[1])
text_vec = tfidf.transform(doc)
print(text_vec.shape)
print(text_vec.toarray())
text_vec

{'せんべい': 3, '固い': 23, 'ほう': 13, '好き': 33, 'せんべい 固い': 4, '固い ほう': 24, 'ほう 好き': 16, 'せんべい 固い ほう': 5, '固い ほう 好き': 25, 'せんべい 固い ほう 好き': 6, 'その': 7, '柔らかく': 38, '生産': 40, 'その 固い': 8, '固い 柔らかく': 30, '柔らかく 生産': 39, 'その 固い 柔らかく': 9, '固い 柔らかく 生産': 31, 'その 固い 柔らかく 生産': 10, 'ネジ': 21, '飛ん': 43, 'ネジ 飛ん': 22, '本当': 34, 'ない': 11, '奴ら': 32, '本当 生産': 35, '生産 ない': 41, 'ない 奴ら': 12, '本当 生産 ない': 36, '生産 ない 奴ら': 42, '本当 生産 ない 奴ら': 37, 'ほぐし': 17, 'いい': 0, 'かも': 2, '固い ほぐし': 26, 'ほぐし ほう': 18, 'ほう いい': 14, 'いい かも': 1, '固い ほぐし ほう': 27, 'ほぐし ほう いい': 19, 'ほう いい かも': 15, '固い ほぐし ほう いい': 28, 'ほぐし ほう いい かも': 20, '固い ほぐし ほう いい かも': 29}
その 固い 頭 を 柔らかく し た 方 が 生産 的 
(1, 44)
[[0.         0.         0.         0.         0.         0.
  0.         0.33150716 0.33150716 0.33150716 0.33150716 0.
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.         0.22201421
  0.         0.         0.         0.         0.         0.
  0.33150716 0.33150716 0.         0.      

<1x44 sparse matrix of type '<class 'numpy.float64'>'
	with 10 stored elements in Compressed Sparse Row format>