In [None]:
!pip install janome
!pip install gensim

In [2]:
import numpy as np
import janome
from janome.tokenizer import Tokenizer
from gensim import corpora, matutils

In [28]:
text = "わたし、いつきちゃんといっぱいお話したいわ！そうね、好きな食べ物はなぁに？"

tokenizer = Tokenizer()
tokenizer = tokenizer.tokenize(text)

for i in tokenizer:

    # 単語を表示
    source = i.surface
    # 単語を標準形に修正
    word = i.base_form
    # 品詞を取得
    part = i.part_of_speech.split(',')[0]
    
    print("単語：", source, "、原型：", word, "、品詞：", part)
    print('***************')

単語： わたし 、原型： わたし 、品詞： 名詞
***************
単語： 、 、原型： 、 、品詞： 記号
***************
単語： いつき 、原型： いつく 、品詞： 動詞
***************
単語： ちゃんと 、原型： ちゃんと 、品詞： 副詞
***************
単語： いっぱい 、原型： いっぱい 、品詞： 副詞
***************
単語： お話 、原型： お話 、品詞： 名詞
***************
単語： し 、原型： する 、品詞： 動詞
***************
単語： たい 、原型： たい 、品詞： 助動詞
***************
単語： わ 、原型： わ 、品詞： 助詞
***************
単語： ！ 、原型： ！ 、品詞： 記号
***************
単語： そうね 、原型： そうね 、品詞： 感動詞
***************
単語： 、 、原型： 、 、品詞： 記号
***************
単語： 好き 、原型： 好き 、品詞： 名詞
***************
単語： な 、原型： だ 、品詞： 助動詞
***************
単語： 食べ物 、原型： 食べ物 、品詞： 名詞
***************
単語： は 、原型： は 、品詞： 助詞
***************
単語： なぁ 、原型： なぁ 、品詞： 助詞
***************
単語： に 、原型： に 、品詞： 助詞
***************
単語： ？ 、原型： ？ 、品詞： 記号
***************


In [115]:
review_1 = 'とても良かったと思います。Pythonの実践的なコーディング手順が習得できました。'
review_2 = '初心者向けと書いてある割には、説明が不足していたと思います。悪くは無いのですが自分には難しかったです。'
review_3 = '非常に良かったです！他の本では理解できなかった内容がスッキリ理解できました。'
review_4 = 'んー。悪くないとは思うんだけど私には合わない本でした'
review_5 = 'この本のおかげでPythonのコードがスラスラ書けるようになりました。少し難しかったけど買って良かったです。'
reviews = [review_1, review_2, review_3, review_4, review_5]

posi_nega = ['ポジ','ネガ','ポジ','ネガ','ポジ']

In [116]:
word_list = []
for review in reviews:
    tokenizer = Tokenizer()
    tokens = tokenizer.tokenize(review)
    words = []
    for token in tokens:
        # 単語を標準形に修正
        word = token.base_form
        # 品詞を取得
        part = token.part_of_speech.split(',')[0]
        # ポジネガに関係なさそうな品詞を除外
        if (part!='助詞')and(part!='助動詞')and(part!='記号'):
            words.append(word)

    word_list.append(words)

In [117]:
word_list

[['とても', '良い', '思う', 'Python', '実践', '的', 'コーディング', '手順', '習得', 'できる'],
 ['初心者',
  '向け',
  '書く',
  'ある',
  '割',
  '説明',
  '不足',
  'する',
  'いる',
  '思う',
  '悪い',
  '無い',
  'の',
  '自分',
  '難しい'],
 ['非常', '良い', '他', '本', '理解', 'できる', '内容', 'スッキリ', '理解', 'できる'],
 ['ー', '悪い', '思う', 'ん', '私', '合う', '本'],
 ['この',
  '本',
  'おかげ',
  'Python',
  'コード',
  'スラスラ',
  '書ける',
  'よう',
  'なる',
  '少し',
  '難しい',
  '買う',
  '良い']]

In [118]:
# 分かち書きした文書から辞書を作る
dictionary = corpora.Dictionary(word_list)

# 辞書の確認
dictionary.token2id

{'Python': 0,
 'ある': 10,
 'いる': 11,
 'おかげ': 34,
 'この': 35,
 'する': 12,
 'できる': 1,
 'とても': 2,
 'なる': 36,
 'の': 13,
 'よう': 37,
 'ん': 30,
 'コーディング': 3,
 'コード': 38,
 'スッキリ': 24,
 'スラスラ': 39,
 'ー': 31,
 '不足': 14,
 '他': 25,
 '内容': 26,
 '初心者': 15,
 '割': 16,
 '合う': 32,
 '向け': 17,
 '実践': 4,
 '少し': 40,
 '思う': 5,
 '悪い': 18,
 '手順': 6,
 '書く': 19,
 '書ける': 41,
 '本': 27,
 '無い': 20,
 '理解': 28,
 '的': 7,
 '私': 33,
 '習得': 8,
 '自分': 21,
 '良い': 9,
 '説明': 22,
 '買う': 42,
 '難しい': 23,
 '非常': 29}

In [119]:
# 辞書からBoWを作る（ID番号と、登場回数）
bow_1 = dictionary.doc2bow(word_list[0])
bow_2 = dictionary.doc2bow(word_list[2])
bow_3 = dictionary.doc2bow(word_list[2])
bow_4 = dictionary.doc2bow(word_list[3])
bow_5 = dictionary.doc2bow(word_list[4])

In [120]:
bow_1

[(0, 1),
 (1, 1),
 (2, 1),
 (3, 1),
 (4, 1),
 (5, 1),
 (6, 1),
 (7, 1),
 (8, 1),
 (9, 1)]

In [121]:
bow_2

[(1, 2), (9, 1), (24, 1), (25, 1), (26, 1), (27, 1), (28, 2), (29, 1)]

In [122]:
# 長さを確認すると、バラバラ
len(bow_1), len(bow_2), len(bow_3), len(bow_4), len(bow_5)

(10, 8, 8, 7, 13)

In [123]:
# 長さを揃える
bow_1 = matutils.corpus2dense([bow_1], len(dictionary))
bow_2 = matutils.corpus2dense([bow_2], len(dictionary))
bow_3 = matutils.corpus2dense([bow_3], len(dictionary))
bow_4 = matutils.corpus2dense([bow_4], len(dictionary))
bow_5 = matutils.corpus2dense([bow_5], len(dictionary))

In [125]:
bow_1

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [1.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.],
       [0.]], dtype=float32)

In [126]:
# 長さが揃う
len(bow_1), len(bow_2), len(bow_3), len(bow_4), len(bow_5)

(43, 43, 43, 43, 43)

In [127]:
# ディープラーニングで扱う為に、ベクトルを縦向き ⇒ 横向きに変換する
bow_1 = bow_1.reshape(len(dictionary))
bow_2 = bow_2.reshape(len(dictionary))
bow_3 = bow_3.reshape(len(dictionary))
bow_4 = bow_4.reshape(len(dictionary))
bow_5 = bow_5.reshape(len(dictionary))

In [128]:
bow_1.shape

(43,)

In [129]:
bow_1

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
       0., 0., 0., 0., 0., 0., 0., 0., 0.], dtype=float32)

In [130]:
# ニューラルネットワークに入力するために、np.array型に集約する
x = np.array([bow_1, bow_2, bow_3, bow_4, bow_5])
x

array([[1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 2., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 2., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 2., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 1., 1., 1., 1., 2., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 1., 1.,
        1., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 1., 0., 0., 0., 0.,
        0., 0., 1., 1., 1., 1., 1., 1., 1., 1., 1.]], dtype=float32)

In [144]:
# ポジネガのラベルを「0：ネガ、１：ポジ」に変換してnp.array型に集約
t = []
for i in posi_nega:
    if i == 'ポジ':
        t.append(1)
    else:
        t.append(0)

t = np.array(t)
t

array([1, 0, 1, 0, 1])

In [157]:
# Kerasをインポート
import keras
from keras.models import Sequential
from keras.layers import Dense
from keras.utils import np_utils
from sklearn.model_selection import train_test_split

In [158]:
# 正解ラベルをOne-Hot形式に変換
t = np_utils.to_categorical(t)

# データとTrain, Valに分割
x_train, x_val, t_train, t_val = train_test_split(x, t, train_size=0.7, random_state=0)

In [159]:
# ニューラルネットワークの定義（簡単な３層）
# 難易度を下げるためにSequentialで書きましょう

np.random.seed(0)
model = Sequential()
model.add(Dense(10, input_shape=bow_1.shape, activation='relu'))
model.add(Dense(2, activation='softmax'))
optimizser = keras.optimizers.Adam()
model.compile(loss='categorical_crossentropy', optimizer=optimizser, metrics=['accuracy'])

In [160]:
# 学習の実行
history = model.fit(x_train, t_train,
          batch_size=5,
          epochs=10,
          verbose=1,
          validation_data=(x_val, t_val))

Instructions for updating:
Use tf.cast instead.
Train on 3 samples, validate on 2 samples
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [165]:
# 予測を実行してみる
results = model.predict(x_val)
results #左が「０：ネガ」の確率、右が「１：ポジ」の確率 ⇒ 確率なので足すと合計１になる

array([[0.7969379 , 0.20306216],
       [0.65687597, 0.34312403]], dtype=float32)

In [169]:
# ポジネガの判定
for result in results:
    result = result.argmax()
    if result == 0:
        print('ネガ')
    else:
        print('ポジ')

ネガ
ネガ
