<a href="https://colab.research.google.com/github/karaage0703/karaage-ai-book/blob/master/ch03/03_karaage_ai_book_word_vector.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# テキストのOne-Hot-ベクトル化

簡単な例文

In [7]:
text = '私はからあげが好きだ'

5文字をひとまとまりで2文字ずつスライドさせる

In [10]:
# cut the text in semi-redundant sequences of MAXLEN characters
MAXLEN = 5
STEP = 2

sentences = []
next_chars = []
for i in range(0, len(text) - MAXLEN, STEP):
  sentences.append(text[i:i + MAXLEN])
  next_chars.append(text[i + MAXLEN])

中身を表示

In [13]:
print('nb sequences:', len(sentences))
print(sentences[0:10])
print(next_chars[0:10])

nb sequences: 3
['私はからあ', 'からあげが', 'あげが好き']
['げ', '好', 'だ']


ベクトル化するためのインデックスを作成

In [14]:
chars = sorted(list(set(text)))

char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))

total chars: 10


In [22]:
print('total chars:', len(chars))
print(char_indices)
print(indices_char)

total chars: 10
{'あ': 0, 'か': 1, 'が': 2, 'き': 3, 'げ': 4, 'だ': 5, 'は': 6, 'ら': 7, '好': 8, '私': 9}
{0: 'あ', 1: 'か', 2: 'が', 3: 'き', 4: 'げ', 5: 'だ', 6: 'は', 7: 'ら', 8: '好', 9: '私'}


ベクトル化します。

結果を見やすくするために型をint(`dtype=np.int`)にしていますが、本来のチュートリアルは2値(`dtype=np.bool`)です。

In [23]:
import numpy as np

print('Vectorization...')
x = np.zeros((len(sentences), MAXLEN, len(chars)), dtype=np.int)
y = np.zeros((len(sentences), len(chars)), dtype=np.int)
for i, sentence in enumerate(sentences):
  for t, char in enumerate(sentence):
    x[i, t, char_indices[char]] = 1
  y[i, char_indices[next_chars[i]]] = 1

Vectorization...


In [24]:
print(x)

[[[0 0 0 0 0 0 0 0 0 1]
  [0 0 0 0 0 0 1 0 0 0]
  [0 1 0 0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0 1 0 0]
  [1 0 0 0 0 0 0 0 0 0]]

 [[0 1 0 0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0 1 0 0]
  [1 0 0 0 0 0 0 0 0 0]
  [0 0 0 0 1 0 0 0 0 0]
  [0 0 1 0 0 0 0 0 0 0]]

 [[1 0 0 0 0 0 0 0 0 0]
  [0 0 0 0 1 0 0 0 0 0]
  [0 0 1 0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0 0 1 0]
  [0 0 0 1 0 0 0 0 0 0]]]


In [21]:
print(y)

[[0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0]
 [0 0 0 0 0 1 0 0 0 0]]
