# Text Vectorization
- 텍스트 원본을 그대로 사용하여 모델링할 수 없으므로, 텍스트를 수치형 텐서로 변환하는 과정
- 어떤 종류의 토큰화를 적용하고, 생성된 토큰에 수치형 벡터를 연결
    - token : 텍스트를 나누는 단위(단어, 문자, n-gram)
    - tokenization : 나누는 작업

# Token - Vector 연결하는 방법
## One-Hot Encoding

In [1]:
import numpy as np

In [2]:
samples = ['The cat sat on the mat.', 'The dog ate my homework.']
token_index = {}

### 단어 수준의 one-hot

In [3]:
samples[0].split()

['The', 'cat', 'sat', 'on', 'the', 'mat.']

In [4]:
for sample in samples :
    for word in sample.split() :
        if word not in token_index :
            token_index[word] = len(token_index) +1 #1번부터 단어마다 고유 인덱스 할당

In [5]:
token_index

{'The': 1,
 'cat': 2,
 'sat': 3,
 'on': 4,
 'the': 5,
 'mat.': 6,
 'dog': 7,
 'ate': 8,
 'my': 9,
 'homework.': 10}

In [6]:
max_length = 10
results = np.zeros(shape = (len(samples), max_length, max(token_index.values())+1))
results.shape

(2, 10, 11)

In [7]:
for i, sample in enumerate(samples) :
    for j, word in list(enumerate(sample.split()))[:max_length] :
        index = token_index.get(word)
        results[i,j,index] = 1

In [8]:
results

array([[[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]],

       [[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0

### 문자 수준의 one-hot

In [9]:
import string

In [10]:
characters = string.printable #출력 가능한 모든 아스키 문자

In [11]:
token_index = dict(zip(characters, range(1, len(characters)+1)))
token_index

{'0': 1,
 '1': 2,
 '2': 3,
 '3': 4,
 '4': 5,
 '5': 6,
 '6': 7,
 '7': 8,
 '8': 9,
 '9': 10,
 'a': 11,
 'b': 12,
 'c': 13,
 'd': 14,
 'e': 15,
 'f': 16,
 'g': 17,
 'h': 18,
 'i': 19,
 'j': 20,
 'k': 21,
 'l': 22,
 'm': 23,
 'n': 24,
 'o': 25,
 'p': 26,
 'q': 27,
 'r': 28,
 's': 29,
 't': 30,
 'u': 31,
 'v': 32,
 'w': 33,
 'x': 34,
 'y': 35,
 'z': 36,
 'A': 37,
 'B': 38,
 'C': 39,
 'D': 40,
 'E': 41,
 'F': 42,
 'G': 43,
 'H': 44,
 'I': 45,
 'J': 46,
 'K': 47,
 'L': 48,
 'M': 49,
 'N': 50,
 'O': 51,
 'P': 52,
 'Q': 53,
 'R': 54,
 'S': 55,
 'T': 56,
 'U': 57,
 'V': 58,
 'W': 59,
 'X': 60,
 'Y': 61,
 'Z': 62,
 '!': 63,
 '"': 64,
 '#': 65,
 '$': 66,
 '%': 67,
 '&': 68,
 "'": 69,
 '(': 70,
 ')': 71,
 '*': 72,
 '+': 73,
 ',': 74,
 '-': 75,
 '.': 76,
 '/': 77,
 ':': 78,
 ';': 79,
 '<': 80,
 '=': 81,
 '>': 82,
 '?': 83,
 '@': 84,
 '[': 85,
 '\\': 86,
 ']': 87,
 '^': 88,
 '_': 89,
 '`': 90,
 '{': 91,
 '|': 92,
 '}': 93,
 '~': 94,
 ' ': 95,
 '\t': 96,
 '\n': 97,
 '\r': 98,
 '\x0b': 99,
 '\x0c': 100

In [12]:
max_length = 50
results = np.zeros((len(samples), max_length, max(token_index.values())+1))

for i, sample in enumerate(samples) :
    for j, character in enumerate(sample) :
        index = token_index.get(character)
        results[i,j,index]= 1


### keras Toeknizer
- 특수 문자를 제거하거나, 빈도가 높은 N개의 단어 선택