# 텍스트 데이터란?



*   단어의 시퀀스나 문자의 시퀀스 형태로 이루어진 데이터이다.
*   딥러닝 모델은 텍스트 원본을 다루지 못하고 수치형 텐서만 다룰 수 있다.


    ▣ 텍스트 벡터화(vectorizing text: 텍스트를 수치형 텐서로 변환하는 과정)

    *   텍스트를 단어로 나누고 하나의 벡터로 변환한다.
    *   텍스트를 문자로 나누고 하나의 벡터로 변환한다.
    *   텍스트에서 단어나 문자의 n-gram(연속된 단어나 문자의 그룹)을 추출하여 각 n-gram을 하나의 벡터로  변환한다.



# 토큰화(Tokenization)와 벡터를 연결하는 방법

*   토큰(Token) : 텍스트를 나누는 단위(단어, 문자, n-gram)
*   토큰화(Tokenization) : 텍스트를 토큰으로 나누는 작업을 의미한다.

*   토큰과 벡터를 연결하는 방법

 1) 원-핫 인코딩(one-hot encoding)

 2) 토큰 임베딩 또는 단어 임베딩



# 단어 원-핫 인코딩 예제

In [None]:
import numpy as np

samples=['The cat sat on the mat.', 'The dog ate my homework.']
token_index={}
for sample in samples:
  print(sample)

The cat sat on the mat.
The dog ate my homework.




*   samples 안에 있는 각 문장들이 하나의 샘플이 된다.



In [None]:
for sample in samples:
  for word in sample.split():
    print(word)

The
cat
sat
on
the
mat.
The
dog
ate
my
homework.




*   split( ) : 각 샘플을 토큰으로 나눠준다.



In [None]:
for sample in samples:
  for word in sample.split():
    if word not in token_index:
      token_index[word]=len(token_index)+1

print(token_index)

{'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10}





*   split( ) 으로 나눠진 각 단어마다 고유한 인덱스가 부여된다.
*   인덱스 0은 사용하지 않으므로 len(token_index)에 '+1'을 해줘야한다.


In [None]:
max_length=10

results=np.zeros(shape=(len(samples), max_length, max(token_index.values())+1))
print(results)

[[[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]




*   shape ( len(samples), max_length, max(token_index.values( )) + 1)

 → (2, 10, 11)



*   2 : 원-핫 인코딩을 해줘야하는 샘플(문장)의 개수
*   10 : 각 샘플(문장)에서 10번째 단어까지만 사용한다.
*   11 : token_index로 만들어진 value 개수 + 1









In [None]:
for i, sample in enumerate(samples):
  for j, word in list(enumerate(sample.split()))[:max_length]:
    index=token_index.get(word)
    results[i,j,index]=1

print(results)

[[[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]

 [[0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]]



*   sample1: 'The' , 'cat' , 'sat' , 'on' , 'the' , 'mat'
*   sample2: 'The' , 'dog' , 'ate' , 'my' , 'homework'
*   {'The': 1, 'cat': 2, 'sat': 3, 'on': 4, 'the': 5, 'mat.': 6, 'dog': 7, 'ate': 8, 'my': 9, 'homework.': 10}






---



---



# 문자 원-핫 인코딩 예제

In [None]:
import string

samples=['The cat sat on the mat.', 'The dog ate my homework.']

In [None]:
characters=string.printable
print(characters)

0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~ 	





*   string.printable : 출력 가능한 모든 아스키(ASCII) 문자를 담고 있다.



In [None]:
token_index=dict(zip(characters, range(1, len(characters) + 1)))
print(token_index)

{'0': 1, '1': 2, '2': 3, '3': 4, '4': 5, '5': 6, '6': 7, '7': 8, '8': 9, '9': 10, 'a': 11, 'b': 12, 'c': 13, 'd': 14, 'e': 15, 'f': 16, 'g': 17, 'h': 18, 'i': 19, 'j': 20, 'k': 21, 'l': 22, 'm': 23, 'n': 24, 'o': 25, 'p': 26, 'q': 27, 'r': 28, 's': 29, 't': 30, 'u': 31, 'v': 32, 'w': 33, 'x': 34, 'y': 35, 'z': 36, 'A': 37, 'B': 38, 'C': 39, 'D': 40, 'E': 41, 'F': 42, 'G': 43, 'H': 44, 'I': 45, 'J': 46, 'K': 47, 'L': 48, 'M': 49, 'N': 50, 'O': 51, 'P': 52, 'Q': 53, 'R': 54, 'S': 55, 'T': 56, 'U': 57, 'V': 58, 'W': 59, 'X': 60, 'Y': 61, 'Z': 62, '!': 63, '"': 64, '#': 65, '$': 66, '%': 67, '&': 68, "'": 69, '(': 70, ')': 71, '*': 72, '+': 73, ',': 74, '-': 75, '.': 76, '/': 77, ':': 78, ';': 79, '<': 80, '=': 81, '>': 82, '?': 83, '@': 84, '[': 85, '\\': 86, ']': 87, '^': 88, '_': 89, '`': 90, '{': 91, '|': 92, '}': 93, '~': 94, ' ': 95, '\t': 96, '\n': 97, '\r': 98, '\x0b': 99, '\x0c': 100}




*   dict를 이용하여 각 아스키(ASCII) 문자 마다 인덱스를 부여한다.



In [None]:
max_length=50
results=np.zeros((len(samples), max_length, max(token_index.values())+1))

for i, sample in enumerate(samples):
  for j, character in enumerate(sample):
    index=token_index.get(character)
    results[i,j,index]=1

print(results[0][0])

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.
 0. 0. 0. 0. 0.]




*  results[0][0]

→ 첫번째 문장 'The cat sat on the mat.'   

→ 첫번째 단어 'T'

→ 'T': 56 (57번째 인덱스만 1이고 나머지는 0으로 출력된다.) 


# 케라스를 이용한 단어 원-핫 인코딩 예제

In [None]:
from keras.preprocessing.text import Tokenizer

samples=['The cat sat on the mat.', 'The dog ate my homework.']

tokenizer=Tokenizer(num_words=1000)   # 가장 빈도수가 높은 1,000개의 단어만 선택하도록 Tokenizer 객체를 만든다.
tokenizer.fit_on_texts(samples)        # 단어 인덱스 구축

sequences=tokenizer.texts_to_sequences(samples)  # 문자열을 정수 인덱스의 리스트로  변환한다.

print(sequences)

[[1, 2, 3, 4, 1, 5], [1, 6, 7, 8, 9]]


In [None]:
one_hot_results=tokenizer.texts_to_matrix(samples, mode='binary')
print(one_hot_results)

[[0. 1. 1. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]]


In [None]:
print(len(one_hot_results[0]))
print(len(one_hot_results[1]))

1000
1000


In [None]:
word_index=tokenizer.word_index
print(word_index)

{'the': 1, 'cat': 2, 'sat': 3, 'on': 4, 'mat': 5, 'dog': 6, 'ate': 7, 'my': 8, 'homework': 9}


In [None]:
print('%s개의 고유한 토큰을 찾았습니다.' % len(word_index))

9개의 고유한 토큰을 찾았습니다.
