#### 1. 텍스트의 토큰화
---

In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

# 전처리 텍스트
text = '해보지 않으면 해낼 수 없다'

# 텍스트 토큰화
result = text_to_word_sequence(text)

print(f'원문: {text}')
print(f'토큰화: {result}')

원문: 해보지 않으면 해낼 수 없다
토큰화: ['해보지', '않으면', '해낼', '수', '없다']


In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer

docs = [
    '먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
    '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
    '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.'
]

token = Tokenizer() # 토큰화 함수
token.fit_on_texts(docs) # 토큰화 함수 적용

In [7]:
print(f'단어 카운트')
print(f'==> {token.word_counts}\n')

print(f'문장 카운트')
print(f'==> {token.document_count}\n')

print(f'각 단어가 몇 개의 문장에 포함되어 있는가')
print(f'==> {token.word_docs}\n')

print(f'각 단어에 매겨진 인덱스 값')
print(f'==> {token.word_index}\n')

단어 카운트
==> OrderedDict({'먼저': 1, '텍스트의': 2, '각': 1, '단어를': 1, '나누어': 1, '토큰화합니다': 1, '단어로': 1, '토큰화해야': 1, '딥러닝에서': 2, '인식됩니다': 1, '토큰화한': 1, '결과는': 1, '사용할': 1, '수': 1, '있습니다': 1})

문장 카운트
==> 3

각 단어가 몇 개의 문장에 포함되어 있는가
==> defaultdict(<class 'int'>, {'먼저': 1, '나누어': 1, '각': 1, '단어를': 1, '텍스트의': 2, '토큰화합니다': 1, '인식됩니다': 1, '단어로': 1, '딥러닝에서': 2, '토큰화해야': 1, '사용할': 1, '수': 1, '있습니다': 1, '결과는': 1, '토큰화한': 1})

각 단어에 매겨진 인덱스 값
==> {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}



<br>

#### 2. 단어의 원-핫 인코딩
---

In [2]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])

print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [3]:
x = token.texts_to_sequences([text])

print(x)

[[1, 2, 3, 4, 5, 6]]


In [4]:
from tensorflow.keras.utils import to_categorical

# 인덱스 수 하나 추가 및 원-핫 인코딩 배열 생성
word_size = len(token.word_index) + 1
x = to_categorical(x, num_classes=word_size)

print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]
