### 17장 딥러닝을 이용한 자연어 처리

- **```자연어처리(Natural Language Processing, NLP) ```**   
    : 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것
    
#### 1. 텍스트의 토큰화
- **```토큰(token)```**: 텍스트가 작게 나누어진 하나의 단위
- **```토큰화(tokenization)```**
- 텍스트를 단어 단위로 쪼개면 다양하게 활용 가능  
    ex) 단어 중복, 빈도 수 확인 → 중요한 역할을 하는 단어 파악 가능

In [1]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '해보지 않으면 해낼 수 없다'
result = text_to_word_sequence(text)
print(result)

['해보지', '않으면', '해낼', '수', '없다']


**```Tokenizer()```** 함수를 사용한 전처리 과정
- ```Tokenizer()```: 토큰화 함수

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer

docs = ['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
       '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
       '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.',
       ]

token = Tokenizer()       # 토큰화 함수 지정
token.fit_on_texts(docs)  # 토큰화 함수에 문장 적용
print(token.word_counts)  # 단어의 빈도 수를 계산한 결과 출력

OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])


In [3]:
# document_count: 총 몇 개의 문장이 들어있는지 count
print(token.document_count)

3


In [4]:
# word_docs(): 각 단어들이 몇 개의 문장에 나오는지 count, 출력 순서 random
print(token.word_docs)

defaultdict(<class 'int'>, {'텍스트의': 2, '나누어': 1, '단어를': 1, '각': 1, '먼저': 1, '토큰화합니다': 1, '토큰화해야': 1, '인식됩니다': 1, '딥러닝에서': 2, '단어로': 1, '사용할': 1, '수': 1, '결과는': 1, '토큰화한': 1, '있습니다': 1})


In [5]:
# word_index(): 각 단어에 매겨진 인덱스 값 출력
print(token.word_index)

{'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나누어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}
