### 문자열 토큰화

#### 토큰

- 문법적으로 더 이상 나눌 수 없는 언어 요소.
- 영어의 경우 각 단어로 나누면 되지만 한글의 경우 복잡한 처리 과정을 거쳐야 하기 때문에 별도의 라이브러리를 적용해야 한다. (konlpy, mecab 등)

#### 영어 문장에 대한 토큰화

In [1]:
# 패키지 참조

from tensorflow.keras.preprocessing.text import Tokenizer

In [2]:
# 토큰화 학습 데이터

train_text = ['You are the Best', 'You are the Nice']

In [3]:
# 토큰화 객체 생성

tokenizer = Tokenizer(num_words = 10, oov_token = '<OOV>')

In [4]:
# 토큰화 삭습

tokenizer.fit_on_texts(train_text)

print(tokenizer.word_index)

{'<OOV>': 1, 'you': 2, 'are': 3, 'the': 4, 'best': 5, 'nice': 6}


In [5]:
# 학습 결과 적용하기

train_text = ['We are the Best', 'We are the Nice']
sequences = tokenizer.texts_to_sequences(train_text)
print(sequences)

[[1, 3, 4, 5], [1, 3, 4, 6]]


#### 한글 문장에 대한 토큰 분석

In [7]:
# Mecab 토큰 분석 엔진 설치 후 패키지 참조

from konlpy.tag import Mecab
from tensorflow.keras.preprocessing.text import Tokenizer

In [8]:
# 토큰화 학습 데이터 

poem = """
흘러내린 머리카락이 흐린 호박빛 아래 빛난다.
난 유영한다. 차분하게 과거에 살면서 현재의 공기를 마신다.
가로등이 깜빡인다.
나도 깜빡여준다.
"""

In [9]:
# 불용어(분석에서 제외할 불필요한 단어) 목록 정의

stopwords = ['난', '나']

In [12]:
# 형태소 분석을 통해 명사만 추출

mecab = Mecab(dicpath=r"C:\mecab\mecab-ko-dic")

nouns = mecab.nouns(poem)
print(nouns)

['머리카락', '호박', '빛', '아래', '난', '유영', '과거', '현재', '공기', '가로등', '나']


In [13]:
# 명사에서 불용어를 제외한 새로운 리스트 만들기

train_text = []

for i in nouns:
    if i not in stopwords:
        train_text.append(i)
        
train_text

['머리카락', '호박', '빛', '아래', '유영', '과거', '현재', '공기', '가로등']

In [14]:
# 토큰화 수행

tokenizer = Tokenizer(num_words = len(nouns), oov_token = '<OOV>')
tokenizer.fit_on_texts(train_text)
print(tokenizer.word_index)

{'<OOV>': 1, '머리카락': 2, '호박': 3, '빛': 4, '아래': 5, '유영': 6, '과거': 7, '현재': 8, '공기': 9, '가로등': 10}
