# 전처리

## Tokenization

입력된 문자열을 연산가능한 의미있는 단위(token)으로 나누는 과정

문장은 단어와 단어가 배치된 순서의 영향을 많이 받으므로 머신 러닝에선 문장을 숫자로 바꿔야 함.



In [4]:
import tensorflow as  tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

sentences = [
    'I am a student.',
    'I am a teacher.'
]

tokenizer = Tokenizer(num_words = 100)
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
print('word_index', word_index)

tokenized_sentences = tokenizer.texts_to_sequences(sentences)
print('tokenized_sentences', tokenized_sentences)

[[1, 2, 3, 4], [1, 2, 3, 5]]
{'i': 1, 'am': 2, 'a': 3, 'student': 4, 'teacher': 5}


한국어는 조사와 어미가 있는 교착어라서 띄어쓰기만으로는 토큰화가 어려움.

의미를 가진 최소 단위인 형태소 기반으로 분석해야 함.

konlpy 에서 제공하는 Open Korean Text 로 형태소 분석

In [11]:
! pip install konlpy
sentences = [
    "내가 여섯 살 때, 원시림을 다룬 '자연의 이야기'라는 책에서 굉장한 그림 하나를 본 적이 있다.",
    "그건 맹수를 한입페 삼키는 보아뱁이었는데, 옮겨 그리면 아래 그림과 같다.",
    "그 책에는 이렇게 쓰여 있었다.",
    "'보아뱀은 씹지도 않고 산 채로 먹이를 삼키고, 그런 다음엔 소화를 위해 여섯 달 동안 꿈쩍도 하지 않고 잠만 잔다'고."
]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [12]:
from konlpy.tag import Okt
import tensorflow as  tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer

okt = Okt()
dictionary = []
for sentence in sentences:
  dictionary.extend(okt.morphs(sentence))
print(dictionary)

tokenizer = Tokenizer()
tokenizer.fit_on_texts(dictionary)

word_index = tokenizer.word_index
print('word_index', word_index)

tokenized_sentences = tokenizer.texts_to_sequences(sentences)
print('tokenized_sentences', tokenized_sentences)

['내', '가', '여섯', '살', '때', ',', '원시림', '을', '다룬', "'", '자연', '의', '이야기', "'", '라는', '책', '에서', '굉장한', '그림', '하나', '를', '본', '적', '이', '있다', '.', '그건', '맹수', '를', '한입페', '삼키는', '보아', '뱁이었는데', ',', '옮겨', '그리면', '아래', '그림', '과', '같다', '.', '그', '책', '에는', '이렇게', '쓰여', '있었다', '.', "'", '보아뱀', '은', '씹지도', '않고', '산', '채', '로', '먹이', '를', '삼키고', ',', '그런', '다음', '엔', '소화', '를', '위해', '여섯', '달', '동안', '꿈쩍', '도', '하지', '않고', '잠', '만', '잔다', "'", '고', '.']
word_index {"'": 1, '를': 2, '여섯': 3, '책': 4, '그림': 5, '않고': 6, '내': 7, '가': 8, '살': 9, '때': 10, '원시림': 11, '을': 12, '다룬': 13, '자연': 14, '의': 15, '이야기': 16, '라는': 17, '에서': 18, '굉장한': 19, '하나': 20, '본': 21, '적': 22, '이': 23, '있다': 24, '그건': 25, '맹수': 26, '한입페': 27, '삼키는': 28, '보아': 29, '뱁이었는데': 30, '옮겨': 31, '그리면': 32, '아래': 33, '과': 34, '같다': 35, '그': 36, '에는': 37, '이렇게': 38, '쓰여': 39, '있었다': 40, '보아뱀': 41, '은': 42, '씹지도': 43, '산': 44, '채': 45, '로': 46, '먹이': 47, '삼키고': 48, '그런': 49, '다음': 50, '엔': 51, '소화': 52, '위해': 53, '달': 54, '동안': 55, '꿈