# 텍스트 전처리

## 6. 정수 인코딩 (Integer Encoding)

### 1) Counter 사용하기

In [None]:
from collections import Counter

In [None]:
sentences = [['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

In [None]:
words = sum(sentences, [])
# 위 작업은 words = np.hstack(sentences)로도 수행 가능.
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [None]:
vocab = Counter(words) # 파이썬의 Counter 모듈을 이용하면 단어의 모든 빈도를 쉽게 계산할 수 있습니다.
print(vocab)

Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


In [None]:
top5 = vocab.most_common(5)
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [None]:
word_to_index = {}
i = 0
for word, freq in top5:
  i += 1
  word_to_index[word] = i
word_to_index

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

## 2) NLTK의 FreqDist 사용하기

In [None]:
from nltk import FreqDist

In [None]:
vocab = FreqDist(words)
vocab

FreqDist({'barber': 8,
          'crazy': 1,
          'driving': 1,
          'good': 1,
          'huge': 5,
          'keeping': 2,
          'kept': 4,
          'knew': 1,
          'mountain': 1,
          'person': 3,
          'secret': 6,
          'went': 1,
          'word': 2})

In [None]:
top5 = vocab.most_common(5)
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [None]:
word_to_index = { }

for i, word in enumerate(top5):
  word_to_index[word[0]] = i + 1
word_to_index

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

In [None]:
word_to_index= {word[0]: i+1 for i, word in enumerate(top5)}
word_to_index

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

## 3) Keras 텍스트 전처리

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer( )

In [None]:
tokenizer.fit_on_texts(sentences)
tokenizer.word_index

{'barber': 1,
 'crazy': 11,
 'driving': 10,
 'good': 8,
 'huge': 3,
 'keeping': 7,
 'kept': 4,
 'knew': 9,
 'mountain': 13,
 'person': 5,
 'secret': 2,
 'went': 12,
 'word': 6}

In [None]:
tokenizer.word_counts

OrderedDict([('barber', 8),
             ('person', 3),
             ('good', 1),
             ('huge', 5),
             ('knew', 1),
             ('secret', 6),
             ('kept', 4),
             ('word', 2),
             ('keeping', 2),
             ('driving', 1),
             ('crazy', 1),
             ('went', 1),
             ('mountain', 1)])

In [None]:
#  단어를 숫자로 변경 
tokenizer.texts_to_sequences(sentences)

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

* 단어 빈도수 Top 5만 제대로 표시하고, 나머지는 OOV값(1)로 표시

In [None]:
# top5안에 포함되지 않은 숫자를 모두 1로 다시 재배치한다
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

In [None]:
tokenizer.texts_to_sequences(sentences)

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

In [None]:
tokenizer.word_index

{'OOV': 1,
 'barber': 2,
 'crazy': 12,
 'driving': 11,
 'good': 9,
 'huge': 4,
 'keeping': 8,
 'kept': 5,
 'knew': 10,
 'mountain': 14,
 'person': 6,
 'secret': 3,
 'went': 13,
 'word': 7}

# 7) 패딩(Padding)

In [None]:
tokenizer.fit_on_texts(sentences)
encoded = tokenizer.texts_to_sequences(sentences)
encoded

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

In [None]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences(encoded)

array([[0, 0, 0, 0, 0, 2, 6],
       [0, 0, 0, 0, 2, 1, 6],
       [0, 0, 0, 0, 2, 4, 6],
       [0, 0, 0, 0, 0, 1, 3],
       [0, 0, 0, 3, 5, 4, 3],
       [0, 0, 0, 0, 0, 4, 3],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 3],
       [1, 1, 4, 3, 1, 2, 1],
       [0, 0, 0, 2, 1, 4, 1]], dtype=int32)

In [None]:
# 실전에서 사용하는 방법
pad_sequences(encoded, padding='post', maxlen=5)

array([[2, 6, 0, 0, 0],
       [2, 1, 6, 0, 0],
       [2, 4, 6, 0, 0],
       [1, 3, 0, 0, 0],
       [3, 5, 4, 3, 0],
       [4, 3, 0, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 3, 0, 0],
       [4, 3, 1, 2, 1],
       [2, 1, 4, 1, 0]], dtype=int32)

## 08) 원-핫 인코딩(One-Hot Encoding)

In [None]:
pip install Konlpy > /dev/null

In [None]:
from konlpy.tag import Okt
okt= Okt()
text = '나는 자연어 처리를 배운다'
token = okt.morphs(text)
token

['나', '는', '자연어', '처리', '를', '배운다']

In [None]:
word_to_index = {word: i for i, word in enumerate(token)}
word_to_index

{'나': 0, '는': 1, '를': 4, '배운다': 5, '자연어': 2, '처리': 3}

In [None]:
from tensorflow.keras.utils import to_categorical
to_categorical(list(word_to_index.values()))

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)

In [None]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [None]:
encoded=t.texts_to_sequences([text])[0]
print(encoded)

[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]


In [None]:
to_categorical(encoded)

array([[0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

## 9. 데이터의 분리

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
from sklearn.datasets import load_iris
iris= load_iris( )

In [None]:
iris.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [None]:
iris.target[:5]

array([0, 0, 0, 0, 0])

In [None]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [None]:
# stratify 는 각 변수의 갯수를 일정하게 정열함
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.2, stratify=iris.target,
    random_state= 2021
)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [None]:
import numpy as np
np.unique(y_test, return_counts=True)

(array([0, 1, 2]), array([10, 10, 10]))