# 텍스트 전처리

## 6. 정수 인코딩(Integer Encoding)

### 1) Counter 사용하기

In [1]:
from collections import Counter

In [2]:
sentences = [
    ['barber', 'person'], 
    ['barber', 'good', 'person'], 
    ['barber', 'huge', 'person'], 
    ['knew', 'secret'], 
    ['secret', 'kept', 'huge', 'secret'], 
    ['huge', 'secret'], 
    ['barber', 'kept', 'word'], 
    ['barber', 'kept', 'word'], 
    ['barber', 'kept', 'secret'], 
    ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], 
    ['barber', 'went', 'huge', 'mountain']]

In [3]:
words = sum(sentences, [])
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [4]:
vocab = Counter(words)
vocab

Counter({'barber': 8,
         'person': 3,
         'good': 1,
         'huge': 5,
         'knew': 1,
         'secret': 6,
         'kept': 4,
         'word': 2,
         'keeping': 2,
         'driving': 1,
         'crazy': 1,
         'went': 1,
         'mountain': 1})

In [5]:
top5 = vocab.most_common(5) # 상위 빈도수를 가진 단어 리턴
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [6]:
word_to_index = {}
i = 0
for word, freq in top5:
    i += 1
    word_to_index[word] = i
word_to_index

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}

### 2) NLTK의 FreqDist 사용하기
- 빈도수 계산 도구인 FreqDist()를 지원, Counter()랑 같은 방법

In [7]:
from nltk import FreqDist
import numpy as np

In [8]:
vocab = FreqDist(words)
vocab['barber']

8

In [9]:
vocab

FreqDist({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, ...})

In [10]:
top5 = vocab.most_common(5)
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [11]:
word_to_index = {}

for i, word in enumerate(top5):
    word_to_index[word[0]] = i+1
word_to_index

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}

In [12]:
word_to_index = {word[0] : index + 1 for index, word in enumerate(top5)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


### 3) 케라스(Keras)의 텍스트 전처리

In [13]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()

In [14]:
# fit = 러닝, fit_on =변환
tokenizer.fit_on_texts(sentences)
tokenizer.word_index

{'barber': 1,
 'secret': 2,
 'huge': 3,
 'kept': 4,
 'person': 5,
 'word': 6,
 'keeping': 7,
 'good': 8,
 'knew': 9,
 'driving': 10,
 'crazy': 11,
 'went': 12,
 'mountain': 13}

In [15]:
tokenizer.word_counts

OrderedDict([('barber', 8),
             ('person', 3),
             ('good', 1),
             ('huge', 5),
             ('knew', 1),
             ('secret', 6),
             ('kept', 4),
             ('word', 2),
             ('keeping', 2),
             ('driving', 1),
             ('crazy', 1),
             ('went', 1),
             ('mountain', 1)])

In [16]:
tokenizer.texts_to_sequences(sentences)

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

- 단어 빈도수 Top5만 제대로 표시하고, 나머지는 OOV 값(1)으로 표시

In [17]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV')
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
tokenizer.fit_on_texts(sentences)

In [18]:
tokenizer.texts_to_sequences(sentences)

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

In [19]:
tokenizer.word_index

{'OOV': 1,
 'barber': 2,
 'secret': 3,
 'huge': 4,
 'kept': 5,
 'person': 6,
 'word': 7,
 'keeping': 8,
 'good': 9,
 'knew': 10,
 'driving': 11,
 'crazy': 12,
 'went': 13,
 'mountain': 14}

## 7. 패딩(Padding)

In [20]:
tokenizer.fit_on_texts(sentences)
encoded = tokenizer.texts_to_sequences(sentences)
encoded

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

In [21]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

In [22]:
pad_sequences(encoded)
# 길이를 제일 큰 길이에 맞게 맞춰줌

array([[0, 0, 0, 0, 0, 2, 6],
       [0, 0, 0, 0, 2, 1, 6],
       [0, 0, 0, 0, 2, 4, 6],
       [0, 0, 0, 0, 0, 1, 3],
       [0, 0, 0, 3, 5, 4, 3],
       [0, 0, 0, 0, 0, 4, 3],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 3],
       [1, 1, 4, 3, 1, 2, 1],
       [0, 0, 0, 2, 1, 4, 1]])

In [23]:
pad_sequences(encoded, padding='post') # padding='post' 앞 정렬

array([[2, 6, 0, 0, 0, 0, 0],
       [2, 1, 6, 0, 0, 0, 0],
       [2, 4, 6, 0, 0, 0, 0],
       [1, 3, 0, 0, 0, 0, 0],
       [3, 5, 4, 3, 0, 0, 0],
       [4, 3, 0, 0, 0, 0, 0],
       [2, 5, 1, 0, 0, 0, 0],
       [2, 5, 1, 0, 0, 0, 0],
       [2, 5, 3, 0, 0, 0, 0],
       [1, 1, 4, 3, 1, 2, 1],
       [2, 1, 4, 1, 0, 0, 0]])

In [24]:
# 실전에 많이 사용하는 방법
pad_sequences(encoded, padding='post', maxlen=5)

array([[2, 6, 0, 0, 0],
       [2, 1, 6, 0, 0],
       [2, 4, 6, 0, 0],
       [1, 3, 0, 0, 0],
       [3, 5, 4, 3, 0],
       [4, 3, 0, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 3, 0, 0],
       [4, 3, 1, 2, 1],
       [2, 1, 4, 1, 0]])

## 8. 원-핫 인코딩(One-Hot Encoding)

In [25]:
from konlpy.tag import Okt
okt=Okt()
token=okt.morphs("나는 자연어 처리를 배운다")
token

['나', '는', '자연어', '처리', '를', '배운다']

In [26]:
word_to_index = {word : i for i, word in enumerate(token)}
word_to_index

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}

In [27]:
from tensorflow.keras.utils import to_categorical
to_categorical(list(word_to_index.values()))

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)

In [28]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [29]:
encoded = t.texts_to_sequences([text])[0]
encoded

[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]

In [30]:
to_categorical(encoded)

array([[0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

- 희소 행렬 Sparse Matrix : 원-핫 인코딩은 단어의 개수가 많아질 수록 **기억장소를 많이 낭비하게 됨**

## 9. 데이터의 분리(Splitting Data)

In [31]:
from sklearn.model_selection import train_test_split

In [49]:
from sklearn.datasets import load_iris
iris = load_iris()

In [50]:
print(list(iris))

['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename']


In [51]:
iris.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [52]:
iris.target[:5]

array([0, 0, 0, 0, 0])

In [53]:
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.2, random_state=2021
)

In [54]:
iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']