# 텍스트 전처리

## 6. 정수 인코딩

### 1) Counter 사용하기

In [1]:
from collections import Counter

In [1]:
sentences = [
    ['barber', 'person'], 
    ['barber', 'good', 'person'], 
    ['barber', 'huge', 'person'], 
    ['knew', 'secret'],
    ['secret', 'kept', 'huge', 'secret'], 
    ['huge', 'secret'], 
    ['barber', 'kept', 'word'], 
    ['barber', 'kept', 'word'], 
    ['barber', 'kept', 'secret'], 
    ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
    ['barber', 'went', 'huge', 'mountain']
]

In [16]:
words = sum(sentences, []) #  [ ]를 제거하고 단어들을 하나의 리스트로
print(words)

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']


In [7]:
vocab = Counter(words) # 중복을 제거하고 단어의 빈도수를 기록
vocab

Counter({'barber': 8,
         'crazy': 1,
         'driving': 1,
         'good': 1,
         'huge': 5,
         'keeping': 2,
         'kept': 4,
         'knew': 1,
         'mountain': 1,
         'person': 3,
         'secret': 6,
         'went': 1,
         'word': 2})

In [8]:
vocab.most_common(5) # 상위 빈도수를 가진 주어진 수의 단어만을 리턴

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [10]:
top5 = vocab.most_common(5)
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [17]:
word_to_index = {}
i = 0
for word, freq in top5:
    i += 1
    word_to_index[word] = i # 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스를 부여
word_to_index 

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

### 2) NLTK의 FreqDist 사용하기

In [12]:
from nltk import FreqDist
import numpy as np

In [13]:
vocab = FreqDist(words) # 빈도수 계산

In [14]:
vocab['barber']

8

In [16]:
vocab

FreqDist({'barber': 8,
          'crazy': 1,
          'driving': 1,
          'good': 1,
          'huge': 5,
          'keeping': 2,
          'kept': 4,
          'knew': 1,
          'mountain': 1,
          'person': 3,
          'secret': 6,
          'went': 1,
          'word': 2})

In [18]:
top5 = vocab.most_common(5)
top5

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [22]:
word_to_index = {word[0] : i+1 for i, word in enumerate(top5)}
word_to_index

{'barber': 1, 'huge': 3, 'kept': 4, 'person': 5, 'secret': 2}

### 3) Keras 텍스트 전처리

In [2]:
from tensorflow.keras.preprocessing.text import Tokenizer
tokenizer = Tokenizer()

In [3]:
tokenizer.fit_on_texts(sentences) # 입력한 텍스트로부터 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여
tokenizer.word_index # 각 단어에 인덱스가 어떻게 부여되었는지를 보려면, word_index를 사용

{'barber': 1,
 'crazy': 11,
 'driving': 10,
 'good': 8,
 'huge': 3,
 'keeping': 7,
 'kept': 4,
 'knew': 9,
 'mountain': 13,
 'person': 5,
 'secret': 2,
 'went': 12,
 'word': 6}

In [4]:
tokenizer.word_counts # 각 단어가 카운트를 수행하였을 때 몇 개였는지를 보고자 한다면 word_counts를 사용

OrderedDict([('barber', 8),
             ('person', 3),
             ('good', 1),
             ('huge', 5),
             ('knew', 1),
             ('secret', 6),
             ('kept', 4),
             ('word', 2),
             ('keeping', 2),
             ('driving', 1),
             ('crazy', 1),
             ('went', 1),
             ('mountain', 1)])

In [5]:
tokenizer.texts_to_sequences(sentences) #  입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

- 단어 빈도수 Top 5만 제대로 표시하고, 나머지는 OOV 값(1)으로 표시

In [6]:
vocab_size = 5
tokenizer = Tokenizer(num_words = vocab_size + 2, oov_token = 'OOV') # 빈도수가 높은 상위 몇 개의 단어만 사용하겠다고 지정
# num_words는 숫자를 0부터 카운트
# 단어 집합에 없는 단어인 OOV
# 단어 집합에 없는 단어들은 OOV로 간주하여 보존하고 싶다면 Tokenizer의 인자 oov_token을 사용
# 빈도수 상위 5개 단어만 사용. 숫자 0과 OOV를 고려해서 단어 집합의 크기는 +2
# oov_token을 사용하기로 했다면 케라스 토크나이저는 기본적으로 'OOV'의 인덱스를 1로 함.
tokenizer.fit_on_texts(sentences) 

In [7]:
print(tokenizer.word_counts)

OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])


In [8]:
tokenizer.texts_to_sequences(sentences) # 실제 적용은 texts_to_sequences를 사용할 때 적용

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

In [9]:
tokenizer.word_index

{'OOV': 1,
 'barber': 2,
 'crazy': 12,
 'driving': 11,
 'good': 9,
 'huge': 4,
 'keeping': 8,
 'kept': 5,
 'knew': 10,
 'mountain': 14,
 'person': 6,
 'secret': 3,
 'went': 13,
 'word': 7}

## 7. 패딩(Padding)

In [10]:
tokenizer.fit_on_texts(sentences)
encoded = tokenizer.texts_to_sequences(sentences)
print(encoded)

[[2, 6], [2, 1, 6], [2, 4, 6], [1, 3], [3, 5, 4, 3], [4, 3], [2, 5, 1], [2, 5, 1], [2, 5, 3], [1, 1, 4, 3, 1, 2, 1], [2, 1, 4, 1]]


In [11]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
pad_sequences(encoded)

array([[0, 0, 0, 0, 0, 2, 6],
       [0, 0, 0, 0, 2, 1, 6],
       [0, 0, 0, 0, 2, 4, 6],
       [0, 0, 0, 0, 0, 1, 3],
       [0, 0, 0, 3, 5, 4, 3],
       [0, 0, 0, 0, 0, 4, 3],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 1],
       [0, 0, 0, 0, 2, 5, 3],
       [1, 1, 4, 3, 1, 2, 1],
       [0, 0, 0, 2, 1, 4, 1]], dtype=int32)

In [12]:
pad_sequences(encoded, padding='post')

array([[2, 6, 0, 0, 0, 0, 0],
       [2, 1, 6, 0, 0, 0, 0],
       [2, 4, 6, 0, 0, 0, 0],
       [1, 3, 0, 0, 0, 0, 0],
       [3, 5, 4, 3, 0, 0, 0],
       [4, 3, 0, 0, 0, 0, 0],
       [2, 5, 1, 0, 0, 0, 0],
       [2, 5, 1, 0, 0, 0, 0],
       [2, 5, 3, 0, 0, 0, 0],
       [1, 1, 4, 3, 1, 2, 1],
       [2, 1, 4, 1, 0, 0, 0]], dtype=int32)

In [13]:
# 실전에서 사용하는 방법
pad_sequences(encoded, padding='post', maxlen=5)

array([[2, 6, 0, 0, 0],
       [2, 1, 6, 0, 0],
       [2, 4, 6, 0, 0],
       [1, 3, 0, 0, 0],
       [3, 5, 4, 3, 0],
       [4, 3, 0, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 1, 0, 0],
       [2, 5, 3, 0, 0],
       [4, 3, 1, 2, 1],
       [2, 1, 4, 1, 0]], dtype=int32)

## 8. 원-핫 인코딩(One-hot encoding)

In [14]:
!pip install konlpy > /dev/null

In [15]:
from  konlpy.tag import Okt
okt = Okt()
text = '나는 자연어 처리를 배운다'
token = okt.morphs(text)
token

['나', '는', '자연어', '처리', '를', '배운다']

In [17]:
word_to_index = {word: i for i, word in enumerate(token)}
word_to_index

{'나': 0, '는': 1, '를': 4, '배운다': 5, '자연어': 2, '처리': 3}

In [20]:
from tensorflow.keras.utils import to_categorical
to_categorical(list(word_to_index.values()))

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.]], dtype=float32)

In [21]:
text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

t = Tokenizer()
t.fit_on_texts([text])
print(t.word_index) # 각 단어에 대한 인코딩 결과 출력.

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [27]:
encoded=t.texts_to_sequences([text])[0]
encoded

[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]

In [23]:
to_categorical(encoded)

array([[0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

In [None]:
# 원-핫 인코딩의 한계
# 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점
# 단어의 유사도를 표현하지 못한다는 단점
# 이러한 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법 : 카운트 기반과 예측 기반 두 가지 방법

## 9. 데이터의 분리

In [28]:
from sklearn.model_selection import train_test_split

In [29]:
from sklearn.datasets import load_iris
iris = load_iris()

In [30]:
iris.data[:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [34]:
iris.target[:5]

array([0, 0, 0, 0, 0])

In [32]:
iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [44]:
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.2, random_state=2021
)
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [45]:
print(y_test)

[0 0 1 0 0 0 0 0 0 0 0 1 2 2 1 2 1 1 0 1 1 2 2 0 2 1 1 1 0 0]


In [46]:
import numpy as np
np.unique(y_test, return_counts=True)

(array([0, 1, 2]), array([14, 10,  6]))

In [47]:
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, stratify=iris.target, test_size=0.2, random_state=2021 # stratify=iris.target
)

In [48]:
print(y_test)

[0 1 1 2 0 1 0 1 2 0 1 1 1 2 2 0 2 0 2 0 1 2 0 2 2 0 1 1 2 0]


In [49]:
np.unique(y_test, return_counts=True)

(array([0, 1, 2]), array([10, 10, 10]))