In [1]:
from konlpy.tag import Okt
okt = Okt()
tokens = okt.morphs('나는 자연어 처리를 배운다')
print(tokens)

['나', '는', '자연어', '처리', '를', '배운다']


In [7]:
## 인덱스 부여
word_to_index = {word : index for index, word in enumerate(tokens)}
print(word_to_index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [8]:
def one_hot_encoding(word, word_to_index):
    one_hot_vector = [0] * (len(word_to_index))
    index = word_to_index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [9]:
one_hot_encoding('자연어', word_to_index)  # 세번째 1 표시

[0, 0, 1, 0, 0, 0]

### Keras를 이용한 원핫 인코딩

In [10]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [11]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

In [12]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])

In [13]:
print('단어집합 :', tokenizer.word_index)

단어집합 : {'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [14]:
print('단어빈도 :', tokenizer.word_counts)

단어빈도 : OrderedDict([('나랑', 1), ('점심', 2), ('먹으러', 1), ('갈래', 3), ('메뉴는', 1), ('햄버거', 2), ('최고야', 1)])


In [16]:
### 정수 시퀀스 변환
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
print(encoded)

[2, 5, 1, 6, 3, 7]


In [17]:
tokenizer.texts_to_sequences([sub_text])

[[2, 5, 1, 6, 3, 7]]

In [19]:
tokenizer.texts_to_sequences([text])[0]

[4, 2, 5, 1, 2, 6, 3, 1, 1, 3, 7]

In [20]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


### 3. One-Hot Encoding 한계
* 단어 수가 많아지면 차원수도 같이 계속 늘어난다
* 단어의 유사도 표현 못함 : 검색시스템에 문제 소지 발생
---
* 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화하는 방법 필요

### 4. 데이터 분리


In [21]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

#### 4-1. Zip 함수를 이용하여 분리

In [23]:
X, y = zip(['a', 1], ['b', 2], ['c', 3])
print('X 데이터 :', X)
print('y 데이터 :', y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


In [26]:
sequences = [['a', 1], ['b', 2], ['c', 3]]  # 2D 텐서
X, y = zip(*sequences)
print('X 데이터 :', X)
print('y 데이터 :', y)

X 데이터 : ('a', 'b', 'c')
y 데이터 : (1, 2, 3)


#### 4-2. 데이터프레임을 이용하여 분리

In [27]:
values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]

columns = ['메일 본문', '스팸 메일 유무']

In [28]:
df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [32]:
X = df['메일 본문']
y = df['스팸 메일 유무']
print('X 데이터 : ', X.to_list())
print('y 데이터 : ', y.to_list())

X 데이터 :  ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 :  [1, 0, 0, 1]


#### 4-3. Numpy를 이용하여 분리하기

In [33]:
np_array = np.arange(0, 16).reshape((4, 4))
np_array

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

마지막 열을 제외하고 X 데이터에 저장

In [34]:
X = np_array[:, :-1]
X

array([[ 0,  1,  2],
       [ 4,  5,  6],
       [ 8,  9, 10],
       [12, 13, 14]])

In [36]:
y = np_array[:, -1]

In [37]:
y

array([ 3,  7, 11, 15])

#### 4-4. 테스트 데이터 분리

In [40]:
X, y = np.arange(10).reshape((5, 2)), range(5)

print('X 전체 데이터:\n', X)
print('y 전체 데이터:\n', list(y))

X 전체 데이터:
 [[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
y 전체 데이터:
 [0, 1, 2, 3, 4]


In [48]:
# 7:3의 비율로 훈련 데이터와 테스트 데이터 분리

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1234)

In [49]:
print('X 훈련데이터: \n', X_train)
print('X 테스트 데이터: \n', X_test)

X 훈련데이터: 
 [[2 3]
 [4 5]
 [6 7]]
X 테스트 데이터: 
 [[8 9]
 [0 1]]


In [50]:
print('y 훈련데이터: \n', y_train)
print('y 테스트 데이터: \n', y_test)

y 훈련데이터: 
 [1, 2, 3]
y 테스트 데이터: 
 [4, 0]


#### 4-5. 수동 분리

In [51]:
X, y = np.arange(0, 24).reshape((12, 2)), range(12)

print('X 전체 데이터:\n', X)
print('y 전체 데이터:\n', list(y))

X 전체 데이터:
 [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
y 전체 데이터:
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [52]:
num_of_train = int(X.shape[0] * 0.8)
num_of_test = X.shape[0] - num_of_train
num_of_train, num_of_test

(9, 3)

In [53]:
X_test = X[num_of_train:]
y_test = y[num_of_train:]
X_train = X[:num_of_train]
y_train = y[:num_of_train]

In [54]:
print('X 훈련데이터: \n', X_train)
print('X 테스트 데이터: \n', X_test)

X 훈련데이터: 
 [[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]]
X 테스트 데이터: 
 [[18 19]
 [20 21]
 [22 23]]


In [55]:
print('y 훈련데이터: \n', y_train)
print('y 테스트 데이터: \n', y_test)

y 훈련데이터: 
 range(0, 9)
y 테스트 데이터: 
 range(9, 12)
