# 패딩(Padding)

In [37]:
# 어제 한 부분이지만 오늘 코드를 돌리기 위해 가져옴
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

# 문장 토큰화
sentences = sent_tokenize(raw_text)
print(sentences)

vocab = {}
preprocessed_sentences = []
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    # 단어 토큰화
    tokenized_sentence = word_tokenize(sentence)
    result = []
    for word in tokenized_sentence:
        word = word.lower()    # 모든 단어를 소문자화하여 단어의 개수를 줄인다
        if word not in stop_words:    # 단어 토큰화 된 결과에 대해서 불용어를 제거한다
            if len(word) > 2:    # 단어 길이가 2이하인 경우에 대하여 추가로 단어를 제거한다
                result.append(word)
                if word not in vocab:
                    vocab[word] = 0
                vocab[word] += 1    # {'barber', 1} barber가 나올수록 숫자 증가
    preprocessed_sentences.append(result)
print(preprocessed_sentences)

['A barber is a person.', 'a barber is good person.', 'a barber is huge person.', 'he Knew A Secret!', 'The Secret He Kept is huge secret.', 'Huge secret.', 'His barber kept his word.', 'a barber kept his word.', 'His barber kept his secret.', 'But keeping and keeping such a huge secret to himself was driving the barber crazy.', 'the barber went up a huge mountain.']
[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [38]:
import numpy as np
from tensorflow.keras.preprocessing.text import Tokenizer

preprocessed_sentences

tokenizer = Tokenizer()

# fit_on_texts() 안에 코퍼스를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성
tokenizer.fit_on_texts(preprocessed_sentences)

encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

# 문장이 가장 긴게 뭔지 출력
max_len = max(len(item) for item in encoded)
print(max_len)

# 문장의 길이를 가장 긴 문장의 길이로 맞춰줌
for sentence in encoded:    # 각 문장에 대해서
    while len(sentence) < max_len:    # max_len보다 작으면
        sentence.append(0)
        
padded_np = np.array(encoded)
padded_np

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]
7


array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [39]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
print(encoded)

padded = pad_sequences(encoded)    # 앞쪽에 0을 채움
padded

padded = pad_sequences(encoded, padding = 'post')    # 뒤에 0을 채움
padded

[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

In [40]:
(padded == padded_np).all()    # 케라스와 코딩을 이용한 패딩의 결과는 같다

True

In [42]:
# 데이터가 손실될 경우 앞의 단어가 사라진다
padded = pad_sequences(encoded, padding = 'post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0]])

In [41]:
# 데이터가 손실될 경우 뒤의 단어가 사라지게 하는 코드 truncating='post'
padded = pad_sequences(encoded, padding = 'post', truncating = 'post', maxlen=5)
padded

array([[ 1,  5,  0,  0,  0],
       [ 1,  8,  5,  0,  0],
       [ 1,  3,  5,  0,  0],
       [ 9,  2,  0,  0,  0],
       [ 2,  4,  3,  2,  0],
       [ 3,  2,  0,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  6,  0,  0],
       [ 1,  4,  2,  0,  0],
       [ 7,  7,  3,  2, 10],
       [ 1, 12,  3, 13,  0]])

In [28]:
last_value = len(tokenizer.word_index) + 1    # 단어 집합의 크기보다 1 큰 숫자 사용
print(last_value)

14


In [22]:
# 빈 공간을 단어 집합의 크기보다 1 큰 숫자로 채운다
padded = pad_sequences(encoded, padding = 'post', value = last_value)
padded

array([[ 1,  5, 14, 14, 14, 14, 14],
       [ 1,  8,  5, 14, 14, 14, 14],
       [ 1,  3,  5, 14, 14, 14, 14],
       [ 9,  2, 14, 14, 14, 14, 14],
       [ 2,  4,  3,  2, 14, 14, 14],
       [ 3,  2, 14, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  6, 14, 14, 14, 14],
       [ 1,  4,  2, 14, 14, 14, 14],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13, 14, 14, 14]])

# 원-핫 인코딩

In [29]:
from konlpy.tag import Okt
okt =Okt()
token = okt.morphs("나는 자연어 처리를 배운다")
print(token)

['나', '는', '자연어', '처리', '를', '배운다']


In [30]:
# 각 토큰에 인덱스 부여
word2index = {}
for voca in token:
    if voca not in word2index.keys():
        word2index[voca] = len(word2index)
print(word2index)

{'나': 0, '는': 1, '자연어': 2, '처리': 3, '를': 4, '배운다': 5}


In [31]:
# 원-핫벡터를 만들어 주는 함수
def one_hot_encoding(word, word2index):
    one_hot_vector = [0] * (len(word2index))
    index = word2index[word]
    one_hot_vector[index] = 1
    return one_hot_vector

In [32]:
one_hot_encoding("자연어", word2index)

[0, 0, 1, 0, 0, 0]

## 케라스를 이용한 원-핫 인코딩

In [33]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])    # 비중이 많은 순서대로 정렬
print(tokenizer.word_index)    # 각 단어에 대한 인코딩 결과 출력

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}


In [34]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]    # sub_text의 단어를 위의 번호에 맞춰서 출력
print(encoded)

[2, 5, 1, 6, 3, 7]


In [35]:
one_hot = to_categorical(encoded)
print(one_hot)

[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


# 데이터의 분리
## 지도학습

In [43]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split    # 문제와 답의 묶음에서 train과 test영역 구분

## X와 Y 분리하기
### 1. zip 함수를 이용하여 분리하기

In [46]:
x, y = zip(['a', 1], ['b', 2], ['c', 3])
print(x)
print(y)

('a', 'b', 'c')
(1, 2, 3)


In [45]:
sequences = [['a', 1], ['b', 2], ['c', 3]]    # 리스트의 리스트 또는 행렬 또는 뒤에서 배울 개념인 2D텐서
x, y = zip(*sequences)    # *를 추가
print(x)
print(y)

('a', 'b', 'c')
(1, 2, 3)


### 2. 데이터프레임을 이용하여 분리하기

In [70]:
import pandas as pd

values = [['당신에게 드리는 마지막 혜택!', 1],
['내일 뵐 수 있을지 확인 부탁드...', 0],
['도연씨. 잘 지내시죠? 오랜만입...', 0],
['(광고) AI로 주가를 예측할 수 있다!', 1]]
columns = ['메일 본문', '스팸 메일 유무']

df = pd.DataFrame(values, columns=columns)
df

Unnamed: 0,메일 본문,스팸 메일 유무
0,당신에게 드리는 마지막 혜택!,1
1,내일 뵐 수 있을지 확인 부탁드...,0
2,도연씨. 잘 지내시죠? 오랜만입...,0
3,(광고) AI로 주가를 예측할 수 있다!,1


In [71]:
x = df['메일 본문']
y = df['스팸 메일 유무']

print('x 데이터 :', x.to_list())
print('y 데이터 :', y.to_list())

x 데이터 : ['당신에게 드리는 마지막 혜택!', '내일 뵐 수 있을지 확인 부탁드...', '도연씨. 잘 지내시죠? 오랜만입...', '(광고) AI로 주가를 예측할 수 있다!']
y 데이터 : [1, 0, 0, 1]


### 3. Numpy를 이용하여 분리하기

In [72]:
import numpy as np

np_array = np.arange(0, 16).reshape((4, 4))
print(np_array)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [73]:
x = np_array[:, :3]
y = np_array[:, 3]

print("x 데이터 :")
print(x)
print("y 데이터 :", y)

x 데이터 :
[[ 0  1  2]
 [ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
y 데이터 : [ 3  7 11 15]


### 4. 사이킷 런을 이용하여 분리하기

In [74]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1234)
# test_size=0.2 : test 데이터는 전체 데이터의 20%
# random_state는 어떤 값을 줘도 되지만 한번 준 값과 동일한 값을 줘야 한다

print(x_train)
print(x_test)
print(y_train)
print(y_test)

[[ 4  5  6]
 [ 8  9 10]
 [12 13 14]]
[[0 1 2]]
[ 7 11 15]
[3]


In [75]:
import numpy as np
from sklearn.model_selection import train_test_split

# 실습을 위해 임의로 x와 y가 이미 분리 된 데이터를 생성
x, y = np.arange(10).reshape((5, 2)), range(5)

print(x)
print(list(y))    # 레이블 데이터

[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0, 1, 2, 3, 4]


In [88]:
# 3분의 1만 test 데이터로 지정
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=1234)

print(x_train)
print(x_test)

[[2 3]
 [4 5]
 [6 7]]
[[8 9]
 [0 1]]


In [90]:
# random_state의 값이 같으면 랜덤하게 돌려도 결과는 같지만,
# random_State의 숫자를 다르게 넣으면 다른 값이 나온다
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=1)

print(x_train)
print(x_test)

[[8 9]
 [0 1]
 [6 7]]
[[4 5]
 [2 3]]


## 테스트 데이터 분리하기
### 수동으로 분리하기

In [93]:
import numpy as np

# 실습을 위해 임의로 x와 y가 이미 분리 된 데이터를 생성
x, y = np.arange(0, 24).reshape((12, 2)), range(12)
print(x)
print(list(y))

[[ 0  1]
 [ 2  3]
 [ 4  5]
 [ 6  7]
 [ 8  9]
 [10 11]
 [12 13]
 [14 15]
 [16 17]
 [18 19]
 [20 21]
 [22 23]]
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]


In [94]:
num_of_train = int(len(x) * 0.8)   # 데이터의 전체 길이의 80%에 해당하는 길이값을 구한다
num_of_test = int(len(x) - num_of_train)    # 전체 길이에서 80%에 해당하는 길이를 뺀다

print(num_of_train)
print(num_of_test)

9
3


In [95]:
x_test = x[num_of_train:]    # 전체 데이터 중에서 20%만큼 뒤의 데이터 저장
y_test = y[num_of_train:]
x_train = x[:num_of_train]    # 전체 데이터 중에서 80%만큼 앞의 데이터 저장
y_train = y[:num_of_train]

In [96]:
print(x_test)
print(list(y_test))

[[18 19]
 [20 21]
 [22 23]]
[9, 10, 11]
