In [1]:
# https://thebook.io/080228/part05/ch17/01/

In [2]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer, text_to_word_sequence
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding

In [3]:
text = '해보지 않으면 해낼 수 없다'

In [4]:
result = text_to_word_sequence(text)   #  text_to_word_sequence
print("<원문>\n", text)
print("\n<토큰화>\n", result)  # Tokenizer

<원문>
 해보지 않으면 해낼 수 없다

<토큰화>
 ['해보지', '않으면', '해낼', '수', '없다']


In [5]:
# 이렇게 단어 단위로 짤라 주는게
# text_to_word_sequence

In [6]:
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화 합니다.',
       '텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다.',
       '토큰화 한 결과는 딥러닝에서 사용 할 수 있습니다.',
       ]

In [7]:
token = Tokenizer()
token.fit_on_texts(docs)  # fit 이 들어가니까, 나름 얘도 내부적으로 뭔가,  비지도 학습을 하는거임

In [8]:
print("<단어 카운트>\n", token.word_counts)

<단어 카운트>
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나누어', 1), ('토큰화', 3), ('합니다', 1), ('단어로', 1), ('해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('한', 1), ('결과는', 1), ('사용', 1), ('할', 1), ('수', 1), ('있습니다', 1)])


In [9]:
print("<문장 카운트>\n", token.document_count)   # 문장이 3개 들어왔다

<문장 카운트>
 3


In [10]:
print("<각 단어가 몇개의 문자에 포함되어 있는가>\n", token.word_docs)

<각 단어가 몇개의 문자에 포함되어 있는가>
 defaultdict(<class 'int'>, {'먼저': 1, '토큰화': 3, '텍스트의': 2, '합니다': 1, '각': 1, '단어를': 1, '나누어': 1, '해야': 1, '딥러닝에서': 2, '단어로': 1, '인식됩니다': 1, '한': 1, '있습니다': 1, '수': 1, '사용': 1, '할': 1, '결과는': 1})


In [11]:
# 모든 문장에 다 들어있는 단어는 관사(a, the 등)일 확률이 높다

In [12]:
print("<각 단어에 매겨진 인덱스 값>\n", token.word_index)   #  token이 각 단어에 index를 부여함.  아래와 같이.
# 인덱스가 0부터가 아닌 1부터 시작.
# 자연어의 로직을 좀 편하게 구현하려다 보니까 이렇게 됨.
# 자연어 처리쪽은 1부터 씀

# 0부터 쓸 순 있는데, 그럼 여러가지 불편해짐. -> 그래서 1부터 씀

<각 단어에 매겨진 인덱스 값>
 {'토큰화': 1, '텍스트의': 2, '딥러닝에서': 3, '먼저': 4, '각': 5, '단어를': 6, '나누어': 7, '합니다': 8, '단어로': 9, '해야': 10, '인식됩니다': 11, '한': 12, '결과는': 13, '사용': 14, '할': 15, '수': 16, '있습니다': 17}


In [13]:
# 원-핫 인코딩(one-hot encoding)
# 단어는 6개가 있는데,
# (0인덱스) 오랫동안 꿈꾸는 이는 그 꿈을 닮아간다
#[   0        0       0     0    0   0     0   ]
# 출력은 7개가 됨.
# 0번째는 안쓰기때문.

In [14]:
# 토큰화 함수를 불러와 단어 단위로 토큰화하고 각 단어의 인덱스 값을 출력해 봅니다.
text='오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'

token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [15]:
x = token.texts_to_sequences([text])   # index만 갖고 옴
print(x)    # [[1, 2, 3, 4, 5, 6]]

[[1, 2, 3, 4, 5, 6]]


In [16]:
# from keras.utils import to_categorical

# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
#word_size = len(t.word_index) +1
word_size = len(token.word_index) +1    # 웟-핫 인코딩 -> + 1 만큼 배열을 줌  (0번째 때문)

# x = to_categorical(x, num_classes=word_size)
x = tf.keras.utils.to_categorical(x, num_classes=word_size)
# class의 사이즈는 항상 +1 해줘야 함 -> 1부터밖에 안생김
# num_classes = word_size = len(token.word_index) + 1

In [17]:
print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]


In [18]:
# index로 바꾼 단어의 사이즈가 들어옴

# input_length는 옵션

In [19]:
docs = ["너무 재밌네요","최고예요","참 잘 만든 영화예요","추천하고 싶은 영화입니다",\
        "한번 더 보고싶네요","글쎄요","별로예요","생각보다 지루하네요","연기가 어색해요","재미없어요"]

# 앞 5개는 긍정, 뒤 5개는 부정적 표현

In [20]:
classes = np.array([1, 1, 1, 1, 1, 0, 0, 0, 0 , 0])   # 긍정은 1, 부정은 0으로 정답을 미리 만듬

In [21]:
# 저 문장을 tokenizer 합시다

token = Tokenizer()   # tokenizer 객체 만들고
token.fit_on_texts(docs)   # 도커나이즈함
print(token.word_index)

{'너무': 1, '재밌네요': 2, '최고예요': 3, '참': 4, '잘': 5, '만든': 6, '영화예요': 7, '추천하고': 8, '싶은': 9, '영화입니다': 10, '한번': 11, '더': 12, '보고싶네요': 13, '글쎄요': 14, '별로예요': 15, '생각보다': 16, '지루하네요': 17, '연기가': 18, '어색해요': 19, '재미없어요': 20}


In [22]:
# 이 상태에서 index 뽑아냄  .  list로.

x = token.texts_to_sequences(docs)
print("리뷰 텍스트 토큰화 결과\n", x)

리뷰 텍스트 토큰화 결과
 [[1, 2], [3], [4, 5, 6, 7], [8, 9, 10], [11, 12, 13], [14], [15], [16, 17], [18, 19], [20]]


In [23]:
# 10개의 입력 feature들이 있음.  첫번째는 1,2  , 두번째는 3 ....
# 입력feature의 길이는 고정되어있음. 버라이어티하지 않음.
# 그래야 가중치 생성하고 기타 등등 함,
# 얘는 입력 feature가 들쑥날쑥해서, 학습이 힘들
# 그래서 고정비로 맞춰야 함
# 많아야 4개.  -> 4개로 맞출 순 있음.
# 그러나 일반적으론 그렇지 않음. 훨씬 길 수도 있음.
# 가장 긴놈을 기준으로 할 수도 있지만, 적당히 짜르기도 함.

# 한글같은 경우는 동사가 제일 뒤에 나옴.
# 주어는 앞에 나옴

# 영어 같은 경우는
# 앞쪽에 주어, 동사 다 나옴. 앞쪽에 중요한거 다 나옴.  그래서 뒤쪽을 자르기 쉬움.(크게 부담이 없음) -> 그래서 자르기도 함

#어쨋든 잘라야 함.
# 짜를 때, 맞춰주는 기능이 있음. -> 바로 이거 -> 패팅 => padded_x = pad_sequences()

In [24]:
padded_x = pad_sequences(x, 4)   #  4보다 긴건 짜르라는 소리.   x는 입력값
print("패딩 결과\n", padded_x)

# 길이가 4로 맞춰짐

패딩 결과
 [[ 0  0  1  2]
 [ 0  0  0  3]
 [ 4  5  6  7]
 [ 0  8  9 10]
 [ 0 11 12 13]
 [ 0  0  0 14]
 [ 0  0  0 15]
 [ 0  0 16 17]
 [ 0  0 18 19]
 [ 0  0  0 20]]


In [25]:
# 아까 임베딩쪽을 보면 단어 길이가 보임

In [26]:
# Embedding() 함수는 최소 2개의 매개변수를 필요로 하는데, 바로 ‘입력’과 ‘출력’의 크기입니다. 
# 위 예제에서 Embedding(16,4)가 의미하는 바는 
# 입력될 총 단어 수는 16, 임베딩 후 출력되는 벡터 크기는 4로 하겠다는 뜻입니다. 
# 여기에 단어를 매번 얼마나 입력할지를 추가로 지정할 수 있습니다. 
# Embedding(16,4, input_length=2)라고 하면 총 입력되는 단어 수는 16개이지만 매번 2개씩만 넣겠다는 뜻입니다.

# 단어 임베딩의 예는 다음 절에서 직접 실습하면서 확인해 보겠습니다. 단어 임베딩을 포함하며 지금까지 배운 내용을 모두 적용해 텍스트 감정을 예측하는 딥러닝 모델을 만들어 보겠습니다.

#from keras.layers import Embedding

#model = Sequential()
#model.add(Embedding(16,4)

In [27]:
word_size = len(token.word_index) + 1

In [28]:
model = Sequential()
model.add(Embedding(word_size, 8, input_length=4))  # 얘를 8차원 벡터로 만들겠다.
model.add(Flatten())  # 이렇게 나온 출력을 Flatten으로 펼치겠다
model.add(Dense(1, activation='sigmoid'))
# 만든 시퀀스 오브젝트 model에 5개의 노드를 Dense레이어를 통해 연결해줍니다. 
# 여기서 add를 통해 하나의 레이어를 추가해주는 것입니다.
# Dense 레이어는 입력과 출력을 모두 연결해주며 입력과 출력을 각각 연결해주는 가중치를 포함하고 있습니다. 
# 입력이 3개 출력이 4개라면 가중치는 총 3X4인 12개가 존재하게 됩니다. 
# Dense레이어는 머신러닝의 기본층으로 영상이나 서로 연속적으로 상관관계가 있는 데이터가 아니라면 
# Dense레이어를 통해 학습시킬 수 있는 데이터가 많다는 뜻이 됩니다. 

# Dense의 첫번째 인자 : 출력 뉴런(노드)의 수를 결정
# Dense의 두번째 인자 : input_dim은 입력 뉴런(노드)의 수를 결정, 맨 처음 입력층에서만 사용
# Dense의 세번째 인자 : activation 활성화 함수를 선택

In [29]:
model.summary()

# 32개가 쏙아져 들어오면, dense 1 까지 33개

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 4, 8)              168       
_________________________________________________________________
flatten (Flatten)            (None, 32)                0         
_________________________________________________________________
dense (Dense)                (None, 1)                 33        
Total params: 201
Trainable params: 201
Non-trainable params: 0
_________________________________________________________________


In [30]:
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(padded_x, classes, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x2914991fc70>

In [31]:
print("\n Accuracy: %.4f" % (model.evaluate(padded_x, classes)[1]))


 Accuracy: 0.9000
