CNN(Convolutional Neural Network, 합성곱 신경망) 
: 딥러닝 모델 (ex. 이미지/자연어 분류)
1. 합성곱(convolution) : filter = mask = window = kernel 로 불리는 특정 크기의 행렬을 이미지 or 문장 데이터 행렬에 슬라이딩하면서 곱하고 더하는 연산.
  * stride : filter 위치를 몇 칸 이동할지 결정하는 값 
  * 슬라이딩 : filter가 이미지 데이터 행렬 위를 상하좌우로 이동하는 동작
  * filter가 더 이상 슬라이딩 할 수 없을 때까지 반복
  * 특징맵(feature map) : 최종 결과 / 합성곱 연산을 거칠 때마다 작아진다. -> 방지 : padding 사용
  * padding : 출력 크기 조정 / 0으로 채움


2. 풀링 연산 : 특징맵의 크기 줄임, 주요한 특징 추출
  - 최대 풀링(max pooling)多 / 평균 풀링(average pooling)


In [13]:
# To Do! Q(질문)를 label(감정)별로 분류 (cf. A(답변) 사용 X)
import pandas as pd
import tensorflow as tf
from tensorflow.keras import preprocessing
from tensorflow.keras.models import Model, load_model
from tensorflow.keras.layers import Input, Embedding, Dense, Dropout, Conv1D, GlobalMaxPool1D, concatenate

train_file = './data/chatbot_data.csv'
data = pd.read_csv(train_file, delimiter=',')
print(data)

                             Q                         A  label
0                       12시 땡!                하루가 또 가네요.      0
1                  1지망 학교 떨어졌어                 위로해 드립니다.      0
2                 3박4일 놀러가고 싶다               여행은 언제나 좋죠.      0
3              3박4일 정도 놀러가고 싶다               여행은 언제나 좋죠.      0
4                      PPL 심하네                눈살이 찌푸려지죠.      0
...                        ...                       ...    ...
11818           훔쳐보는 것도 눈치 보임.        티가 나니까 눈치가 보이는 거죠!      2
11819           훔쳐보는 것도 눈치 보임.             훔쳐보는 거 티나나봐요.      2
11820              흑기사 해주는 짝남.                    설렜겠어요.      2
11821  힘든 연애 좋은 연애라는게 무슨 차이일까?  잘 헤어질 수 있는 사이 여부인 거 같아요.      2
11822               힘들어서 결혼할까봐        도피성 결혼은 하지 않길 바라요.      2

[11823 rows x 3 columns]


In [20]:
features = data['Q'].tolist()
labels = data['label'].tolist()

corpus = [preprocessing.text.text_to_word_sequence(text) for text in features]
print(corpus[:5])

[['12시', '땡'], ['1지망', '학교', '떨어졌어'], ['3박4일', '놀러가고', '싶다'], ['3박4일', '정도', '놀러가고', '싶다'], ['ppl', '심하네']]


In [6]:
tokenizer = preprocessing.text.Tokenizer()
tokenizer.fit_on_texts(corpus)
sequences = tokenizer.texts_to_sequences(corpus)
print(sequences)

[[4646, 4647], [4648, 343, 448], [2580, 803, 11], [2580, 804, 803, 11], [4649, 2581], [2582, 4650], [2582, 64], [805, 4651, 14, 4652], [805, 4653, 3, 502, 238, 45, 106], [805, 4654, 23, 4655], [4656, 52, 1128, 28, 1373], [693, 266], [693, 2583, 266], [2584, 4657, 324], [4658, 4659, 4660], [4661, 1129, 2585], [4662, 4663, 1374], [2586, 4664, 1375], [2586, 4665, 2587, 5], [1811, 1, 27, 4666], [1811, 2588, 1130, 4667], [1811, 628, 1131], [944, 1812, 154, 128], [1132, 176, 1376, 184], [1132, 176, 1133], [1132, 176, 945, 1813], [1132, 25], [2589, 4668, 503], [2590, 4669], [4670, 94, 4], [1377, 4671], [1377, 4672], [1377, 368, 1813], [1377, 176, 4673], [4674, 280], [2591, 1378], [4675, 176, 1379], [2592, 253, 4676], [4677], [4678, 504, 1380, 20], [1381, 4679, 1814], [1381, 1134, 106], [1381, 2593, 106], [1815, 41, 405], [1815, 254], [4680, 2594], [4681, 75], [325, 505, 308, 67], [325, 505], [2595, 2596, 53, 11], [2595, 2596, 185], [1130, 109], [1130, 1382, 18, 5], [1130, 2597, 25], [1130, 46

In [7]:
word_index = tokenizer.word_index
print(word_index)

{'너무': 1, '좋아하는': 2, '거': 3, '싶어': 4, '같아': 5, '안': 6, '나': 7, '좀': 8, '사람': 9, '내가': 10, '싶다': 11, '어떻게': 12, '썸': 13, '왜': 14, '내': 15, '사람이': 16, '이별': 17, '것': 18, '잘': 19, '없어': 20, '수': 21, '오늘': 22, '자꾸': 23, '이제': 24, '있어': 25, '또': 26, '많이': 27, '다': 28, '있을까': 29, '헤어진지': 30, '해': 31, '다시': 32, '될까': 33, '여자친구가': 34, '남자친구가': 35, '더': 36, '진짜': 37, '정말': 38, '게': 39, '나를': 40, '뭐': 41, '좋아': 42, '할까': 43, '하고': 44, '하는': 45, '연애': 46, '있는': 47, '계속': 48, '힘드네': 49, '연락': 50, '이': 51, '나만': 52, '먹고': 53, '이렇게': 54, '있는데': 55, '못': 56, '날': 57, '혼자': 58, '다른': 59, '방법': 60, '타는': 61, '한': 62, '그': 63, '안돼': 64, '그냥': 65, '없는': 66, '돼': 67, '짝남이': 68, '좋겠다': 69, '선물': 70, '모르겠어': 71, '같이': 72, '나한테': 73, '같은데': 74, '싫어': 75, '친구가': 76, '마음이': 77, '짝사랑': 78, '가고': 79, '사랑': 80, '헤어진': 81, '많아': 82, '힘들어': 83, '연락이': 84, '줄': 85, '좋겠어': 86, '술': 87, '후': 88, '짝남': 89, '듯': 90, '좋은': 91, '좋을까': 92, '나는': 93, '보고': 94, '해도': 95, '할': 96, '사랑이': 97, '짝녀가': 98, '말': 99, '남자': 100, '참'

In [8]:
# 전체 벡터 크기를 동일하게 맞춰야 함
MAX_SEQ_LEN = 15 
padded_seqs = preprocessing.sequence.pad_sequences(sequences, 
                                                   maxlen=MAX_SEQ_LEN, # 시퀀스의 최대 길이
                                                   padding='post') # 빈 공간을 0으로 채우는 작업
print(padded_seqs)                                                   

[[ 4646  4647     0 ...     0     0     0]
 [ 4648   343   448 ...     0     0     0]
 [ 2580   803    11 ...     0     0     0]
 ...
 [13395  2517    89 ...     0     0     0]
 [  147    46    91 ...     0     0     0]
 [  555 13398     0 ...     0     0     0]]


In [9]:
ds = tf.data.Dataset.from_tensor_slices((padded_seqs, labels))
ds = ds.shuffle(len(features))

# train:valid:test = 7:2:1
train_size = int(len(padded_seqs) * 0.7)
val_size = int(len(padded_seqs) * 0.2)
test_size = int(len(padded_seqs) * 0.1)

train_ds = ds.take(train_size).batch(20)
val_ds = ds.skip(train_size).take(val_size).batch(20)
test_ds = ds.skip(train_size + val_size).take(test_size).batch(20)

# 하이퍼파라미터
dropout_prob = 0.5
EMB_SIZE = 128 # 임베딩 결과로 나올 밀집 벡터 크기
EPOCH = 5
VOCAB_SIZE = len(word_index) + 1 # 전체 단어 수

# 단어 임베딩
input_layer = Input(shape=(MAX_SEQ_LEN,))
embedding_layer = Embedding(VOCAB_SIZE, EMB_SIZE, input_length=MAX_SEQ_LEN)(input_layer)
dropout_emb = Dropout(rate=dropout_prob)(embedding_layer) # 오버피팅(과적합)에 대비

# 특징 추출 (특징맵)
# 합성곱 연산
conv1 = Conv1D(
    filters=128,
    kernel_size=3,
    padding='valid',
    activation=tf.nn.relu)(dropout_emb)
pool1 = GlobalMaxPool1D()(conv1) # 최대 풀링 연산

conv2 = Conv1D(
    filters=128,
    kernel_size=4,
    padding='valid',
    activation=tf.nn.relu)(dropout_emb)
pool2 = GlobalMaxPool1D()(conv2)

conv3 = Conv1D(
    filters=128,
    kernel_size=5,
    padding='valid',
    activation=tf.nn.relu)(dropout_emb)
pool3 = GlobalMaxPool1D()(conv3)

concat = concatenate([pool1, pool2, pool3])

# 완전 연결 계층
hidden = Dense(128, # 출력 노드 수
               activation=tf.nn.relu)(concat)
dropout_hidden = Dropout(rate=dropout_prob)(hidden)

logits = Dense(3, # 3가지 클래스로 감정 분류 해야 하기 때문에
               name='logits')(dropout_hidden)

# 감정 클래스별 확률 
predictions = Dense(3, activation=tf.nn.softmax)(logits)

# CNN 모델 생성
model = Model(inputs=input_layer, outputs=predictions)
model.compile(optimizer='adam',
              loss='sparse_categorical_crossentropy', # 손실 함수
              metrics=['accuracy'])

# 모델 학습
model.fit(train_ds, validation_data=val_ds, epochs=EPOCH
          , verbose=1) # 진행 과정 상세히 (<-> 0:생략)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f7a9efa5a10>

In [10]:
loss, accuracy = model.evaluate(test_ds, verbose=1)



In [11]:
print('Accuracy: %f' % (accuracy * 100))
print('loss: %f' % (loss))

Accuracy: 97.715735
loss: 0.083776


In [12]:
model.save('cnn_model.h5')

In [14]:
test_ds = ds.take(2000).batch(20)

model = load_model('cnn_model.h5')
model.summary()

Model: "model"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, 15)]         0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 15, 128)      1715072     input_1[0][0]                    
__________________________________________________________________________________________________
dropout (Dropout)               (None, 15, 128)      0           embedding[0][0]                  
__________________________________________________________________________________________________
conv1d (Conv1D)                 (None, 13, 128)      49280       dropout[0][0]                    
______________________________________________________________________________________________

In [15]:
model.evaluate(test_ds, verbose=2)

100/100 - 1s - loss: 0.0751 - accuracy: 0.9800


[0.07508394122123718, 0.9800000190734863]

In [18]:
print('단어 시퀀스 :', corpus[10212])
print('단어 인덱스 시퀀스 :', padded_seqs[10212])
print('문장 분류(정답):', labels[10212])

단어 시퀀스 : ['썸', '타는', '여자가', '남사친', '만나러', '간다는데', '뭐라', '해']
단어 인덱스 시퀀스 : [   13    61   127  4320  1333 12162   856    31     0     0     0     0
     0     0     0]
문장 분류(정답): 2


In [19]:
picks = [10212]
predict = model.predict(padded_seqs[picks])
predict_class = tf.math.argmax(predict, axis=1)
print('감정 예측 점수 :', predict)
print('감정 예측 클래스 :', predict_class.numpy())

감정 예측 점수 : [[3.7599688e-07 5.2813357e-07 9.9999905e-01]]
감정 예측 클래스 : [2]
