In [1]:
import pandas as pd
import numpy as np

In [2]:
from sklearn.model_selection import train_test_split

In [3]:
from keras.preprocessing.text import Tokenizer

In [4]:
keyword = {'사이다인':0,'빵터지는':1,'설레는':2,'어두운':3,'기다려지는':4,'그림체가 귀여운':5,'그림체가 디테일한':6,'잘생긴':7,'똑똑한':8,'먼치킨인':9,'게임물':10,'소름돋는':11,'판타지물':12,'고구마인':13}
label = ['사이다인','빵터지는','설레는','어두운','기다려지는','그림체가 귀여운','그림체가 디테일한','잘생긴','똑똑한','먼치킨인','게임물','소름돋는','판타지물','고구마인']

# 데이터 정리 및 train 과 test 데이터 생성

In [5]:
data = pd.read_csv('전독시 라벨링.csv', encoding='utf-8')

In [6]:
data.head()

Unnamed: 0,comment,label
0,도깨비 얼굴이 ㅎㄷㄷ,어두운
1,어 저 잼민인데 너무 재미있어요,기다려지는
2,와 존나 재밌는데 ㄹㅇ,기다려지는
3,나만 도깨비 첫인상 귀엽다고 생각함,그림체가 귀여운
4,와 ㅁㅊ,소름돋는


In [7]:
data['label'].replace('', np.nan, inplace=True)# 널값 제거하기 위해 빈 칸은 널값을 넣어주기
data = data.dropna(how = 'any') # Null 값이 존재하는 행 제거

In [8]:
data['new_label']= data['label'].apply(lambda v: keyword.get(v, v))

In [9]:
data

Unnamed: 0,comment,label,new_label
0,도깨비 얼굴이 ㅎㄷㄷ,어두운,3
1,어 저 잼민인데 너무 재미있어요,기다려지는,4
2,와 존나 재밌는데 ㄹㅇ,기다려지는,4
3,나만 도깨비 첫인상 귀엽다고 생각함,그림체가 귀여운,5
4,와 ㅁㅊ,소름돋는,11
5,이 웹툰 의 모든 컷이 떡밥이라면 여러번 믿으시겟습니까 그런데 진짜 모든 컷 모든 ...,소름돋는,11
6,헐 대박 재밌다,기다려지는,4
7,헐 무시하고 봤는데 확실히 걸어야 되네 ㄷ 아ㅠ 진짜 도깨비 너무 무섭다ㄷ,어두운,3
8,지난회에서 비형은 내 상상보다 귀엽다 생각했고 한명오가 내 상상보다 훨씬 더 멋있다...,그림체가 귀여운,5
9,이거 신들의 무궁화꽃이 피었습니다랑 죽는게 같은데,어두운,3


In [10]:
data['new_label'].unique()

array([ 3,  4,  5, 11,  9,  6, 10,  7, 12,  8,  1,  0, 13,  2],
      dtype=int64)

# 리스트 텐서로 변환 == > one hot encoding

In [11]:
stopwords = ['진짜', '존나', '좀', '정말', '왜', '그냥', '것', '개', '뭐', '사람', '놈', '너', '걍', '잘', '임', '제발', '의', '가', '이', '은', '들', '는', '좀', '잘', '걍', '과', '도', '를', '으로', '자', '에', '와', '한', '하다']
from konlpy.tag import Okt


In [12]:
okt = Okt() 
X = []
for sentence in data['comment']:
    temp_X = []
    temp_X = okt.morphs(sentence, stem=True) # 토큰화 
    temp_X = [word for word in temp_X if not word in stopwords] # 불용어 제거 
    X.append(temp_X)



In [13]:
max_words = 10000
tokenizer = Tokenizer(num_words=max_words, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~', lower=True) # 특수 문자를 제거 및 단어개수 최대값 설정
tokenizer.fit_on_texts(X)
X = tokenizer.texts_to_sequences(X) # 정수 인코딩



In [14]:
print((X[:4]))

[[35, 29, 374], [200, 31, 760, 112, 6, 91], [4, 5, 70], [37, 88, 35, 761, 11, 58, 124]]


In [55]:
#Y =data['new_label'] 

In [15]:
Y = []
for i in data['new_label'] :
    Y.append(i)

In [16]:
print(type(Y))

<class 'list'>


In [17]:
print(type(X[0][0]))

<class 'int'>


In [18]:
maxlen = 30 
class_number = 14                                    # 분류할 클래스의 수

In [19]:
from keras.utils.np_utils import to_categorical
from keras.preprocessing import sequence
X = sequence.pad_sequences(X, maxlen=maxlen)
Y = to_categorical(Y, num_classes=class_number)

In [44]:
from keras.models import Sequential
from keras.layers import Dense, Embedding
from keras.layers import Flatten
from keras.layers import LSTM, SpatialDropout1D
import tensorflow as tf

In [21]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.25, random_state=42) # Y는 따로 처리하지 않고 넣음.

In [22]:
y_train = np.asarray(y_train).astype('float32').reshape((-1,1))
y_test = np.asarray(y_test).astype('float32').reshape((-1,1))

In [100]:
model = Sequential()
# 나중에 임베딩된 입력을 Flatten 층에서 펼치기 위해 Embedding 층에 input_length를 지정합니다.
model.add(Embedding(10000, 8, input_length=maxlen))
# Embedding 층의 출력 크기는 (samples, maxlen, 8).

model.add(Flatten())

# 분류기를 추가합니다.
model.add(Dense(14, activation='softmax')) # 다중 분류이기 때문에 softmax사용 & 라벨이 14이므로 14로 설정
model.compile(optimizer=tf.keras.optimizers.Adam(), loss='sparse_categorical_crossentropy', metrics=['acc'])
model.summary()

history = model.fit(X_train, y_train,
                    epochs=30,
                    batch_size=32,
                    validation_split=0.2)

Model: "sequential_23"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_23 (Embedding)     (None, 30, 8)             80000     
_________________________________________________________________
flatten_23 (Flatten)         (None, 240)               0         
_________________________________________________________________
dense_20 (Dense)             (None, 14)                3374      
Total params: 83,374
Trainable params: 83,374
Non-trainable params: 0
_________________________________________________________________
Epoch 1/30
Epoch 2/30
Epoch 3/30
Epoch 4/30
Epoch 5/30
Epoch 6/30
Epoch 7/30
Epoch 8/30
Epoch 9/30
Epoch 10/30
Epoch 11/30
Epoch 12/30
Epoch 13/30
Epoch 14/30
Epoch 15/30
Epoch 16/30
Epoch 17/30
Epoch 18/30
Epoch 19/30
Epoch 20/30
Epoch 21/30
Epoch 22/30
Epoch 23/30
Epoch 24/30
Epoch 25/30
Epoch 26/30
Epoch 27/30
Epoch 28/30
Epoch 29/30
Epoch 30/30


In [101]:
accr = model.evaluate(X_test, y_test)

ValueError: Data cardinality is ambiguous:
  x sizes: 180
  y sizes: 2520
Please provide data which shares the same first dimension.