In [4]:
import re

def load_data(path):
    sentences = []
    labels = []

    with open(path, 'r', encoding='utf-8') as fp:
        lines = fp.readlines()
        for line in lines:
            _, sentence, label = line.strip().split('\t')
            cleaned_sentence = re.sub('[^ㄱ-ㅎ|ㅏ-ㅣ|가-힣]+', ' ', sentence).strip()
            if cleaned_sentence:
                sentences.append(cleaned_sentence) 
                labels.append(label)

        return sentences, labels

In [5]:
train_sentence, train_label = load_data('data/ratings_train.txt')
test_sentence, test_label = load_data('data/ratings_test.txt')

train_sentence[:10]

['아 더빙 진짜 짜증나네요 목소리',
 '흠 포스터보고 초딩영화줄 오버연기조차 가볍지 않구나',
 '너무재밓었다그래서보는것을추천한다',
 '교도소 이야기구먼 솔직히 재미는 없다 평점 조정',
 '사이몬페그의 익살스런 연기가 돋보였던 영화 스파이더맨에서 늙어보이기만 했던 커스틴 던스트가 너무나도 이뻐보였다',
 '막 걸음마 뗀 세부터 초등학교 학년생인 살용영화 ㅋㅋㅋ 별반개도 아까움',
 '원작의 긴장감을 제대로 살려내지못했다',
 '별 반개도 아깝다 욕나온다 이응경 길용우 연기생활이몇년인지 정말 발로해도 그것보단 낫겟다 납치 감금만반복반복 이드라마는 가족도없다 연기못하는사람만모엿네',
 '액션이 없는데도 재미 있는 몇안되는 영화',
 '왜케 평점이 낮은건데 꽤 볼만한데 헐리우드식 화려함에만 너무 길들여져 있나']

In [None]:
from konlpy.tag import Okt

def tokenize(sentence):
    """
    형태소로 분리 및 조사는 따로 list 만들어서 리턴
    """
    tokenizer = Okt()
    morphs_pos = tokenizer.pos(sentence)
    tokens = []
    stop_words = []
    for mp in morphs_pos:
        if mp[1] == 'Josa':
            stop_words.append(mp[0])
        tokens.append(mp[0])
    return tokens, stop_words

tokenized_train_sentence, train_stop_words = [tokenize(sentence) for sentence in train_sentence]
tokenized_test_sentence, test_stop_words = [tokenize(sentence) for sentence in test_sentence]

tokenized_train_sentence[:10]

In [None]:
# save results
import pandas as pd

df = pd.DataFrame()


In [None]:
from keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer(num_words=1000)
tokenizer.fit_on_texts(train_sentence_cleaned)

# 문자열을 인덱스의 리스트로 변환
sequences = tokenizer.texts_to_matrix(train_sentence_cleaned, mode='count').tolist()

# 계산된 단어 인덱스를 dictionary 형태로 확인
word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

In [None]:
from sklearn.svm import SVC

train_x = sequences
train_y = train_label

svm = SVC(kernel='rbf')
svm.fit(train_x, train_y)

In [None]:
from sklearn.metrics import accuracy_score

prediction = svm.predict(test_x)
print('Accuracy: %.2f' % accuracy_score(test_y, prediction))

In [15]:
import joblib

v = joblib.load('data/count_vectorizer.pickle')
v

CountVectorizer()

In [16]:
list(v.vocabulary_.items())[:5]

[('최고', 85873), ('쓰레기', 55918), ('최악', 85944), ('감동', 4542), ('아깝다', 56482)]

In [17]:
test_tokens = joblib.load('data/test_tokens.pickle')
test_labels = list(joblib.load('data/test_label.pickle'))

test_x = v.transform([' '.join(tokens) for tokens in test_tokens]).toarray()
test_x.shape

(48995, 98670)

In [18]:
model = joblib.load('data/model-mg.pickle')
predictions = model.predict(test_x)
len(predictions)

48995

In [19]:
from sklearn.metrics import accuracy_score

acc = accuracy_score(test_labels, predictions)
acc

0.7948770282681906

In [21]:
f = joblib.load('data/total_feature_scaled.pickle')
f.shape

(194543, 5)

In [1]:
from konlpy.tag import Okt

o = Okt()
o.pos('아 집에 가고 싶다')

[('아', 'Exclamation'),
 ('집', 'Noun'),
 ('에', 'Josa'),
 ('가고', 'Verb'),
 ('싶다', 'Verb')]

In [1]:
import numpy as np

a = np.array([
    [[1, 2], [3, 4]],
    [[1, 3], [5, 7]],
])
a

array([[[1, 2],
        [3, 4]],

       [[1, 3],
        [5, 7]]])

In [3]:
a.mean(axis=1)

array([[2., 3.],
       [3., 5.]])

In [4]:
a.mean(axis=0)

array([[1. , 2.5],
       [4. , 5.5]])