### Naver Movie 데이터 세트

* 데이터 전처리
* 임베딩(CountVectorize)
* 모델 : RandomForest

In [1]:
import os

import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer # countvec 이용
from sklearn.model_selection import train_test_split # 데이터 셋 분할
from sklearn.ensemble import RandomForestClassifier # 모델 Random Forest 사용

### [1] 데이터 세트 불러오기

In [2]:
BASIC_PATH = "/dataset"

In [3]:
DATA_CLEAN_DATA = BASIC_PATH + "/train_clean.csv"
train_data = pd.read_csv(DATA_CLEAN_DATA)

In [4]:
documents = list(train_data['document'])
label = list(train_data['label'])


In [5]:
# 결측치 확인
train_data[train_data['document'].isnull()]

Unnamed: 0,document,label


In [6]:
print(len(documents)) # 148653
print(len(label)) # 148653

148653
148653


### [2] 임베딩(CountVectorizer)

In [9]:
vectorizer = CountVectorizer(analyzer = "word", max_features = 6000)

X = vectorizer.fit_transform(documents)
y = np.array(label)

In [10]:
print(vectorizer.get_feature_names())

['ㄱㄱ', 'ㄴㄴ', 'ㄷㄷ', 'ㄷㄷㄷ', 'ㄷㄷㄷㄷ', 'ㄹㅇ', 'ㅁㅊ', 'ㅂㅅ', 'ㅅㄱ', 'ㅅㅂ', 'ㅅㅅ', 'ㅆㄹㄱ', 'ㅇㅅㅇ', 'ㅇㅇ', 'ㅇㅇㅇ', 'ㅈㄴ', 'ㅈㄹ', 'ㅉㅉ', 'ㅉㅉㅉ', 'ㅋㅋ', 'ㅋㅋㅋ', 'ㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅎㄷㄷ', 'ㅎㅎ', 'ㅎㅎㅎ', 'ㅎㅎㅎㅎ', '가가', '가게', '가관', '가기', '가까이', '가깝다', '가끔', '가나', '가나다', '가난하다', '가능', '가능성', '가능하다', '가다', '가도', '가두다', '가득', '가득하다', '가든', '가라', '가르다', '가르치다', '가르침', '가리다', '가만히', '가면', '가문', '가미', '가버리다', '가볍다', '가보', '가보다', '가사', '가상하다', '가수', '가스', '가슴', '가슴속', '가시', '가시다', '가식', '가안', '가야', '가왜', '가요', '가운데', '가위', '가을', '가장', '가정', '가져다주다', '가져오다', '가족', '가족영화', '가지', '가지다', '가짜', '가치', '가치관', '가필드', '가하다', '가해자', '가히', '각각', '각본', '각색', '각성', '각심', '각인', '각자', '간간히', '간다', '간단하다', '간만', '간신히', '간의', '간절하다', '간접', '간지', '간직', '간첩', '갇히다', '갈다', '갈등', '갈리다', '갈망', '갈수', '갈수록', '감각', '감기', '감다', '감당', '감독', '감독판', '감동', '감명', '감사', '감사하

In [11]:
print(X[0].toarray())
print(len(X[0].toarray()[0])) # 6000
print(X.shape) # (148653, 6000)

[[0 0 0 ... 0 0 0]]
6000
(148653, 6000)


### [3] 데이터 세트 분할 (Train + Validation)

In [12]:
RANDOM_SEED = 42
TEST_SPLIT = 0.2

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=TEST_SPLIT, 
                                                  random_state=RANDOM_SEED)

### [4] 모델 선언 및 훈련

In [13]:
forest = RandomForestClassifier(n_estimators=1000) # n_estimators- 몇개의 랜덤 트리를 만들 것인지 설정
forest.fit(X_train, y_train)

KeyboardInterrupt: 

### [5] 모델 예측(정확도 측정)

In [None]:
print("Accuracy : %f" % forest.score(X_val, y_val)) # score()함수 => 정확도 측정
# Accuracy : 0.856800

### [6] TEST 데이터 세트로 모델 확인(예측)

In [None]:
TEST_CLEAN_DATA = BASIC_PATH + "/test_clean.csv"
test_data = pd.read_csv(TEST_CLEAN_DATA)
test_data.head(5)

# train때와 똑같이 임베딩 해줘야 한다(vectorizer 사용)
testDataVecs = vectorizer.fit_transform(test_data['document'])
test_predicted = forest.predict(testDataVecs)
print(test_predicted)