## 패키지/데이터 불러오기

In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
DATA_IN_PATH = './data_in/'
DATA_OUT_PATH = './data_out/'
TRAIN_CLEAN_DATA = 'train_clean.csv'
TEST_SIZE = 0.2
RANDOM_SEED = 42

In [3]:
train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)
reviews=list(train_data['review'])
y = np.array(train_data['sentiment'])

In [4]:
# 불러온 데이터를 feature vector로 만들어야 함. 모델의 입력값으로 사용하기 위해서는!
# 따라서 CountVectorizer로 객체 생성, 리뷰 덱스트 데이터 적용


## Vectorization _ CountVectorizer

In [5]:
vectorizer = CountVectorizer(analyzer = 'word', max_features = 5000)
train_data_features = vectorizer.fit_transform(reviews)

## 학습/검증 데이터 분리

In [6]:
TEST_SIZE = 0.2
RANDOM_SEED = 42

from sklearn.model_selection import train_test_split
X_train, X_eval, y_train, y_eval = train_test_split(train_data_features, y, test_size = TEST_SIZE, random_state = RANDOM_SEED)

## 모델 구현 + 학습

In [7]:
from sklearn.ensemble import RandomForestClassifier # RandomForestClassifier 객체를 사용해 구현

# 100개의 트리 사용
forest = RandomForestClassifier(n_estimators = 100)

# 단어 묶음을 벡터화한 데이터, 정답 데이터를 가지고 학습을 시작
forest.fit(X_train, y_train)

RandomForestClassifier()

In [8]:
print("Accuracy: {}".format(forest.score(X_eval, y_eval))) # score 함수 쓰면 default를 accuracy로 알려줌

Accuracy: 0.8442


## test 데이터셋으로 성능 평가


In [9]:
TEST_CLEAN_DATA = 'test_clean.csv'

test_data = pd.read_csv(DATA_IN_PATH + TEST_CLEAN_DATA)
test_reviews = list(test_data['review'])
ids = list(test_data['id'])

In [10]:
test_data_features = vectorizer.transform(test_reviews)

## 데이터 제출하기

In [11]:
result = forest.predict(test_data_features)

output = pd.DataFrame(data = {'id': ids, 'sentiment': result})

output.to_csv(DATA_OUT_PATH + 'Bag_of_Words_model.csv', index = False, quoting = 3)