In [1]:
import numpy as np
import pandas as pd
import os
from sklearn.feature_extraction.text import CountVectorizer # BOW 방법

In [2]:
DATA_IN_PATH = './data_in/'
DATA_OUT_PATH = './data_out/'
TRAIN_CLEAN_DATA = 'train_clean.csv'

TEST_SIZE = 0.2
RANDOM_SEED = 42

train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)

reviews = list(train_data['review'])
y = np.array(train_data['sentiment'])

# CountVectorizer 활용 벡터화 
- Bag of Words 방식 피쳐 추출

In [3]:
vectorizer = CountVectorizer(analyzer='word',
                            max_features=5000)
train_data_features = vectorizer.fit_transform(reviews)

# 학습/검증 데이터 분리

In [4]:
from sklearn.model_selection import train_test_split

train_input, eval_input, train_label, eval_label = \
   train_test_split(train_data_features, y, test_size=TEST_SIZE,
                    random_state=RANDOM_SEED)

# 모델 구현 및 학습

In [5]:
from sklearn.ensemble import RandomForestClassifier

# 100개의 의사 결정 트리 사용
forest = RandomForestClassifier(n_estimators = 100)

# 모델 학습
forest.fit(train_input, train_label)

# 정확도 측정
print("Accuracy: %f" % forest.score(eval_input, eval_label))

Accuracy: 0.846600


# test 데이터셋으로 성능 평가 (예측)

In [6]:
TEST_CLEAN_DATA = 'test_clean.csv'

test_data = pd.read_csv(DATA_IN_PATH + TEST_CLEAN_DATA)

test_reviews = list(test_data['review'])
ids = list(test_data['id'])

# 사용했던 vectorizer 가지고 fit하지 않고 그냥 transform
test_data_features = vectorizer.transform(test_reviews)

# 학습시킨 랜덤포레스트분류기로 예측
result = forest.predict(test_data_features)
# array([1, 0, 1, ..., 0, 1, 0], dtype=int64)

# 데이터 제출 
output = pd.DataFrame(data={'id':ids, 'sentiment':result})
output.to_csv(DATA_OUT_PATH + "Bag_of_Words_model.csv",
              index=False, quoting=3)

캐글 제출 결과: 0.84432
- 앞선 tfidf, word2vec 보다 낮은 성능 
    - 모델은 그대로, feature extraction 방법을 다르게 해보기! 