# 패키지 및 데이터 불러오기 불러오기

In [1]:
import pandas as pd
import numpy as np
import os
from sklearn.feature_extraction.text import CountVectorizer

In [2]:
DATA_IN_PATH = './data_in/'
DATA_OUT_PATH = './data_out/'
TRAIN_CLEAN_DATA = 'train_clean.csv'
TEST_SIZE = 0.2
RANDOM_SEED = 42

In [3]:
# 데이터 파일 열기
train_data = pd.read_csv(DATA_IN_PATH + TRAIN_CLEAN_DATA)

In [4]:
# 리뷰는 따로 리스트로 만들어준다
reviews = list(train_data['review'])
# 라벨값은 넘파이 배열로 만들어준다
y = np.array(train_data['sentiment'])

# CountVectorizer를 활용한 벡터화

In [5]:
# 객체 생성
vectorizer = CountVectorizer(analyzer = "word", max_features = 5000) 

# analyzer: 분석 단위를 지정한다. 'word'로 지정하면 분석 단위를 하나의 단어로 지정한다.
# max_features: 각 벡터의 최대 길이

# 리뷰 데이터에 CounterVectorize 적용
train_data_features = vectorizer.fit_transform(reviews)

# 학습과 검증 데이터 분리

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
# 학습 데이터와 평가 데이터를 나눈다.
train_input, eval_input, train_label, eval_label = train_test_split(train_data_features, y, test_size=TEST_SIZE, random_state=RANDOM_SEED)

# 모델 구현 및 학습 

In [8]:
from sklearn.ensemble import RandomForestClassifier


# 랜덤 포레스트 분류기에  100개 의사 결정 트리를 사용한다.
forest = RandomForestClassifier(n_estimators = 100) 

# 단어 묶음을 벡터화한 데이터와 정답 데이터를 가지고 학습을 시작한다.
forest.fit( train_input, train_label )

RandomForestClassifier()

In [9]:
print("Accuracy: %f" % forest.score(eval_input, eval_label))  # 검증함수로 정확도 측정

Accuracy: 0.843600


# 검증 데이터셋으로 성능 평가

In [10]:
TEST_CLEAN_DATA = 'test_clean.csv'

test_data = pd.read_csv(DATA_IN_PATH + TEST_CLEAN_DATA)

test_reviews = list(test_data['review'])
ids = list(test_data['id'])

In [11]:
test_data_features = vectorizer.transform(test_reviews)

# 데이터 제출하기

In [12]:
if not os.path.exists(DATA_OUT_PATH):
    os.makedirs(DATA_OUT_PATH)
    
# 위에서 만든 랜덤 포레스트 분류기를 통해 예측값을 가져온다.
result = forest.predict(test_data_features)

# 판다스 데이터 프레임을 통해 데이터를 구성해서 output에 넣는다.
output = pd.DataFrame( data={"id": ids, "sentiment": result} )

# 이제 csv파일로 만든다.
output.to_csv( DATA_OUT_PATH + "Bag_of_Words_model.csv", index=False, quoting=3 )