### Naver Movie 데이터 세트

* 데이터 전처리
* 임베딩(tf-idf)
* 모델 : Logistic Regression

In [1]:
import os

import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer # tf-idf
from sklearn.model_selection import train_test_split # 데이터 셋 분할
from sklearn.linear_model import LogisticRegression # 모델 회귀 모형 이용

### [1] 데이터 세트 불러오기

In [2]:
BASIC_PATH = "C://Users/msi/Desktop/공부/자연어처리/Kaggle/Day2/naver_movie/dataset"

In [4]:
DATA_CLEAN_DATA = BASIC_PATH + "/train_clean.csv"

In [5]:
train_data = pd.read_csv(DATA_CLEAN_DATA)

In [6]:
document = list(train_data['document'])
label = list(train_data['label'])

In [7]:
document[100]

'신카이 마코토 작화 와 밉다 유 와 하나 카나 연기 를 잘 해주다 더 대박 이다'

In [10]:
# 결측치 확인
train_data[train_data['document'].isnull()]

Unnamed: 0,document,label


In [9]:
print(len(document))
print(len(label))

148653
148653


### [2] 임베딩(TF-IDF)

In [11]:
vectorizer = TfidfVectorizer(min_df = 0.0, analyzer="word", sublinear_tf=True,
                            ngram_range=(1,3), max_features=6000)

X = vectorizer.fit_transform(document) # 입력 값 -> 워드 임베딩
y = np.array(label) # 실제 결과

In [12]:
print(vectorizer.get_feature_names())

['ㄱㄱ', 'ㄷㄷ', 'ㄷㄷㄷ', 'ㄹㅇ', 'ㅂㅅ', 'ㅅㅂ', 'ㅇㅇ', 'ㅈㄴ', 'ㅉㅉ', 'ㅉㅉㅉ', 'ㅋㅋ', 'ㅋㅋ 근데', 'ㅋㅋ 보다', 'ㅋㅋ 재밌다', 'ㅋㅋ 진짜', 'ㅋㅋㅋ', 'ㅋㅋㅋ 진짜', 'ㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ', 'ㅎㄷㄷ', 'ㅎㅎ', 'ㅎㅎㅎ', 'ㅎㅎㅎㅎ', '가게', '가관', '가기', '가까이', '가깝다', '가끔', '가나', '가능', '가능성', '가능하다', '가다', '가다 모르다', '가다 모르다 보다', '가다 보다', '가다 아니다', '가다 없다', '가다 영화', '가다 좋다', '가다 하다', '가득', '가득하다', '가라', '가르다', '가르치다', '가리다', '가면', '가면 갈수록', '가미', '가볍다', '가볍다 않다', '가보다', '가보다 영화', '가사', '가수', '가슴', '가슴 따뜻하다', '가슴 따뜻하다 영화', '가슴 먹다', '가슴 먹다 먹다', '가슴 뭉클하다', '가슴 아프다', '가슴 찡하다', '가시', '가식', '가안', '가야', '가요', '가을', '가장', '가장 재미있다', '가장 재밌다', '가장 좋다', '가장 좋아하다', '가장 최악', '가장 크다', '가정', '가족', '가족 함께', '가족영화', '가지', '가지 않다', '가지 있다', '가지다', '가짜', '가치', '가치 없다', '가치 있다', '가하다', '가해자', '가히', '각각', '각본', '각본 연출', '각색', '각자', '간간히', '간다', '간단하다', '간만', '간만 보다', '간지', '간직', '간첩', '갇히다', '갈다', '갈등', '갈리다', '갈수록', '감각', '감기', '감다', '감독', '감독 만들다', '감독 배우', '감독 에게',

In [17]:
np.set_printoptions(threshold=np.inf, linewidth=np.inf) # 생략 없이 출력
print(X[0].toarray())

[[0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.         0.      

In [16]:
print(len(X[0].toarray()[0]))
print(X.shape)

6000
(148653, 6000)


### [3] 데이터 세트 분할 (Train + Validation)

In [18]:
RANDOM_SEED = 42
TEST_SPLIT = 0.2

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=TEST_SPLIT, 
                                                    random_state=RANDOM_SEED)

### [4] 모델 선언 및 훈련

In [19]:
lgs = LogisticRegression(class_weight='balanced')
lgs.fit(X_train, y_train)

LogisticRegression(class_weight='balanced')

### [5] 모델 예측(정확도 측정)

In [20]:
predicted = lgs.predict(X_val)
print("Accuracy : %f" % lgs.score(X_val, y_val)) # score()함수 => 정확도 측정

Accuracy : 0.835727


### [6] TEST 데이터 세트로 모델 확인(예측)

In [21]:
TEST_CLEAN_DATA = BASIC_PATH + "/test_clean.csv"
test_data = pd.read_csv(TEST_CLEAN_DATA)

In [22]:
test_data.head()

Unnamed: 0,document
0,굳다 ㅋ
1,뭐 야 평점 나쁘다 않다 점 짜다 리 더 더욱 아니다
2,지루하다 않다 완전 막장 임 돈 주다 보기 에는
3,만 아니다 별 다섯 개 주다 왜 로 나오다 제 심기 를 불편하다 하다
4,음악 주가 되다 최고 음악 영화


In [23]:
testDataVecs = vectorizer.fit_transform(test_data['document'])

In [24]:
test_predicted = lgs.predict(testDataVecs)

In [25]:
print(test_predicted)

[0 0 0 0 1 0 1 0 1 1 0 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 1 0 0 1 1 1 1 1 0 1 0 1 0 1 0 1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 1 0 0 1 0 1 1 0 1 0 0 1 1 0 1 0 0 0 0 0 1 0 0 1 1 1 0 1 0 1 0 1 1 1 1 0 0 0 0 1 1 1 0 0 0 1 0 0 1 0 1 1 0 1 0 1 1 1 1 0 1 0 1 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 1 1 1 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 1 1 1 1 0 0 1 1 1 1 0 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 0 1 0 1 0 1 1 1 0 1 1 0 0 0 1 0 0 1 0 0 1 1 1 0 1 0 1 1 0 1 0 0 0 0 1 1 0 1 1 1 0 0 0 0 0 0 1 1 1 1 0 1 1 1 1 1 0 1 0 0 1 1 1 0 1 0 1 0 0 0 0 0 0 0 0 1 1 1 0 1 1 0 1 1 0 0 1 1 1 1 1 0 1 0 1 1 1 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 0 1 0 0 1 1 0 1 1 0 0 0 1 0 0 0 0 1 1 1 1 0 1 0 1 1 0 0 1 1 1 1 1 1 0 0 0 0 1 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 0 0 1 0 0 0 1 0 1 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 1 0 1 1 1 1 1 0 0 1 1 0 0 0 0 0 1 0 1 0 1 1 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 1 1 0 1 0 1 0 0 1 1 0 0 1 0 0 1 1 1 0 0 1 1 1 0 1 1 1 0 0 1 1 1