# Word2Vec 
- 단어간의 유사성을 거리를 이용한 모델 학습 후 평점 예측

In [1]:
import pandas as pd
import re
import nltk
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

In [2]:
train = pd.read_csv('dataset/train.csv')

In [3]:
train.head()

Unnamed: 0,id,reviews,target
0,0,조아요 처음구입 싸게햇어요,2
1,1,생각보다 잘 안돼요 매지 바른지 하루밖에 안됐는데ㅠㅠ 25천원가량 주고 사기 너무 ...,1
2,2,디자인은괜찮은데 상품이 금이가서 교환했는데 두번째받은상품도 까져있고 안쪽에 금이가져...,2
3,3,기전에 이 제품말고 이마트 트레이더스에서만 팔던 프리미엄 제품을 사용했었습니다. 샘...,2
4,4,튼튼하고 손목을 잘 받쳐주네요~,5


In [4]:
print((train.target==1).sum())
print((train.target==2).sum())
print((train.target==3).sum())
print((train.target==4).sum())
print((train.target==5).sum())

4500
8000
0
2500
10000


- 타겟 먼저 확인. 3번이 없는것을 확인했고 1,2,4,5의 개수를 파악했다. 분류를 통해 4가지의 타겟을 맞추려 했으나 Word2Vec을 이용한 모델은 정확도가 0.39밖에 되지 않아서 타겟을 긍정과 부정으로 나누어서 실행해 보려고 한다.
- 긍정은 4보다 5가 많았고 부정은 1보다 2가 많은것을 볼 수 있다.

In [5]:
train['target'] = train['target'].replace(4,5).replace(1,2)
train['target'].unique()

array([2, 5], dtype=int64)

- train/val data set 분리

In [6]:
train_data, val_data = train_test_split(train, test_size=0.25, stratify = train.target,random_state =0) # 25프로로 설정

In [7]:
# 전처리 과정에서 데이터가 뒤섞이지 않도록 인덱스를 초기화
train_data = train_data.reset_index().drop('index', axis=1)
val_data = val_data.reset_index().drop('index', axis=1)

In [8]:
print(train_data.shape)
print(val_data.shape)

(18750, 3)
(6250, 3)


In [9]:
# training 데이터에서 변수 추출
train_X = train_data.reviews
train_y = train_data.target 

# validation 데이터에서 변수 추출
val_X = val_data.reviews 
val_y = val_data.target 

## Word2Vec 학습

In [10]:
from gensim.models import Word2Vec
from gensim.models import KeyedVectors 

In [11]:
model = Word2Vec(sentences = train_X, # 학습
                 vector_size=100,      # 임베딩된 벡터 차원 
                 window=10,             # 컨텍스트 윈도우 크기
                 min_count=5,          # 5번 이하는 X 
                 workers=40,           # 학습 프로세스 수 
                 sg=1)                 # 0= CBOW, 1= Skip-Gram
                                       # skipgram = 중심단어로 주변단어 예측 

In [12]:
def get_features(words, model, num_features):
    feature_vector = np.zeros((num_features),dtype=np.float32)

    num_words = 0
    index2word_set = set(model.wv.index_to_key)

    for w in words:
        if w in index2word_set:
            num_words += 1
            feature_vector = np.add(feature_vector, model.wv[w])

    feature_vector = np.divide(feature_vector, num_words)
    return feature_vector

In [13]:
def get_dataset(reviews, model, num_features):
    dataset = list()

    for s in reviews:
        dataset.append(get_features(s, model, num_features))

    reviewFeatureVecs = np.stack(dataset)
    
    return reviewFeatureVecs


In [14]:
train_x_w = get_dataset(train_X,model,100)
val_x_w = get_dataset(val_X,model,100)

In [15]:
L_model = LogisticRegression(max_iter=1000)

In [16]:
L_model.fit(train_x_w,train_y)

In [17]:
(L_model.predict(val_x_w) ==val_y).mean()

0.85056