# 프로그래머스 강의
github - [corazzon-github](https://github.com/corazzon/KaggleStruggle/)
## NLP method
1. **word2vec을 통한 모델 생성**하여 모델로 벡터의 평균을 구하여, 랜덤포레스트를 사용하여 예측.(part2에서 시행)

2. **Vector-quantization(벡터 양자화)**로 단어의 중심을 찾음으로써 클러스터링을 하고 랜덤포레스트로 예측 (part3에서 시행)


## K-means with NLP
벡터 양자화를 위하여 k-means와 같은 클러스터링 알고리즘을 사용한다. 

* K-means
    * word2vec은 의미가 관련있는 단어들의 클러스터를 생성하기 때문에 클러스터 내의 단어 유사성을 이용하는 것이다. 
    * 이런식으로 벡터를 그룹화 하는 것을 'vector quantization(벡터 양자화)'라고 한다.
    * 이를 위해서는 K-means와 같은 클러스터리 알고리즘을 사용하여 클러스터라는 단어의 중심을 찾아야 한다.
    * 비지도학습인 K-means를 통해 클러스터링을 하고 지도학습인 랜덤포레스트로 리뷰가 추천인지 아닌지를 예측한다.

In [1]:
import pandas as pd
import numpy as np
from gensim.models import Word2Vec
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier

from bs4 import BeautifulSoup
import re
import time

from nltk.corpus import stopwords
import nltk.data

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline



In [2]:
model = Word2Vec.load('300features_40minwords_10text') # 300 feature와 400min word, 10개의 text window
model

<gensim.models.word2vec.Word2Vec at 0x2840906df28>

In [3]:
# 숫자로 단어를 표현
# Word2Vec 모델은 어휘의 각 단어에 대한 feature 벡터로 구성되며 
# 'syn0'이라는 넘파이 배열로 저장된다.
# syn0의 행 수는 모델 어휘의 단어 수
# 컬럼 수는 2 부에서 설정 한 피처 벡터의 크기
type(model.wv.syn0)

  


numpy.ndarray

In [4]:
# syn0의 행 수는 모델 어휘의 단어 수
# 열 수는 2부에서 설정한 특징 벡터의 크기
model.wv.syn0.shape

  This is separate from the ipykernel package so we can avoid doing imports until


(11986, 300)

In [5]:
# 개별 단어 벡터 접근
model.wv['flower'].shape

(300,)

In [6]:
model.wv['flower'][:10]


array([ 0.01080903, -0.0272022 ,  0.0031521 , -0.01389461, -0.0097832 ,
        0.09947107, -0.03870872, -0.01805819, -0.11280139,  0.03873673],
      dtype=float32)

## K-means (K-평균)클러스터링으로 데이터 묶기
* K-평균 알고리즘 - 위키백과, 우리 모두의 백과사전
* 클러스터링은 비지도 학습 기법
* 클러스터링은 유사성 등 개념에 기초해 몇몇 그룹으로 분류하는 기법
* 클러스터링의 목적은 샘플(실수로 구성된 n차원의 벡터)을 내부적으로는 비슷하지만 외부적으로 공통 분모가 없는 여러 그룹으로 묶는 것
* 특정 차원의 범위가 다른 차원과 차이가 크면 클러스터링 하기 전에 스케일을 조정해야 한다.
    1. 최초 센트로이드(centroid)(중심점)로 k개의 벡터를 무작위로 선정한다.
    2. 각 샘플을 그 위치에서 가장 가까운 센트로이드에 할당한다.
    3. 센트로이드의 위치를 재계산한다.
    4. 센트로이드가 더 이상 움직이지 않을 때까지 2와 3을 반복한다.
    
참고 : [책] 모두의 데이터 과학(with 파이썬)

In [7]:

# 클러스터의 크리 "k"를 어휘 크기의 1/5이나 평균 5단어로 설정한다.
word_vectors = model.wv.syn0 # 어휘의 featrue vector

  after removing the cwd from sys.path.


In [8]:
word_vectors

array([[-0.08088318, -0.0112606 ,  0.09067289, ...,  0.06511134,
        -0.11464473,  0.07220144],
       [-0.04454662, -0.00670921, -0.09436098, ...,  0.00109811,
        -0.12423973,  0.0094285 ],
       [-0.04313657,  0.00381213,  0.03416809, ..., -0.01421188,
        -0.08295558,  0.05679886],
       ...,
       [-0.08443179, -0.15630306,  0.02527716, ..., -0.04110841,
         0.05238528, -0.08074894],
       [-0.0552061 , -0.02151591, -0.05291229, ..., -0.09050909,
        -0.02749471,  0.0310266 ],
       [-0.06902225,  0.00431364, -0.00725025, ..., -0.14348069,
         0.05668186,  0.03577482]], dtype=float32)

In [9]:
num_clusters = word_vectors.shape[0] #5
num_clusters = int(num_clusters)


# 단어 벡터에서 k-means를 실행하고 일부 클러스터를 찍어본다.
start = time.time()


# K means를 정의하고 학습시킨다. 


kmeans_clustering = KMeans(n_clusters = num_clusters)
idx = kmeans_clustering.fit_predict(word_vectors)

# 끝난시간에서 시작시간을 빼서 걸린 시간을 구한다.
end = time.time()
elapsed = end - start
print("Time taken for K Means clustering: ", elapsed, "seconds.")

  return distances if squared else np.sqrt(distances, out=distances)
  max_iter=max_iter, verbose=verbose)


Time taken for K Means clustering:  2179.213337659836 seconds.


In [11]:
# 각 어휘 단어를 클러스터 번호에 매핑되게 word/Index 사전을 만든다.
idx = list(idx)
names = model.wv.index2word
word_centroid_map = {names[i]: idx[i] for i in range(len(names))}
#     word_centroid_map = dict(zip( model.wv.index2word, idx ))

# 첫번째 클러스터의 처음 10개를 출력
for cluster in range(0,10):
    # 클러스터 번호를 출력
    print("\nCluster {}".format(cluster))
    
    # 클러스터번호와 클러스터에 있는 단어를 찍는다.
    words = []
    for i in range(0,len(list(word_centroid_map.values()))):
        if( list(word_centroid_map.values())[i] == cluster ):
            words.append(list(word_centroid_map.keys())[i])
    print(words)


Cluster 0
['gabriel']

Cluster 1
['rehabilit']

Cluster 2
['brainless']

Cluster 3
['wisdom']

Cluster 4
['truck']

Cluster 5
['poland']

Cluster 6
['rous']

Cluster 7
['riff']

Cluster 8
['yellow']

Cluster 9
['unflinch']


In [None]:
train = pd.read_csv('../input/labeledTrainData.tsv', 
                    header=0, delimiter='\t', quoting=3)

test = pd.read_csv('../input/testData.tsv', 
                   header=0, delimiter='\t', quoting=3)

In [None]:
from KaggleWord2VecUtility import KaggleWord2VecUtility
# 학습 리뷰를 정제한다.
clean_train_reviews = []
for review in train["review"]:
    clean_train_reviews.append(
        KaggleWord2VecUtility.review_to_wordlist( review, \
        remove_stopwords=True ))
    

# 테스트 리뷰를 정제한다.
clean_test_reviews = []
for review in test["review"]:
    clean_test_reviews.append(
        KaggleWord2VecUtility.review_to_wordlist( review, \
        remove_stopwords=True ))

In [None]:
# bags of centroids 생성
# 속도를 위해 centroid 학습 세트 bag을 미리 할당 한다.
train_centroids = np.zeros((train["review"].size, num_clusters), \
    dtype="float32" )

train_centroids[:5]