### Kaggle Competetion
# Bag of Words meets Bag of Popcorn
## Tutorial 3 - K-means 군집화

In [1]:
import pandas as pd
import numpy as np
from gensim.models import Word2Vec
from sklearn.cluster import KMeans
from sklearn.ensemble import RandomForestClassifier

import time

from nltk.corpus import stopwords
import nltk.data

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [2]:
model = Word2Vec.load('model/02.300features_40minwords_10text')
model

<gensim.models.word2vec.Word2Vec at 0x1f893224d88>

In [3]:
# 숫자로 단어를 표현
# Word2Vec 모델은 어휘의 각 단어에 대한 feature 벡터로 구성되며 
# 'syn0'이라는 넘파이 배열로 저장된다.
# syn0의 행 수는 모델 어휘의 단어 수
# 컬럼 수는 2 부에서 설정 한 피처 벡터의 크기
type(model.wv.syn0)

  


numpy.ndarray

In [4]:
# syn0의 행 수는 모델 어휘의 단어 수
# 열 수는 2부에서 설정한 특징 벡터의 크기
model.wv.syn0.shape

  This is separate from the ipykernel package so we can avoid doing imports until


(11986, 300)

In [5]:
# 개별 단어 벡터 접근
model.wv['flower'].shape

(300,)

In [6]:
model.wv['flower'][:10]

array([-0.09226657, -0.0415086 , -0.10348549, -0.0360752 , -0.03338521,
        0.03581364, -0.06411014,  0.0577444 , -0.09917627,  0.02938064],
      dtype=float32)

## K-means (K평균)클러스터링으로 데이터 묶기

* [K-평균 알고리즘 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98)

- 클러스터링은 비지도 학습 기법
- 클러스터링은 유사성 등 개념에 기초해 몇몇 그룹으로 분류하는 기법
- 클러스터링의 목적은 샘플(실수로 구성된 n차원의 벡터)을 내부적으로는 비슷하지만 외부적으로 공통 분모가 없는 여러 그룹으로 묶는 것
- 특정 차원의 범위가 다른 차원과 차이가 크면 클러스터링 하기 전에 스케일을 조정해야 한다.

    1. 최초 센트로이드(centroid)(중심점)로 k개의 벡터를 무작위로 선정한다.
    2. 각 샘플을 그 위치에서 가장 가까운 센트로이드에 할당한다.
    3. 센트로이드의 위치를 재계산한다.
    4. 센트로이드가 더 이상 움직이지 않을 때까지 2와 3을 반복한다.

In [7]:
# 단어 벡터에서 k-means를 실행하고 일부 클러스터를 찍어본다.
start = time.time() # 시작시간

# 클러스터의 크기 "k"를 어휘 크기의 1/5 이나 평균 5단어로 설정한다.
word_vectors = model.wv.syn0 # 어휘의 feature vector
num_clusters = word_vectors.shape[0] / 5
num_clusters = int(num_clusters)

# K means 를 정의하고 학습시킨다.
kmeans_clustering = KMeans(n_clusters = num_clusters)
idx = kmeans_clustering.fit_predict(word_vectors)

# 끝난시간에서 시작시간을 빼서 걸린 시간을 구한다.
end = time.time()
elapsed = end - start
print("Time taken for K Means clustering: ", elapsed, "seconds.")

  """


Time taken for K Means clustering:  805.195728302002 seconds.


In [8]:
# 각 어휘 단어를 클러스터 번호에 매핑되게 word/Index 사전을 만든다.
idx = list(idx)
names = model.wv.index2word
word_centroid_map = {names[i]: idx[i] for i in range(len(names))}
#     word_centroid_map = dict(zip( model.wv.index2word, idx ))

# 첫번째 클러스터의 처음 10개를 출력
for cluster in range(0,10):
    # 클러스터 번호를 출력
    print("\nCluster {}".format(cluster))
    
    # 클러스터번호와 클러스터에 있는 단어를 찍는다.
    words = []
    for i in range(0, len(list(word_centroid_map.values()))):
        if(list(word_centroid_map.values())[i] == cluster):
            words.append(list(word_centroid_map.keys())[i])
    print(words)


Cluster 0
['nurs', 'housewif', 'housekeep', 'iri', 'handyman', 'gracious']

Cluster 1
['garish', 'anachronist', 'gaudi']

Cluster 2
['bomb', 'engin', 'helicopt', 'airplan', 'tank', 'rocket', 'aircraft', 'laser', 'missil', 'submarin', 'airlin', 'stealth', 'chopper', 'saucer', 'deton', 'torpedo', 'launcher', 'crossbow', 'malfunct', 'cockpit']

Cluster 3
['press', 'offici', 'defect', 'sponsor', 'oversea', 'pr', 'committe', 'congress', 'chairman', 'urgent', 'affili', 'survey']

Cluster 4
['hitchcock', 'alfr', 'kurosawa', 'polanski', 'chabrol', 'visconti', 'vertigo']

Cluster 5
['expert', 'intimid', 'conspir', 'unscrupul', 'emin', 'opportunist', 'ir', 'embezzl', 'unsavori', 'crafti', 'embitt', 'upright', 'incur', 'accumul']

Cluster 6
['frank', 'scott', 'oliv', 'ian', 'brando', 'matthau', 'randolph', 'beatti', 'reliabl', 'mcdowel', 'everett', 'alec', 'scroog', 'dustin', 'rupert', 'colman', 'voight', 'meredith', 'guin', 'coleman', 'burgess', 'oat', 'fishburn', 'holliday', 'corki', 'bogard',

In [9]:
train = pd.read_csv('data/labeledTrainData.tsv', 
                    header=0, delimiter="\t", quoting=3)
test = pd.read_csv('data/testData.tsv', 
                   header=0, delimiter="\t", quoting=3)
# unlabeled_train = pd.read_csv( 'data/unlabeledTrainData.tsv', header=0,  delimiter="\t", quoting=3 )

In [10]:
from KaggleWord2VecUtility import KaggleWord2VecUtility
# 학습 리뷰를 정제한다.
clean_train_reviews = []
for review in train["review"]:
    clean_train_reviews.append(
        KaggleWord2VecUtility.review_to_wordlist(review, remove_stopwords=True ))

In [11]:
# 테스트 리뷰를 정제한다.
clean_test_reviews = []
for review in test["review"]:
    clean_test_reviews.append(
        KaggleWord2VecUtility.review_to_wordlist(review, remove_stopwords=True ))

In [12]:
# bags of centroids 생성
# 속도를 위해 centroid 학습 세트 bag을 미리 할당
train_centroids = np.zeros((train["review"].size, num_clusters), dtype="float32")

train_centroids[:5]

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

In [13]:
# centroid 는 두 클러스터의 중심점을 정의 한 다음 중심점의 거리를 측정한 것
def create_bag_of_centroids(wordlist, word_centroid_map):
    
    # 클러스터의 수는 word / centroid map에서 가장 높은 클러스트 인덱스와 같다.
    num_centroids = max(word_centroid_map.values()) + 1
    
    # 속도를 위해 bag of centroids vector를 미리 할당한다.
    bag_of_centroids = np.zeros(num_centroids, dtype="float32")
    
    # 루프를 돌며 단어가 word_centroid_map에 있다면
    # 해당되는 클러스터의 수를 하나씩 증가시켜 준다.
    for word in wordlist:
        if word in word_centroid_map:
            index = word_centroid_map[word]
            bag_of_centroids[index] += 1
    
    # bag of centroids를 반환한다.
    return bag_of_centroids

In [14]:
# 학습 리뷰를 bags of centroids 로 변환
counter = 0
for review in clean_train_reviews:
    train_centroids[counter] = create_bag_of_centroids( review, word_centroid_map)
    counter += 1

# 테스트 리뷰도 같은 방법으로 반복
test_centroids = np.zeros(( test["review"].size, num_clusters), dtype="float32")

counter = 0
for review in clean_test_reviews:
    test_centroids[counter] = create_bag_of_centroids( review, word_centroid_map)
    counter += 1


# 랜덤포레스트를 사용하여 학습시키고 예측
forest = RandomForestClassifier(n_estimators = 100)

# train 데이터의 레이블을 통해 학습시키고 예측
print("Fitting a random forest to labeled training data...")
%time forest = forest.fit(train_centroids, train["sentiment"])

Fitting a random forest to labeled training data...
Wall time: 37.6 s


In [15]:
from sklearn.model_selection import cross_val_score
%time score = np.mean(cross_val_score(\
    forest, train_centroids, train['sentiment'], cv=10,\
    scoring='roc_auc'))

Wall time: 5min 9s


In [16]:
result = forest.predict(test_centroids)

In [17]:
score

0.912419008

In [18]:
# 결과를 csv로 저장
output = pd.DataFrame(data={"id":test["id"], "sentiment":result})
output.to_csv("data/03.submit_BagOfCentroids_{0:.5f}.csv".format(score), index=False, quoting=3)

**Kaggle competition score: 0.83632**

In [None]:
fig, axes = plt.subplots(ncols=2)
fig.set_size_inches(12,5)
sns.countplot(train['sentiment'], ax=axes[0])
sns.countplot(output['sentiment'], ax=axes[1])

In [20]:
output_sentiment = output['sentiment'].value_counts()
print(output_sentiment[0] - output_sentiment[1])
output_sentiment

416


0    12708
1    12292
Name: sentiment, dtype: int64