In [16]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from sklearn.datasets.samples_generator import make_blobs
from sklearn.cluster import KMeans
from gensim.models import KeyedVectors

In [14]:
embeddings_file = "./embeddings/ubercorpus.cased.tokenized.word2vec.300d"

In [17]:
word2vec = KeyedVectors.load_word2vec_format(embeddings_file)

In [116]:
class ClusterNgram:
    def __init__(self, word2vec):
        self.word2vec = word2vec
        
        
    
    def cluster_n_grams(self, ngrams, num_cluster):
        X = self.__convert_ngrams_to_vectors(ngrams)
        kclusterer = KMeansClusterer(num_cluster, distance=nltk.cluster.util.cosine_distance, repeats=100)
        y = kclusterer.cluster(X, assign_clusters=True)
        
        top_indices = self.__find_top_n_gram_indices(X, y, kclusterer.means())
        
        return np.array(ngrams)[top_indices]
        
        
    
    def __find_top_n_gram_indices(self, X, y, centroids):
        min_dis = len(centroids)*[100]
        top_indices = len(centroids)*[-1]
        for i in range(0, len(centroids)):
            for j in range(0, len(X)):
                if y[j] != i:
                    continue
                
                dis = nltk.cluster.util.cosine_distance(X[j], centroids[i])
                if min_dis[i] > dis:
                    min_dis[i] = dis
                    top_indices[i] = j
        
        return top_indices
                    
    
    def __convert_ngrams_to_vectors(self, ngrams):
        X = []
        for ngram in ngrams:
            words = tokenize_uk.tokenize_words(ngram)
            x = word2vec[words[0]]
            for i in range(1, len(words)):
                x = x + word2vec[words[i]]
            X.append(x)
        return X

In [117]:
cluster_ngram = ClusterNgram(word2vec)

In [146]:
from IPython.display import display, HTML

CSS = """
.output {
'dd'
    flex-direction: row;
}
"""

HTML('<style>{}</style>'.format(CSS))

In [132]:
phrases

['ввічливий персонал', 'чиста кімната', 'привітний персонал', 'свіже повітря']

In [142]:
bigrams = [
    'ввічливий персонал',
    'чудовий готель',
    'привітний персонал',
    'дуже чисто',
    'чиста кімната',
    'чудовий персонал'
]

In [143]:
display(bigrams)
display(cluster_ngram.cluster_n_grams(bigrams, 2).tolist())

['ввічливий персонал',
 'чудовий готель',
 'привітний персонал',
 'дуже чисто',
 'чиста кімната',
 'чудовий персонал']

['дуже чисто', 'чудовий персонал']

In [148]:
print("\n===Bi-grams===")
print(bigrams)
print("\n===Clustered bi-grams===")
cluster_ngram.cluster_n_grams(bigrams, 2).tolist()


===Bi-grams===
['ввічливий персонал', 'чудовий готель', 'привітний персонал', 'дуже чисто', 'чиста кімната', 'чудовий персонал']

===Clustered bi-grams===


['дуже чисто', 'чудовий персонал']

In [134]:
cluster_ngram.cluster_n_grams(bigrams, 2).tolist()

['чисте повітря', 'чудовий персонал']

In [124]:
!ls data

bigram-pmi-negative-scores.csv  ukrainian-stopwords.txt
bigram-pmi-positive-scores.csv  unigram-pmi-negative-scores.csv
trigram-pmi-negative-scores.csv unigram-pmi-positive-scores.csv
trigram-pmi-positive-scores.csv


In [123]:
import pandas as pd

In [126]:
positive_bigram_dict_df = pd.read_csv('./data/bigram-pmi-positive-scores.csv')

In [127]:
positive_bigram_dict_df

Unnamed: 0,ngram,score
0,чудовий сніданок,0.255065
1,розташування хороший,0.255065
2,чистота затишок,0.255065
3,тепло чисто,0.255065
4,усім необхідним,0.255065
5,персонал смачний,0.254037
6,номері необхідне,0.253878
7,просторий чистий,0.253786
8,торговий центр,0.253465
9,розташування приємний,0.253423
