In [1]:
import os
import re
from random import randint

import gensim
from gensim.models import word2vec



In [2]:
# data_folder = os.path.join('data', '00_dec')
data_folder = os.path.join('data', '17_dec')

In [3]:
word2vec_folder = 'w2v_files'

In [4]:
# raw_log_file = os.path.join(data_folder, 'log_dratuti.txt')
clean_log_file = os.path.join(data_folder, 'clean_log_dratuti.txt')
raw_msgs_file = os.path.join(data_folder, 'raw_msgs.txt')
ltrs_only_msgs_file = os.path.join(data_folder, 'ltrs_only_msgs.txt')
no_stopwords_msgs_file = os.path.join(data_folder, 'no_stopwords_msgs.txt')
normalized_no_stopwords_msgs_file = os.path.join(data_folder, 'normalized_no_stopwords_msgs.txt')

In [5]:
def write_msgs(msgs, filename):
    with open(filename, 'w') as lf:
        lf.write('\n'.join([' '.join(msg) for msg in msgs]))
def read_msgs(filename):
    with open(filename) as lf:
        msgs = [line.split() for line in lf.readlines()]
    return msgs

# `Word2vec`

In [6]:
def print_similar_words(words, model):
    for w in words:
        print('--- ' + w + ' ---')
        for sim_w in model.similar_by_word(w):
            print('{} ({})'.format(sim_w[0], round(sim_w[1], 4)))
            # print(sim_w[0])
        print()

test_words_1 = ['пидор', 'хуй', 'тупка', 'wtf', 'няшка']
test_words_names = ['валентин', 'юра', 'тимофей']
test_words_synon = ['пидор', 'пидр', 'гей']

# Just messages

In [7]:
msgs = read_msgs(ltrs_only_msgs_file)

In [8]:
# %%time

num_features = 300    # Word vector dimensionality                      
min_word_count = 5   # Minimum word count                        
num_workers = 4       # Number of threads to run in parallel
context = 10           # Context window size
downsampling = 0.5   # Downsample setting for frequent words

model = word2vec.Word2Vec(msgs, 
                          workers = num_workers, 
                          size = num_features, 
                          min_count = min_word_count,
                          window = context, 
                          sample = downsampling)


model.save(os.path.join(word2vec_folder, 'model_w2v'))
print(model.syn0.shape)

(8504, 300)


In [9]:
print_similar_words(test_words_1, model)
print_similar_words(test_words_names, model)
print_similar_words(test_words_synon, model)

--- пидор ---
виктор (0.9833)
борис (0.9828)
вербов (0.9733)
кончился (0.9727)
ниоч (0.9714)
котейка (0.97)
заебал (0.969)
расскажи (0.9688)
крч (0.9658)
слыш (0.9643)

--- хуй ---
сука (0.9302)
ясно (0.9161)
такими (0.913)
фильм (0.9128)
юру (0.9057)
нормально (0.9054)
джс (0.9048)
субтитрами (0.9047)
вопрос (0.9024)
сиди (0.9006)

--- тупка ---
аня (0.9226)
няшка (0.9199)
раздобыл (0.902)
иисусе (0.8854)
христе (0.879)
господе (0.876)
споки (0.8746)
сучка (0.8726)
тимофей (0.8715)
трап (0.8715)

--- wtf ---
link (0.9887)
option (0.9877)
access (0.987)
package (0.9862)
russian (0.9861)
profile (0.9857)
things (0.9855)
ask (0.9848)
tab (0.9844)
okpdname (0.9844)

--- няшка ---
ах (0.9648)
тимофей (0.964)
раздобыл (0.9499)
босс (0.9478)
борис (0.9412)
молодец (0.941)
грубый (0.9384)
дерзкий (0.9369)
любишь (0.9347)
иисусе (0.9329)

--- валентин ---
бооом (0.9728)
манда (0.9673)
оригинальный (0.9651)
прекращай (0.9645)
крашеная (0.9609)
пст (0.96)
велик (0.9593)
фронтендер (0.955)
игрок 

# No stopwords

In [23]:
msgs_nosw = read_msgs(no_stopwords_msgs_file)

In [24]:
# %%time

num_features = 300    # Word vector dimensionality                      
min_word_count = 5   # Minimum word count                        
num_workers = 4       # Number of threads to run in parallel
context = 10           # Context window size
downsampling = 0.5   # Downsample setting for frequent words

model_nosw = word2vec.Word2Vec(msgs_nosw, 
                                workers = num_workers, 
                                size = num_features, 
                                min_count = min_word_count,
                                window = context, 
                                sample = downsampling)


model_nosw.save(os.path.join(word2vec_folder, 'model_w2v_no_stopwords'))
print(model_nosw.syn0.shape)

(8353, 300)


In [25]:
print_similar_words(test_words_1, model_nosw)
print_similar_words(test_words_names, model_nosw)
print_similar_words(test_words_synon, model_nosw)

--- пидор ---
та (0.9996)
бесит (0.9995)
еду (0.9995)
всем (0.9995)
хватит (0.9995)
сначала (0.9995)
голос (0.9994)
кого (0.9994)
имхо (0.9994)
делал (0.9994)

--- хуй ---
будешь (0.9998)
прям (0.9997)
пхп (0.9997)
буду (0.9997)
говорит (0.9997)
поняла (0.9997)
те (0.9997)
чота (0.9996)
написал (0.9996)
сегодня (0.9996)

--- тупка ---
бухать (0.999)
говном (0.999)
кофе (0.9989)
магаз (0.9988)
сделаем (0.9988)
умеешь (0.9987)
няшка (0.9987)
ебет (0.9987)
тимофей (0.9987)
пивка (0.9987)

--- wtf ---
sum (0.9997)
chrome (0.9996)
html (0.9996)
javascript (0.9996)
void (0.9996)
php (0.9996)
lastname (0.9996)
университета (0.9996)
row (0.9995)
борисов (0.9995)

--- няшка ---
шеф (0.9998)
катя (0.9995)
конфу (0.9994)
кофе (0.9992)
валя (0.9991)
поехавший (0.9991)
голубцов (0.999)
тупка (0.9987)
магаз (0.9986)
помоги (0.9986)

--- валентин ---
иван (0.9998)
бар (0.9998)
субботу (0.9997)
дай (0.9997)
косарь (0.9997)
эй (0.9997)
мной (0.9996)
тима (0.9996)
любит (0.9996)
питоне (0.9996)

--- юра

## Normalized with `pymorphy2`, no stopwords

In [26]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

def to_norm(word, morph_analyzer = morph):
    if word == 'чай':
        return word
    
    norm = morph.parse(word)[0].normal_form
    
    if norm in ['пидора', 'пидра', 'вегана']:
        return norm[:-1]
    
    if norm == 'нихуй':
        return 'нихуя'
    
    if norm == 'хуйль':
        return 'хуйли'
    
    if norm == 'хула':
        return 'хуле'
    
    if norm == 'штол':
        return 'штоле'
    
    if norm == 'гея':
        return 'гей'
    
    return norm

def normalize_msg(msg):
    if type(msg) == str:
        msg = msg.split()

    for w in msg:
        norm_w = to_norm(w)
        yield norm_w

In [27]:
msgs_nosw_norm = read_msgs(normalized_no_stopwords_msgs_file)

In [28]:
# %%time

num_features = 300    # Word vector dimensionality
min_word_count = 5   # Minimum word count                        
num_workers = 4       # Number of threads to run in parallel
context = 10           # Context window size
downsampling = 0.5   # Downsample setting for frequent words

model_nosw_norm = word2vec.Word2Vec(msgs_nosw_norm, 
                                     workers = num_workers, 
                                     size = num_features, 
                                     min_count = min_word_count,
                                     window = context, 
                                     sample = downsampling)


model_nosw_norm.save(os.path.join(word2vec_folder, 'model_w2v_nosw_norm'))
print(model_nosw_norm.syn0.shape)

(7141, 300)


In [29]:
print_similar_words(list(map(to_norm, test_words_1)), model_nosw_norm)
print_similar_words(list(map(to_norm, test_words_names)), model_nosw_norm)
print_similar_words(list(map(to_norm, test_words_synon)), model_nosw_norm)

--- пидор ---
сходить (0.9997)
еда (0.9997)
чот (0.9996)
голос (0.9994)
хватить (0.9994)
поехать (0.9994)
приветик (0.9994)
кухня (0.9993)
решить (0.9993)
метро (0.9993)

--- хуй ---
нравиться (0.999)
блять (0.999)
обсуждать (0.9989)
интересно (0.9988)
твой (0.9987)
бля (0.9987)
знаешь (0.9985)
норма (0.9981)
играть (0.9981)
понимать (0.9981)

--- тупка ---
позвать (0.9994)
плз (0.9993)
обижать (0.9993)
иван (0.9993)
максим (0.9992)
продать (0.9992)
магаз (0.9992)
пятница (0.9992)
кофе (0.9992)
фу (0.9991)

--- wtf ---
go (0.9997)
db (0.9997)
amount (0.9997)
row (0.9997)
sum (0.9997)
black (0.9996)
date (0.9996)
cu (0.9996)
location (0.9996)
false (0.9996)

--- няшка ---
шеф (0.9997)
косарь (0.9997)
опустить (0.9995)
мид (0.9995)
бомж (0.9994)
отпиздить (0.9994)
голубец (0.9994)
кончиться (0.9994)
дот (0.9993)
покер (0.9993)

--- валентин ---
пожаловаться (0.9997)
анекдот (0.9997)
сентябрь (0.9996)
держава (0.9996)
йо (0.9996)
нить (0.9996)
продаваться (0.9996)
пивко (0.9995)
мокрый (0

# Messages with words from the last `w2v` model

In [30]:
print(len(msgs))
print(len(msgs_nosw))
print(len(msgs_nosw_norm))

79307
75338
75338


In [31]:
ws = list(model_nosw_norm.vocab.keys())
print(len(ws))

7141


In [32]:
# msgs_with_popular = list(set([(sum(w in ws for w in msg)*100//len(msg), ' '.join(msg)) for msg in msgs_nosw_norm]))

msgs_with_popular = list(set([(sum(w in ws for w in msg)*100//len(msg), ' '.join(msg)) for msg in msgs_nosw_norm]))

In [33]:
msgs_with_popular.sort(reverse = True)

In [34]:
# msgs_with_popular[:20]

# msgs_with_popular[-20:]

-------

## Clustering

In [36]:
from sklearn.cluster import KMeans

In [50]:
word_vectors = model_nosw_norm.syn0
print(word_vectors.shape[0])

7141


In [51]:
# n_clusters = word_vectors.shape[0] // 100
n_clusters = word_vectors.shape[0] // 10
print(n_clusters)

714


In [52]:
km = KMeans(n_clusters = n_clusters, random_state = 14)

In [53]:
%%time
idx = km.fit_predict(word_vectors)

CPU times: user 1min 2s, sys: 33.4 s, total: 1min 35s
Wall time: 56.5 s


Create a Word / Index dictionary, mapping each vocabulary word to a cluster number


In [54]:
word_centroid_map = dict(zip(model_nosw_norm.index2word, idx))

In [57]:
for cluster in range(20):
    print("--- cluster {} --- ".format(cluster))

    # Find all of the words for that cluster number, and print them out
    words = []
    for i in range(len(word_centroid_map.values())):
        if( list(word_centroid_map.values())[i] == cluster ):
            words.append(list(word_centroid_map.keys())[i])
    print(words)
    print('\n')

--- cluster 0 --- 
['стричься', 'микросервис', 'граммар', 'бета', 'вайфай', 'графический', 'хохлов', 'трубка', 'билайн', 'офисный', 'скролл', 'поступать', 'стас', 'рандома', 'понятие', 'предсказать', 'подробно', 'ioc', 'подключение', 'лёша', 'желательно', 'подробность', 'предъява', 'скала', 'натурал', 'бабнуть', 'копьё', 'предпочтение', 'архитектор', 'выкатить', 'трекер', 'шляпа', 'хотяб', 'поп', 'восторг', 'процессоркомпоновкидать', 'депутат', 'посещение', 'весёлый', 'танцующий', 'жильё', 'стс', 'иной', 'удержаться', 'растение', 'начальный', 'выключать', 'пьяный', 'mr', 'казанов', 'запрещать', 'бизнесмен', 'плавать', 'миша', 'энергия', 'десяток', 'аудитория', 'аборт', 'самоубийца', 'выпуск', 'сабина', 'видеобаннер', 'чтонибыть', 'стабильность', 'злоба', 'северный', 'джавист']


--- cluster 1 --- 
['менее', 'довольно', 'консоль', 'решение', 'сервис', 'объект', 'й', 'отдел']


--- cluster 2 --- 
['for']


--- cluster 3 --- 
['подросток', 'смс', 'внезапно', 'выяснить', 'предмет', 'скидка

-------

In [56]:
# import sklearn
# from sklearn.feature_extraction.text import CountVectorizer
# vectorizer = CountVectorizer(analyzer = "word",
#                              tokenizer = None,
#                              preprocessor = None,
#                              stop_words = sw,
#                              max_features = 1000)

# %%time
# data_features = vectorizer.fit_transform(text_ltrs)

# feats = data_features.toarray()

# sum(sum(feats))

# vectorizer.get_feature_names()[-5:]