In [1]:
# importing the libraries
# basic stuff
import pandas as pd
import numpy as np
import math
import re
import nltk 
from nltk.tokenize import RegexpTokenizer
from nltk.stem import WordNetLemmatizer, PorterStemmer
from nltk.stem.snowball import SnowballStemmer 
from nltk.corpus import stopwords
from tqdm import tqdm
from pymystem3 import Mystem

# nltk stemmers
stemmerRu = SnowballStemmer("russian") 
stemmerEn = PorterStemmer()
# sklearn
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.cluster import AgglomerativeClustering



In [2]:
# preprocessing function
def preprocess(sentence):
    sentence=str(sentence)
    sentence = sentence.lower()
    sentence=sentence.replace('{html}',"") 
    cleanr = re.compile('<.*?>')
    cleantext = re.sub(cleanr, '', sentence)
    rem_url=re.sub(r'http\S+', '',cleantext)
    rem_num = re.sub('[0-9]+', '', rem_url)
    tokenizer = RegexpTokenizer(r'\w+')
    tokens = tokenizer.tokenize(rem_num)  
    filtered_words = [w for w in tokens if len(w) > 2 if not w in stopwords.words('russian')]
    #lem_words=[Mystem().lemmatize(w) for w in filtered_words]
    #stem_words=[stemmerRu.stem(w) for w in filtered_words]
    return " ".join(filtered_words)




In [3]:
#%time df.to_csv('/Users/apple/BDML/data/trained_clean.csv')
df = pd.read_csv(r'/Users/apple/BDML/data/trained_clean.csv')
df = df.drop(['Unnamed: 0', 'text'], axis = 1)
df.head()

Unnamed: 0,doc_id,clean
0,0,открыта вакансия составитель заявок рассмотрим...
1,1,неловкое чувство когдα боишься нαписαть челове...
2,2,нахуй нужна твоё отсутствие жизни делает люди ...
3,3,хотите уходите привыкать брат дома бесuт скуча...
4,4,представляете насколько весы нуждаются тепле л...


In [4]:
import artm


# creating the function for transformation to vowpal_wabbit format

def df_to_vw_regression(df, filepath='in.txt', columns=None, target=None, namespace='clean'):
    if columns is None:
        columns = df.columns.tolist()
    columns.remove(target)

    with open(filepath, 'w') as f:
        for _, row in tqdm(df.iterrows()):
            if namespace:
                f.write('|{0} '.format( namespace))
            else:
                f.write('{0} | '.format(row[target]))
            last_feature = row.index.values[-1]
            for idx, val in row.iteritems():
                if idx not in columns:
                    continue
                if isinstance(val, str):
                    f.write('{0}'.format(val.replace(' ', ' ').replace(':', ' ')))
                elif isinstance(val, float) or isinstance(val, int):
                    if not math.isnan(val):
                        f.write('{0}:{1}'.format(idx.replace(' ', ' ').replace(':', ' '), val))
                    else:
                        continue
                else:
                    f.write('{0}'.format(val.replace(' ', ' ').replace(':', ' ')))
                if idx != last_feature:
                    f.write(' ')
            f.write('\n')



In [5]:
# changing the type of data created
vw = df_to_vw_regression(df, filepath='data_df.txt', target='doc_id')

73987it [00:11, 6417.38it/s]


In [6]:

# batching data for applying it to our model
batch_vectorizer = artm.BatchVectorizer(data_path='data_df.txt',
                                        data_format='vowpal_wabbit',
                                        collection_name='vw',
                                        target_folder='batches2')

#batch_vectorizer = artm.BatchVectorizer(data_path='batches2', data_format='batches')


In [7]:
  # setting up dictionary
dictionary = batch_vectorizer.dictionary

In [8]:
number_of_topics = 60
topic_names = ['topic_{}'.format(i) for i in range(number_of_topics)]

# inial objects creation
model_artm = artm.ARTM(topic_names=topic_names,
                       cache_theta=True,
                       dictionary=dictionary, 
                       seed = 123,
                       show_progress_bars = True)

model_artm.scores.add(artm.PerplexityScore(name='PerplexityScore',dictionary = dictionary))
model_artm.scores.add(artm.SparsityPhiScore(name='SparsityPhiScore'))
model_artm.scores.add(artm.SparsityThetaScore(name='SparsityThetaScore'))
#model_artm.scores.add(artm.TopicKernelScore(name='TopicKernelScore',probability_mass_threshold=0.3))
model_artm.scores.add(artm.TopTokensScore(name='top_words',num_tokens = 10))

# additional regulizers
#model_artm.regularizers.add(artm.DecorrelatorPhiRegularizer(name='DecorrelatorPhi', tau=2.5e+4))
model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SparseTheta', tau=- 0.05))
#model_artm.regularizers.add(artm.SmoothSparsePhiRegularizer(name='SmoothPhi', tau= 0.3, topic_names= topic_names))#[35:]))

#setting up the number of tokens
model_artm.num_document_passes = 10

#initializing the model we've set up
model_artm.initialize(dictionary=dictionary)

In [None]:
# fitting the model
model_artm.fit_offline(batch_vectorizer=batch_vectorizer, num_collection_passes=16)

HBox(children=(IntProgress(value=0, description='Pass', max=16, style=ProgressStyle(description_width='initial…

HBox(children=(IntProgress(value=0, description='Batch', max=74, style=ProgressStyle(description_width='initia…

In [None]:
# phi and theta
artm_phi = model_artm.get_phi()
artm_theta = model_artm.get_theta()
## top_tokens
top_tokens = model_artm.score_tracker['top_words']
for topic_name in model_artm.topic_names:
    print ('\n',topic_name)
    for (token, weight) in zip(top_tokens.last_tokens[topic_name][:number_of_topics],top_tokens.last_weights[topic_name][:number_of_topics]):
        print (token, '-', weight)

In [None]:
perplexityScore = list(model_artm.score_tracker['PerplexityScore'].value)
perplexityScore[1:]

In [None]:
%matplotlib inline
import glob
import os
import matplotlib.pyplot as plt

# visualizing perplexity [1:]
plt.scatter(range(len(perplexityScore[1:])), perplexityScore[1:])
plt.xlabel('number of iterations')
plt.ylabel('perplexity score')

In [None]:
plt.scatter(range(len(perplexityScore[8:])), perplexityScore[8:])
plt.xlabel('number of iterations')
plt.ylabel('perplexity score')

In [None]:
lables = dict()
def unique_list(l):
    ulist = []
    [ulist.append(x) for x in l if x not in ulist]
    return ulist


# lemmatisation of top tokens

for topic_name in model_artm.topic_names:
    
    lables[topic_name] = ' '.join(word for word in top_tokens.last_tokens[topic_name][0:6])
    lables[topic_name] = ''.join(Mystem().lemmatize(lables[topic_name]))
    lables[topic_name] = ' '.join(unique_list(lables[topic_name].split()))
    
    print(lables[topic_name])
    
    artm_theta.rename({topic_name:lables[topic_name]}, inplace = True)

    
lables

In [None]:
artm_theta.head()

In [None]:
theta_transposed = artm_theta.transpose()
theta_transposed.head()

In [22]:

odd_themes = [
               'человек именно часто являться',
               'человек жизнь сегодня жить лишь',
               'человек жизнь значит твой',
               'сегодня друг день группа утро добрый',
               'человек любить жизнь',
               'человек лишь смерть мир',
               'что это как так я ты',
               'почему сегодня день делать знать говорить',
               'деньги день человек жизнь год',
               'делать вопрос год поэтому часто ставить',
               'несколько становиться дома снова смерть'
    ]



theta_transposed.drop(odd_themes,axis = 1, inplace = True)

theta_transposed.to_csv('theta_transposed.csv')
#theta_transposed = pd.read_csv(r'theta_transposed.csv').drop(['Unnamed: 0', 'text'], axis = 1)

df['theme'] = theta_transposed.idxmax(axis=1)
df.head()

Unnamed: 0,doc_id,clean,theme
0,0,открыта вакансия составитель заявок рассмотрим...,руб работа тело требоваться дом квартира
1,1,неловкое чувство когдα боишься нαписαть челове...,хотеть любовь друг жизнь рядом
2,2,нахуй нужна твоё отсутствие жизни делает люди ...,хотеть лайк нахуй любить блять репост
3,3,хотите уходите привыкать брат дома бесuт скуча...,хотеть лайк нахуй любить блять репост
4,4,представляете насколько весы нуждаются тепле л...,гороскоп сегодня рождаться июнь август июль


In [23]:
group_user = pd.read_csv(r'/Users/apple/BDML/data/group_user.csv')
lables = pd.read_csv(r'/Users/apple/BDML/data/train_ids.csv')


In [24]:
df = df.merge(lables, on = 'doc_id')
df.theme.unique()

array(['руб работа тело требоваться дом квартира',
       'хотеть любовь друг жизнь рядом',
       'хотеть лайк нахуй любить блять репост',
       'гороскоп сегодня рождаться июнь август июль',
       'любить глаз лишь снова сердце твой', 'компания рубль год млн',
       'женщина муж жена мужчина спать',
       'iphone apple видео новый android google',
       'год мама сказать говорить дверь домой',
       'новость книга запрещать интернет правда мир',
       'год век дизайн место дом музей',
       'продавать цена размер руб отдавать состояние',
       'область год россия район город дтп',
       'жизнь любовь мир счастие жить',
       'человек имя энергия деньги жизнь сила',
       'ученый год иметь собака длина', 'день нога мышца упражнение тело',
       'хотеть писать искать друг фото год',
       'цена наличие руб цвет рубль', 'альбом amp love рок группа',
       'игра матч футбол команда мир', 'год сша нью',
       'озеро город мир метр остров парк',
       'минута масло вода за

In [25]:
interests = group_user \
    .merge(df,left_on = 'group', right_on = '_id' ) \
    .drop(['clean', 'doc_id'], axis = 1) \
    .sort_values('user')

interests = interests.reset_index()

In [26]:

interests = interests.pivot_table(index = 'user', columns='theme') \
    .replace(np.nan, 0) 

    

In [27]:
interests.head()

Unnamed: 0_level_0,_id,_id,_id,_id,_id,_id,_id,_id,_id,_id,...,index,index,index,index,index,index,index,index,index,index
theme,bmw ряд петля mercedes лицо ford,iphone apple видео новый android google,александр год работа сергей андрей,альбом amp love рок группа,волос sex big tits anal,від ціна або але характеристика буде,год век дизайн место дом музей,год мама сказать говорить дверь домой,год сша нью,гороскоп сегодня рождаться июнь август июль,...,срок год доставка право день,ученый год иметь собака длина,фото фотография фотограф свадьба художник автор,хотеть лайк нахуй любить блять репост,хотеть любовь друг жизнь рядом,хотеть писать искать друг фото год,цена наличие руб цвет рубль,человек бизнес жизнь должный,человек жизнь ремарк,человек имя энергия деньги жизнь сила
user,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
138,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
175,0.0,-45106530.0,0.0,0.0,0.0,0.0,0.0,-101751654.0,-64173570.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,592831.0,0.0,0.0
176,0.0,-133887400.0,0.0,0.0,0.0,0.0,0.0,-44968251.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
200,0.0,0.0,-94885628.0,-35070028.0,0.0,0.0,-64497880.0,0.0,0.0,0.0,...,0.0,0.0,278168.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
252,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [28]:
# creating age groups
vk_user = pd.read_csv(r'/Users/apple/BDML/data/vk_profiles.csv')
age_sex = vk_user.loc[:, :'sex']
age_sex['age_group'] = pd.cut(age_sex.age, [0, 14, 20, 27, 36, 45, 54, 63, 72, 81])
#age_sex.head()

cut = age_sex
cut['count'] = 1
cut.pivot_table('count', index='age_group', columns='sex', aggfunc='sum')


sex,0,1
age_group,Unnamed: 1_level_1,Unnamed: 2_level_1
"(0, 14]",8,5
"(14, 20]",64,88
"(20, 27]",2676,2713
"(27, 36]",5910,8152
"(36, 45]",5091,7581
"(45, 54]",3518,4123
"(54, 63]",2585,2098
"(63, 72]",830,525
"(72, 81]",80,94


In [39]:
docs = group_user \
    .merge(df,left_on = 'group', right_on = '_id' ) \
    .sort_values('user')

docs = docs.reset_index()

docs.head()

Unnamed: 0,index,group,user,doc_id,clean,theme,_id
0,558370,-99736065,138,14686,франция париж версаль france paris palace vers...,озеро город мир метр остров парк,-99736065
1,419288,-20003922,175,63610,обновился виджет нравится появилась возможност...,iphone apple видео новый android google,-20003922
2,623465,-66670807,175,28354,док исключат точно вылетите работы сделав эффе...,человек бизнес жизнь должный,-66670807
3,495677,-34938229,175,52666,гарри поттер дары коммунизма самые читаемые кн...,человек бизнес жизнь должный,-34938229
4,466866,-31275926,175,55898,простые способы улучшения аналитических способ...,например поэтому работа время несколько часто,-31275926


In [43]:
ias = age_sex.merge(docs, left_on= 'id', right_on= 'doc_id')
ias.head()

Unnamed: 0,id,age,sex,age_group,count,index,group,user,doc_id,clean,theme,_id
0,138,34,1,"(27, 36]",1,722739,-168226939,200889172,138,admin орнул рта попе явно хватало предложку ме...,серия сезон видео фильм онлайн смотреть,-168226939
1,200,37,1,"(36, 45]",1,682945,-167225619,187068,200,скоро масштабный проект тнт песни приедет горо...,руб работа тело требоваться дом квартира,-167225619
2,200,37,1,"(36, 45]",1,682943,-167225619,8314216,200,скоро масштабный проект тнт песни приедет горо...,руб работа тело требоваться дом квартира,-167225619
3,200,37,1,"(36, 45]",1,682942,-167225619,28937911,200,скоро масштабный проект тнт песни приедет горо...,руб работа тело требоваться дом квартира,-167225619
4,200,37,1,"(36, 45]",1,682944,-167225619,163774251,200,скоро масштабный проект тнт песни приедет горо...,руб работа тело требоваться дом квартира,-167225619


In [75]:
groups = age_sex.loc[:,'age_group'].unique().astype(str)
age_sex['age_group'] = age_sex['age_group'].astype(str)

In [87]:
grouping = dict()
for o in range(2):
    for i in groups:
        grouping[str(i)+"_"+str(o)] = age_sex \
            .loc[(age_sex['sex'] == o) & (age_sex['age_group'] == i)]
    

In [89]:
grouping['(36.0, 45.0]1']

Unnamed: 0,id,age,sex,age_group,count
2,176,37,1,"(36.0, 45.0]",1
3,200,37,1,"(36.0, 45.0]",1
4,252,39,1,"(36.0, 45.0]",1
12,1221,43,1,"(36.0, 45.0]",1
46,4962,40,1,"(36.0, 45.0]",1
50,5463,38,1,"(36.0, 45.0]",1
93,9856,39,1,"(36.0, 45.0]",1
97,10236,38,1,"(36.0, 45.0]",1
117,12962,38,1,"(36.0, 45.0]",1
123,13398,38,1,"(36.0, 45.0]",1


In [None]:
ingroup_clusters = dict()
for a in grouping:
    ingroup_clusters[a] = AgglomerativeClustering(n_clusters=5, 
                                                  affinity='euclidean', 
                                                  linkage='ward') \
        .fit(a)

In [None]:
df.head

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
print(cosine_similarity(ingroup_clusters['(72, 81]1'], 
                        ingroup_clusters['(72, 81]0']))