In [5]:
import nltk
from nltk.corpus import stopwords 
import re 
import numpy as np
import time
import pandas as pd

In [8]:
df2 = pd.read_csv('corpus.csv')
df = df2.drop(['story', 'url'], axis=1)
df = df.drop_duplicates()
df.loc[lambda df: df['title']=="Video Eurosport"]
df = df.drop([1308])
df.loc[lambda df: df['title']=="Video Eurosport"]

Unnamed: 0,title,descr


In [2]:
nltk.download('stopwords')

def tokenize(string):
    string = re.sub(r'[^\w\s]', ' ',  string)
    tokens = string.lower().split()
    words = [t for t in tokens if len(t) > 2]
    return words

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\User\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


In [9]:
# 2. токенизируем тексты с опциональной лемматизацией
# 3. строим словарь из слов, которые встречаются достаточно часто
# 4. представляем каждый текст как набор индексов слов в словаре

corpus = pd.concat([df['title'], df['descr']])

from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(
    min_df=10,
    max_df = 0.8,
    stop_words = stopwords.words('russian'),
    tokenizer=tokenize)

transformed_corpus = vectorizer.fit_transform(corpus)
print(transformed_corpus.shape)

vocab = vectorizer.vocabulary_
num_words = len(vocab)
print(num_words)

titles = vectorizer.transform(df['title'])
descrs = vectorizer.transform(df['descr'])
df['title_idx'] = [i.indices for i in titles]
df['descr_idx'] = [i.indices for i in descrs]
df=df[df['title_idx'].map(len) !=0]
df=df[df['descr_idx'].map(len) !=0]
print(df.shape)
df.head()

(198304, 16908)
16908
(97872, 4)


Unnamed: 0,title,descr,title_idx,descr_idx
0,Русские биатлонистки покорили спринт на Универ...,Это был не чемпионат России.,"[1307, 4471, 7429, 9764, 12504, 13769, 15099]","[12385, 16129, 16739]"
1,Россия обыграла США на Универсиаде и возглавил...,Красивая победа «Красной машины».,"[2319, 3349, 8848, 12400, 14222, 15099]","[6260, 6279, 7329, 10045]"
2,"«Аякс» не проигрывает, если открывает счет. 6 ...",Выдающаяся статистика сказочного матча.,"[1018, 9317, 11457, 11806, 12059, 14211, 15322]","[7295, 13928]"
4,Krone: в Австрии арестовали лыжника Дюрра. Он ...,Попался сам – пусть попадутся и другие.,"[422, 4051, 6906, 10585]","[4151, 10633, 11659]"
5,"Французская конькобежка подрезала кореянку, и ...",Женский финал на универсиаде в Красноярске пол...,"[2277, 6135, 12140, 15651]","[4362, 10546, 15099, 15461]"


In [59]:
# 5. инициализируем для каждого слова случайный вектор некоторой длины
def initialize(matrix_size = 128):
    matrix = np.array(np.random.normal(0.0001, 0.00001, matrix_size * num_words))
    matrix = np.reshape(matrix, newshape=(num_words, matrix_size))
    vt = np.zeros(matrix.shape, dtype=np.float16)
    return matrix, vt

In [11]:
# 7. представляем каждый текст как результат функции агрегации avg, применённой к векторам составляющих его слов

def get_vector(text_idx):
    return np.mean(matrix[text_idx], axis=0)

In [55]:
# 8. считаем функцию потерь warp

def warp(data, right_scalar, wrong_scalar, gamma = 1.0):
    loss = gamma - right_scalar + wrong_scalar
    if (loss > 0):
        return loss
    return

In [63]:
# 9. обновляем параметры модели

def update_sgdm(idx, gradient, vt, gamma=0.9, learning_rate=0.01):
    vt[idx] = gamma * vt[idx] + learning_rate * gradient
    matrix[idx] -= vt[idx]

In [14]:
# 10. убедиться что параметры модели удовлетворяют ограничениям unitnorm

def unitnorm(matrix):
    for i in range(len(matrix)):
        norm = np.sqrt(np.sum(matrix[i] ** 2))
        if (round(norm, 3) != 1):
            matrix[i] /= norm


In [15]:
# метрика качества модели

def get_dist(v1, v2):
    return 1 - np.dot(v1, np.transpose(v2)) / (np.linalg.norm(v1) * np.linalg.norm(v2))
  
def recall(data, k = 10):
    n_test = len(data)
    recall = 0
    descr_emb = [get_vector(data.iloc[[i]]['descr_idx'].values[0]) for i in range(n_test)]

    for i in range(n_test):
        title_emb = get_vector(data.iloc[[i]]['title_idx'].values[0])     
        dist_arr = []
        for i_1 in range(n_test):
            dist_arr.append(get_dist(title_emb, descr_emb[i_1]))

        sort_dist_arr = np.sort(dist_arr)
        if dist_arr[i] <= sort_dist_arr[k-1]:
            recall += 1

    return recall / n_test

In [16]:
train_data = df[:96808]
test_data = df[96808:97808]
print(len(train_data), len(test_data))

96808 1000


In [57]:

import sys
def train(train_data, test_data, n_epochs, vt, gamma, alpha, check_step=1000):
    for epoch in range(n_epochs):
        t1 = time.process_time()
        seq = np.random.permutation(len(train_data))
        n_steps = 0
        for i in seq:
            sample = train_data.iloc[[i]]
            title = sample['title_idx'].values[0]
            descr = sample['descr_idx'].values[0]
            first_title_vector = get_vector(title)
            first_descr_vector = get_vector(descr)    

            random_index = np.random.randint(len(train_data))
            while (random_index == i):
                random_index = np.random.randint(len(train_data))

            random_descr = train_data.iloc[[random_index]]['descr_idx'].values[0]
            random_descr_vector = get_vector(random_descr)

            right_scalar = np.dot(first_title_vector, first_descr_vector)
            wrong_scalar = np.dot(first_title_vector, random_descr_vector)
            loss = warp(train_data, right_scalar, wrong_scalar, i)
            if not loss:
                continue          

            gradients = ((first_descr_vector - random_descr_vector), first_title_vector, np.negative(first_title_vector))
            
            for i, g in zip([title, descr, random_descr], gradients):
                update_sgdm(i, g, vt, gamma, alpha)
            n_steps += 1
            if n_steps%50 == 49:
                sys.stdout.write("\rTraining: %f%%" % (100*(n_steps+1)/len(seq)))
                sys.stdout.flush()
            if n_steps % check_step == 0:
                unitnorm(matrix)
        test_recall = recall(test_data)
        t = time.process_time() - t1
        print("Epoch {:>2} : recall = {:>5}%  time = {:>4}s".format(epoch, round(test_recall, 2), round(t,3)))

In [18]:
# близкие слова

def knn(ind, k=10):
    dist_arr = {}

    for i in range(0, len(matrix)):
        dist_arr[i] = get_dist(matrix[ind], matrix[i])

    sorted_embs = sorted(dist_arr.items(), key=lambda kv: kv[1])[:k]
    for emb in sorted_embs:
        if emb[0] != ind:
            print("\t" + dict(zip(vocab.values(), vocab.keys()))[emb[0]])

In [65]:
matrix, vt = initialize(128)
train(train_data, test_data, 10, vt, 0.99, 0.01)

Training: 99.991736%Epoch 0 : recall =  0.21%  time = 203.172s
Training: 99.991736%Epoch 1 : recall =  0.21%  time = 187.691s
Training: 99.991736%Epoch 2 : recall =  0.23%  time = 191.442s
Training: 99.991736%Epoch 3 : recall =  0.24%  time = 190.892s
Training: 99.991736%Epoch 4 : recall =  0.26%  time = 194.739s
Training: 99.991736%Epoch 5 : recall =  0.26%  time = 198.231s
Training: 99.991736%Epoch 6 : recall =  0.26%  time = 195.673s
Training: 99.991736%Epoch 7 : recall =  0.28%  time = 193.941s
Training: 99.991736%Epoch 8 : recall =  0.31%  time = 197.587s
Training: 99.991736%Epoch 9 : recall =  0.31%  time = 195.387s


In [67]:
knn(vocab.get("роналду"))

	криштиану
	барселоны
	месси
	реала
	тренер
	жозе
	мадридского
	моуринью
	главный


In [69]:
knn(vocab.get("реал"))

	барселона
	хесе
	депортиво
	атлетику
	гранады
	коруньи
	барселону
	эспаньола
	каталонцам


In [76]:
knn(vocab.get("коньки"))

	форварды
	овечкин
	варламовым
	хоккеистов
	голосование
	хоккей
	нападающие
	марков
	хоккее
