In [7]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

import os

## Data preprocessing

In [2]:
ratings = pd.read_csv('ratings.csv')
ratings.columns = ratings.columns.str.replace('Unnamed: 0', 'User_id')
ratings.head()

Unnamed: 0,User_id,0,1,2,3,4,5,6,7,8,...,9989,9990,9991,9992,9993,9994,9995,9996,9997,9998
0,0,0.8,,,,1.0,,2.2,0.8,3.4,...,,,2.1,,,1.2,,,,0.2
1,1,,,,,,3.5,,1.3,,...,,0.5,1.6,3.1,,0.5,,,0.6,
2,2,,,,,,,2.7,4.4,1.7,...,,,,,0.3,,,,,
3,3,,,,,,,,,2.5,...,2.3,0.5,1.0,,,0.2,0.3,,0.5,
4,4,,,1.3,0.0,,,,1.1,,...,,,4.9,,,0.3,1.0,,1.0,


In [3]:
ratings = pd.melt(ratings, id_vars='User_id', value_vars=ratings.columns[1:]).sort_values(by='User_id').dropna()
ratings.columns = ratings.columns.str.replace('value', 'rating')
ratings.columns = ratings.columns.str.replace('variable', 'Registration number')
ratings

Unnamed: 0,User_id,Registration number,rating
0,0,0,0.8
16525,0,668,3.5
49725,0,2004,2.4
197550,0,7994,3.7
77475,0,3132,1.2
...,...,...,...
69949,24,2824,2.4
234599,24,9486,3.7
12674,24,513,1.1
189499,24,7668,4.0


In [4]:
ratings.to_csv('ratings.csv')

In [5]:
df = pd.read_excel('Providers.xlsx').drop(columns=['№'])
providers = df[['Регистрационный номер', 'Наименование', 'Вид деятельности/отрасль', 'Телефон', 
                'Предмет поставки', 'Важная информация', 'Сводный индикатор', 'Уставный капитал, RUB',
                'Вид деятельности/отрасль', 'Руководитель - ФИО']].rename_axis('Registration number').reset_index()
providers

Unnamed: 0,Registration number,Регистрационный номер,Наименование,Вид деятельности/отрасль,Телефон,Предмет поставки,Важная информация,Сводный индикатор,"Уставный капитал, RUB",Вид деятельности/отрасль.1,Руководитель - ФИО
0,0,1142651006398,"1-АЯ ВАТЕР КОМПАНИ, ООО","Торговля оптовая соками, минеральной водой и п...",+7 (879) 3259919,,,Низкий риск,100000.0,"Торговля оптовая соками, минеральной водой и п...",Коптиевский Вадим Валерьевич
1,1,1080276000298,"108 ЧК, ООО","Торговля оптовая кофе, чаем, какао и пряностями",+7 (347) 2374074,,На 24.05.2023 22:06 имеются действующие решени...,Средний риск,10000.0,"Торговля оптовая кофе, чаем, какао и пряностями",Мухамадиева Динара Фандусовна
2,2,1197746593835,"13 УСТРИЦ, ООО","Торговля оптовая рыбой, ракообразными и моллюс...",,,,Низкий риск,25000.0,"Торговля оптовая рыбой, ракообразными и моллюс...",Буторина Екатерина Владимировна
3,3,1167847127953,"16-Я РЕСПУБЛИКА, ООО",Торговля оптовая неспециализированная пищевыми...,+7 (495) 0035916\n+7 (800) 1001681,,,Высокий риск,10000.0,Торговля оптовая неспециализированная пищевыми...,Жилина Галина Ивановна
4,4,1121103001018,"21 ВЕК, ООО",Торговля оптовая пивом,+7 (82151) 55207,,,Низкий риск,10000.0,Торговля оптовая пивом,Закирова Наталья Николаевна
...,...,...,...,...,...,...,...,...,...,...,...
9995,9995,1177746445250,"ЯГОДЫ СИБИРИ, ООО",Торговля оптовая фруктами и овощами,+7 (905) 7703286,,,Высокий риск,300000.0,Торговля оптовая фруктами и овощами,Лебедева Олеся Олеговна
9996,9996,1042127014236,"ЯГУАР, ООО",Торговля оптовая напитками,+7 (8352) 632320\n+7 (8352) 635657\n+7 (8352) ...,,На 19.03.2023 22:05 имеются действующие решени...,Высокий риск,10090000.0,Торговля оптовая напитками,Мухин Дмитрий Алексеевич
9997,9997,1159102132640,"ЯГУАР, ООО",Торговля оптовая фруктами и овощами,+7 (978) 1273228\n+7 (978) 7407340,01.24.29.110 Черешня\n01.25.31.000 Миндаль\n01...,,Низкий риск,10000.0,Торговля оптовая фруктами и овощами,Буздаков Антон Александрович
9998,9998,1192130009026,"ЯДРИНСКИЙ КООПТОРГ, ООО",Торговля оптовая неспециализированная пищевыми...,+7 (960) 3065036,,,Низкий риск,250000.0,Торговля оптовая неспециализированная пищевыми...,Казамбаева Людмила Виссарионовна


In [6]:
providers.to_csv('providers.csv')

In [None]:
ratings = pd.read_csv('ratings.csv').drop(['Unnamed: 0'], axis=1)
providers = pd.read_csv('providers.csv').drop(['Unnamed: 0'], axis=1)

## Matrix Factorization

In [10]:
from sklearn.preprocessing import LabelEncoder
from scipy.sparse import csr_matrix

In [11]:
import warnings
warnings.filterwarnings('ignore')

In [12]:
def ttsplit(examples, labels, test_size=0.1, verbose=0):
    from sklearn.model_selection import train_test_split 
    
    if verbose:
        print("Train/Test split ")
        print(100-test_size*100, "% of training data")
        print(test_size*100, "% of testing data")    

    # split data into train and test sets
    train_examples, test_examples, train_labels, test_labels = train_test_split(
        examples, 
        labels, 
        test_size=0.1, 
        random_state=42, 
        shuffle=True
    )

    # transform train and test examples to their corresponding one-hot representations
    train_users = train_examples[:, 0]
    test_users = test_examples[:, 0]

    train_items = train_examples[:, 1]
    test_items = test_examples[:, 1]

    # Final training and test set
    x_train = np.array(list(zip(train_users, train_items)))
    x_test = np.array(list(zip(test_users, test_items)))

    y_train = train_labels
    y_test = test_labels

    if verbose:
        print()
        print('number of training examples : ', x_train.shape)
        print('number of training labels : ', y_train.shape)
        print('number of test examples : ', x_test.shape)
        print('number of test labels : ', y_test.shape)

    return (x_train, x_test), (y_train, y_test)

def mean_ratings(dataframe):
    means = dataframe.groupby(by='User_id', as_index=False)['rating'].mean()
    return means


def normalized_ratings(dataframe, norm_column="norm_rating"):
    """
    Нормализация рейтинга пользователя относительно общего среднего
    """
    mean = mean_ratings(dataframe=dataframe)
    norm = pd.merge(dataframe, mean, suffixes=('', '_mean'), on='User_id')
    norm[f'{norm_column}'] = norm['rating'] - norm['rating_mean']

    return norm


def rating_matrix(dataframe, column):
    crosstab = pd.crosstab(dataframe['User_id'], dataframe['Registration number'], dataframe[f'{column}'], aggfunc=sum).fillna(0).values()
    matrix = csr_matrix(crosstab)
    return matrix


def scale_ratings(dataframe, scaled_column="scaled_rating"):
    dataframe[f"{scaled_column}"] = dataframe.rating / 5.0
    return dataframe


def get_examples(dataframe, labels_column="rating"):
    examples = dataframe[['User_id', 'Registration number']].values
    labels = dataframe[f'{labels_column}'].values
    return examples, labels

In [13]:
def ids_encoder(ratings):
    """
        Энкодер для более удобной работы
    """
    users = sorted(ratings['User_id'].unique())
    items = sorted(ratings['Registration number'].unique())

    # энкодер для пользователей и элементов
    uencoder = LabelEncoder()
    iencoder = LabelEncoder()

    # fit
    uencoder.fit(users)
    iencoder.fit(items)

    # перезапись ID
    ratings['User_id'] = uencoder.transform(ratings['User_id'].tolist())
    ratings['Registration number'] = iencoder.transform(ratings['Registration number'].tolist())

    return ratings, uencoder, iencoder

## Model

In [16]:
class MatrixFactorization:
    
    def __init__(self, m, n, k=10, alpha=0.001, lamb=0.01):
        """
              
        : param
            - m : кол-во пользователей
            - n : кол-во элементов
            - k : длина факторов (для пользователей и элементов)
            - alpha : learning rate 
            - lamb : regularizer
        """
        np.random.seed(0)
        
        # создаем матрицы P / Q
        self.k = k
        self.P = np.random.normal(size=(m, k))
        self.Q = np.random.normal(size=(n, k))
        
        # сохраняем гиперпараметры
        self.alpha = alpha
        self.lamb = lamb
        
        # словарь для сохранения обучения 
        self.history = {
            "epochs":[],
            "loss":[],
            "val_loss":[],
            "lr":[]
        }
    
    def print_training_parameters(self):
        print('Обучаем Matrix Factorization  ...')
        print(f'k={self.k} \t alpha={self.alpha} \t lambda={self.lamb}')

    def update_rule(self, u, i, error):
        self.P[u] = self.P[u] + self.alpha * (error * self.Q[i] - self.lamb * self.P[u])
        self.Q[i] = self.Q[i] + self.alpha * (error * self.P[u] - self.lamb * self.Q[i])
        
    def mae(self,  x_train, y_train):
        M = x_train.shape[0]
        error = 0
        for pair, r in zip(x_train, y_train):
            u, i = pair
            error += abs(r - np.dot(self.P[u], self.Q[i]))
        return error/M
    
    def print_training_progress(self, epoch, epochs, error, val_error, steps=5):
        if epoch == 1 or epoch % steps == 0 :
                print("epoch {}/{} - loss : {} - val_loss : {}".format(epoch, epochs, round(error,3), round(val_error,3)))
                
    def learning_rate_schedule(self, epoch, target_epochs = 20):
        if (epoch >= target_epochs) and (epoch % target_epochs == 0):
                factor = epoch // target_epochs
                self.alpha = self.alpha * (1 / (factor * 20))
                print("\nLearning Rate : {}\n".format(self.alpha))
    
    def fit(self, x_train, y_train, validation_data, epochs=1000):
        """
        Обучение на факторах P и Q с проверкой через тестовый набор данных
        
        :param
            - x_train : пара для обучения (u,i) где рейтинг известный
            - y_train : набор рейтингов r_ui для пары (u,i)
            - validation_data : tuple (x_test, y_test)
            - epochs : кол-во валидаций
            
        """
        self.print_training_parameters()
        
        # валидация
        x_test, y_test = validation_data
        
        # цикл по эпохам
        for epoch in range(1, epochs+1):
            
            # для каждой пары (u,i) и рейтинга r (который известный)
            for pair, r in zip(x_train, y_train):

                # разкрываем пару значений
                u,i = pair

                # вычисляем предик
                r_hat = np.dot(self.P[u], self.Q[i])

                # считаем ошибку
                e = abs(r - r_hat)

                # обновляем
                self.update_rule(u, i, e)
                
            # финализация
            error = self.mae(x_train, y_train)
            val_error = self.mae(x_test, y_test)
            
            # обновление словоря
            self.history['epochs'].append(epoch)
            self.history['loss'].append(error)
            self.history['val_loss'].append(val_error)
            
            # обновление истории
            self.update_history(epoch, error, val_error)
            
            # print
            self.print_training_progress(epoch, epochs, error, val_error, steps=1)
        
        return self.history
    
    def update_history(self, epoch, error, val_error):
        self.history['epochs'].append(epoch)
        self.history['loss'].append(error)
        self.history['val_loss'].append(val_error)
        self.history['lr'].append(self.alpha)
    
    def evaluate(self, x_test, y_test):
        """
        Вычисление глобальной ошибки на тестовой выборке     
        :param x_test : тестовая пара (u,i) 
        :param y_test : рейтинг r_ui для всех пар (u,i)
        """
        error = self.mae(x_test, y_test)
        print(f"validation error : {round(error,3)}")
        
        return error
      
    def predict(self, userid, itemid):
        """
        Предикт для всех пользователей и элементов
        :param userId
        :param itemId
        :return r : предикт
        """
        
        u = uencoder.transform([userid])[0]
        i = iencoder.transform([itemid])[0]
        
        # вычисление рейтинга
        r = np.dot(self.P[u], self.Q[i])
        return r
    
    def recommend(self, userid, N=10):
        """
        Топ N рекомендаций для переданного пользователя

        :return(top_items,preds) : Топ N 
        """
      
        u = uencoder.transform([userid])[0]
        
        # предикт
        predictions = np.dot(self.P[u], self.Q.T)

        # индекст Топ N
        # только необходимое кол-во
        top_idx = np.flip(np.argsort(predictions))[:N]
        top_items = self.iencoder.inverse_transform(top_idx)
#         top_idx = np.flip(np.argsort(predictions))[:N]
        preds = predictions[top_idx]

        return top_items, preds


In [17]:
epochs = 20

### Test on the data

In [18]:
m = ratings['User_id'].nunique()   # всего пользователей
n = ratings['Registration number'].nunique()   # всего элементов

ratings, uencoder, iencoder = ids_encoder(ratings)

# получение данных в подготовленном виде
raw_examples, raw_labels = get_examples(ratings)

# train test split
(x_train, x_test), (y_train, y_test) = ttsplit(examples=raw_examples, labels=raw_labels)

In [19]:
# модель
MF = MatrixFactorization(m, n, k=10, alpha=0.01, lamb=1.5)

# fit 
history = MF.fit(x_train, y_train, epochs=epochs, validation_data=(x_test, y_test))

Обучаем Matrix Factorization  ...
k=10 	 alpha=0.01 	 lambda=1.5
epoch 1/20 - loss : 2.51 - val_loss : 2.515
epoch 2/20 - loss : 2.507 - val_loss : 2.513
epoch 3/20 - loss : 2.504 - val_loss : 2.511
epoch 4/20 - loss : 2.502 - val_loss : 2.509
epoch 5/20 - loss : 2.5 - val_loss : 2.508
epoch 6/20 - loss : 2.498 - val_loss : 2.506
epoch 7/20 - loss : 2.497 - val_loss : 2.505
epoch 8/20 - loss : 2.496 - val_loss : 2.504
epoch 9/20 - loss : 2.494 - val_loss : 2.503
epoch 10/20 - loss : 2.492 - val_loss : 2.502
epoch 11/20 - loss : 2.49 - val_loss : 2.5
epoch 12/20 - loss : 2.487 - val_loss : 2.498
epoch 13/20 - loss : 2.483 - val_loss : 2.495
epoch 14/20 - loss : 2.479 - val_loss : 2.491
epoch 15/20 - loss : 2.473 - val_loss : 2.486
epoch 16/20 - loss : 2.465 - val_loss : 2.48
epoch 17/20 - loss : 2.454 - val_loss : 2.471
epoch 18/20 - loss : 2.441 - val_loss : 2.46
epoch 19/20 - loss : 2.424 - val_loss : 2.445
epoch 20/20 - loss : 2.403 - val_loss : 2.427


In [20]:
MF.evaluate(x_test, y_test)

validation error : 2.427


2.42722131029721

## Normalized rating

In [21]:
m = ratings['User_id'].nunique()   # всего пользователей
n = ratings['Registration number'].nunique()   # всего элементов

ratings, uencoder, iencoder = ids_encoder(ratings)

# нормализация по среднему
normalized_column_name = "norm_rating"
ratings = normalized_ratings(ratings, norm_column=normalized_column_name)

# подготовленные данные с нормализацией
raw_examples, raw_labels = get_examples(ratings, labels_column=normalized_column_name)

# train test split
(x_train, x_test), (y_train, y_test) = ttsplit(examples=raw_examples, labels=raw_labels)

In [22]:
# модель
MF = MatrixFactorization(m, n, k=10, alpha=0.01, lamb=1.5)

# epochs = 20
# fit 
history = MF.fit(x_train, y_train, epochs=epochs, validation_data=(x_test, y_test))

Обучаем Matrix Factorization  ...
k=10 	 alpha=0.01 	 lambda=1.5
epoch 1/20 - loss : 1.294 - val_loss : 1.298
epoch 2/20 - loss : 1.291 - val_loss : 1.295
epoch 3/20 - loss : 1.288 - val_loss : 1.293
epoch 4/20 - loss : 1.286 - val_loss : 1.292
epoch 5/20 - loss : 1.285 - val_loss : 1.29
epoch 6/20 - loss : 1.284 - val_loss : 1.29
epoch 7/20 - loss : 1.283 - val_loss : 1.289
epoch 8/20 - loss : 1.283 - val_loss : 1.289
epoch 9/20 - loss : 1.282 - val_loss : 1.288
epoch 10/20 - loss : 1.282 - val_loss : 1.288
epoch 11/20 - loss : 1.282 - val_loss : 1.288
epoch 12/20 - loss : 1.282 - val_loss : 1.288
epoch 13/20 - loss : 1.281 - val_loss : 1.287
epoch 14/20 - loss : 1.281 - val_loss : 1.287
epoch 15/20 - loss : 1.281 - val_loss : 1.287
epoch 16/20 - loss : 1.281 - val_loss : 1.287
epoch 17/20 - loss : 1.281 - val_loss : 1.287
epoch 18/20 - loss : 1.281 - val_loss : 1.287
epoch 19/20 - loss : 1.281 - val_loss : 1.287
epoch 20/20 - loss : 1.281 - val_loss : 1.287


In [23]:
MF.evaluate(x_test, y_test)

validation error : 1.287


1.28727901672256

## Predict

In [24]:
ratings.userid = uencoder.inverse_transform(ratings['User_id'].to_list())
ratings.itemid = iencoder.inverse_transform(ratings['Registration number'].to_list())
ratings.head(5)

Unnamed: 0,User_id,Registration number,rating,rating_mean,norm_rating
0,0,1105,0.5,2.404854,-1.904854
1,0,6435,2.2,2.404854,-0.204854
2,0,7664,3.1,2.404854,0.695146
3,0,7707,4.7,2.404854,2.295146
4,0,6415,4.4,2.404854,1.995146


In [34]:
k = ratings[ratings['User_id'] == 0].sort_values(by='rating')
# k[k['Registration number'] == 5678]
k

Unnamed: 0,User_id,Registration number,rating,rating_mean,norm_rating
98,0,4270,0.0,2.404854,-2.404854
85,0,1444,0.0,2.404854,-2.404854
78,0,9668,0.1,2.404854,-2.304854
16,0,3646,0.1,2.404854,-2.304854
71,0,2620,0.2,2.404854,-2.204854
...,...,...,...,...,...
70,0,3261,4.9,2.404854,2.495146
89,0,4163,4.9,2.404854,2.495146
8,0,9232,4.9,2.404854,2.495146
10,0,1144,5.0,2.404854,2.595146


In [41]:
reg_num = set(ratings['Registration number'].tolist())
user = set(ratings[ratings['User_id'] == 0]['Registration number'].tolist())
diff = list(reg_num - user)

In [26]:
MF.predict(userid=0, itemid=5678)

-0.0097003949867784

In [50]:
def user2userPredictions(userid, pred_path):
    """
    Сделаем предикт для каждого пользователя и сохраним в файл prediction.csv
    
    :param
        - userid : пользователя id
        - pred_path : куда сохраняем
    """    
    # поиск поставщиков
    reg_num = set(ratings['Registration number'].tolist())
    user = set(ratings[ratings['User_id'] == userid]['Registration number'].tolist())
    diff = list(reg_num - user)
    
    try:

        # цикл по всем выбраным пользователям для предикта
        for itemid in diff:

            # предикт для пользователя, по элементам
            r_hat = MF.predict(userid, itemid)

            # сохраним
            with open(pred_path, 'a+') as file:
                line = '{},{},{}\n'.format(userid, itemid, r_hat)
                file.write(line)
                
    except IndexError:
        pass

In [51]:
import sys
import os

def user2userMF():
    """
    Предикт для всех пользователей, даже с 1 рейтингом   
    """
    # список всех пользователей
    users = ratings['User_id'].unique()
    
    def _progress(count):
        sys.stdout.write('\rRating predictions. Progress status : %.1f%%' % (float(count/len(users))*100.0))
        sys.stdout.flush()
    
    saved_predictions = 'predictionsMF.csv'    
    if os.path.exists(saved_predictions):
        os.remove(saved_predictions)
    
    for count, userid in enumerate(users):        
        # делаем предикт
        user2userPredictions(userid, saved_predictions)
        _progress(count)
        
    return 0

In [52]:
user2userMF()

Rating predictions. Progress status : 96.0%

0

In [55]:
def user2userRecommendation(userid, N=len(ratings.columns)):
    """
    Делаем предикт для пользователя
    """
    
    saved_predictions = 'predictionsMF.csv'
    
    predictions = pd.read_csv(saved_predictions, sep=',', names=['User_id', 'Registration number', 'predicted_rating'])
    predictions = predictions[predictions['User_id']==userid]
    List = predictions.sort_values(by=['predicted_rating'], ascending=False)[:N]
    
    List = pd.merge(List, providers, on='Registration number', how='inner')
    
    return List

In [56]:
# ratings[ratings['Registration number'] == 5678]

In [58]:
user2userRecommendation(0, 5)

Unnamed: 0,User_id,Registration number,predicted_rating,Регистрационный номер,Наименование,Вид деятельности/отрасль,Телефон,Предмет поставки,Важная информация,Сводный индикатор,"Уставный капитал, RUB",Вид деятельности/отрасль.1,Руководитель - ФИО
0,0,5634,0.198715,1022304517817,"ОСКАР, ООО","Торговля оптовая пищевыми продуктами, напиткам...",+7 (86143) 28004,,,Низкий риск,10000.0,"Торговля оптовая пищевыми продуктами, напиткам...",Арих Сергей Анатольевич
1,0,7627,0.175439,1095257005392,"СПЕЦ-СЕРВИС НН, ООО",Торговля оптовая фруктами и овощами,,10.42.10.110 Маргарин,,Низкий риск,10000.0,Торговля оптовая фруктами и овощами,Филичкин Игорь Юрьевич
2,0,7926,0.163991,1073123015680,"ТД БЕЛАЯ ПТИЦА, ЗАО","Торговля оптовая мясом и мясом птицы, включая ...",,,На 15.03.2022 19:51 имеются действующие решени...,Высокий риск,10000.0,"Торговля оптовая мясом и мясом птицы, включая ...",Боярский Дмитрий Русланович
3,0,4445,0.16288,1076027003260,"МЕГА ХОЛОД, ООО",Торговля оптовая неспециализированная замороже...,+7 (811) 2794238\n+7 (811) 2794273\n+7 (8112) ...,,Юридическое лицо признано несостоятельным (бан...,Высокий риск,100000.0,Торговля оптовая неспециализированная замороже...,Шаулов Рафаэль Витальевич
4,0,2305,0.158069,1047796209669,"ГРИН, ООО","Торговля оптовая прочими пищевыми продуктами, ...",+7 (495) 1059078\n+7 (903) 1059078,,На 14.12.2022 22:11 имеются действующие решени...,Высокий риск,10000.0,"Торговля оптовая прочими пищевыми продуктами, ...",Мохаммаддин Мустафа
