# Factorisation de matrice bayésienne probabiliste

>Présentation de la factorisation de matrice bayésienne probabiliste (FMBP).


## Recherches associées 
> Ruslan Salakhutdinov, Andriy Mnih, 2008. [**Bayesian probabilistic matrix factorization using Markov chain Monte Carlo**](https://www.cs.toronto.edu/~amnih/papers/bpmf.pdf). 
>Proceedings of the 25th International Conference on Machine Learning (*ICML 2008*), Helsinki, Finland. [[Matlab code (official)](https://www.cs.toronto.edu/~rsalakhu/BPMF.html)]


## Sources
>[**Dépôt 1**](https://github.com/xinychen/transdim) *version python*  

<h1>Table des matières<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Factorisation-de-matrice-bayésienne-probabiliste" data-toc-modified-id="Factorisation-de-matrice-bayésienne-probabiliste-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Factorisation de matrice bayésienne probabiliste</a></span><ul class="toc-item"><li><span><a href="#Recherches-associées" data-toc-modified-id="Recherches-associées-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Recherches associées</a></span></li><li><span><a href="#Sources" data-toc-modified-id="Sources-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Sources</a></span></li></ul></li><li><span><a href="#Mettre-l'environnement-en-place" data-toc-modified-id="Mettre-l'environnement-en-place-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Mettre l'environnement en place</a></span></li><li><span><a href="#Charger-les-données-dans-l'environnement" data-toc-modified-id="Charger-les-données-dans-l'environnement-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Charger les données dans l'environnement</a></span></li><li><span><a href="#Définir-les-fonctions-pour-le-modèle" data-toc-modified-id="Définir-les-fonctions-pour-le-modèle-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Définir les fonctions pour le modèle</a></span><ul class="toc-item"><li><span><a href="#Fonctions-pour-le-calcul-de-l'erreur-du-modèle" data-toc-modified-id="Fonctions-pour-le-calcul-de-l'erreur-du-modèle-4.1"><span class="toc-item-num">4.1&nbsp;&nbsp;</span>Fonctions pour le calcul de l'erreur du modèle</a></span></li><li><span><a href="#Calcul-sur-les-matrices" data-toc-modified-id="Calcul-sur-les-matrices-4.2"><span class="toc-item-num">4.2&nbsp;&nbsp;</span>Calcul sur les matrices</a></span></li><li><span><a href="#Calculer-la-matrice-de-covariance-(cov_mat)" data-toc-modified-id="Calculer-la-matrice-de-covariance-(cov_mat)-4.3"><span class="toc-item-num">4.3&nbsp;&nbsp;</span>Calculer la matrice de covariance (<code>cov_mat</code>)</a></span></li><li><span><a href="#Définir-le-modèle" data-toc-modified-id="Définir-le-modèle-4.4"><span class="toc-item-num">4.4&nbsp;&nbsp;</span>Définir le modèle</a></span></li></ul></li><li><span><a href="#Entrainer-le-modèle" data-toc-modified-id="Entrainer-le-modèle-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Entrainer le modèle</a></span><ul class="toc-item"><li><span><a href="#Générer-les-combinaisons-d'hyperparamètres" data-toc-modified-id="Générer-les-combinaisons-d'hyperparamètres-5.1"><span class="toc-item-num">5.1&nbsp;&nbsp;</span>Générer les combinaisons d'hyperparamètres</a></span></li><li><span><a href="#Spécifier-les-paramètres-de-l'entrainement" data-toc-modified-id="Spécifier-les-paramètres-de-l'entrainement-5.2"><span class="toc-item-num">5.2&nbsp;&nbsp;</span>Spécifier les paramètres de l'entrainement</a></span></li><li><span><a href="#Sélectionner-les-hyparamètres-du-modèle" data-toc-modified-id="Sélectionner-les-hyparamètres-du-modèle-5.3"><span class="toc-item-num">5.3&nbsp;&nbsp;</span>Sélectionner les hyparamètres du modèle</a></span><ul class="toc-item"><li><span><a href="#Sauvegarder-les-informations-sur-la-sélection-des-hyperparamètres" data-toc-modified-id="Sauvegarder-les-informations-sur-la-sélection-des-hyperparamètres-5.3.1"><span class="toc-item-num">5.3.1&nbsp;&nbsp;</span>Sauvegarder les informations sur la sélection des hyperparamètres</a></span><ul class="toc-item"><li><span><a href="#Sauvegarder-les-informations-sur-la-distribution-des-paramètres" data-toc-modified-id="Sauvegarder-les-informations-sur-la-distribution-des-paramètres-5.3.1.1"><span class="toc-item-num">5.3.1.1&nbsp;&nbsp;</span>Sauvegarder les informations sur la distribution des paramètres</a></span></li><li><span><a href="#Sauvegarder-les-informations-DURANT-l'entrainement" data-toc-modified-id="Sauvegarder-les-informations-DURANT-l'entrainement-5.3.1.2"><span class="toc-item-num">5.3.1.2&nbsp;&nbsp;</span>Sauvegarder les informations DURANT l'entrainement</a></span></li><li><span><a href="#Sauvegarder-les-informations-FINALES" data-toc-modified-id="Sauvegarder-les-informations-FINALES-5.3.1.3"><span class="toc-item-num">5.3.1.3&nbsp;&nbsp;</span>Sauvegarder les informations FINALES</a></span></li></ul></li></ul></li><li><span><a href="#Entrainer-le-meilleur-modèle" data-toc-modified-id="Entrainer-le-meilleur-modèle-5.4"><span class="toc-item-num">5.4&nbsp;&nbsp;</span>Entrainer le meilleur modèle</a></span><ul class="toc-item"><li><span><a href="#Sauvegarder-les-informations-sur-l'entrainement-du-meilleur-modèle" data-toc-modified-id="Sauvegarder-les-informations-sur-l'entrainement-du-meilleur-modèle-5.4.1"><span class="toc-item-num">5.4.1&nbsp;&nbsp;</span>Sauvegarder les informations sur l'entrainement du meilleur modèle</a></span><ul class="toc-item"><li><span><a href="#Sauvegarder-la-matrice-prédite" data-toc-modified-id="Sauvegarder-la-matrice-prédite-5.4.1.1"><span class="toc-item-num">5.4.1.1&nbsp;&nbsp;</span>Sauvegarder la matrice prédite</a></span></li><li><span><a href="#Sauvegarder-avec-les-nouvelles-valeurs-imputées" data-toc-modified-id="Sauvegarder-avec-les-nouvelles-valeurs-imputées-5.4.1.2"><span class="toc-item-num">5.4.1.2&nbsp;&nbsp;</span>Sauvegarder avec les nouvelles valeurs imputées</a></span></li></ul></li></ul></li></ul></li><li><span><a href="#Sauvegarder-les-information-pour-la-présentation-des-résultats" data-toc-modified-id="Sauvegarder-les-information-pour-la-présentation-des-résultats-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Sauvegarder les information pour la présentation des résultats</a></span><ul class="toc-item"><li><span><a href="#Sauvegarder-le-tableau-pour-la-comparaison-intermodèles" data-toc-modified-id="Sauvegarder-le-tableau-pour-la-comparaison-intermodèles-6.1"><span class="toc-item-num">6.1&nbsp;&nbsp;</span>Sauvegarder le tableau pour la comparaison intermodèles</a></span></li><li><span><a href="#Sauvegarder-les-données-pour-la-présentation-graphique" data-toc-modified-id="Sauvegarder-les-données-pour-la-présentation-graphique-6.2"><span class="toc-item-num">6.2&nbsp;&nbsp;</span>Sauvegarder les données pour la présentation graphique</a></span></li></ul></li></ul></div>

# Mettre l'environnement en place

In [1]:
import os
import time

import feather
import numpy as np
import pandas as pd
import scipy.io as sio
from numpy.linalg import inv as inv
from numpy.random import multivariate_normal as mvnrnd
from scipy.stats import wishart
from tqdm import tqdm, trange
from tqdm.contrib import tenumerate

In [2]:
os.chdir("./")

# Charger les données dans l'environnement

In [3]:
parametres = {
    "dossier_donnees": "data",
    "dossier_experience": "exp",
    "sousdossier": "simulation_simple",
    "fichier_donnees": "SimSimple_100",
    "fichier_binaire": "SimSimple_100_10",
    "manquants": "10",
    "modele": "FMBP",
    "version": "v001"
}

In [4]:
# Créer le dossier s'il n'existe pas
if not os.path.exists(os.path.join(parametres["dossier_experience"], 
                                   parametres["sousdossier"])):
    print("Le dossier pour l'expérience vient d'être créé")
    os.makedirs(os.path.join(parametres["dossier_experience"], 
                             parametres["sousdossier"]))
print("Le dossier pour l'expérience existe déjà")

Le dossier pour l'expérience existe déjà


In [5]:
ch_fichier_donnees = "{:}.mat".format(os.path.join(parametres["dossier_donnees"], 
                                                   parametres["sousdossier"], 
                                                   parametres["fichier_donnees"]))
mat_complet = sio.loadmat(ch_fichier_donnees)["mat"]
tqdm.write(ch_fichier_donnees)

data\simulation_simple\SimSimple_100.mat


In [6]:
ch_fichier_binaire = "{:}.mat".format(os.path.join(parametres["dossier_donnees"], 
                                                   parametres["sousdossier"], 
                                                   parametres["fichier_binaire"]))
mat_binaire = sio.loadmat(ch_fichier_binaire)["mat"]
tqdm.write(ch_fichier_binaire)

data\simulation_simple\SimSimple_100_10.mat


In [7]:
mat_manquants = mat_complet * mat_binaire

# Définir les fonctions pour le modèle

## Fonctions pour le calcul de l'erreur du modèle

In [8]:
def RMSE(mat_complet, mat_hat, index):
    rmse = np.sqrt(
        np.sum((mat_complet[index] - mat_hat[index])**2) /
        mat_complet[index].shape[0])
    return rmse

In [9]:
def MAPE(mat_complet, mat_hat, index):
    mape = np.sum(
        np.abs(mat_complet[index] - mat_hat[index]) /
        mat_complet[index]) / mat_complet[index].shape[0]
    return mape

## Calcul sur les matrices

In [10]:
def kr_prod(a, b):
    """
    Khatri-Rao product
    
    Paramètres en entré
        a : Matrice A 
        b : Matrice B
    
    Paramètres en sortie
        np.einsum('ir, jr -> ijr', a, b).reshape(a.shape[0] * b.shape[0], -1) [column-wise Kronecker product]
    
    
    """
    return np.einsum('ir, jr -> ijr', a, b).reshape(a.shape[0] * b.shape[0], -1)

## Calculer la matrice de covariance (`cov_mat`)

For any matrix $X\in\mathbb{R}^{m\times n}$, `cov_mat` can return a $n\times n$ covariance matrix for special use in the following.

In [11]:
def cov_mat(mat):
    """
    Matrice de covariance
    
    Paramètres en entrée
        mat :
        
    Paramètres en sortie
        new_mat : 
    
    """
    dim1, dim2 = mat.shape
    new_mat = np.zeros((dim2, dim2))
    mat_bar = np.mean(mat, axis=0)
    for i in range(dim1):
        new_mat += np.einsum('i, j -> ij', mat[i, :] - mat_bar,
                             mat[i, :] - mat_bar)
    return new_mat

## Définir le modèle



In [12]:
def BPMF(dense_mat, sparse_mat, init, rank, maxiter1, maxiter2):
    """
    Bayesian Probabilistic Matrix Factorization, BPMF.
    
    ParamÃ¨tres en entrÃ©
        dense_mat : Matrice sans valeurs manquantes
        sparse_mat : Matrice avec des valeurs manquantes
        init : Init ?
        rank : Rang des matrices latentes
        maxiter1 : Nombre d'itÃ©rations maximaux (pourquoi 1 ?)
        maxiter2 : Nombre d'itÃ©ration maximal (pourquoi 2 ?)
    
    ParamÃ¨tres en sortie 
        mat_hat : Matrice imputÃ©e 
        W : Facteur latent W
        X : Facteur latent X
        lrmse : Liste des rmse
        lmape : Liste des mape
    
    
    
    """
    # Initialisation des listes
    test_rmse_list = []
    train_rmse_list = []
    gen_rmse_list = []
    test_mape_list = []

    # Initialisation des paramÃ¨tres
    W = init["W"]
    X = init["X"]

    dim1, dim2 = sparse_mat.shape
    dim = np.array([dim1, dim2])
    pos = np.where((dense_mat != 0) & (sparse_mat == 0))  # pos_test
    position = np.where(sparse_mat != 0)  # pos_train
    binary_mat = np.zeros((dim1, dim2))
    binary_mat[position] = 1

    beta0 = 1
    nu0 = rank
    mu0 = np.zeros((rank))
    W0 = np.eye(rank)
    tau = 1
    alpha = 1e-6
    beta = 1e-6

    W_plus = np.zeros((dim1, rank))
    X_plus = np.zeros((dim2, rank))
    mat_hat_plus = np.zeros((dim1, dim2))

    # Listes pour l'Ã©tude des hyperparamÃ¨tres et des matrices latentes
    liste_lambda = list()
    liste_mu = list()
    liste_W_hyper = list()
    liste_tau = list()
    liste_W = list()
    liste_X = list()

    # Mise Ã  jour des paramÃ¨tres
    for iters in trange(maxiter1, desc="ItÃ©rations", leave=False, position=1):
        # Cette partie est ?
        for order in range(2):
            # ?
            if order == 0:
                mat = W.copy()
            elif order == 1:
                mat = X.copy()
            # ?
            mat_bar = np.mean(mat, axis=0)
            var_mu_hyper = (dim[order] * mat_bar + beta0 * mu0) / (dim[order] +
                                                                   beta0)
            var_W_hyper = inv(
                inv(W0) + cov_mat(mat) + dim[order] * beta0 /
                (dim[order] + beta0) * np.outer(mat_bar - mu0, mat_bar - mu0))
            var_Lambda_hyper = wishart(df=dim[order] + nu0,
                                       scale=var_W_hyper,
                                       seed=None).rvs()
            #np.random.seed(2020)
            var_mu_hyper = mvnrnd(var_mu_hyper,
                                  inv((dim[order] + beta0) * var_Lambda_hyper))
            # ?
            if order == 0:
                var1 = X.T
                mat0 = np.matmul(var1, sparse_mat.T)
            elif order == 1:
                var1 = W.T
                mat0 = np.matmul(var1, sparse_mat)
            var2 = kr_prod(var1, var1)
            # ?
            if order == 0:
                mat1 = np.matmul(var2, binary_mat.T)
            elif order == 1:
                mat1 = np.matmul(var2, binary_mat)
            # ?
            var3 = tau * mat1.reshape(rank, rank, dim[order]) + np.dstack(
                [var_Lambda_hyper] * dim[order])
            var4 = tau * mat0 + np.dstack(
                [np.matmul(var_Lambda_hyper, var_mu_hyper)] *
                dim[order])[0, :, :]
            # ?
            for i in range(dim[order]):
                var_Lambda = var3[:, :, i]
                inv_var_Lambda = inv((var_Lambda + var_Lambda.T) / 2)
                #np.random.seed(2020)
                vec = mvnrnd(np.matmul(inv_var_Lambda, var4[:, i]),
                             inv_var_Lambda)
                if order == 0:
                    W[i, :] = vec.copy()
                elif order == 1:
                    X[i, :] = vec.copy()

        # Mise Ã  jour
        # Facteurs latents (mise Ã  jour)
        if iters + 1 > maxiter1 - maxiter2:
            W_plus += W
            X_plus += X

            # Matrice pleine (mise Ã  jour)
        mat_hat = np.matmul(W, X.T)

        # Matrice avec les valeurs imputÃ©es (mise Ã  jour)
        if iters + 1 > maxiter1 - maxiter2:
            mat_hat_plus += mat_hat

        # Calcul de l'erreur au carrÃ© (mise Ã  jour)
        # Pour l'Ã©chantillon test
        rmse = np.sqrt(
            np.sum(
                (dense_mat[pos] - mat_hat[pos])**2) / dense_mat[pos].shape[0])
        mape = np.sum(np.abs(dense_mat[pos] - mat_hat[pos]) /
                      dense_mat[pos]) / dense_mat[pos].shape[0]

        test_rmse_list.append(rmse)
        test_mape_list.append(mape)

        # Pour l'Ã©chantillon d'entrainement
        train_rmse = np.sqrt(
            np.sum((dense_mat[position] - mat_hat[position])**2) /
            dense_mat[position].shape[0])
        train_rmse_list.append(train_rmse)
        # Pour l'ensemble
        gen_rmse = np.sqrt(
            np.sum((dense_mat - mat_hat)**2) / dense_mat.shape[0])
        gen_rmse_list.append(gen_rmse)

        # HyperparamÃ¨tres
        var_alpha = alpha + 0.5 * sparse_mat[position].shape[0]
        error = sparse_mat - mat_hat  # CET ÃLÃMENT POURRAIT ÃTRE AILLEURS (?)
        var_beta = beta + 0.5 * np.sum(error[position]**2)

        #np.random.seed(2020)
        tau = np.random.gamma(var_alpha, 1 / var_beta)

        # Listes pour l'Ã©tude des hyper
        liste_lambda.append(np.linalg.norm(var_Lambda_hyper))
        liste_mu.append(np.linalg.norm(var_mu_hyper))
        liste_W_hyper.append(np.linalg.norm(var_W_hyper))

        liste_tau.append(tau)

        # Calcul des normes
        norm_W = np.linalg.norm(W, ord="fro")
        norm_X = np.linalg.norm(X, ord="fro")
        liste_W.append(norm_W)
        liste_X.append(norm_X)

        # RepÃ©rage
        if (iters + 1) % 200 == 0 and iters < maxiter1 - maxiter2:
            tqdm.write('Iter: {}\nRMSE: {:.6}'.format(iters + 1, rmse))

    # ?
    W = W_plus / maxiter2
    X = X_plus / maxiter2
    mat_hat = mat_hat_plus / maxiter2

    if maxiter1 >= 100:
        ## De test
        final_mape = np.sum(
            np.abs(dense_mat[pos] - mat_hat[pos]) /
            dense_mat[pos]) / dense_mat[pos].shape[0]
        final_rmse = np.sqrt(
            np.sum(
                (dense_mat[pos] - mat_hat[pos])**2) / dense_mat[pos].shape[0])
        final_train_mape = np.sum(
            np.abs(dense_mat[position] - mat_hat[position]) /
            dense_mat[position]) / dense_mat[position].shape[0]
        final_train_rmse = np.sqrt(
            np.sum((dense_mat[position] - mat_hat[position])**2) /
            dense_mat[position].shape[0])
        final_gen_mape = np.sum(
            np.abs(dense_mat - mat_hat) / dense_mat) / dense_mat.shape[0]
        final_gen_rmse = np.sqrt(
            np.sum((dense_mat - mat_hat)**2) / dense_mat.shape[0])
        tqdm.write('Imputation MAPE: {:.6}\nImputation RMSE: {:.6}'.format(
            final_mape, final_rmse))

        perfo_fin = dict(test_rmse=final_rmse,
                         gen_rmse=final_gen_rmse,
                         train_rmse=final_train_rmse)
        # Ãtude des hyperparamÃ¨tres
        etude_hyper = dict(_lambda=liste_lambda,
                           w_hyper=liste_W_hyper,
                           mu=liste_mu,
                           tau=liste_tau,
                           W=liste_W,
                           X=liste_X)

    return mat_hat, W, X, test_rmse_list, train_rmse_list, gen_rmse_list, test_mape_list, perfo_fin, etude_hyper

# Entrainer le modèle

In [13]:
fichier_experience = "{a[fichier_binaire]}_{a[modele]}_{a[version]}".format(a = parametres)
ch_fichier_experience = os.path.join(parametres["dossier_experience"], parametres["sousdossier"], fichier_experience)

## Générer les combinaisons d'hyperparamètres
* Pour ce modèle, seul le rang est choisi manuellement.

In [14]:
rang_list = [10, 15] #, 20, 25, 30, 35, 40, 45, 50]
rang_list

[10, 15]

## Spécifier les paramètres de l'entrainement

In [15]:
dim1, dim2 = mat_complet.shape
maxiter1, maxiter2 = 100, 100 #1100, 100 # burn in, gibbs

## Sélectionner les hyparamètres du modèle

In [16]:
entrainement_dict = dict()


for index, i in tenumerate(rang_list, desc="Recherche hyperparametres", leave = True, position = 0): 

    ## Premier élément : Rang
    rang = i

    param_utils = dict(rang=rang)  # Préparation pour le suivant rapport

    tqdm.write("Entrainement avec :\n{:}".format(param_utils))

    np.random.seed(2020)
    init = {
        "W": 0.1 * np.random.rand(dim1, rang),
        "X": 0.1 * np.random.rand(dim2, rang)
    }
    mat_hat, W, X, test_rmse_list, train_rmse_list, gen_rmse_list, test_mape_list, perfo_fin, etude_hyper = BPMF(
        mat_complet, mat_manquants, init, rang, maxiter1, maxiter2)

    metriques_listes = dict(test_rmse_list=test_rmse_list,
                            train_rmse_list=train_rmse_list,
                            gen_rmse_list=gen_rmse_list)

    ## Mettre dans un dictionaire de tous les entrainements
    index_entr = "index {:}".format(index)

    entrainement_dict[index_entr] = {}
    entrainement_dict[index_entr]["parametres"] = param_utils
    entrainement_dict[index_entr]["metriques_listes"] = metriques_listes
    entrainement_dict[index_entr]["metriques_finales"] = perfo_fin
    entrainement_dict[index_entr]["etude_hyper"] = etude_hyper
    tqdm.write("Performance du modele :{:}".format(perfo_fin))

HBox(children=(FloatProgress(value=0.0, description='Recherche hyperparametres', max=2.0, style=ProgressStyle(…


ItÃ©rations:   0%|                                                                             | 0/100 [00:00<?, ?it/s][A
ItÃ©rations:   2%|█▍                                                                   | 2/100 [00:00<00:07, 13.50it/s][A

Entrainement avec :
{'rang': 10}



ItÃ©rations:   4%|██▊                                                                  | 4/100 [00:00<00:07, 13.26it/s][A
ItÃ©rations:   6%|████▏                                                                | 6/100 [00:00<00:07, 13.09it/s][A
ItÃ©rations:   8%|█████▌                                                               | 8/100 [00:00<00:06, 13.65it/s][A
ItÃ©rations:  10%|██████▊                                                             | 10/100 [00:00<00:06, 13.25it/s][A
ItÃ©rations:  12%|████████▏                                                           | 12/100 [00:00<00:06, 13.27it/s][A
ItÃ©rations:  14%|█████████▌                                                          | 14/100 [00:01<00:06, 12.56it/s][A
ItÃ©rations:  16%|██████████▉                                                         | 16/100 [00:01<00:06, 12.66it/s][A
ItÃ©rations:  18%|████████████▏                                                       | 18/100 [00:01<00:06, 12.92it/s][A
ItÃ©rations:  2

Imputation MAPE: 0.00758875
Imputation RMSE: 3.04416
Performance du modele :{'test_rmse': 3.0441579084845283, 'gen_rmse': 29.088275324132717, 'train_rmse': 2.5700895518053875}
Entrainement avec :
{'rang': 15}


ItÃ©rations:   2%|█▍                                                                   | 2/100 [00:00<00:08, 11.75it/s][A
ItÃ©rations:   4%|██▊                                                                  | 4/100 [00:00<00:08, 11.95it/s][A
ItÃ©rations:   6%|████▏                                                                | 6/100 [00:00<00:07, 11.86it/s][A
ItÃ©rations:   8%|█████▌                                                               | 8/100 [00:00<00:07, 11.90it/s][A
ItÃ©rations:  10%|██████▊                                                             | 10/100 [00:00<00:07, 12.06it/s][A
ItÃ©rations:  12%|████████▏                                                           | 12/100 [00:01<00:07, 11.84it/s][A
ItÃ©rations:  14%|█████████▌                                                          | 14/100 [00:01<00:07, 11.90it/s][A
ItÃ©rations:  16%|██████████▉                                                         | 16/100 [00:01<00:07, 11.77it/s][A
ItÃ©rations:  18

Imputation MAPE: 0.00597061
Imputation RMSE: 2.37974
Performance du modele :{'test_rmse': 2.379742188852433, 'gen_rmse': 21.822918008863063, 'train_rmse': 1.914816229027938}



### Sauvegarder les informations sur la sélection des hyperparamètres

#### Sauvegarder les informations sur la distribution des paramètres

In [17]:
hyper_liste = []
for i in range(len(entrainement_dict)):
    index = "index {:}".format(i)

    df_etude_hyper = pd.DataFrame(entrainement_dict[index]["etude_hyper"])
    df_etude_hyper['iteration'] = df_etude_hyper.index  # Colonne pour les itÃ©rations
    df_etude_hyper["entrainement_no"] = i + 1  ## FOR LOOP

    hyper_liste.append(df_etude_hyper)
    
df_etude_hyper = pd.concat(hyper_liste)
df_etude_hyper = df_etude_hyper.reset_index()

In [18]:
# Sauvegarder le fichier
fichier_HyperDistribution = "{:}_fichier_HyperDistribution.ftr".format(ch_fichier_experience)
df_etude_hyper.to_feather(fichier_HyperDistribution)

#### Sauvegarder les informations DURANT l'entrainement

In [19]:
df_list = []
for i in range(len(entrainement_dict)):
    index = "index {:}".format(i)

    listes_df = pd.DataFrame(entrainement_dict[index]["metriques_listes"])
    listes_df['iteration'] = listes_df.index  # Colonne pour les itÃ©rations
    
    listes_df["rang"] = entrainement_dict[index]["parametres"]["rang"]
    listes_df["entrainement_no"] = i + 1  ## FOR LOOP

    df_list.append(listes_df)
    
listes_df = pd.concat(df_list)
listes_df = listes_df.reset_index()

In [20]:
# Sauvegarder le fichier
fichier_HyperEntrainement = "{:}_HyperparametresEntrainement.ftr".format(ch_fichier_experience)
listes_df.to_feather(fichier_HyperEntrainement)

#### Sauvegarder les informations FINALES

In [21]:
test_list = []
for i in entrainement_dict:

    dict1 = {}
    dict1.update(
        dict(
            rmse_test=entrainement_dict[i]["metriques_finales"]["test_rmse"],
            rmse_train=entrainement_dict[i]["metriques_finales"]["train_rmse"],
            rmse_gen= entrainement_dict[i]["metriques_finales"]["gen_rmse"],
            rang=entrainement_dict[i]["parametres"]["rang"]))

    test_list.append(dict1)

df = pd.DataFrame(test_list)

In [22]:
# Sauvegarder le fichier
fichier_HyperFinaux = "{:}_HyperparametresFinaux.ftr".format(ch_fichier_experience)
df.to_feather(fichier_HyperFinaux)

## Entrainer le meilleur modèle

In [23]:
min_test = df[df.rmse_test == df.rmse_test.min()]
min_test

Unnamed: 0,rmse_test,rmse_train,rmse_gen,rang
1,2.379742,1.914816,21.822918,15


In [24]:
rang = np.int(min_test.rang)

init_hyper = {
    "AUCUN": "AUCUN"
}

param_utils = dict(rang=rang, init_hyper=init_hyper)  # PrÃ©paration pour le suivant rapport

param_utils

{'rang': 15, 'init_hyper': {'AUCUN': 'AUCUN'}}

In [25]:
np.random.seed(2020)
init = {
    "W": 0.1 * np.random.rand(dim1, rang),
    "X": 0.1 * np.random.rand(dim2, rang)
}

In [26]:
start = time.time()
mat_hat, W, X, test_rmse_list, train_rmse_list, gen_rmse_list, test_mape_list, perfo_fin, etude_hyper = BPMF(
    mat_complet, mat_manquants, init, rang, maxiter1, maxiter2)
end = time.time()


ItÃ©rations:   0%|                                                                             | 0/100 [00:00<?, ?it/s][A
ItÃ©rations:   2%|█▍                                                                   | 2/100 [00:00<00:08, 10.99it/s][A
ItÃ©rations:   4%|██▊                                                                  | 4/100 [00:00<00:08, 11.02it/s][A
ItÃ©rations:   6%|████▏                                                                | 6/100 [00:00<00:08, 11.33it/s][A
ItÃ©rations:   8%|█████▌                                                               | 8/100 [00:00<00:07, 12.09it/s][A
ItÃ©rations:  10%|██████▊                                                             | 10/100 [00:00<00:07, 11.83it/s][A
ItÃ©rations:  12%|████████▏                                                           | 12/100 [00:00<00:07, 12.33it/s][A
ItÃ©rations:  14%|█████████▌                                                          | 14/100 [00:01<00:07, 11.65it/s][A
ItÃ©rations:  1

Imputation MAPE: 0.00597061
Imputation RMSE: 2.37974


### Sauvegarder les informations sur l'entrainement du meilleur modèle

In [27]:
# Reformater cette case (!)
ch_experience_finale = f"{ch_fichier_experience}_r{param_utils['rang']}"

#### Sauvegarder la matrice prédite

In [28]:
fichier_prediction = "{:}_prediction.mat".format(ch_experience_finale)
save_mat_hat = {"mat": mat_hat}
sio.savemat(fichier_prediction, save_mat_hat)
tqdm.write(fichier_prediction)

exp\simulation_simple\SimSimple_100_10_BPMF_v001_r15_prediction.mat


#### Sauvegarder avec les nouvelles valeurs imputées

* Garder la matrice de données originales et imputer seulement les valeurs manquantes.

In [29]:
index = np.where((mat_complet != 0) & (mat_binaire == 0))
matrice_manquants = mat_manquants.copy()
matrice_predite = mat_hat.copy()
matrice_manquants[index] = matrice_predite[index]

In [30]:
fichier_imputation = "{:}_imputation.mat".format(ch_experience_finale)
save_mat_manquants = {"mat": matrice_manquants}
sio.savemat(fichier_imputation, save_mat_manquants)
tqdm.write(fichier_imputation)

exp\simulation_simple\SimSimple_100_10_BPMF_v001_r15_imputation.mat


# Sauvegarder les information pour la présentation des résultats

## Sauvegarder le tableau pour la comparaison intermodèles

Éléments du tableau: 
- Performance du modèle (RMSE [entrainement, validation] et MAPE [validation])
- Hyperparamètres utilisés (incluant le rang et autres paramètres d'intérêt)
- Temps d'entrainement
- Fichier d'entrainement (nom, dimensions, nombre de manquants, proportion de manquants)

In [31]:
temps_entrainement = end - start

In [32]:
base_manquants = len(np.where((mat_complet == 0))[0])
entrainement_manquants = len(np.where((mat_binaire == 0))[0])
obs_entrainement = len(np.where(mat_binaire != 0)[0])
obs_test = len(np.where((mat_complet != 0) & (mat_binaire == 0))[0])

dim1, dim2 = mat_complet.shape
obs_totales = dim1 * dim2
lignes, colonnes = mat_complet.shape

In [33]:
dict2 = {}

dict2.update(
    dict(modele=parametres["modele"],
         hyperparametres=str(param_utils),
         rang=param_utils["rang"],
         test_rmse=perfo_fin["test_rmse"],
         test_mape= 0, #perfo_fin["test_mape"],
         train_rmse=perfo_fin["train_rmse"],
         gen_rmse=perfo_fin["gen_rmse"], # 0,
         temps=temps_entrainement,
         nom_fichier=parametres["fichier_binaire"],
         lignes=lignes,
         colonnes=colonnes,
         obs_totales=obs_totales,
         obs_test=obs_test,
         obs_entrainement=obs_entrainement,
         entrainement_manquants=entrainement_manquants,
         base_manquants=base_manquants,
         prop_manquants=parametres["manquants"]))
df_comparatif = pd.DataFrame(dict2, index=[0])


In [34]:
# Sauvegarder le fichier
fichier_comparatif = os.path.join(parametres["dossier_experience"], "fichier_comparatif.csv")
df_comparatif.to_csv(fichier_comparatif, mode='a', header=False)

## Sauvegarder les données pour la présentation graphique
* Données utilisées pour la formation du nuage de points (prédiction c. réelles)

In [35]:
x_pred = mat_hat[index]
y_original = mat_complet[index]

df_comparaison = pd.DataFrame([x_pred, y_original]).T
df_comparaison.columns = ['x_pred', 'y_original']

In [36]:
fichier_comparaison = "{:}_comparaison.ftr".format(ch_experience_finale)

df_comparaison.to_feather(fichier_comparaison)

In [37]:
tqdm.write(fichier_comparaison)

exp\simulation_simple\SimSimple_100_10_BPMF_v001_r15_comparaison.ftr
