In [None]:
import pandas as pd 
import numpy as np
from collections import defaultdict
import time 
import pickle

import seaborn as sn
import matplotlib.pyplot as plt
import pylab as pl
import plotly.graph_objects as go
from plotly.subplots import make_subplots

from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score
from sklearn.metrics import auc
from sklearn.metrics import roc_curve, auc

from surprise import SVD, accuracy
from surprise import Dataset
from surprise import Reader
from surprise.model_selection import train_test_split

from sqlalchemy import create_engine
engine = create_engine('postgres://pass_culture:passq@localhost:5434/pass_culture?sslmode=prefer')
connection = engine.connect()

In [None]:
debut1 = time.time()

In [None]:
########################################################################################################################
########################## On récupère les offres notées par les utilisateurs ############################################################

In [None]:
debut = time.time()

#Offres achetées : 5
#Offres achetées et pas consommées : 4 
#Offres achetées et annulées : 3 
#Offres mises en favoris : 2
#Offres cliquées : 1 
#Offres ignorées : 0 

offres_avec_notes_0_5 = pd.read_csv('offres_avec_notes_0_5.csv', sep = '\t') 

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
#Note 1 : offres mises en favoris, achetées et annnulées, achetées et pas consommées, achetées 
#Note 0 : offres ignorées ou juste cliquées
offres_avec_notes_binaire = offres_avec_notes_0_5

offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 1,'note'] = 0
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 2,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 3,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 4,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 5,'note'] = 1

#On enregistre en csv 
offres_avec_notes_binaire.to_csv('offres_avec_notes_binaire.csv', sep = '\t', index=False)

In [None]:
print('Il y a', offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0].shape[0], 'notes 0')
print('Il y a', offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1].shape[0], 'notes 1')

In [None]:
data = offres_avec_notes_binaire['note'].value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / offres_avec_notes_binaire.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )

layout = dict(title = 'Distribution de {} notes'.format(offres_avec_notes_binaire.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))

fig = go.Figure(data=[trace], layout=layout)
fig.show()

In [None]:
########################################################################################################################
#################################### Distribution par type d'offres ############################################################

In [None]:
#Nombre de notes par type 
notes_par_type = pd.DataFrame(columns = ['Type','Total'])
notes_par_type['Type'] = offres_avec_notes_binaire['type'].value_counts().index
notes_par_type['Total'] = offres_avec_notes_binaire['type'].value_counts().array
notes_par_type.head()

In [None]:
#Nombre de notes 0 par type
note0_par_type = pd.DataFrame(columns = ['Type','Total_note0'])
note0_par_type['Type'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0]['type'].value_counts().index
note0_par_type['Total_note0'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0]['type'].value_counts().array
note0_par_type.head()

In [None]:
#Nombre de notes 1 par type
note1_par_type = pd.DataFrame(columns = ['Type','Total_note1'])
note1_par_type['Type'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]['type'].value_counts().index
note1_par_type['Total_note1'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]['type'].value_counts().array
note1_par_type.head()

In [None]:
#On fusionne les trois tables
notes_par_type = notes_par_type.merge(note0_par_type, left_on='Type', right_on='Type')
notes_par_type = notes_par_type.merge(note1_par_type, left_on='Type', right_on='Type')

In [None]:
#Calcul du pourcentage
notes_par_type['pourcentage_note0'] = notes_par_type['Total_note0'] * 100 / notes_par_type['Total']
notes_par_type['pourcentage_note1'] = notes_par_type['Total_note1'] * 100 / notes_par_type['Total']

In [None]:
notes_par_type.head()

In [None]:
fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(x=notes_par_type['Type'], 
               y=notes_par_type['Total'],
               name="Nombre de notes"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=notes_par_type['Type'],
               y=notes_par_type['pourcentage_note1'],
               name="%tage note 1"),
    secondary_y=True,
)

#On ajoute le titre
fig.update_layout(title_text='Distribution des notes par type')

#Titre de l'axe x 
fig.update_xaxes(title_text="Types")

#Titre des axes y 
fig.update_yaxes(title_text="Nombre de notes", secondary_y=False)
fig.update_yaxes(title_text="Pourcentage dans la note 1", secondary_y=True)

fig.show()

In [None]:
##############################################################################################################################
############################## Distribution par isVirtual : numerique / physique ####################################################################################

In [None]:
#Nombre de notes par colonne "isVirtual"
note_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total'])
note_par_isVirtual['isVirtual'] = offres_avec_notes_binaire['isVirtual'].value_counts().index
note_par_isVirtual['Total'] = offres_avec_notes_binaire['isVirtual'].value_counts().array
note_par_isVirtual.head()

In [None]:
#Nombre de notes 0 par colonne "isVirtual"
note0_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total_note0'])
note0_par_isVirtual['isVirtual'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0]['isVirtual'].value_counts().index
note0_par_isVirtual['Total_note0'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0]['isVirtual'].value_counts().array
note0_par_isVirtual.head()

In [None]:
#Nombre de notes 1 par colonne "isVirtual"
note1_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total_note1'])
note1_par_isVirtual['isVirtual'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]['isVirtual'].value_counts().index
note1_par_isVirtual['Total_note1'] = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]['isVirtual'].value_counts().array
note1_par_isVirtual.head()

In [None]:
#On fusionne les trois tables
note_par_isVirtual = note_par_isVirtual.merge(note0_par_isVirtual, left_on='isVirtual', right_on='isVirtual')
note_par_isVirtual = note_par_isVirtual.merge(note1_par_isVirtual, left_on='isVirtual', right_on='isVirtual')

In [None]:
#On calcule les pourcentages
note_par_isVirtual['pourcentage_note0'] = note_par_isVirtual['Total_note0'] * 100 / note_par_isVirtual['Total']
note_par_isVirtual['pourcentage_note1'] = note_par_isVirtual['Total_note1'] * 100 / note_par_isVirtual['Total']

In [None]:
note_par_isVirtual

In [None]:
fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(x=note_par_isVirtual['isVirtual'], 
               y=note_par_isVirtual['Total'],
               name="Nombre de notes"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=note_par_isVirtual['isVirtual'],
               y=note_par_isVirtual['pourcentage_note1'],
               name="%tage note 1"),
    secondary_y=True,
)

#On ajoute le titre
fig.update_layout(title_text='Distribution des notes par isVirtual')

#Titre de l'axe x 
fig.update_xaxes(title_text="Types")

#Titre des axes y 
fig.update_yaxes(title_text="Nombre de notes", secondary_y=False)
fig.update_yaxes(title_text="Pourcentage dans la note 1", secondary_y=True)

fig.show()

In [None]:
##############################################################################################################################
########################################## SVD avant ré échantillonage #########################################################################

In [None]:
debut = time.time()

reader = Reader(rating_scale=(0, 1))
data = Dataset.load_from_df(offres_avec_notes_binaire[['user_id', 'offer_id', 'note']], reader)

#On prend 75% pour l'entrainement et 25% pour le test
trainset, testset = train_test_split(data, train_size=0.75, test_size=0.25)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

algo = SVD(n_factors=100)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

algo.fit(trainset)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

filename = 'train_100_binaire_avant_reequilibrage.sav'
pickle.dump(algo, open(filename, 'wb'))

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

filename = 'train_100_binaire_avant_reequilibrage.sav'
algo = pickle.load(open(filename, 'rb')) 

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

predictions = algo.test(testset)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

filename = 'prediction_1000_binaire_avant_reequilibrage.sav'
pickle.dump(predictions, open(filename, 'wb'))

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

filename = 'prediction_1000_binaire_avant_reequilibrage.sav'
predictions = pickle.load(open(filename, 'rb')) 

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
print(accuracy.rmse(predictions))

In [None]:
pred = pd.DataFrame(predictions)
pred.columns = ['user_id','offer_id', 'note', 'pred', 'details']
del pred['details']
pred.head()

In [None]:
data = pred['pred'].apply(round).value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / pred.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )

layout = dict(title = 'Prédiction : Distribution de {} notes'.format(pred.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))

fig = go.Figure(data=[trace], layout=layout)
fig.show()

In [None]:
offres_avec_notes_binaire.head()

In [None]:
#On recupere les types des offres et la colonne isVirtual
pred = pred.merge(offres_avec_notes_binaire, left_on=['user_id', 'offer_id','note'], \
                  right_on=['user_id', 'offer_id','note'])
pred.head()

In [None]:
#Nombre de notes par type 
note_par_type_pred = pd.DataFrame(columns = ['Type','Total'])
note_par_type_pred['Type'] = pred['type'].value_counts().index
note_par_type_pred['Total'] = pred['type'].value_counts().array
note_par_type_pred.head()

In [None]:
note0_par_type_pred = pd.DataFrame(columns = ['Type','Total_note0'])
note0_par_type_pred['Type'] = pred[pred['note']==0]['type'].value_counts().index
note0_par_type_pred['Total_note0'] = pred[pred['note']==0]['type'].value_counts().array
note0_par_type_pred.head()

In [None]:
note1_par_type_pred = pd.DataFrame(columns = ['Type','Total_note1'])
note1_par_type_pred['Type'] = pred[pred['note']==1]['type'].value_counts().index
note1_par_type_pred['Total_note1'] = pred[pred['note']==1]['type'].value_counts().array
note1_par_type_pred.head()

In [None]:
#On fusionne les trois tables
note_par_type_pred = note_par_type_pred.merge(note0_par_type_pred, left_on='Type', right_on='Type')
note_par_type_pred = note_par_type_pred.merge(note1_par_type_pred, left_on='Type', right_on='Type')

In [None]:
#Pourcentage des notes par type
note_par_type_pred['pourcentage_note0'] = note_par_type_pred['Total_note0'] * 100 / note_par_type_pred['Total']
note_par_type_pred['pourcentage_note1'] = note_par_type_pred['Total_note1'] * 100 / note_par_type_pred['Total']

In [None]:
note_par_type_pred.head()

In [None]:
fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(x=note_par_type_pred['Type'], 
           y=note_par_type_pred['Total'],
           name="Nombre de notes"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=note_par_type_pred['Type'],
               y=note_par_type_pred['pourcentage_note1'],
               name="%tage note 1"),
    secondary_y=True,
)

#On ajoute le titre
fig.update_layout(title_text='Prédiction : Distribution des notes par type')

#Titre de l'axe x 
fig.update_xaxes(title_text="Types")

#Titre des axes y 
fig.update_yaxes(title_text="Nombre de notes", secondary_y=False)
fig.update_yaxes(title_text="Pourcentage dans la note 1", secondary_y=True)

fig.show()

In [None]:
#Nombre de notes par colonne "isVirtual" 
note_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total'])
note_par_isVirtual['isVirtual'] = pred['isVirtual'].value_counts().index
note_par_isVirtual['Total'] = pred['isVirtual'].value_counts().array
note_par_isVirtual

In [None]:
note0_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total_note0'])
note0_par_isVirtual['isVirtual'] = pred[pred['note']==0]['isVirtual'].value_counts().index
note0_par_isVirtual['Total_note0'] = pred[pred['note']==0]['isVirtual'].value_counts().array
note0_par_isVirtual

In [None]:
note1_par_isVirtual = pd.DataFrame(columns = ['isVirtual','Total_note1'])
note1_par_isVirtual['isVirtual'] = pred[pred['note']==1]['isVirtual'].value_counts().index
note1_par_isVirtual['Total_note1'] = pred[pred['note']==1]['isVirtual'].value_counts().array
note1_par_isVirtual

In [None]:
#On fusionne les trois tables
note_par_isVirtual = note_par_isVirtual.merge(note0_par_isVirtual, left_on='isVirtual', right_on='isVirtual')
note_par_isVirtual = note_par_isVirtual.merge(note1_par_isVirtual, left_on='isVirtual', right_on='isVirtual')

In [None]:
#Pourcentage de notes pour la colonne "isVirtual"
note_par_isVirtual['pourcentage_note0'] = note_par_isVirtual['Total_note0'] * 100 / note_par_isVirtual['Total']
note_par_isVirtual['pourcentage_note1'] = note_par_isVirtual['Total_note1'] * 100 / note_par_isVirtual['Total']

In [None]:
note_par_isVirtual

In [None]:
fig = make_subplots(specs=[[{"secondary_y": True}]])

fig.add_trace(
    go.Bar(x=note_par_isVirtual['isVirtual'], 
           y=note_par_isVirtual['Total'],
           name="Nombre de notes"),
    secondary_y=False,
)

fig.add_trace(
    go.Scatter(x=note_par_isVirtual['isVirtual'],
               y=note_par_isVirtual['pourcentage_note1'],
               name="%tage note 1"),
    secondary_y=True,
)

#On ajoute le titre
fig.update_layout(title_text='Prédiction : Distribution des notes par isVirtual')

#Titre de l'axe x 
fig.update_xaxes(title_text="Types")

#Titre des axes y 
fig.update_yaxes(title_text="Nombre de notes", secondary_y=False)
fig.update_yaxes(title_text="Pourcentage dans la note 1", secondary_y=True)

fig.show()

In [None]:
########################################## METRIQUES ###################################################################

In [None]:
pred.head()

In [None]:
#Matrice de confusion
y_true = pred['note']
y_pred = pred['pred'].apply(round)

data = confusion_matrix(y_true, y_pred)
df_cm = pd.DataFrame(data, columns=np.unique(y_pred), index = np.unique(y_true))
df_cm.index.name = 'Classes réelles'
df_cm.columns.name = 'Classes prédites'

plt.figure(figsize = (10,7))

sn.set(font_scale=1.4)
akws = {"ha": 'center',"va": 'center'}
sn.heatmap(df_cm, annot=True, fmt=".0f", cmap="Blues", annot_kws=akws, center=0)

In [None]:
#Métriques
y_true = pred['note']
y_pred = pred['pred'].apply(round)

print('accuracy = ', accuracy_score(y_true, y_pred))
print('rappel = ', recall_score(y_true, y_pred))
print('precision = ', precision_score(y_true, y_pred))
print('F1 = ', f1_score(y_true, y_pred))

In [None]:
#Courbe ROC 
taux_faux_positifs = dict()
taux_vrais_positifs = dict()
roc_auc = dict()
n_classes = 2

y_true = pred['note']
y_pred = pred['pred']

for i in range(n_classes):
    taux_faux_positifs[i], taux_vrais_positifs[i], _ = roc_curve(y_true, y_pred)
    roc_auc[i] = auc(taux_faux_positifs[i], taux_vrais_positifs[i])

#Calcul de la courbe ROC "micro" et de l'AUC
taux_faux_positifs["micro"], taux_vrais_positifs["micro"], _ = roc_curve(y_true.ravel(), y_pred.ravel())
roc_auc["micro"] = auc(taux_faux_positifs["micro"], taux_vrais_positifs["micro"])

plt.figure()
lw = 2
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])

plt.plot(taux_faux_positifs["micro"], taux_vrais_positifs["micro"], color='darkorange', lw=lw, label='AUC = %0.2f' % roc_auc["micro"])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')

plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.title('Courbe ROC')
plt.legend(loc="lower right")

plt.show()

In [None]:
#On cherche un compromis entre le taux de vrais positifs et le taux de faux positifs 
#Le seuil optimal serait lorsque taux_vrais_positifs est élevé et taux_faux_positifs est faible soit : 
#taux_vrais_positifs - (1-taux_faux_positifs) est zéro ou proche de zéro 

taux_faux_positifs, taux_vrais_positifs, thresholds = roc_curve(pred['note'], pred['pred'])
roc_auc = auc(taux_faux_positifs, taux_vrais_positifs)

i = np.arange(len(taux_vrais_positifs)) 
roc = pd.DataFrame({'taux_faux_positifs' : pd.Series(taux_faux_positifs, index=i), \
                    'taux_vrais_positifs' : pd.Series(taux_vrais_positifs, index = i), \
                    '1-taux_faux_positifs' : pd.Series(1-taux_faux_positifs, index = i), \
                    'tf' : pd.Series(taux_vrais_positifs - (1-taux_faux_positifs), index = i), \
                    'thresholds' : pd.Series(thresholds, index = i)})

#Plot taux_vrais_positifs vs 1-taux_faux_positifs
fig, ax = pl.subplots()
pl.plot(roc['taux_vrais_positifs'], color = 'blue', label='TVP')
pl.plot(roc['1-taux_faux_positifs'], color = 'red', label='1-taux_faux_positifs')
pl.xlabel('1-Taux de faux positifs')
pl.ylabel('Taux de vrais positifs')
pl.title('ROC')
plt.legend(loc="lower right")
ax.set_xticklabels([])

#On affiche le point d'intersection
roc = roc.iloc[(roc.tf-0).abs().argsort()[:1]]
roc

In [None]:
# On change les pred en fonction du seuil 
pred['pred_avec_seuil'] = pred['pred'].apply(lambda x: 1 if x > roc['thresholds'].values[0] else 0)

# Print matrice de confusion
y_true = pred['note']
y_pred = pred['pred_avec_seuil']

data = confusion_matrix(y_true, y_pred)
df_cm = pd.DataFrame(data, columns=np.unique(y_pred), index = np.unique(y_true))
df_cm.index.name = 'Classes réelles'
df_cm.columns.name = 'Classes prédites'

plt.figure(figsize = (10,7))

sn.set(font_scale=1.4)
akws = {"ha": 'center',"va": 'center'}
sn.heatmap(df_cm, annot=True, fmt=".0f", cmap="Blues", annot_kws=akws, center=0)

In [None]:
#Métriques 
y_true = pred['note']
y_pred = pred['pred_avec_seuil']

print('accuracy = ', accuracy_score(y_true, y_pred))
print('rappel = ', recall_score(y_true, y_pred))
print('precision = ', precision_score(y_true, y_pred))
print('F1 = ', f1_score(y_true, y_pred))

In [None]:
######################################################################################################################################## 
################################## Recommandation avec seuil  #####################################################################

In [None]:
#On filtre les offres que l'on recommande de sorte à ne garder que les offres recommandables c'est à dire
# - celle qui ont un seuil de prédiction supérieur au thresholds
# - celles qui sont dans la table discovery_view
# - celle qui sont dans un departement proche de l'utilisateur 

In [None]:
#On recupere la table des offres que l'on predit 
print(pred['offer_id'].nunique())
pred

In [None]:
#On enlève les offres dont la prédiction est inferieur au seuil 
offres_recommandees_recommandables = pred[pred['pred_avec_seuil']==1]
print(offres_recommandees_recommandables['offer_id'].nunique())
offres_recommandees_recommandables

In [None]:
#On récupère toutes les offres recommandables
discovery_view = pd.read_sql_query("""SELECT id as offer_id FROM discovery_view""", connection)
print(discovery_view['offer_id'].nunique())
discovery_view

In [None]:
#On fusionne pour avoir que les offres qui sont dans discovery_view
offres_recommandees_recommandables = offres_recommandees_recommandables.merge(discovery_view, \
                                                                              left_on='offer_id', \
                                                                              right_on='offer_id', \
                                                                             how='inner')
print(offres_recommandees_recommandables['offer_id'].nunique())
offres_recommandees_recommandables.drop_duplicates(inplace=True)
offres_recommandees_recommandables

In [None]:
#On ajoute le code postal de l'utilisateur et celui de l'offre

#on recupère le code postal des utilisateurs 
utilisateur_CP = pd.read_sql_query("""SELECT "user"."id" as user_id, "departementCode" as user_CP
                       FROM "user" 
                       """, connection)

#on fusionne pour l'avoir dans notre table des offres recommandables
offres_recommandees_recommandables = offres_recommandees_recommandables.merge(utilisateur_CP, \
                                                                                   left_on='user_id', \
                                                                                   right_on='user_id')

#On recupère le code postal des offres 
offres_CP = pd.read_sql_query("""SELECT "offer"."id" as offer_id, "departementCode" as offer_CP
                       FROM "offer"
                       LEFT JOIN venue ON offer."venueId"=venue.id
                       """, connection)

offres_recommandees_recommandables = offres_recommandees_recommandables.merge(offres_CP, \
                                                                                   left_on='offer_id', \
                                                                                   right_on='offer_id')

offres_recommandees_recommandables.head()

In [None]:
#On crée deux dataframe : un pour les offres physiques et un pour les offres numériques

In [None]:
offres_recommandees_recommandables_physique = offres_recommandees_recommandables.dropna()
offres_recommandees_recommandables_physique

In [None]:
#On récupère la liste des départements 
departements_proches = {
    '08': ['02', '08', '51', '55', '59'],
    '22': ['22', '29', '35', '56'],
    '25': ['21', '25', '39', '68', '70', '71', '90'],
    '29': ['22', '35', '29', '56'],
    '34': ['11', '12', '13', '30', '31', '34', '48', '66', '81', '84'],
    '35': ['22', '29', '35', '44', '49', '50', '53', '56'],
    '56': ['22', '29', '35', '44', '56'],
    '58': ['03', '18', '21', '45', '58', '71', '89'],
    '67': ['54', '55', '57', '67', '68', '88'],
    '71': ['01', '03', '21', '39', '42', '58', '69', '71'],
    '84': ['04', '07', '13', '26', '30', '83', '84'],
    '93': ['75', '77', '78', '91', '92', '93', '94', '95'],
    '94': ['75', '77', '78', '91', '92', '93', '94', '95'],
    '97': ['97', '971', '972', '973'],
    '973': ['97', '971', '972', '973'],
}

In [None]:
#On le transforme en dataframe
keys = []
values = []
for key, value_list in departements_proches.items():
    keys += [key] * len(value_list)
    values += value_list
    
    
departements_proches = pd.DataFrame({'user_cp' : keys, 'offer_cp' : values})
departements_proches

In [None]:
#On fusionne les deux tables pour ne garder que les offres qui sont dans un perimetre proche de l'utilisateur 
offres_recommandees_recommandables_physique = offres_recommandees_recommandables_physique.merge(departements_proches, \
                                                                             left_on=['user_cp','offer_cp'],\
                                                                             right_on=['user_cp','offer_cp'])
offres_recommandees_recommandables_physique

In [None]:
#On merge les deux tables des offres physique et numerique pour avoir nos offres recommandables 
offres_recommandees_recommandables = offres_recommandees_recommandables.merge(offres_recommandees_recommandables_physique, \
    right_on=['user_id', 'offer_id', 'note', 'pred', 'user_cp', 'offer_cp','type','isVirtual','pred_avec_seuil'], \
    left_on=['user_id', 'offer_id', 'note', 'pred', 'user_cp', 'offer_cp','type','isVirtual','pred_avec_seuil'], \
    how='left')
print(offres_recommandees_recommandables['offer_id'].nunique())
offres_recommandees_recommandables

In [None]:
############################### Visualisation ###############################

In [None]:
#On cherche les utilisateurs :
# - les plus intéréssés par les offres (ceux qui ont mis le plus de "note 1")
# - les moins intéréssés par les offres (ceux qui n'ont mis qu'une "note 1")
offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]['user_id'].value_counts()

In [None]:
#On verifie que l'utilisateur n'est pas dans le trainset 
trainset.knows_user(63068)

In [None]:
#On visualise la recommandation que l'on fait à un utilisateur 

In [None]:
id_utilisateur = 61290

prediction = pred[pred['pred_avec_seuil']==1]

offres_recommandees_a_cet_utilisateur = prediction[prediction['user_id']==id_utilisateur]

offres_recommandees_recommandables_a_cet_utilisateur = offres_recommandees_recommandables\
                                                    [offres_recommandees_recommandables['user_id']==id_utilisateur]

interactions_dans_lapp = offres_avec_notes_binaire[offres_avec_notes_binaire['user_id']==id_utilisateur] 
interactions_dans_lapp_0 = interactions_dans_lapp[interactions_dans_lapp['note']==0]
interactions_dans_lapp_1 =interactions_dans_lapp[interactions_dans_lapp['note']==1]


#Nombre d'interactions de l'utilisateur dans l'app
print("L'utilisateur a eu", len(interactions_dans_lapp), "interactions dans l'application, dont ",\
      len(interactions_dans_lapp_0), "offres notées pas intéressantes et ", \
     len(interactions_dans_lapp_1), "offres notées comme étant intéressantes")

#Offres qui interessent l'utilisateur 
print("L'utilisateur ", id_utilisateur, "est intéréssé par ", \
      len(interactions_dans_lapp_1), "offre(s) qui est/sont : \n",\
      interactions_dans_lapp_1, '\n')

#Les tyes d'offres qui interessent l'utilisateur 
print("Les types d'offres par ordre de préférence par cet utilisateur (en pourcentage): ")
print((interactions_dans_lapp_1['type'].value_counts()) / \
      (interactions_dans_lapp_1['offer_id'].count()) * 100, '\n')



#Les offres recommandées à l'utilisateur 
print("On lui recommande les",len(offres_recommandees_a_cet_utilisateur), "offre(s) suivante(s) :")
print(offres_recommandees_a_cet_utilisateur[['offer_id','type']], '\n')

#Les types d'offres que l'on recommande à l'utilisateur 
print("Les types d'offres recommandés pour cet utilisateur (en pourcentage): ")
print((offres_recommandees_a_cet_utilisateur['type'].value_counts()) / \
      (len(offres_recommandees_a_cet_utilisateur)) * 100 ,'\n')



#Les offres recommandées à l'utilisateur qui sont recommandables
print("On lui recommande les",len(offres_recommandees_recommandables_a_cet_utilisateur), "offre(s) suivante(s) :")
print(offres_recommandees_recommandables_a_cet_utilisateur[['offer_id','type']], '\n')

#Les types d'offres que l'on recommande à l'utilisateur qui sont recommandables
print("Les types d'offres recommandés pour cet utilisateur (en pourcentage): ")
print((offres_recommandees_recommandables_a_cet_utilisateur['type'].value_counts()) / \
      (len(offres_recommandees_recommandables_a_cet_utilisateur)) * 100 ,'\n')


#Parmi les offres qu'on recommande, combien d'offres ont réellement été appréciées par l'utilisateur ? 
offres_communes = interactions_dans_lapp_1.merge(offres_recommandees_recommandables_a_cet_utilisateur,\
                left_on=['user_id', 'offer_id', 'type', 'isVirtual', 'note'], \
                right_on=['user_id', 'offer_id', 'type', 'isVirtual', 'note'])
print("Parmi les",len(offres_recommandees_recommandables_a_cet_utilisateur) ,"offres que l'on a recommandé, il y en a", offres_communes['offer_id'].nunique(), "qu'il a \
réellement apprécié")

In [None]:
##############################################################################################################################
########################################## Equilibrer les données #######################################################################
############################ Plusieurs sous echantillonage donc plusieurs modèles #########################################################################

In [None]:
offres_avec_notes_0_5 = pd.read_csv('offres_avec_notes_0_5.csv', sep = '\t') 

#Note 1 : offres mises en favoris, achetées et annnulées, achetées et pas consommées, achetées 
#Note 0 : offres ignorées ou juste cliquées
offres_avec_notes_binaire = offres_avec_notes_0_5

offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 1,'note'] = 0
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 2,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 3,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 4,'note'] = 1
offres_avec_notes_binaire.loc[offres_avec_notes_binaire['note'] == 5,'note'] = 1

#On enregistre en csv 
offres_avec_notes_binaire.to_csv('offres_avec_notes_binaire.csv', sep = '\t', index=False)

In [None]:
notes0 = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==0]
notes1 = offres_avec_notes_binaire[offres_avec_notes_binaire['note']==1]

In [None]:
print('Nombre de 0 : ', notes0.shape[0])
print('Nombre de 1 : ', notes1.shape[0])

In [None]:
#On prend 10% des notes 1 que l'on ne va utiliser ni dans le train ni dans le test mais que l'on va utiliser dans
#le test global 
testset1_global = notes1.sample(frac=0.1, random_state=1)

#On cherche le nombre de notes 0 que l'on doit avoir pour avoir 97% de notes 0 et 3% de notes 1 
size_testset0_global = testset1_global.shape[0] * 0.97 / 0.03

#On met dans le trainset global le nombre de notes 0 necessaires
testset0_global = notes0.sample(n=int(size_testset0_global), random_state=1)

In [None]:
testset_global = pd.concat([testset1_global,testset0_global])

In [None]:
data = testset_global['note'].value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / testset_global.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )

layout = dict(title = "Distribution de {} notes dans le testset global".format(testset_global.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))

fig = go.Figure(data=[trace], layout=layout)
fig.show()

In [None]:
#On recupere toutes les offres restantes pour les notes 0 et 1 
#Pour cela on concat notes 0 et testset0_global et on supprime tous les doublons (pareil pour 1)
modele_note0 = pd.concat([notes0, testset0_global]).drop_duplicates(keep=False)
modele_note1 = pd.concat([notes1, testset1_global]).drop_duplicates(keep=False)

In [None]:
#On cree nos 5 modeles en prenant 
#- Pour la note 1 : 25% de test et 75% de train 
#- Pour la note 0 : le meme nombre de notes pour le test que les 25% de la note 1 et un certain nombre de note 1 qui
# doivent etre egale à 75% du dataset de train 
#--> Les trainsets de la note 0 et de la note 1 doivent etre egals
#--> Le testset de la note 0 doit constitué 3% et le testset de la note 1 97% du testset  

In [None]:
#On prends de la note 1 : 75% pour le train et 25% pour le test pour les 5 modèles
from sklearn.model_selection import train_test_split

trainset_note1_0, testset_note1_0 = train_test_split(modele_note1, test_size=0.25, train_size=0.75)
trainset_note1_1, testset_note1_1 = train_test_split(modele_note1, test_size=0.25, train_size=0.75)
trainset_note1_2, testset_note1_2 = train_test_split(modele_note1, test_size=0.25, train_size=0.75)
trainset_note1_3, testset_note1_3 = train_test_split(modele_note1, test_size=0.25, train_size=0.75)
trainset_note1_4, testset_note1_4 = train_test_split(modele_note1, test_size=0.25, train_size=0.75)

In [None]:
#On calcule le pourcentage d'offres a prendre de la note 0 pour avoir 50 50 dans le train de 0 et de 1 
train_size = (trainset_note1_0.shape[0] / modele_note0.shape[0])
test_size = 1 - train_size

trainset_note0_0, testset_note0_0 = train_test_split(modele_note0, test_size=test_size, train_size=train_size)
trainset_note0_1, testset_note0_1 = train_test_split(modele_note0, test_size=test_size, train_size=train_size)
trainset_note0_2, testset_note0_2 = train_test_split(modele_note0, test_size=test_size, train_size=train_size)
trainset_note0_3, testset_note0_3 = train_test_split(modele_note0, test_size=test_size, train_size=train_size)
trainset_note0_4, testset_note0_4 = train_test_split(modele_note0, test_size=test_size, train_size=train_size)

In [None]:
print('Nombre de 1 dans le train : ', trainset_note1_0.shape[0])
print('Nombre de 0 dans le train : ', trainset_note0_0.shape[0])

In [None]:
#On merge le trainset de 0 et de 1 
trainset_modele_0 = pd.concat([trainset_note1_0, trainset_note0_0])
trainset_modele_1 = pd.concat([trainset_note1_1, trainset_note0_1])
trainset_modele_2 = pd.concat([trainset_note1_2, trainset_note0_2])
trainset_modele_3 = pd.concat([trainset_note1_3, trainset_note0_3])
trainset_modele_4 = pd.concat([trainset_note1_4, trainset_note0_4])

In [None]:
data = trainset_modele_0['note'].value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / trainset_modele_0.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )

layout = dict(title = "Distribution de {} notes dans le train".format(trainset_modele_0.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))

fig = go.Figure(data=[trace], layout=layout)
fig.show()

In [None]:
#On doit changer la proportion du testset de 0 pour avoir dans le testset 97 vs 3 ce qui n'est pas le cas ici 
print('On a :', testset_note1_0.shape[0], 'notes 1 dans le testset et cela doit representer 3%')
print('Donc il nous faut', int(testset_note1_0.shape[0] * 0.97 / 0.03), 'notes 0 pour avoir 97%')

In [None]:
#On ne change pas le testset de 1 qui represente deja 3% des notes 
#On change testset de 0 pour avoir 97% des notes 
n = round(testset_note1_0.shape[0] * 0.97 / 0.03)

testset_note0_0 = testset_note0_0.sample(n=n, random_state=1)
testset_note0_1 = testset_note0_1.sample(n=n)
testset_note0_2 = testset_note0_2.sample(n=n)
testset_note0_3 = testset_note0_3.sample(n=n)
testset_note0_4 = testset_note0_4.sample(n=n)

In [None]:
#On merge le testset de 0 et de 1 
testset_modele_0 = pd.concat([testset_note1_0, testset_note0_0])
testset_modele_1 = pd.concat([testset_note1_1, testset_note0_1])
testset_modele_2 = pd.concat([testset_note1_2, testset_note0_2])
testset_modele_3 = pd.concat([testset_note1_3, testset_note0_3])
testset_modele_4 = pd.concat([testset_note1_4, testset_note0_4])

In [None]:
data = testset_modele_0['note'].value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / testset_modele_0.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )

layout = dict(title = "Distribution de {} notes dans le test de chaque modèle".format(testset_modele_0.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))

fig = go.Figure(data=[trace], layout=layout)
fig.show()

In [None]:
#On concat les trainset et les testset de chaque modèle
data_modele_0 = pd.concat([trainset_modele_0, testset_modele_0])
data_modele_1 = pd.concat([trainset_modele_1, testset_modele_1])
data_modele_2 = pd.concat([trainset_modele_2, testset_modele_2])
data_modele_3 = pd.concat([trainset_modele_3, testset_modele_3])
data_modele_4 = pd.concat([trainset_modele_4, testset_modele_4])

In [None]:
from surprise.model_selection import train_test_split
debut = time.time()

reader = Reader(rating_scale=(0, 1))
#On récupère les trainset et les testset de chaque modèle avec surpise
data_modele_0 = Dataset.load_from_df(data_modele_0[['user_id', 'offer_id', 'note']], reader)
data_modele_1 = Dataset.load_from_df(data_modele_1[['user_id', 'offer_id', 'note']], reader)
data_modele_2 = Dataset.load_from_df(data_modele_2[['user_id', 'offer_id', 'note']], reader)
data_modele_3 = Dataset.load_from_df(data_modele_3[['user_id', 'offer_id', 'note']], reader)
data_modele_4 = Dataset.load_from_df(data_modele_4[['user_id', 'offer_id', 'note']], reader)

#On récupère le testset global
data_testset_global = Dataset.load_from_df(testset_global[['user_id', 'offer_id', 'note']], reader)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
from surprise.model_selection import train_test_split
debut = time.time()

#Trainset et testset de chaque modèle
trainset_0, testset_0 = train_test_split(data_modele_0, train_size = trainset_modele_0.shape[0], test_size = testset_modele_0.shape[0], shuffle=False)
trainset_1, testset_1 = train_test_split(data_modele_1, train_size = trainset_modele_1.shape[0], test_size = testset_modele_1.shape[0], shuffle=False)
trainset_2, testset_2 = train_test_split(data_modele_2, train_size = trainset_modele_2.shape[0], test_size = testset_modele_2.shape[0], shuffle=False)
trainset_3, testset_3 = train_test_split(data_modele_3, train_size = trainset_modele_3.shape[0], test_size = testset_modele_3.shape[0], shuffle=False)
trainset_4, testset_4 = train_test_split(data_modele_4, train_size = trainset_modele_4.shape[0], test_size = testset_modele_4.shape[0], shuffle=False)

#Testset gloabl pour tous les modeles 
#Ici on met une note dans le trainset et tous le reste dans le testset car ce n'est pas possible de ne rien mettre
#dans le trainset (il n'y a pas de trainsrt global de base)
trainset_global, testset_global = train_test_split(data_testset_global, test_size=len(testset_global)-1, shuffle=False)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

algo_0 = SVD(n_factors=100)
algo_1 = SVD(n_factors=100)
algo_2 = SVD(n_factors=100)
algo_3 = SVD(n_factors=100)
algo_4 = SVD(n_factors=100)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
debut = time.time()

#Entrainement des 5 modeles
algo_0.fit(trainset_0)
algo_1.fit(trainset_1)
algo_2.fit(trainset_2)
algo_3.fit(trainset_3)
algo_4.fit(trainset_4)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
filename0 = 'train_100_binaire_apres_reequilibrage_modele0.sav'
filename1 = 'train_100_binaire_apres_reequilibrage_modele1.sav'
filename2 = 'train_100_binaire_apres_reequilibrage_modele2.sav'
filename3 = 'train_100_binaire_apres_reequilibrage_modele3.sav'
filename4 = 'train_100_binaire_apres_reequilibrage_modele4.sav'

pickle.dump(algo_0, open(filename0, 'wb'))
pickle.dump(algo_1, open(filename1, 'wb'))
pickle.dump(algo_2, open(filename2, 'wb'))
pickle.dump(algo_3, open(filename3, 'wb'))
pickle.dump(algo_4, open(filename4, 'wb'))

In [None]:
debut = time.time()

#Predictions des 5 modeles avec leur testset
predictions_0 = algo_0.test(testset_0)
predictions_1 = algo_1.test(testset_1)
predictions_2 = algo_2.test(testset_2)
predictions_3 = algo_3.test(testset_3)
predictions_4 = algo_4.test(testset_4)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
pred_0 = pd.DataFrame(predictions_0)
pred_1 = pd.DataFrame(predictions_1)
pred_2 = pd.DataFrame(predictions_2)
pred_3 = pd.DataFrame(predictions_3)
pred_4 = pd.DataFrame(predictions_4)

In [None]:
pred_0.columns = ['user_id','offer_id','note','pred_0','details']
pred_1.columns = ['user_id','offer_id','note','pred_1','details']
pred_2.columns = ['user_id','offer_id','note','pred_2','details']
pred_3.columns = ['user_id','offer_id','note','pred_3','details']
pred_4.columns = ['user_id','offer_id','note','pred_4','details']

del pred_0['details']
del pred_1['details']
del pred_2['details']
del pred_3['details']
del pred_4['details']

In [None]:
filename0 = 'prediction_100_binaire_apres_reequilibrage_modele0.sav'
filename1 = 'prediction_100_binaire_apres_reequilibrage_modele1.sav'
filename2 = 'prediction_100_binaire_apres_reequilibrage_modele2.sav'
filename3 = 'prediction_100_binaire_apres_reequilibrage_modele3.sav'
filename4 = 'prediction_100_binaire_apres_reequilibrage_modele4.sav'

pickle.dump(pred_0, open(filename0, 'wb'))
pickle.dump(pred_1, open(filename1, 'wb'))
pickle.dump(pred_2, open(filename2, 'wb'))
pickle.dump(pred_3, open(filename3, 'wb'))
pickle.dump(pred_4, open(filename4, 'wb'))

In [None]:
pred_0.head()

In [None]:
#Résultat pour un modèle. Changer les variables modele et pred pour visualiser les autres modèles

In [None]:
#Distribution des notes : prédiction
modele = pred_0
pred = modele['pred_0']

data = pred.apply(round).value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / modele.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )
layout = dict(title = "Prédiction : Distribution de {} notes".format(modele.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))
fig = go.Figure(data=[trace], layout=layout)
fig.show()


#Matrice de confusion
y_true = modele['note']
y_pred = pred.apply(round)

data = confusion_matrix(y_true, y_pred)
df_cm = pd.DataFrame(data, columns=np.unique(y_pred), index = np.unique(y_true))
df_cm.index.name = 'Classes réelles'
df_cm.columns.name = 'Classes prédites'

plt.figure(figsize = (10,7))
sn.set(font_scale=1.4)
akws = {"ha": 'center',"va": 'center'}
sn.heatmap(df_cm, annot=True, fmt=".0f", cmap="Blues", annot_kws=akws, center=0)


#Métriques
y_true = modele['note']
y_pred = pred.apply(round)

print("accuracy = ", accuracy_score(y_true, y_pred))
print('rappel = ', recall_score(y_true, y_pred))
print('precision = ', precision_score(y_true, y_pred))
print('F1 = ', f1_score(y_true, y_pred))


#Courbe ROC
taux_faux_positif = dict()
taux_vrais_positif = dict()
roc_auc = dict()
n_classes = 2

y_true = modele['note']
y_pred = pred

for i in range(n_classes):
    taux_faux_positif[i], taux_vrais_positif[i], _ = roc_curve(y_true, y_pred)
    roc_auc[i] = auc(taux_faux_positif[i], taux_vrais_positif[i])

taux_faux_positif["micro"], taux_vrais_positif["micro"], _ = roc_curve(y_true.ravel(), y_pred.ravel())
roc_auc["micro"] = auc(taux_faux_positif["micro"], taux_vrais_positif["micro"])

plt.figure()
lw = 2
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.plot(taux_faux_positif["micro"], taux_vrais_positif["micro"], color='darkorange', lw=lw, label='AUC = %0.2f' % roc_auc["micro"])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.title('Courbe ROC')
plt.legend(loc="lower right")
plt.show()

In [None]:
#Test sur le testset_global

In [None]:
debut = time.time()

#Predictions des 5 modeles avec le testset global
predictions_0 = algo_0.test(testset_global)
predictions_1 = algo_1.test(testset_global)
predictions_2 = algo_2.test(testset_global)
predictions_3 = algo_3.test(testset_global)
predictions_4 = algo_4.test(testset_global)

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
pred_0 = pd.DataFrame(predictions_0)
pred_1 = pd.DataFrame(predictions_1)
pred_2 = pd.DataFrame(predictions_2)
pred_3 = pd.DataFrame(predictions_3)
pred_4 = pd.DataFrame(predictions_4)

In [None]:
pred_0.columns = ['user_id','offer_id','note','pred_0','details']
pred_1.columns = ['user_id','offer_id','note','pred_1','details']
pred_2.columns = ['user_id','offer_id','note','pred_2','details']
pred_3.columns = ['user_id','offer_id','note','pred_3','details']
pred_4.columns = ['user_id','offer_id','note','pred_4','details']

del pred_0['details']
del pred_1['details']
del pred_2['details']
del pred_3['details']
del pred_4['details']

In [None]:
pred_0.head()

In [None]:
#On fusionne toutes les tables
pred_all = pred_0.merge(pred_1, right_on=['user_id','offer_id','note'], left_on=['user_id','offer_id','note'])
pred_all = pred_all.merge(pred_2, right_on=['user_id','offer_id','note'], left_on=['user_id','offer_id','note'])
pred_all = pred_all.merge(pred_3, right_on=['user_id','offer_id','note'], left_on=['user_id','offer_id','note'])
pred_all = pred_all.merge(pred_4, right_on=['user_id','offer_id','note'], left_on=['user_id','offer_id','note'])

In [None]:
pred_all.head()

In [None]:
pred_all['pred_moyenne'] = (pred_all['pred_0'] + pred_all['pred_1'] + pred_all['pred_2'] + \
                            pred_all['pred_3'] + pred_all['pred_4']) / 5

In [None]:
pred_all.head()

In [None]:
filename = 'prediction_global_100_binaire_apres_reequilibrage.sav'

pickle.dump(pred_all, open(filename, 'wb'))

In [None]:
pred_all['pred_all_arrondie'] = pred_all['pred_moyenne'].apply(round)

In [None]:
pred_all.head()

In [None]:
#Distribution des notes : prediction (testset sur l'ensemble des modeles)
data = pred_all['pred_all_arrondie'].value_counts().sort_index(ascending=False)
trace = go.Bar(x = data.index,
               text = ['{:.1f} %'.format(val) for val in (data.values / pred_all.shape[0] * 100)],
               textposition = 'auto',
               textfont = dict(color = '#000000'),
               y = data.values,
               )
layout = dict(title = "Prédiction : Distribution de {} notes".format(pred_all.shape[0]),
              xaxis = dict(title = 'Notes'),
              yaxis = dict(title = "Nombre de notes"))
fig = go.Figure(data=[trace], layout=layout)
fig.show()


#Matrice de confusion
y_true = pred_all['note']
y_pred = pred_all['pred_all_arrondie']

data = confusion_matrix(y_true, y_pred)
df_cm = pd.DataFrame(data, columns=np.unique(y_pred), index = np.unique(y_true))
df_cm.index.name = 'Classes réelles'
df_cm.columns.name = 'Classes prédites'

plt.figure(figsize = (10,7))
sn.set(font_scale=1.4)
akws = {"ha": 'center',"va": 'center'}
sn.heatmap(df_cm, annot=True, fmt=".0f", cmap="Blues", annot_kws=akws, center=0)


#Métriques
y_true = pred_all['note']
y_pred = pred_all['pred_all_arrondie']

print("accuracy = ", accuracy_score(y_true, y_pred))
print('rappel = ', recall_score(y_true, y_pred))
print('precision = ', precision_score(y_true, y_pred))
print('F1 = ', f1_score(y_true, y_pred))


#Courbe ROC 
taux_faux_positif = dict()
taux_vrais_positif = dict()
roc_auc = dict()
n_classes = 2

y_true = pred_all['note']
y_pred = pred_all['pred_moyenne']

for i in range(n_classes):
    taux_faux_positif[i], taux_vrais_positif[i], _ = roc_curve(y_true, y_pred)
    roc_auc[i] = auc(taux_faux_positif[i], taux_vrais_positif[i])

taux_faux_positif["micro"], taux_vrais_positif["micro"], _ = roc_curve(y_true.ravel(), y_pred.ravel())
roc_auc["micro"] = auc(taux_faux_positif["micro"], taux_vrais_positif["micro"])

plt.figure()
lw = 2
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.plot(taux_faux_positif["micro"], taux_vrais_positif["micro"], color='darkorange', lw=lw, label='AUC = %0.2f' % roc_auc["micro"])
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlabel('Taux de faux positifs')
plt.ylabel('Taux de vrais positifs')
plt.title('Courbe ROC')
plt.legend(loc="lower right")
plt.show()

In [None]:
#On cherche un compromis entre le taux de vrais positifs et le taux de faux positifs 
#Le seuil optimal serait lorsque taux_vrais_positifs est élevé et taux_faux_positifs est faible soit : 
#taux_vrais_positifs - (1-taux_faux_positifs) est zéro ou proche de zéro 

taux_faux_positifs, taux_vrais_positifs, thresholds = roc_curve(pred_all['note'], pred_all['pred_moyenne'])
roc_auc = auc(taux_faux_positifs, taux_vrais_positifs)

i = np.arange(len(taux_vrais_positifs)) 
roc = pd.DataFrame({'taux_faux_positifs' : pd.Series(taux_faux_positifs, index=i), \
                    'taux_vrais_positifs' : pd.Series(taux_vrais_positifs, index = i), \
                    '1-taux_faux_positifs' : pd.Series(1-taux_faux_positifs, index = i), \
                    'tf' : pd.Series(taux_vrais_positifs - (1-taux_faux_positifs), index = i), \
                    'thresholds' : pd.Series(thresholds, index = i)})

#Plot taux_vrais_positifs vs 1-taux_faux_positifs
fig, ax = pl.subplots()
pl.plot(roc['taux_vrais_positifs'], color = 'blue', label='TVP')
pl.plot(roc['1-taux_faux_positifs'], color = 'red', label='1-taux_faux_positifs')
pl.xlabel('1-Taux de faux positifs')
pl.ylabel('Taux de vrais positifs')
pl.title('ROC')
plt.legend(loc="lower right")
ax.set_xticklabels([])

#On affiche le point d'intersection
roc = roc.iloc[(roc.tf-0).abs().argsort()[:1]]
roc

In [None]:
#############################################################################################################################

In [None]:
#############################################################################################################################

In [None]:
##############################################################################################################################
############################## Facteurs latents ####################################################################################

In [None]:
#Recuperer les ids des offres en dictionnaire
debut = time.time()

key_trainset = trainset.ir #Dict {id inner item : (id user,note)}
dict_id_offers={}
i=0
for key in key_trainset.keys():
    dict_id_offers[i]=trainset.to_raw_iid(key)
    i=i+1
#dict_id_offers

#Recuperer les facteurs latents pour chaque offre 
#https://surprise.readthedocs.io/en/stable/matrix_factorization.html
offer_factor_latent = algo.qi
offer_factor_latent = pd.DataFrame(offer_factor_latent)
offer_factor_latent.rename(index=dict_id_offers, inplace=True)
offer_factor_latent

fin = time.time()
temps = (fin - debut)/60
print(temps)

In [None]:
#Trier les valeurs de chaque facteur par ordre décroissant
for col in offer_factor_latent:
    facteur = offer_factor_latent[col].sort_values(ascending=False)
    facteur = pd.DataFrame(facteur)
    print(facteur)

In [None]:
#############################################################################################################################

In [None]:
fin1 = time.time()
temps1 = (fin1 - debut1)/60
print(temps1)