# <font color=red>**Modélisation des systèmes de recommandation**</font>

**My Content** est une start-up (fictive) qui souhaite **proposer une application mobile de recommandation d’articles** à ses utilisateurs.

L'**objectif général** d'une méthode de recommandation est de ***prédire les valeurs manquantes*  d'une matrice d'utilité**, où chaque utilisateur est associé à une ligne et chaque article à une colonne.

| | A1 | A2 | A3 | A4 | ... |
|:--: | :--: | :--: | :--: | :--: | :--: |
| **U1** | 1 |  |  | 1 |  |
| **U2** |  |  | 1 | 1 |  |
| **U3** | 1 | 1 |  |  | 1 |
| **U4** |  | 1 | 1 | 1 | 1 |

Ce notebook a pour objectif de présenter les étapes de construction de 3 modèles de recommandation:
- Un modèle **non personnalisé** basé sur la popularité des articles ;
- Un modèle **basé sur le contenu** (*content-based*) ;
- Un modèle basé sur le **filtrage collaboratif** (*collaborative filtering*).

# <font color=green>**Chargement des données**</font>

---



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
from IPython.display import clear_output

# install the Kaggle API client.
!pip install -q kaggle
! mkdir ~/.kaggle

!cp /content/drive/MyDrive/OC_IA/kaggle.json ~/.kaggle/kaggle.json

! chmod 600 ~/.kaggle/kaggle.json

# Copy the stackoverflow data set locally.
!kaggle datasets download -d gspmoreira/news-portal-user-interactions-by-globocom
!unzip news-portal-user-interactions-by-globocom.zip

clear_output()

In [None]:
# Import libraries
import pandas as pd
import numpy as np
from pathlib import Path
import os

def load_data(src_path, click_path):
    '''
    Fonction utilisée pour charger les données du site "News Portal" de Globo.com

    Parameters:
        src_path : chemin vers le dossier contenant les metadonnées et la matrice embedding des articles
        click_path : chemin vers le dossier contenant les fichiers d'interactions des utilisateurs (1 fichier par heure)
    
    Returns:
        articles (dataframe) : les métadonnées des articles (id, catégorie, date de publication, nombre de mots)
        embeddings (array) : matrice de 250 vecteurs des mots contenus dans les articles
        clicks (dataframe)  : les interactions ou clicks des utilisateurs avec les articles
    '''
    # Load articles' metadata
    articles = pd.read_csv(src_path / 'articles_metadata.csv')
    # Drop useless feature
    articles.drop(columns=['publisher_id'], inplace=True)
    # Convert all data types to integer
    articles = articles.astype(np.int64)

    # Load articles' embedding
    embeddings = pd.read_pickle(src_path / 'articles_embeddings.pickle')
    # Change data type from float64 to float32
    embeddings = embeddings.astype(np.float32)

    # Load user interactions with articles
    clicks = pd.DataFrame().append([pd.read_csv(click_path / file) for file in sorted(os.listdir(click_path))],ignore_index=True)
    # Rename columns
    clicks.rename(columns={'click_article_id':'article_id'}, inplace=True)
    # Drop useless feature
    clicks.drop(columns=['click_environment', 'click_deviceGroup', 'click_os', 'click_country', 'click_region', 'click_referrer_type'], inplace=True)
    # Convert all data types to integer
    clicks = clicks.astype(np.int64)

    return articles, embeddings, clicks

In [None]:
# Set general configurations
src_path = Path('/content')
click_path = Path('/content/clicks/clicks')

# Call the function to load data
articles, embeddings, clicks = load_data(src_path, click_path)

# Display shape
print('Articles Dataframe shape: ', articles.shape)
print('Embedding Matrix shape: ', embeddings.shape)
print('Clicks Dataframe shape: ', clicks.shape)

Articles Dataframe shape:  (364047, 4)
Embedding Matrix shape:  (364047, 250)
Clicks Dataframe shape:  (2988181, 6)


In [None]:
clicks.shape

(2988181, 6)

In [None]:
clicks.to_csv('/content/drive/MyDrive/OC_IA/P09/data/clicks.csv', index=False)

In [None]:
# Display DF shape and 5 first rows
print('Articles Dataframe shape: ', articles.shape)
articles.head()

Articles Dataframe shape:  (364047, 4)


Unnamed: 0,article_id,category_id,created_at_ts,words_count
0,0,0,1513144419000,168
1,1,1,1405341936000,189
2,2,1,1408667706000,250
3,3,1,1408468313000,230
4,4,1,1407071171000,162


In [None]:
# Display DF shape and 5 first rows
df_embeddings = pd.DataFrame(embeddings)
print('Embedding Matrix shape: ', embeddings.shape)
df_embeddings.head()

Embedding Matrix shape:  (364047, 250)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,240,241,242,243,244,245,246,247,248,249
0,-0.161183,-0.957233,-0.137944,0.050855,0.830055,0.901365,-0.335148,-0.559561,-0.500603,0.165183,...,0.321248,0.313999,0.636412,0.169179,0.540524,-0.813182,0.28687,-0.231686,0.597416,0.409623
1,-0.523216,-0.974058,0.738608,0.155234,0.626294,0.485297,-0.715657,-0.897996,-0.359747,0.398246,...,-0.487843,0.823124,0.412688,-0.338654,0.320787,0.588643,-0.594137,0.182828,0.39709,-0.834364
2,-0.619619,-0.97296,-0.20736,-0.128861,0.044748,-0.387535,-0.730477,-0.066126,-0.754899,-0.242004,...,0.454756,0.473184,0.377866,-0.863887,-0.383365,0.137721,-0.810877,-0.44758,0.805932,-0.285284
3,-0.740843,-0.975749,0.391698,0.641738,-0.268645,0.191745,-0.825593,-0.710591,-0.040099,-0.110514,...,0.271535,0.03604,0.480029,-0.763173,0.022627,0.565165,-0.910286,-0.537838,0.243541,-0.885329
4,-0.279052,-0.972315,0.685374,0.113056,0.238315,0.271913,-0.568816,0.341194,-0.600554,-0.125644,...,0.238286,0.809268,0.427521,-0.615932,-0.503697,0.61445,-0.91776,-0.424061,0.185484,-0.580292


In [None]:
# Display DF shape and 5 first rows
print('Clicks Dataframe shape: ', clicks.shape)
clicks.head()

Clicks Dataframe shape:  (2988181, 6)


Unnamed: 0,user_id,session_id,session_start,session_size,article_id,click_timestamp
0,0,1506825423271737,1506825423000,2,157541,1506826828020
1,0,1506825423271737,1506825423000,2,68866,1506826858020
2,1,1506825426267738,1506825426000,2,235840,1506827017951
3,1,1506825426267738,1506825426000,2,96663,1506827047951
4,2,1506825435299739,1506825435000,2,119592,1506827090575


In [None]:
clicks[clicks["article_id"] == 157541]

Unnamed: 0,user_id,session_id,session_start,session_size,article_id,click_timestamp
0,0,1506825423271737,1506825423000,2,157541,1506826828020
54,20,1506825727279757,1506825727000,2,157541,1506836548634
115,44,1506826139185781,1506826139000,5,157541,1506857278141
117,45,1506826142324782,1506826142000,2,157541,1506827309970
201,76,1506826463226813,1506826463000,2,157541,1506828823469
...,...,...,...,...,...,...
894147,174825,1507167752224705,1507167752000,2,157541,1507167782646
908176,176726,1507177921290968,1507177921000,2,157541,1507177951663
2558641,201791,1507920907102075,1507920907000,2,157541,1507920942784
2604358,302766,1507946906176617,1507946906000,2,157541,1507946914348


# <font color=green>**Rappel des données essentielles**</font>

---

In [None]:
print('Nombre total d\'utilisateurs: ', clicks.user_id.nunique())
print('Nombre total d\'articles: ', articles.article_id.nunique())
print('Nombre d\'articles consultés par les utilisateurs: ', clicks.article_id.nunique())
# print('Avg number of articles read by user for all sessions: ', round(clicks.groupby('user_id')['article_id'].nunique().mean(), 1))
# print('Avg number of user interaction per article for all sessions: ', round(clicks.groupby('article_id')['user_id'].nunique().mean(), 1))
# print('Avg number of session per user: ', round(clicks.groupby('user_id')['session_id'].nunique().mean(), 1))

Nombre total d'utilisateurs:  322897
Nombre total d'articles:  364047
Nombre d'articles consultés par les utilisateurs:  46033


# <font color=green>**Recommandation non personnalisé: par popularité**</font>

---

Ce modèle ne recommande pas au sens propre du terme, c'est-à-dire de manière personnalisée.

Il **suggère à l'utilisateur les articles les plus populaires**, et si possible, ceux que l'utilisateur n'a pas encore "consommé".

Cette approche peut être efficace en cas de nouvel utilisateur, sans aucun historique d'interaction.

In [None]:
# Create popularity DF
def get_Popularity_Reco(clicks, n_reco=5):
    # Compute the most popular articles
    df_popularity = clicks.groupby(by=['article_id'])['click_timestamp'].count().sort_values(ascending=False).reset_index()
    df_popularity.rename(columns = {'user_id':'popularity'}, inplace=True)
    return df_popularity.article_id.head(n_reco).to_list()

In [None]:
# Call the function
get_Popularity_Reco(clicks, n_reco=5)

[160974, 272143, 336221, 234698, 123909]

# <font color=green>**Recommandation personnalisé type content-based**</font>

---

Le **Content-based Filtering** est un système de recommandation qui suggère des articles similaires à ceux déjà vus par l'utilisateur.

**Principe** : 
- A partir des descriptions des articles choisis ou notés par un utilisateur, un *profil* de l'utilisateur est construit ;
- Des articles dont les caractéristiques sont similaires au profil de l'utilisateur lui sont proposés.

Plus le nombre d'articles choisis ou notés par un utilisateur est faible, moins le profil obtenu et donc les recommandations faites sur cette base seront fiables.

Ce système se base donc sur **l'historique utilisateur et un accès à des *descriptions* des articles est indispensable**: si l'utilisateur A a lu 2 articles sur les chats, le système peut lui recommander d'autres articles sur les animaux de compagnie.

**Inconvénients** : 
- S'il est simple d'identifier des articles *de substitution*, il est clairement difficile d'extrapoler d'un domaine à un autre.

In [None]:
# Import libraries
import pandas as pd
import numpy as np
from time import time
from random import randint
from sklearn.metrics.pairwise import cosine_similarity

def get_ContentBased_Reco(userID, clicks, embeddings, n_reco=5):
    '''Return 5 recommended articles ID to user'''

    # Print targetted UserID
    print('Le n° d\'utilisateur est: ', userID)

    # Get the list of articles viewed by the user
    var = clicks.loc[clicks.user_id == userID]['article_id'].to_list()
    
    # Select the last element of the list (most recent one)
    value = var[-1]
    print('Le dernier article vu par l\'utilisateur est: ', value)
    
    # Delete already viewed articles except the selected one
    emb = embeddings
    for i in range (0, len(var)):
        if i != value:
            emb = np.delete(emb, [i], 0)
    
    # Delete selected article from the new matrix
    temp = np.delete(emb, [value], 0)

    # Get n_reco articles which are the most similar to the selected one
    distances = cosine_similarity([emb[value]], temp)[0]
    
    # Find the indexes, except the selected article
    ranked_ids = np.argsort(distances)[::-1][0:n_reco]
    ranked_similarities = np.sort(distances)[::-1][0:n_reco]
    print('Les articles recommandés sont: ')
    
    return ranked_ids.tolist()# , ranked_similarities.tolist()

In [None]:
# Call the function
start = time()

userID = 0
reco = get_ContentBased_Reco(userID, clicks, embeddings, n_reco=5)
print(reco)

print(f'Modèle exécuté en {round(time() - start, 2)}s')

Le n° d'utilisateur est:  0
Le dernier article vu par l'utilisateur est:  87205
Les articles recommandés sont: 
[102720, 100020, 102412, 102611, 86703]
Modèle exécuté en 1.83s


# <font color=green>**Recommandations personnalisé type collaborative filtering**</font>

---

Le **Collaborative Filtering** est un système de recommandation qui va tenter de prédire les préférences d'un utilisateur en se basant sur les préférences semblables d'autres utilisateurs.

Cette approche se base uniquement sur la **matrice d'utilités**, aucune connaissance intrinsèque des articles n'est nécessaire.

**Principe** :
- Proposer à un utilisateur des articles similaires à ceux qu'il a déjà choisi (ou bien noté) OU proposer à un utilisateur des articles choisis (ou bien notés) par les utilisateurs similaires.

Ce système se base donc **à la fois sur la similarité entre les articles et entre utilisateurs** pour faire ses recommendations: si un utilisateur A est similaire à l'utilisateur B, et que l'utilisateur B a lu l'article 1, le système peut recommander l'article 1 à l'utilisateur A même s'il n'a jamais regardé des articles similaires.

**Inconvénients** :

S'il n'y a pas d'étanchéité entre les domaines, en revanche, l'ignorance des caractéristiques des articles rend difficile la susbstitution d'articles manquants.

In [None]:
from IPython.display import clear_output

# Install a library
!pip install implicit

clear_output()

In [None]:
# Import libraries
import pandas as pd
import numpy as np
from time import time
from scipy.sparse import csr_matrix
from implicit.als import AlternatingLeastSquares as ALS
from implicit.lmf import LogisticMatrixFactorization as LMF

def get_CollabFilter_Reco(clicks, userID, model='ALS', n_reco=5):

    start = time()

    # Create interaction DF (count of interactions between users and articles)
    interactions = clicks.groupby(['user_id','article_id']).size().reset_index(name='count')
    # print('Interactions DF shape: ', interactions.shape)

    # csr = compressed sparse row (good format for math operations with row slicing)
    # Create sparse matrix of shape (number_items, number_user)
    csr_item_user = csr_matrix((interactions['count'].astype(float),
                                (interactions['article_id'],
                                 interactions['user_id'])))
    # print('CSR Shape (number_items, number_user): ', csr_item_user.shape)
    
    # Create sparse matrix of shape (number_user, number_items)
    csr_user_item = csr_matrix((interactions['count'].astype(float),
                                (interactions['user_id'],
                                 interactions['article_id'])))
    # print('CSR Shape (number_user, number_items): ', csr_user_item.shape)

    # Train the model on sparse matrix of shape (number_items, number_user)

    if model == 'ALS':
        # factors (int) : number of latent factors to compute
        # regularization (float) : regularization factor to use
        # iterations (int) : number of ALS iterations to use when fitting data
        # random_state (int) : seed the initial item and user factors (default:None)
        model = ALS(factors=128, regularization=0.01, iterations=30, random_state=42)
        # Calculate the confidence for each value in the data
        # low confidence level for non-read articles
        # high confidence level for read articles
        ALPHA_VAL = 40
        confidence = (csr_item_user * ALPHA_VAL).astype('double')
        model.fit(confidence)

    elif model == 'LMF':
        model = LMF(factors= 128, random_state=42)
        # model.approximate_similar_items = False
        model.fit(csr_item_user)

    # Recommend N best items from sparse matrix of shape (number_user, number_items)
    # Implicit built-in method
    # N (int) : number of results to return
    # filter_already_liked_items (bool) : if true, don't return items present in 
      # the training set that were rated/viewd by the specified user
    recommendations_list = []
    recommendations = model.recommend(userID, csr_user_item[userID], N=n_reco, filter_already_liked_items=True)

    print(f'Completed in {round(time() - start, 2)}s')
    return recommendations

In [None]:
# Call the function
userID = 0
get_CollabFilter_Reco(clicks, userID=0, model='ALS', n_reco=5)

  0%|          | 0/30 [00:00<?, ?it/s]

Completed in 9.28s


(array([312976, 312977, 312978, 312979, 312980], dtype=int32),
 array([0., 0., 0., 0., 0.], dtype=float32))

In [None]:
# Call the function
userID = 0
get_CollabFilter_Reco(clicks, userID=0, model='LMF', n_reco=5)

  0%|          | 0/30 [00:00<?, ?it/s]

Completed in 176.66s


(array([73574,  5890, 80350,  2151, 15275], dtype=int32),
 array([ 1.8162171 ,  1.611949  ,  1.5923775 ,  1.0949554 , -0.01411508],
       dtype=float32))

# <font color=green>**Synthèse et amélioration possible**</font>

---

Lorsqu'on possède à la fois des descriptions des articles et une matrice d'utilités, il est souhaitable de tirer profit de ces deux sources d'information pour améliorer les prédictions. 

Les systèmes de recommandations actuels emploient généralement des combinaisons d'approche, d'où la dénomination de **systèmes hybrides**.