<h1>Tarea</h1>
<h3>Interacciones que Conducen a Recomendaciones: Un Sistema de Recomendación de Artículos</h3>

<h1>Contexto</h1>

En el panorama empresarial actual, la colaboración y el intercambio de conocimientos son cruciales. Plataformas como Deskdrop facilitan esto al permitir a los empleados compartir información relevante. Deskdrop, desarrollado por una empresa líder en tecnología, es una plataforma dinámica donde los profesionales comparten artículos y recursos. Además de difundir información, fomenta la colaboración y el diálogo entre equipos, impulsando la innovación y el crecimiento.

Para mejorar la experiencia del usuario, se propone un sistema de recomendación inteligente basado en algoritmos avanzados. Este sistema utiliza el análisis de contenido y el comportamiento del usuario para ofrecer recomendaciones personalizadas. El artículo explora el diseño e implementación de este sistema y su impacto en Deskdrop, mostrando cómo las interacciones de los usuarios, combinadas con técnicas de aprendizaje automático y procesamiento de lenguaje natural, generan recomendaciones precisas y contextualizadas.

El estudio se basa en datos de 12 meses de Deskdrop, que incluyen alrededor de 73,000 interacciones de usuarios y más de 3,000 artículos compartidos. Estos datos detallan atributos de artículos y registros de interacciones de usuarios, lo que permite un seguimiento a largo plazo de preferencias. El entorno de datos ofrece una oportunidad única para comprender las dinámicas de interacción y desarrollar sistemas de recomendación que mejoren la experiencia del usuario y la relevancia del contenido compartido.

<<h1>Asignación</h1>

Después de revisar el cuaderno sobre "Interacciones que Conducen a Recomendaciones: Un Sistema de Recomendación de Artículos", tenemos el objetivo de desarrollar un sistema de recomendación basado en Big Data para la plataforma Deskdrop con el fin de presentar artículos relevantes y de interés para cada usuario, mejorando así su experiencia y participación en la plataforma.. Posteriormente, evalúa y compara ambos modelos para seleccionar el más eficaz. Finalmente, prueba el modelo seleccionado en el conjunto de datos de pruebas para determinar los productos que necesitan ser reordenados.


Como experto en Big Data, se le solicita desarrollar este sistema de recomendación utilizando técnicas avanzadas de análisis de datos y aprendizaje automático. El sistema deberá analizar los datos de interacción de los usuarios con la plataforma, así como las características de los artículos compartidos, para generar recomendaciones precisas y contextualizadas.

<h1>Tareas</h1>

- Recopilación y análisis de datos: Obtener y analizar datos históricos de interacción de los usuarios con la plataforma, incluyendo información sobre artículos compartidos, comentarios, me gusta, y visualizaciones.
- Preprocesamiento de datos: Limpiar y preparar los datos para su posterior análisis, incluyendo la normalización de texto y la extracción de características relevantes.
- Desarrollo de algoritmos de recomendación: Diseñar y desarrollar algoritmos de recomendación basados en técnicas de filtrado colaborativo, filtrado basado en contenido, o una combinación de ambos.
- Evaluación del sistema: Evaluar el rendimiento del sistema de recomendación utilizando métricas adecuadas, como precisión, cobertura y diversidad.
- Implementación del sistema: Implementar el sistema de recomendación en la plataforma [Nombre de la Plataforma], asegurando su integración sin problemas con la infraestructura existente.
- Optimización y ajuste: Realizar ajustes y optimizaciones en el sistema de recomendación según sea necesario para mejorar su rendimiento y precisión.

<h1>Código en Python</h1>

En esta sección, es fundamental cargar las diferentes bibliotecas que se utilizarán en el estudio para garantizar un análisis efectivo y eficiente de los datos. A continuación, se proporciona un ejemplo de cómo podrías cargar estas bibliotecas en Python

In [None]:
import numpy as np
import scipy
import pandas as pd
import math
import random
import sklearn
from nltk.corpus import stopwords
from scipy.sparse import csr_matrix
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from scipy.sparse.linalg import svds
import seaborn as sns
from matplotlib import pyplot as plt
import re

Después, procedemos a cargar los datos utilizando la biblioteca Pandas. Puedes descargar los datos desde el aula virtual o el repositorio de <a href='https://drive.google.com/file/d/1b2o9RS4jty1ATkxszRQlmEEEdQfbM2IU/view?usp=drive_link'>datos</a>, dependiendo de tu preferencia. 

Primero cargamos y visalizamo los datos de los artículos.

In [None]:
RANDOMSEED=56

#adf = pd.read_csv('')
#display(adf.shape)
#display(adf.head())


Luego cargamos el conjunto de datos de users_interactions que contiene registros de interacciones de usuarios en artículos compartidos. Se puede relacionar con articles_shared.csv mediante la columna contentId.

In [None]:
##uidf = pd.read_csv('')
#display(uidf.shape)
#display(uidf.head())

<h1>Análisis exploratorio de datos</h1>

Debemos convertir los datos de timestamp al formato de datetime para las interacciones de los usuarios


In [None]:
#uidf['datetime'] = pd.to_datetime(uidf['timestamp'], unit='s')



Nos interesa graficar el número de interacciones por día

In [None]:
#gdf = uidf.groupby([pd.Grouper(key='datetime', freq='D')]).agg({'eventType':'count'}).reset_index()

#sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
#plt.title('Número de interacciones por día', fontsize=13)
#plt.xlabel('Fecha', fontsize=11)
#plt.ylabel('Cantidad de Interacciones', fontsize=11)
#sns.lineplot(data=gdf, y="eventType", x='datetime')

Debemos convertir los datos de timestamp al formato de datetime para los artículos

Nos interesa graficar el número de artículos por día

In [None]:
#adf['datetime'] = pd.to_datetime(adf['timestamp'], unit='s')
#gdf = adf.groupby([pd.Grouper(key='datetime', freq='D')]).agg({'eventType':'count'}).reset_index()

#sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})
#plt.title('Número de artículos compartidos por día', fontsize=13)
#plt.xlabel('Fecha', fontsize=11)
#plt.ylabel('Cantidad de Artículos', fontsize=11)
#sns.lineplot(data=gdf, y="eventType", x='datetime')

<h2>Categorización de los datos</h2>

Dado que hay diversos tipos de interacciones, asignamos a cada una un peso o fuerza, suponiendo que, por ejemplo, un comentario en un artículo refleja un mayor interés por parte del usuario que un "me gusta" o una simple vista. Modifica los valores para representar la fuerza que entiendas.

In [None]:
event_strength = {
   'VIEW': 1,
   'LIKE': 2, 
   'BOOKMARK': 3, 
   'FOLLOW': 4,
   'COMMENT CREATED': 5,  
}

uidf['eventStrength'] = uidf['eventType'].apply(lambda x: event_strength[x])
display(uidf.head())

Determina los usuarios que tienen mas de 5 interacciones.

In [None]:
display('Número total de usuarios que han interactuado en la plataforma: %d' % len(uidf['personId'].unique()))

count_ui = uidf.groupby(['personId', 'contentId']).size().groupby('personId').size()
users5i_df = count_ui[count_ui >= 5].reset_index()[['personId']]
display('Cantidad total de usuarios que han realizado al menos 5 interacciones en la plataforma: %d' % len(users5i_df))

Determinar la cantidad de interacciones de los usuarios que tienen mas 5 interacciones.

In [None]:
display('Número total de interacciones en la plataforma: %d' % len(uidf))
uidf= uidf[uidf['personId'].isin(users5i_df['personId'].tolist())]
display('Cantidad total de interacciones de usuarios que han realizado al menos 5 interacciones en la plataforma: %d' % len(uidf))
display(uidf.head())

In [None]:
def smooth_user_preference(x):
    return math.log(1+x, 2)
    
idf = uidf.groupby(['personId', 'contentId'])['eventStrength'].sum().apply(smooth_user_preference).reset_index()
display('Número de interacciones distintas entre usuario y artículo.: %d' % len(idf))
display(idf.head())

<h1>Divide tu data para entrenar el modelo y poder hacer pruebas de los modelos</h1>

In [None]:
train_df, val_df = train_test_split(idf, stratify=idf['personId'], test_size=0.2, random_state=RANDOMSEED)

display(train_df.shape)
display(val_df.shape)
display(train_df.head())

Indexa los datos para mejor performance.

In [None]:
idf = idf.set_index('personId')
train_df = train_df.set_index('personId')
val_df = val_df.set_index('personId')
display(idf.head())

<h1>Entrenamiento de los modelos</h1>

<h2>Basado en Popularidad </h2>



In [None]:
pop_df = idf.groupby('contentId')['eventStrength'].sum().sort_values(ascending=False).reset_index()
pop_df.head()
    

Revisa las funciones que utilizamos para evaluar los modelos.


In [None]:
def get_items_interacted(person_id, interactions):
    interacted_items = interactions.loc[person_id]['contentId']
    return set(interacted_items if type(interacted_items) == pd.Series else [interacted_items])

In [None]:
def recommend_items(user_id, items_to_ignore=[], verbose=False):
    # Recommend the more popular items that the user hasn't seen yet.
    recommendations_df = pop_df[~pop_df['contentId'].isin(items_to_ignore)].sort_values('eventStrength', ascending = False)

    if verbose:
            recommendations_df = recommendations_df.merge(adf, how = 'left', on = 'contentId')[['eventStrength', 'contentId', 'title', 'url', 'lang']]
            
    return recommendations_df

In [None]:
def get_not_interacted_items_sample(person_id, sample_size, seed=RANDOMSEED):
    interacted_items = get_items_interacted(person_id, idf)
    all_items = set(adf['contentId'])
    non_interacted_items = all_items - interacted_items

    random.seed(seed)
    non_interacted_items_sample = random.sample(non_interacted_items, sample_size)
    return set(non_interacted_items_sample)

In [None]:
def verify_hit_top_n(item_id, recommended_items, topn):        
        try:
            index = next(i for i, c in enumerate(recommended_items) if c == item_id)
        except:
            index = -1
        hit = int(index in range(0, topn))
        return hit, index

In [None]:

def evaluate_model_for_user(person_id):
    interacted_values_testset = val_df.loc[person_id]
    if type(interacted_values_testset['contentId']) == pd.Series:
        person_interacted_items_testset = set(interacted_values_testset['contentId'])
    else:
        person_interacted_items_testset = set([int(interacted_values_testset['contentId'])])  
    
    interacted_items_count_testset = len(person_interacted_items_testset) 

    person_recs_df = recommend_items(person_id, items_to_ignore=get_items_interacted(person_id, train_df))

    hits_at_5_count = 0
    hits_at_10_count = 0
    for item_id in person_interacted_items_testset:
        non_interacted_items_sample = get_not_interacted_items_sample(person_id, sample_size=100, seed=RANDOMSEED)

        items_to_filter_recs = non_interacted_items_sample.union(set([item_id]))

        valid_recs_df = person_recs_df[person_recs_df['contentId'].isin(items_to_filter_recs)]                    
        valid_recs = valid_recs_df['contentId'].values
        hit_at_5, index_at_5 = verify_hit_top_n(item_id, valid_recs, 5)
        hits_at_5_count += hit_at_5
        hit_at_10, index_at_10 = verify_hit_top_n(item_id, valid_recs, 10)
        hits_at_10_count += hit_at_10

    recall_at_5 = hits_at_5_count / float(interacted_items_count_testset)
    recall_at_10 = hits_at_10_count / float(interacted_items_count_testset)

    person_metrics = {'hits@5_count':hits_at_5_count, 
                        'hits@10_count':hits_at_10_count, 
                        'interacted_count': interacted_items_count_testset,
                        'recall@5': recall_at_5,
                        'recall@10': recall_at_10}
    return person_metrics


Vamos a definir el primer modelo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    person_metrics = evaluate_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

popularity_df = pd.DataFrame(people_metrics).sort_values('interacted_count', ascending=False)

popularity_recall_at_5 = popularity_df['hits@5_count'].sum() / float(popularity_df['interacted_count'].sum())
popularity_recall_at_10 = popularity_df['hits@10_count'].sum() / float(popularity_df['interacted_count'].sum())

popularity_metrics = {'modelName': 'Popularity',
                    'recall@5': popularity_recall_at_5,
                    'recall@10': popularity_recall_at_10}    

display('Métricas de evaluación del modelo de popularidad incluyen el recall para los top 5 y top 10 recomendaciones %s' % popularity_metrics)
popularity_df.head()



<h2>Basado en Contenido</h2>

Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
stopwords_list = stopwords.words('english')

vectorizer = TfidfVectorizer(analyzer='word',
                     ngram_range=(1, 2),
                     min_df=0.003,
                     max_df=0.5,
                     max_features=5000,
                     stop_words=stopwords_list)

item_ids = adf['contentId'].tolist()
tfidf_matrix = vectorizer.fit_transform(adf['title'] + "" + adf['text'])
tfidf_feature_names = vectorizer.get_feature_names_out()
display(tfidf_matrix)

In [None]:
def get_item_profile(item_id):
    idx = item_ids.index(item_id)
    item_profile = tfidf_matrix[idx:idx+1]
    return item_profile

In [None]:
def get_item_profiles(ids):
    item_profiles_list = [get_item_profile(x) for x in ids]
    item_profiles = scipy.sparse.vstack(item_profiles_list)
    return item_profiles

In [None]:
def build_users_profile(person_id, interactions_indexed_df):
    interactions_person_df = interactions_indexed_df.loc[person_id]
    user_item_profiles = get_item_profiles(interactions_person_df['contentId'])
    
    
    user_item_strengths = np.array(interactions_person_df['eventStrength']).reshape(-1,1)
    #Weighted average of item profiles by the interactions strength
    user_item_strengths_weighted_avg = np.sum(user_item_profiles.multiply(user_item_strengths), axis=0) / np.sum(user_item_strengths)
    user_item_strengths_weighted_avg= np.asarray(user_item_strengths_weighted_avg) #np.matrix is not supported. Please convert to a numpy array with np.asarray.
    user_profile_norm = sklearn.preprocessing.normalize(user_item_strengths_weighted_avg)

    return user_profile_norm

In [None]:
def build_users_profiles(): 
    interactions_indexed_df = train_df[train_df['contentId'].isin(adf['contentId'])]
    user_profiles = {}
    for person_id in interactions_indexed_df.index.unique():
        user_profiles[person_id] = build_users_profile(person_id, interactions_indexed_df)
    return user_profiles

In [None]:

user_profiles = build_users_profiles()
len(user_profiles)

In [None]:
def get_similar_items_to_user_profile(person_id, topn=1000):
    #Computes the cosine similarity between the user profile and all item profiles
    cosine_similarities = cosine_similarity(user_profiles[person_id], tfidf_matrix)
    #Gets the top similar items
    similar_indices = cosine_similarities.argsort().flatten()[-topn:]
    #Sort the similar items by similarity
    similar_items = sorted([(item_ids[i], cosine_similarities[0,i]) for i in similar_indices], key=lambda x: -x[1])
    return similar_items

In [None]:
def recommend_cont_items(user_id, items_to_ignore=[], verbose=False):
    similar_items = get_similar_items_to_user_profile(user_id)
    #Ignores items the user has already interacted
    similar_items_filtered = list(filter(lambda x: x[0] not in items_to_ignore, similar_items))        
    recommendations_df = pd.DataFrame(similar_items_filtered, columns=['contentId', 'recStrength'])

    if verbose:
            recommendations_df = recommendations_df.merge(adf, how = 'left', on = 'contentId')[['recStrength', 'contentId', 'title', 'url', 'lang']]
            
    return recommendations_df

In [None]:
def evaluate_cont_model_for_user(person_id):
    interacted_values_testset = val_df.loc[person_id]
    if type(interacted_values_testset['contentId']) == pd.Series:
        person_interacted_items_testset = set(interacted_values_testset['contentId'])
    else:
        person_interacted_items_testset = set([int(interacted_values_testset['contentId'])])  
    
    interacted_items_count_testset = len(person_interacted_items_testset) 

    person_recs_df = recommend_cont_items(person_id, items_to_ignore=get_items_interacted(person_id, train_df))

    hits_at_5_count = 0
    hits_at_10_count = 0
    for item_id in person_interacted_items_testset:
        non_interacted_items_sample = get_not_interacted_items_sample(person_id, sample_size=100, seed=RANDOMSEED)

        items_to_filter_recs = non_interacted_items_sample.union(set([item_id]))

        valid_recs_df = person_recs_df[person_recs_df['contentId'].isin(items_to_filter_recs)]                    
        valid_recs = valid_recs_df['contentId'].values
        hit_at_5, index_at_5 = verify_hit_top_n(item_id, valid_recs, 5)
        hits_at_5_count += hit_at_5
        hit_at_10, index_at_10 = verify_hit_top_n(item_id, valid_recs, 10)
        hits_at_10_count += hit_at_10

    recall_at_5 = hits_at_5_count / float(interacted_items_count_testset)
    recall_at_10 = hits_at_10_count / float(interacted_items_count_testset)

    person_metrics = {'hits@5_count':hits_at_5_count, 
                        'hits@10_count':hits_at_10_count, 
                        'interacted_count': interacted_items_count_testset,
                        'recall@5': recall_at_5,
                        'recall@10': recall_at_10}
    return person_metrics

Vamos a definir el modelo basado en contenido a entrenar.

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:


people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    person_metrics = evaluate_cont_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

content_df = pd.DataFrame(people_metrics) \
                    .sort_values('interacted_count', ascending=False)

content_recall_at_5 = content_df['hits@5_count'].sum() / float(content_df['interacted_count'].sum())
content_recall_at_10 = content_df['hits@10_count'].sum() / float(content_df['interacted_count'].sum())

content_metrics = {'modelName': 'Content',
                    'recall@5': content_recall_at_5,
                    'recall@10': content_recall_at_10}    

print('Métricas de evaluación del modelo de contenido incluyen el recall para los top 5 y top 10 recomendaciones %s' % content_metrics)
content_df.head()

<h2>Colaborativo</h2>


Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
users_items_pivot_matrix_df = train_df.pivot(columns='contentId', values='eventStrength').fillna(0)
users_items_pivot_matrix_df.head()

In [None]:
users_items_pivot_matrix = users_items_pivot_matrix_df.values
users_items_pivot_matrix[:10]

In [None]:
users_ids = list(users_items_pivot_matrix_df.index)
users_ids[:10]

In [None]:
users_items_pivot_sparse_matrix = csr_matrix(users_items_pivot_matrix)
users_items_pivot_sparse_matrix

In [None]:

NUMBER_OF_FACTORS_MF = 15

U, sigma, Vt = svds(users_items_pivot_sparse_matrix, k = NUMBER_OF_FACTORS_MF)
sigma = np.diag(sigma)

display(U.shape)
display(sigma.shape)
display(Vt.shape)

In [None]:
all_user_predicted_ratings = np.dot(np.dot(U, sigma), Vt) 
all_user_predicted_ratings_norm = (all_user_predicted_ratings - all_user_predicted_ratings.min()) / (all_user_predicted_ratings.max() - all_user_predicted_ratings.min())

all_user_predicted_ratings

In [None]:
cf_preds_df = pd.DataFrame(all_user_predicted_ratings_norm, columns = users_items_pivot_matrix_df.columns, index=users_ids).transpose()
cf_preds_df.head()

In [None]:
def recommend_collab_items(user_id, items_to_ignore=[], verbose=False):
        # Get and sort the user's predictions
        sorted_user_predictions = cf_preds_df[user_id].sort_values(ascending=False).reset_index().rename(columns={user_id: 'recStrength'})

        # Recommend the highest predicted rating movies that the user hasn't seen yet.
        recommendations_df = sorted_user_predictions[~sorted_user_predictions['contentId'].isin(items_to_ignore)].sort_values('recStrength', ascending = False)

        if verbose:
            recommendations_df = recommendations_df.merge(adf, how = 'left', on = 'contentId')[['recStrength', 'contentId', 'title', 'url', 'lang']]


        return recommendations_df

In [None]:
def evaluate_collab_model_for_user(person_id):
    interacted_values_testset = val_df.loc[person_id]
    if type(interacted_values_testset['contentId']) == pd.Series:
        person_interacted_items_testset = set(interacted_values_testset['contentId'])
    else:
        person_interacted_items_testset = set([int(interacted_values_testset['contentId'])])  
    
    interacted_items_count_testset = len(person_interacted_items_testset) 

    person_recs_df = recommend_collab_items(person_id, items_to_ignore=get_items_interacted(person_id, train_df))

    hits_at_5_count = 0
    hits_at_10_count = 0

    for item_id in person_interacted_items_testset:
        non_interacted_items_sample = get_not_interacted_items_sample(person_id, sample_size=100, seed=RANDOMSEED)

        items_to_filter_recs = non_interacted_items_sample.union(set([item_id]))

        valid_recs_df = person_recs_df[person_recs_df['contentId'].isin(items_to_filter_recs)]                    
        valid_recs = valid_recs_df['contentId'].values
        hit_at_5, index_at_5 = verify_hit_top_n(item_id, valid_recs, 5)
        hits_at_5_count += hit_at_5
        hit_at_10, index_at_10 = verify_hit_top_n(item_id, valid_recs, 10)
        hits_at_10_count += hit_at_10

    recall_at_5 = hits_at_5_count / float(interacted_items_count_testset)
    recall_at_10 = hits_at_10_count / float(interacted_items_count_testset)

    person_metrics = {'hits@5_count':hits_at_5_count, 
                        'hits@10_count':hits_at_10_count, 
                        'interacted_count': interacted_items_count_testset,
                        'recall@5': recall_at_5,
                        'recall@10': recall_at_10}
    return person_metrics

Vamos a definir el modelo Colaborativo a entrenar. 

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    person_metrics = evaluate_collab_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

collaborative_df = pd.DataFrame(people_metrics).sort_values('interacted_count', ascending=False)

collaborative_recall_at_5 = collaborative_df['hits@5_count'].sum() / float(collaborative_df['interacted_count'].sum())
collaborative_recall_at_10 = collaborative_df['hits@10_count'].sum() / float(collaborative_df['interacted_count'].sum())

collaborative_metrics = {'modelName': 'Collaborative',
                    'recall@5': collaborative_recall_at_5,
                    'recall@10': collaborative_recall_at_10}    

print('Métricas de evaluación del modelo colaborativo incluyen el recall para los top 5 y top 10 recomendaciones %s' % collaborative_metrics)
collaborative_df.head()

<h2>Métodos Híbridos</h2>

Revisa las funciones que utilizamos para evaluar los modelos.

In [None]:
def recommend_hybrid_items(person_id, items_to_ignore=[], cb_ensemble_weight=1, cf_ensemble_weight=100, verbose=False):
        cb_recs_df = recommend_cont_items(person_id, items_to_ignore=items_to_ignore).rename(columns={'recStrength': 'recStrengthCB'})
        cf_recs_df = recommend_collab_items(person_id, items_to_ignore=items_to_ignore).rename(columns={'recStrength': 'recStrengthCF'})
        recs_df = cb_recs_df.merge(cf_recs_df, how = 'outer', on = 'contentId').fillna(0.0)
        
        recs_df['recStrengthHybrid'] = (recs_df['recStrengthCB'] * cb_ensemble_weight) + (recs_df['recStrengthCF'] * cf_ensemble_weight)
        
        recommendations_df = recs_df.sort_values('recStrengthHybrid', ascending=False)

        if verbose:
            recommendations_df = recommendations_df.merge(adf, how = 'left', on = 'contentId')[['recStrengthHybrid', 'contentId', 'title', 'url', 'lang']]

        return recommendations_df

In [None]:
def evaluate_hybrid_model_for_user(person_id):
    interacted_values_testset = val_df.loc[person_id]
    if type(interacted_values_testset['contentId']) == pd.Series:
        person_interacted_items_testset = set(interacted_values_testset['contentId'])
    else:
        person_interacted_items_testset = set([int(interacted_values_testset['contentId'])])  
    
    interacted_items_count_testset = len(person_interacted_items_testset) 
    person_recs_df = recommend_hybrid_items(person_id, items_to_ignore=get_items_interacted(person_id, train_df))

    hits_at_5_count = 0
    hits_at_10_count = 0
    for item_id in person_interacted_items_testset:
        non_interacted_items_sample = get_not_interacted_items_sample(person_id, sample_size=100, seed=RANDOMSEED)

        items_to_filter_recs = non_interacted_items_sample.union(set([item_id]))

        valid_recs_df = person_recs_df[person_recs_df['contentId'].isin(items_to_filter_recs)]                    
        valid_recs = valid_recs_df['contentId'].values
        hit_at_5, index_at_5 = verify_hit_top_n(item_id, valid_recs, 5)
        hits_at_5_count += hit_at_5
        hit_at_10, index_at_10 = verify_hit_top_n(item_id, valid_recs, 10)
        hits_at_10_count += hit_at_10

    recall_at_5 = hits_at_5_count / float(interacted_items_count_testset)
    recall_at_10 = hits_at_10_count / float(interacted_items_count_testset)

    person_metrics = {'hits@5_count':hits_at_5_count, 
                        'hits@10_count':hits_at_10_count, 
                        'interacted_count': interacted_items_count_testset,
                        'recall@5': recall_at_5,
                        'recall@10': recall_at_10}
    return person_metrics

Vamos a definir el modelo hibrido a entrenar.

Nos gustaría presentar la evaluación del modelo

¿Podrías explicar lo que entiendes del resulato?

In [None]:
people_metrics = []
for idx, person_id in enumerate(list(val_df.index.unique().values)):
    #if idx % 100 == 0 and idx > 0:
    #    print('%d users processed' % idx)
    person_metrics = evaluate_hybrid_model_for_user(person_id)  
    person_metrics['_person_id'] = person_id
    people_metrics.append(person_metrics)

hybrid_df = pd.DataFrame(people_metrics).sort_values('interacted_count', ascending=False)

hybrid_recall_at_5 = hybrid_df['hits@5_count'].sum() / float(hybrid_df['interacted_count'].sum())
hybrid_recall_at_10 = hybrid_df['hits@10_count'].sum() / float(hybrid_df['interacted_count'].sum())

hybrid_metrics = {'modelName': 'Hybrid',
                    'recall@5': hybrid_recall_at_5,
                    'recall@10': hybrid_recall_at_10}    

print('Métricas de evaluación del modelo hibrido incluyen el recall para los top 5 y top 10 recomendaciones %s' % hybrid_metrics)
hybrid_df.head()

<h1>Resultado</h1>

Muestra un resumen de los resultados de todos los modelos

¿Podrías explicar lo que entiendes del resulato?

In [None]:
metrics = pd.DataFrame([popularity_metrics, content_metrics, collaborative_metrics, hybrid_metrics])
metrics

In [None]:
dfm = metrics.melt('modelName', var_name='recall', value_name='values')

sns.set_theme(style='whitegrid', rc={'figure.figsize':(6, 4)})  #  elige la apariencia
sns.barplot(dfm, x="modelName", y="values", hue='recall', palette='bone')

<h2>Pruebas</h2>

Realiza una pruebas del sistema de recomendación simulando ser el usuario -8845298781299428018 para evaluar las recomendaciones de cada modelo.

In [None]:
def inspect_interactions(person_id, test_set=True):
    if test_set:
        interactions_df = val_df
    else:
        interactions_df = train_df
    
    return interactions_df.loc[person_id].merge(adf, how = 'left', on = 'contentId') .sort_values('eventStrength', ascending = False)[['eventStrength', 'contentId','title', 'url', 'lang']]

In [None]:
inspect_interactions(, test_set=False).head()

In [None]:
recommend_items(, verbose=True).head()

In [None]:
recommend_cont_items(, verbose=True).head()

In [None]:
recommend_collab_items(, verbose=True).head()

In [None]:
recommend_hybrid_items(, verbose=True).head()

<h1>Discusión y Conclusión</h1>

Presenta tus conclusiones sobre el trabajo llevado a cabo