# Paso 1: Importar Librerías de Python


In [1]:
#pip install scikit-surprise



In [2]:
# Análisis de datos y manipulación
import pandas as pd
import numpy as np
import random


# Visualización de datos
import matplotlib.pyplot as plt
import seaborn as sns

# Utilidades de fechas
from datetime import datetime

# Integración con Google Colab
from google.colab import drive

# Machine Learning: Preprocesamiento y división de datos
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# Machine Learning: Métricas
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.metrics.pairwise import cosine_similarity

# Machine Learning: Modelado y validación
from surprise import SVD, Reader, Dataset, accuracy
from surprise.model_selection import train_test_split, GridSearchCV

# Deep Learning: Construcción de modelos y capas
from keras.models import Model
from keras.layers import Input, Embedding, Flatten, Concatenate, Dense, Dropout, Dot,Lambda

# Deep Learning: Optimización y regularización
from keras.optimizers import Adam
from keras.regularizers import l2

# Deep Learning: Callbacks
from keras.callbacks import EarlyStopping, ReduceLROnPlateau

In [3]:
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Paso 2: Lectura del Dataset

In [4]:
df = pd.read_csv('/content/drive/MyDrive/EspecializacionA&DS/Monografia/2doSemestre/DataFinal_Amazon.csv')

  df = pd.read_csv('/content/drive/MyDrive/EspecializacionA&DS/Monografia/2doSemestre/DataFinal_Amazon.csv')


In [5]:
df.shape

(4800571, 10)

In [6]:
sentimiento = pd.read_csv('/content/drive/MyDrive/EspecializacionA&DS/Monografia/2doSemestre/sentimientos_productos.csv')

In [7]:
sentimiento.shape

(154026, 4)

In [8]:
sentimiento.head()

Unnamed: 0,asin,reviewText_sentiment,cluster,cluster_hdbscan
0,871167042,0.632713,Positivo,0
1,1519588135,0.568186,Neutro,2
2,1579652956,0.713937,Positivo,0
3,1936023857,0.76555,Positivo,-1
4,5120053017,0.485311,Neutro,-1


# Modelo de Filtrado Colaborativo usando Embedding con Keras:

Funcionamiento:

Los embeddings son representaciones vectoriales densas y de baja dimensión de ítems y/o usuarios. Estas representaciones capturan relaciones semánticas entre ítems o entre usuarios.

Un método popular para generar embeddings es la factorización de matrices, como la descomposición en valores singulares (SVD). En el contexto de sistemas de recomendación, se busca factorizar la matriz de interacciones usuario-ítem en dos matrices más pequeñas (una para los usuarios y otra para los ítems) cuyo producto aproximado reproduce la matriz original lo mejor posible.

Una vez que se han obtenido los embeddings, la predicción de una calificación o interacción entre un usuario e ítem se realiza tomando el producto escalar entre sus embeddings respectivos.

Ventajas:

Simplicidad y eficiencia en términos computacionales.

Puede manejar grandes conjuntos de datos debido a su naturaleza de baja dimensión.

Es efectivo para capturar patrones subyacentes en los datos.

Desventajas:

No tiene en cuenta características adicionales de usuarios o ítems.

Dificultades para manejar nuevos ítems o usuarios (problema de arranque en frío).

El código ahora incluye regularización en los embeddings, un callback para detener el entrenamiento si no hay mejoras (early stopping) y otro para reducir la tasa de aprendizaje si el error de validación no mejora (reduce learning rate on plateau).

In [9]:
data = df

In [10]:
# Crear un LabelEncoder para cada columna
reviewerID_encoder = LabelEncoder()
asin_encoder = LabelEncoder()

# Ajustar y transformar las columnas
data['reviewerID_encoded'] = reviewerID_encoder.fit_transform(data['reviewerID'])
data['asin_encoded'] = asin_encoder.fit_transform(data['asin'])

# Número de usuarios únicos y número de ítems únicos
n_users = len(np.unique(data['reviewerID_encoded']))
n_items = len(np.unique(data['asin_encoded']))

# Dimensiones del embedding
embedding_dim = 10

# Entradas
user_input = Input(shape=(1,))
item_input = Input(shape=(1,))

# Embeddings con regularización
user_embedding = Embedding(n_users, embedding_dim, embeddings_regularizer=l2(1e-6))(user_input)
item_embedding = Embedding(n_items, embedding_dim, embeddings_regularizer=l2(1e-6))(item_input)

# Producto punto para predecir la valoración/rating
merged = Dot(axes=2)([user_embedding, item_embedding])
merged = Flatten()(merged)

# Agregar una capa de activación sigmoid y escalar a [0, 5]
output = Dense(1, activation='sigmoid')(merged)  # Función de activación sigmoid
output = Lambda(lambda x: x * 5)(output)  # Escalar las predicciones al rango [0, 5]

# Modelo
model = Model(inputs=[user_input, item_input], outputs=output)
model.compile(optimizer='adam', loss='mse', metrics=['mae'])

verbose=0: No muestra ninguna barra de progreso ni métricas.

verbose=1: Muestra una barra de progreso y actualiza las métricas después de cada lote.

verbose=2: Muestra las métricas después de cada época, pero no muestra la barra de progreso.

In [11]:
from sklearn.model_selection import train_test_split

# Crear los arrays con los datos
user_ids = data['reviewerID_encoded'].values
item_ids = data['asin_encoded'].values
ratings = data['overall'].values

# División en entrenamiento y prueba
(user_ids_temp, user_ids_test, item_ids_temp, item_ids_test, ratings_temp, ratings_test) = train_test_split(
    user_ids, item_ids, ratings, test_size=0.2, random_state=42)

# División del conjunto de entrenamiento en entrenamiento y validación
(user_ids_train, user_ids_val, item_ids_train, item_ids_val, ratings_train, ratings_val) = train_test_split(
    user_ids_temp, item_ids_temp, ratings_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

In [12]:
# Callbacks
early_stop = EarlyStopping(monitor='val_loss', patience=50)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=50, min_lr=1e-5)

In [13]:
%%time
# Entrenar el modelo con el conjunto de entrenamiento
model.fit([user_ids_train, item_ids_train], ratings_train, validation_data=([user_ids_val, item_ids_val], ratings_val), epochs=500,
          batch_size=800000, verbose=1, callbacks=[early_stop, reduce_lr])

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

<keras.src.callbacks.History at 0x7f74a5b91ff0>

In [14]:
y_true = ratings_test
predictions = model.predict([user_ids_test, item_ids_test])



In [15]:
# Evaluar el modelo con el conjunto de prueba
loss, mae = model.evaluate([user_ids_test, item_ids_test], ratings_test)
print(f'Test Loss: {loss:.4f}')
print(f'Test MAE: {mae:.4f}')

Test Loss: 3.0845
Test MAE: 1.4174


In [16]:
# MSE
mse = mean_squared_error(y_true, predictions)
print(f"MSE: {mse:.4f}")

# RMSE
rmse = np.sqrt(mse)
print(f"RMSE: {rmse:.4f}")

# MAE
mae = mean_absolute_error(y_true, predictions)
print(f"MAE: {mae:.4f}")

# MAPE (Mean Absolute Percentage Error)
mape = np.mean(np.abs((y_true - predictions.flatten()) / y_true)) * 100
print(f"MAPE: {mape:.2f}%")

MSE: 2.6137
RMSE: 1.6167
MAE: 1.4174
MAPE: 39.43%


# Recomedanción

In [22]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id_test = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Identificar los ítems que el usuario ha calificado en el conjunto de prueba
indices_usuario = np.where(user_ids_test == usuario_id_test_encoded)[0]
items_calificados_test_encoded = item_ids_test[indices_usuario]
calificaciones_reales_test = ratings_test[indices_usuario]

# Predecir las calificaciones para estos ítems
calificaciones_predichas = model.predict([np.array([usuario_id_test_encoded] * len(items_calificados_test_encoded)), items_calificados_test_encoded])

# Decodificar los ítems para obtener los ID originales
items_calificados_test = asin_encoder.inverse_transform(items_calificados_test_encoded)

# Comparar las calificaciones predichas con las reales
comparacion = list(zip(items_calificados_test, calificaciones_reales_test, calificaciones_predichas.flatten()))

# Suponiendo que 'items_calificados_test' contiene los IDs originales de los ítems
recomendaciones_df = pd.DataFrame({
    'asin': items_calificados_test,
    'Calificación Real': calificaciones_reales_test,
    'Calificación Predicha': calificaciones_predichas.flatten()
})

recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones
print(f"Recomendaciones para el usuario {usuario_id_test}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Real: {row['Calificación Real']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")


Recomendaciones para el usuario A2CB9CIUCE84IK:
Ítem: B00OGSB3KI, Calificación Real: 5.0, Calificación Predicha: 3.5127627849578857, Sentimiento: Positivo
Ítem: B007JX1PFK, Calificación Real: 5.0, Calificación Predicha: 4.478430271148682, Sentimiento: Positivo


In [28]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Lista de todos los ítems únicos en el dataset
items_unicos = np.unique(data['asin'].values)

# Ítems que el usuario ya ha calificado
items_calificados = data[data['reviewerID_encoded'] == usuario_id_test_encoded]['asin'].tolist()

# Ítems para predecir
items_a_predecir = [item for item in items_unicos if item not in items_calificados]

# Convierte los ítems a su representación codificada
items_a_predecir_encoded = asin_encoder.transform(items_a_predecir)

# Predecir la calificación para cada ítem no calificado
predicciones = model.predict([np.array([usuario_id_test_encoded] * len(items_a_predecir_encoded)), items_a_predecir_encoded])

# Emparejar cada ítem con su predicción
items_predicciones = list(zip(items_a_predecir, predicciones.flatten()))

# Ordenar por la calificación predicha más alta
items_recomendados = sorted(items_predicciones, key=lambda x: x[1], reverse=True)

# Tomar los top N recomendaciones
top_n = 5
top_recomendaciones = items_recomendados[:top_n]

# Crear un DataFrame a partir de las recomendaciones
recomendaciones_df = pd.DataFrame(top_recomendaciones, columns=['asin', 'Calificación Predicha'])

# Unir con el DataFrame 'sentimiento' para obtener el sentimiento asociado a cada ítem
recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')

# Renombrar la columna 'cluster' a 'Sentimiento' para claridad
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones con el sentimiento
print(f"Recomendaciones para el usuario {usuario_id}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")

Recomendaciones para el usuario A259GS5QFKI9KR:
Ítem: B00SD288QU, Calificación Predicha: 4.553009033203125, Sentimiento: Positivo
Ítem: B00ZPWR0N8, Calificación Predicha: 4.547565460205078, Sentimiento: Neutro
Ítem: B00VIQW74M, Calificación Predicha: 4.546778678894043, Sentimiento: Neutro
Ítem: B0058YKI46, Calificación Predicha: 4.543819904327393, Sentimiento: Negativo
Ítem: B00FWX631K, Calificación Predicha: 4.532367706298828, Sentimiento: Neutro


# Modelo de Filtrado Colaborativo usando Red Neuronal Multicapa con Keras:

Funcionamiento:

Estos sistemas toman características de los ítems y/o usuarios y las pasan a través de una o varias capas de neuronas para obtener una predicción.
Las redes neuronales son capaces de capturar interacciones no lineales entre características, lo que las hace poderosas para tareas de modelado complejas.

Ventajas:

Capacidad de modelar relaciones no lineales.

Flexibilidad para incorporar múltiples fuentes de datos o características.

Puede manejar arranques en frío al incorporar características de nuevos ítems o usuarios.

Desventajas:

Mayor costo computacional en comparación con los sistemas basados únicamente en embeddings.

Riesgo de sobreajuste si no se tiene un conjunto de datos lo suficientemente grande.

Ahora el código incluye regularización en los embeddings, early stopping para detener el entrenamiento si el modelo deja de mejorar en el conjunto de validación, y reducción de la tasa de aprendizaje si el error en el conjunto de validación no mejora después de algunas épocas. Estas adiciones deberían ayudar a mejorar la capacidad de generalización del modelo.

In [29]:
df['user_id'] = df['reviewerID'].astype('category').cat.codes.values
df['item_id'] = df['asin'].astype('category').cat.codes.values

# Número de usuarios e ítems
n_users = df['user_id'].nunique()
n_items = df['item_id'].nunique()

# Hiperparámetros
hidden_units = [128, 64, 32]
dropout_rate = 0.2
l2_reg = 1e-6

# Arquitectura del modelo
user_input = Input(shape=[1], name='user_input')
item_input = Input(shape=[1], name='item_input')
concat = Concatenate()([user_input, item_input])
dense = concat
for units in hidden_units:
    dense = Dense(units, activation='relu', kernel_regularizer=l2(l2_reg))(dense)
    dense = Dropout(dropout_rate)(dense)

# Agregar una capa de activación sigmoid y escalar a [0, 5]
output = Dense(1, activation='sigmoid', kernel_regularizer=l2(l2_reg))(dense)  # Función de activación sigmoid
output = Lambda(lambda x: x * 5)(output)  # Escalar las predicciones al rango [0, 5]

model = Model(inputs=[user_input, item_input], outputs=output)
model.compile(optimizer=Adam(0.001), loss='mean_squared_error')

In [30]:
# Callbacks
early_stop = EarlyStopping(monitor='val_loss', patience=50)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=50, min_lr=1e-5)

In [31]:
# Datos para entrenamiento
user_data = df['user_id'].values
item_data = df['item_id'].values
rating_data = df['overall'].values

# División en entrenamiento y prueba
(user_ids_temp, user_ids_test, item_ids_temp, item_ids_test, ratings_temp, ratings_test) = train_test_split(
    user_ids, item_ids, ratings, test_size=0.2, random_state=42)

# División del conjunto de entrenamiento en entrenamiento y validación
(user_ids_train, user_ids_val, item_ids_train, item_ids_val, ratings_train, ratings_val) = train_test_split(
    user_ids_temp, item_ids_temp, ratings_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

In [32]:
%%time
# Entrenamiento del modelo
history = model.fit([user_ids_train, item_ids_train], ratings_train,
    epochs=500,validation_data=([user_ids_val, item_ids_val], ratings_val),
    batch_size=800000,verbose=1,callbacks=[early_stop, reduce_lr])

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

In [33]:
# Evaluar el modelo
y_true = ratings_test
predictions = model.predict([user_ids_test, item_ids_test])



In [34]:
# MSE y RMSE
mse = mean_squared_error(y_true, predictions)
rmse = np.sqrt(mse)

# MAE
mae = mean_absolute_error(y_true, predictions)

# Funciones MAPE
def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    non_zero_idx = y_true != 0  # Para evitar divisiones por cero
    return np.mean(np.abs((y_true[non_zero_idx] - y_pred[non_zero_idx]) / y_true[non_zero_idx])) * 100

def compute_mape_by_batch(y_true, predictions, batch_size=50000):
    mape_sum = 0
    num_batches = int(np.ceil(len(y_true) / batch_size))

    for i in range(num_batches):
        start_idx = i * batch_size
        end_idx = start_idx + batch_size

        batch_y_true = y_true[start_idx:end_idx]
        batch_predictions = predictions[start_idx:end_idx]

        mape_sum += mean_absolute_percentage_error(batch_y_true, batch_predictions)

    return mape_sum / num_batches

# Luego llamas a la función
mape = compute_mape_by_batch(y_true, predictions)

print(f'MSE: {mse}')
print(f'RMSE: {rmse}')
print(f'MAE: {mae}')
print(f'MAPE: {mape}%')

MSE: 1.91015555428256
RMSE: 1.3820837725270345
MAE: 0.7401227977898481
MAPE: 40.77108911682409%


# Recomendación

In [45]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id_test = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Identificar los ítems que el usuario ha calificado en el conjunto de prueba
indices_usuario = np.where(user_ids_test == usuario_id_test_encoded)[0]
items_calificados_test_encoded = item_ids_test[indices_usuario]
calificaciones_reales_test = ratings_test[indices_usuario]

# Predecir las calificaciones para estos ítems
calificaciones_predichas = model.predict([np.array([usuario_id_test_encoded] * len(items_calificados_test_encoded)), items_calificados_test_encoded])

# Decodificar los ítems para obtener los ID originales
items_calificados_test = asin_encoder.inverse_transform(items_calificados_test_encoded)

# Comparar las calificaciones predichas con las reales
comparacion = list(zip(items_calificados_test, calificaciones_reales_test, calificaciones_predichas.flatten()))

# Suponiendo que 'items_calificados_test' contiene los IDs originales de los ítems
recomendaciones_df = pd.DataFrame({
    'asin': items_calificados_test,
    'Calificación Real': calificaciones_reales_test,
    'Calificación Predicha': calificaciones_predichas.flatten()
})

recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones
print(f"Recomendaciones para el usuario {usuario_id_test}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Real: {row['Calificación Real']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")


Recomendaciones para el usuario A3HIB8EDYX56LE:
Ítem: B00JZ1RLLG, Calificación Real: 5.0, Calificación Predicha: 5.0, Sentimiento: Positivo
Ítem: B00JZ1RLKW, Calificación Real: 5.0, Calificación Predicha: 5.0, Sentimiento: Positivo


In [51]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Lista de todos los ítems únicos en el dataset
items_unicos = np.unique(data['asin'].values)

# Ítems que el usuario ya ha calificado
items_calificados = data[data['reviewerID_encoded'] == usuario_id_test_encoded]['asin'].tolist()

# Ítems para predecir
items_a_predecir = [item for item in items_unicos if item not in items_calificados]

# Convierte los ítems a su representación codificada
items_a_predecir_encoded = asin_encoder.transform(items_a_predecir)

# Predecir la calificación para cada ítem no calificado
predicciones = model.predict([np.array([usuario_id_test_encoded] * len(items_a_predecir_encoded)), items_a_predecir_encoded])

# Emparejar cada ítem con su predicción
items_predicciones = list(zip(items_a_predecir, predicciones.flatten()))

# Ordenar por la calificación predicha más alta
items_recomendados = sorted(items_predicciones, key=lambda x: x[1], reverse=True)

# Tomar los top N recomendaciones
top_n = 5
top_recomendaciones = items_recomendados[:top_n]

# Crear un DataFrame a partir de las recomendaciones
recomendaciones_df = pd.DataFrame(top_recomendaciones, columns=['asin', 'Calificación Predicha'])

# Unir con el DataFrame 'sentimiento' para obtener el sentimiento asociado a cada ítem
recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')

# Renombrar la columna 'cluster' a 'Sentimiento' para claridad
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones con el sentimiento
print(f"Recomendaciones para el usuario {usuario_id}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")

Recomendaciones para el usuario A1TRNPEHX4YFMK:
Ítem: 0871167042, Calificación Predicha: 5.0, Sentimiento: Positivo
Ítem: 1519588135, Calificación Predicha: 5.0, Sentimiento: Neutro
Ítem: 1579652956, Calificación Predicha: 5.0, Sentimiento: Positivo
Ítem: 1936023857, Calificación Predicha: 5.0, Sentimiento: Positivo
Ítem: 5120053017, Calificación Predicha: 5.0, Sentimiento: Neutro


# Modelo de Filtrado Colaborativo usando Red Neuronal Multicapa y Embedding con Keras:

Otra enfoque popular para filtrado colaborativo es utilizar redes neuronales multicapa, que esencialmente aprenden características no lineales de los datos. Vamos a construir un modelo que fusiona los embeddings de usuarios y artículos (por ejemplo, películas) en una red neuronal densa.

Este enfoque, que combina embeddings y redes neuronales multicapa, puede capturar interacciones más complejas y no lineales entre usuarios y artículos. Sin embargo, es crucial prestar atención al sobreajuste y asegurarse de que el modelo no esté simplemente memorizando los datos. Por lo tanto, es recomendable emplear técnicas de regularización, ajustar hiperparámetros y validar el rendimiento con un conjunto de datos de validación.

Funcionamiento:

Combina lo mejor de ambos mundos. Primero, se utilizan embeddings para convertir ítems y usuarios en representaciones vectoriales densas. Luego, estas representaciones se pasan a través de una red neuronal para hacer la predicción.

El proceso generalmente comienza con capas de embedding que convierten identificadores de usuarios e ítems en vectores. Estos vectores luego se pasan a través de capas densas para obtener la predicción final.

Ventajas:

Capacidad de capturar patrones subyacentes en los datos mediante embeddings y modelar interacciones no lineales mediante la red neuronal.

Flexibilidad para incorporar características adicionales.

Potencialmente más preciso que cualquiera de los otros dos métodos por separado.

Desventajas:

Mayor complejidad en el modelado y entrenamiento.

Mayor costo computacional.

Requiere un ajuste más cuidadoso y riesgo de sobreajuste si no se gestiona adecuadamente.

Regularización L2: Agregar una regularización L2 a las capas de embedding y densas para prevenir el sobreajuste.

Early Stopping: Añadir una callback de early stopping para detener el entrenamiento cuando no haya mejora en el conjunto de validación durante un cierto número de épocas.

Ajuste de la tasa de aprendizaje: Utilizar la callback ReduceLROnPlateau para reducir la tasa de aprendizaje cuando no haya mejora en el conjunto de validación.

Métricas adicionales: Puedes monitorizar otras métricas como el error absoluto medio (MAE) durante el entrenamiento.

In [52]:
# Convertir reviewerID y asin a índices numéricos secuenciales
df['user_id'] = df['reviewerID'].astype('category').cat.codes.values
df['item_id'] = df['asin'].astype('category').cat.codes.values

# Número de usuarios e ítems
n_users = df['user_id'].nunique()
n_items = df['item_id'].nunique()

# Hiperparámetros
n_latent_factors = 50
hidden_units = [128, 64]
dropout_rate = 0.2
l2_reg = 1e-4

# Entradas
user_input = Input(shape=[1], name='user_input')
item_input = Input(shape=[1], name='item_input')

# Embeddings con regularización L2
user_embedding = Embedding(n_users, n_latent_factors, embeddings_regularizer=l2(l2_reg), name='user_embedding')(user_input)
item_embedding = Embedding(n_items, n_latent_factors, embeddings_regularizer=l2(l2_reg), name='item_embedding')(item_input)

user_vec = Flatten(name='flatten_users')(user_embedding)
item_vec = Flatten(name='flatten_items')(item_embedding)
concat = Concatenate()([user_vec, item_vec])

# Capas densas
dense = concat
for units in hidden_units:
    dense = Dense(units, activation='relu', kernel_regularizer=l2(l2_reg))(dense)
    dense = Dropout(dropout_rate)(dense)

# Agregar una capa de activación sigmoid y escalar a [0, 5]
output = Dense(1, activation='sigmoid', kernel_regularizer=l2(l2_reg))(dense)  # Función de activación sigmoid
output = Lambda(lambda x: x * 5)(output)  # Escalar las predicciones al rango [0, 5]

# Modelo
model = Model(inputs=[user_input, item_input], outputs=output)
model.compile(optimizer=Adam(0.001), loss='mean_squared_error', metrics=['mae'])

In [53]:
# Callbacks
early_stop = EarlyStopping(monitor='val_loss', patience=50, restore_best_weights=True)
reduce_lr = ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=50, min_lr=1e-5)

In [54]:
# Entrenamiento
user_data = df['user_id'].values
item_data = df['item_id'].values
rating_data = df['overall'].values

# División en entrenamiento y prueba
(user_ids_temp, user_ids_test, item_ids_temp, item_ids_test, ratings_temp, ratings_test) = train_test_split(
    user_ids, item_ids, ratings, test_size=0.2, random_state=42)

# División del conjunto de entrenamiento en entrenamiento y validación
(user_ids_train, user_ids_val, item_ids_train, item_ids_val, ratings_train, ratings_val) = train_test_split(
    user_ids_temp, item_ids_temp, ratings_temp, test_size=0.25, random_state=42)  # 0.25 x 0.8 = 0.2

In [55]:
%%time
history = model.fit([user_ids_train, item_ids_train], ratings_train,
                    epochs=500,validation_data=([user_ids_val, item_ids_val], ratings_val),
                    batch_size=800000,verbose=1,callbacks=[early_stop, reduce_lr])

Epoch 1/500
Epoch 2/500
Epoch 3/500
Epoch 4/500
Epoch 5/500
Epoch 6/500
Epoch 7/500
Epoch 8/500
Epoch 9/500
Epoch 10/500
Epoch 11/500
Epoch 12/500
Epoch 13/500
Epoch 14/500
Epoch 15/500
Epoch 16/500
Epoch 17/500
Epoch 18/500
Epoch 19/500
Epoch 20/500
Epoch 21/500
Epoch 22/500
Epoch 23/500
Epoch 24/500
Epoch 25/500
Epoch 26/500
Epoch 27/500
Epoch 28/500
Epoch 29/500
Epoch 30/500
Epoch 31/500
Epoch 32/500
Epoch 33/500
Epoch 34/500
Epoch 35/500
Epoch 36/500
Epoch 37/500
Epoch 38/500
Epoch 39/500
Epoch 40/500
Epoch 41/500
Epoch 42/500
Epoch 43/500
Epoch 44/500
Epoch 45/500
Epoch 46/500
Epoch 47/500
Epoch 48/500
Epoch 49/500
Epoch 50/500
Epoch 51/500
Epoch 52/500
Epoch 53/500
Epoch 54/500
Epoch 55/500
Epoch 56/500
Epoch 57/500
Epoch 58/500
Epoch 59/500
Epoch 60/500
Epoch 61/500
Epoch 62/500
Epoch 63/500
Epoch 64/500
Epoch 65/500
Epoch 66/500
Epoch 67/500
Epoch 68/500
Epoch 69/500
Epoch 70/500
Epoch 71/500
Epoch 72/500
Epoch 73/500
Epoch 74/500
Epoch 75/500
Epoch 76/500
Epoch 77/500
Epoch 78

In [56]:
# Predicciones
y_true = ratings_test
predictions = model.predict([user_ids_test, item_ids_test])



In [57]:
# MSE y RMSE
mse = mean_squared_error(y_true, predictions)
rmse = np.sqrt(mse)

# MAE
mae = mean_absolute_error(y_true, predictions)

# MAPE
def mean_absolute_percentage_error(y_true, y_pred):
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    non_zero_idx = y_true != 0  # Para evitar divisiones por cero
    return np.mean(np.abs((y_true[non_zero_idx] - y_pred[non_zero_idx]) / y_true[non_zero_idx])) * 100

def compute_mape_by_batch(y_true, predictions, batch_size=50000):
    mape_sum = 0
    num_batches = int(np.ceil(len(y_true) / batch_size))

    for i in range(num_batches):
        start_idx = i * batch_size
        end_idx = start_idx + batch_size

        batch_y_true = y_true[start_idx:end_idx]
        batch_predictions = predictions[start_idx:end_idx]

        mape_sum += mean_absolute_percentage_error(batch_y_true, batch_predictions)

    return mape_sum / num_batches

# Luego llamas a la función
mape = compute_mape_by_batch(y_true, predictions)

print(f'MSE: {mse}')
print(f'RMSE: {rmse}')
print(f'MAE: {mae}')
print(f'MAPE: {mape}%')

MSE: 1.213246151737755
RMSE: 1.1014745352198365
MAE: 0.7994800724480138
MAPE: 39.77720849709324%


# Recomendación

In [74]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id_test = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Identificar los ítems que el usuario ha calificado en el conjunto de prueba
indices_usuario = np.where(user_ids_test == usuario_id_test_encoded)[0]
items_calificados_test_encoded = item_ids_test[indices_usuario]
calificaciones_reales_test = ratings_test[indices_usuario]

# Predecir las calificaciones para estos ítems
calificaciones_predichas = model.predict([np.array([usuario_id_test_encoded] * len(items_calificados_test_encoded)), items_calificados_test_encoded])

# Decodificar los ítems para obtener los ID originales
items_calificados_test = asin_encoder.inverse_transform(items_calificados_test_encoded)

# Comparar las calificaciones predichas con las reales
comparacion = list(zip(items_calificados_test, calificaciones_reales_test, calificaciones_predichas.flatten()))

# Suponiendo que 'items_calificados_test' contiene los IDs originales de los ítems
recomendaciones_df = pd.DataFrame({
    'asin': items_calificados_test,
    'Calificación Real': calificaciones_reales_test,
    'Calificación Predicha': calificaciones_predichas.flatten()
})

recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones
print(f"Recomendaciones para el usuario {usuario_id_test}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Real: {row['Calificación Real']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")


Recomendaciones para el usuario AOED81JH8OMWD:
Ítem: B002M0MIJ2, Calificación Real: 5.0, Calificación Predicha: 4.631375789642334, Sentimiento: Neutro
Ítem: B000MAPS7S, Calificación Real: 5.0, Calificación Predicha: 4.788207530975342, Sentimiento: Neutro
Ítem: B00VY215KC, Calificación Real: 5.0, Calificación Predicha: 4.25316858291626, Sentimiento: Neutro
Ítem: B00KNJP2EW, Calificación Real: 5.0, Calificación Predicha: 4.611866474151611, Sentimiento: Positivo
Ítem: B00062BIC6, Calificación Real: 4.0, Calificación Predicha: 4.612146854400635, Sentimiento: Neutro
Ítem: B00I5QWK1I, Calificación Real: 5.0, Calificación Predicha: 4.478981018066406, Sentimiento: Positivo


In [77]:
# Seleccionar un usuario al azar del conjunto de prueba
usuario_id_test_encoded = random.choice(user_ids_test)

# Decodificar el ID del usuario para obtener el ID original
usuario_id = reviewerID_encoder.inverse_transform([usuario_id_test_encoded])[0]

# Lista de todos los ítems únicos en el dataset
items_unicos = np.unique(data['asin'].values)

# Ítems que el usuario ya ha calificado
items_calificados = data[data['reviewerID_encoded'] == usuario_id_test_encoded]['asin'].tolist()

# Ítems para predecir
items_a_predecir = [item for item in items_unicos if item not in items_calificados]

# Convierte los ítems a su representación codificada
items_a_predecir_encoded = asin_encoder.transform(items_a_predecir)

# Predecir la calificación para cada ítem no calificado
predicciones = model.predict([np.array([usuario_id_test_encoded] * len(items_a_predecir_encoded)), items_a_predecir_encoded])

# Emparejar cada ítem con su predicción
items_predicciones = list(zip(items_a_predecir, predicciones.flatten()))

# Ordenar por la calificación predicha más alta
items_recomendados = sorted(items_predicciones, key=lambda x: x[1], reverse=True)

# Tomar los top N recomendaciones
top_n = 5
top_recomendaciones = items_recomendados[:top_n]

# Crear un DataFrame a partir de las recomendaciones
recomendaciones_df = pd.DataFrame(top_recomendaciones, columns=['asin', 'Calificación Predicha'])

# Unir con el DataFrame 'sentimiento' para obtener el sentimiento asociado a cada ítem
recomendaciones_df = recomendaciones_df.merge(sentimiento[['asin', 'cluster']], on='asin', how='left')

# Renombrar la columna 'cluster' a 'Sentimiento' para claridad
recomendaciones_df.rename(columns={'cluster': 'Sentimiento'}, inplace=True)

# Mostrar las recomendaciones con el sentimiento
print(f"Recomendaciones para el usuario {usuario_id}:")
for index, row in recomendaciones_df.iterrows():
    print(f"Ítem: {row['asin']}, Calificación Predicha: {row['Calificación Predicha']}, Sentimiento: {row['Sentimiento']}")

Recomendaciones para el usuario A3PP1KBWQKN4O6:
Ítem: B00KKXCJQU, Calificación Predicha: 4.659495830535889, Sentimiento: Positivo
Ítem: B00H9RZDRM, Calificación Predicha: 4.654723167419434, Sentimiento: Neutro
Ítem: B0013KGG7M, Calificación Predicha: 4.594662189483643, Sentimiento: Positivo
Ítem: B01E4SQNLS, Calificación Predicha: 4.542489051818848, Sentimiento: Positivo
Ítem: B000JFBHGW, Calificación Predicha: 4.520904064178467, Sentimiento: Positivo


Estas métricas te ayudarán a tener una mejor idea del desempeño de tu modelo. Por ejemplo:

MSE y RMSE son útiles cuando quieres penalizar grandes errores.

MAE te da una idea del error medio sin considerar la dirección del error.

MAPE es útil cuando quieres representar el error en términos porcentuales.

Para una evaluación completa, es recomendable utilizar un conjunto de validación aparte (es decir, no solo depender del validation_split). Esto asegura que estás evaluando el desempeño en datos que el modelo nunca ha visto durante el entrenamiento.

En resumen, la elección del tipo de sistema de recomendación dependerá de la naturaleza del conjunto de datos, las características disponibles, las capacidades computacionales y el tipo de relaciones o interacciones que se desean capturar. A menudo, un enfoque híbrido (como el sistema que combina embeddings y redes neuronales) ofrece un buen equilibrio entre precisión y eficiencia.