### 1. Importamos librerías y cargamos los datos procesados

In [1]:
import os
import random
import numpy as np
import pandas as pd
from sklearn.metrics import mean_squared_error, mean_absolute_error

processed_dir = 'data/processed'
train_df = pd.read_csv(os.path.join(processed_dir, 'train.csv'))
test_df  = pd.read_csv(os.path.join(processed_dir, 'test.csv'))


### 2. Declaramos nuestros hiperparámetros y constantes


In [2]:
NUM_ITERATIONS = 10      # iteraciones
MIN_RATING, MAX_RATING = 1.0, 5.0

#### Matriz de valoraciones

In [3]:
# lista de listas (0 donde no hay rating)
num_users = int(max(train_df.user_id.max(), test_df.user_id.max()))
num_items = int(max(train_df.book_id.max(), test_df.book_id.max()))
R = [[0.0]*num_items for _ in range(num_users)]
for _, row in train_df.iterrows():
    u = int(row.user_id) - 1
    i = int(row.book_id) - 1
    R[u][i] = float(row.rating)

### 3. Inicializamos el modelo, hiperparámetros

In [4]:
NUM_FACTORS    = 7       # f
LEARNING_RATE  = 0.001   # γ
REGULARIZATION = 0.1     # λ

### 4. Creamos P y Q con uniformes en [0,1]

In [5]:
random.seed(42)
P = [[random.random() for _ in range(NUM_FACTORS)] for _ in range(num_users)]
Q = [[random.random() for _ in range(NUM_FACTORS)] for _ in range(num_items)]

### 5. SGD iterativo 
(30 mins aproximadamente)

In [6]:
for it in range(NUM_ITERATIONS):
    print(f"Iteración {it+1}/{NUM_ITERATIONS}")
    updated_P = [row.copy() for row in P]
    updated_Q = [row.copy() for row in Q]

    # Recorremos sólo las valoraciones reales:
    for _, row in train_df.iterrows():
        u = int(row.user_id) - 1
        i = int(row.book_id) - 1
        r_ui = float(row.rating)

        # Cálculo del error
        pred = sum(P[u][k] * Q[i][k] for k in range(NUM_FACTORS))
        e = r_ui - pred

        # Actualización por cada factor latente
        for k in range(NUM_FACTORS):
            p_uk = P[u][k]
            q_ik = Q[i][k]
            grad_p = e * q_ik - REGULARIZATION * p_uk
            grad_q = e * p_uk - REGULARIZATION * q_ik
            updated_P[u][k] += LEARNING_RATE * grad_p
            updated_Q[i][k] += LEARNING_RATE * grad_q

    P, Q = updated_P, updated_Q

Iteración 1/10
Iteración 2/10
Iteración 3/10
Iteración 4/10
Iteración 5/10
Iteración 6/10
Iteración 7/10
Iteración 8/10
Iteración 9/10
Iteración 10/10


### 6. Evaluación del modelo
Para evitar problemas con NaN imputamos la media global.

In [None]:
def get_regression_metrics(test_df, pred_matrix):
    """devolvemos MAE y RMSE para todas las valoraciones de test_df"""
    y_true = test_df['rating'].values
    y_pred = [
        pred_matrix[int(row.user_id)-1, int(row.book_id)-1]
        for _, row in test_df.iterrows()
    ]
    mae  = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    return mae, rmse

pred_matrix = np.dot(np.array(P), np.array(Q).T)
pred_matrix = np.clip(pred_matrix, MIN_RATING, MAX_RATING) # usamos clip para asegurar que todos los ratings queden en el intervalo que queremos
global_mean = train_df.rating.mean()
pred_matrix = np.nan_to_num(pred_matrix, nan=global_mean)

mae, rmse = get_regression_metrics(test_df, pred_matrix)


PMF → MAE: 0.7740, RMSE: 0.9903


#### Métricas de clasificación binaria

Tanto el **RMSE** como el **MAE** son métricas de regresión (distancia a la realidad de la predicción), mientras que el **F1-score** o el **Recall** miden la precisión con que nuestro modelo recomienda algo que, efectivamente, gusta al usuario. Para ello desarrollamos la siguiente función.

In [None]:
from sklearn.metrics import precision_score, recall_score, f1_score

# redondeamos al entero más próximo (1…5)
pred_matrix_int = np.rint(pred_matrix).astype(int)

def get_binary_metrics_rounded(test_df, pred_matrix_int, threshold=4):
    y_true = (test_df.rating >= threshold).astype(int).values
    y_pred = [
        1 if pred_matrix_int[int(r.user_id)-1, int(r.book_id)-1] >= threshold else 0
        for _, r in test_df.iterrows()
    ]
    return precision_score(y_true, y_pred, zero_division=0), \
           recall_score   (y_true, y_pred, zero_division=0), \
           f1_score       (y_true, y_pred, zero_division=0)

prec, rec, f1 = get_binary_metrics_rounded(test_df, pred_matrix_int)

Precision: 0.6901
Recall: 1.0000
F1: 0.8166


#### nDCG@K (Normalized Discounted Cumulative Gain)

Para evaluar la **calidad del ranking** de nuestras recomendaciones usamos nDCG@K, que mide:

1. Relevancia: asignamos a cada ítem una relevancia real (por ejemplo `1` si la valoración ≥4, `0` en otro caso).  
2. Posición: los ítems recomendados en los primeros puestos pesan más que los de atrás, mediante un descuento logarítmico.

- **1.0** indica ranking perfecto (los K ítems más relevantes están en las primeras posiciones).  
- **0.0** indica que ninguno de los K primeros es relevante.

En nuestro experimento usamos **nDCG@10** para comparar KNN, PMF y BeMF, comprobando si colocamos primero las recomendaciones que el usuario considera más valiosas.


In [None]:
def get_user_ndcg(u, pred_matrix, test_df, K=5, rel_col='rel'):
    """
    nDCG@K para el usuario u (0-based).
    test_df debe tener columnas ['user_id','book_id', rel_col].
    rel_col es la relevancia (binaria o graduada).
    """
    user_ratings = test_df[test_df.user_id == (u+1)]
    if user_ratings.empty:
        return None

    true_rels = {
        int(row.book_id)-1: row[rel_col]
        for _, row in user_ratings.iterrows()
    }

    scores = pred_matrix[u]
    # Top-K 
    top_k = np.argsort(scores)[::-1][:K]

    dcg = 0.0
    for rank, item in enumerate(top_k, start=1):
        rel = true_rels.get(item, 0)
        dcg += (2**rel - 1) / np.log2(rank + 1)

    ideal_rels = sorted(true_rels.values(), reverse=True)[:K]
    idcg = sum((2**rel - 1) / np.log2(idx + 1)
               for idx, rel in enumerate(ideal_rels, start=1))

    return dcg / idcg if idcg > 0 else 0.0

def get_ndcg(pred_matrix, test_df, K=5, rel_col='rel'):
    """
    nDCG@K promedio sobre todos los usuarios con al menos una valoración.
    """
    total, count = 0.0, 0
    num_users = pred_matrix.shape[0]
    for u in range(num_users):
        val = get_user_ndcg(u, pred_matrix, test_df, K, rel_col)
        if val is not None:
            total += val
            count += 1
    return (total / count) if count > 0 else 0.0

test_df['rel'] = (test_df.rating >= 4).astype(int)


# nDCG@10
ndcg_10 = get_ndcg(pred_matrix, test_df, K=10, rel_col='rel')


nDCG@10 = 0.0456


#### Métricas completas y análisis

In [21]:
print(f"PMF → MAE: {mae:.4f}, RMSE: {rmse:.4f}")
print(f"Precision: {prec:.4f}\nRecall: {rec:.4f}\nF1: {f1:.4f}")
print(f"nDCG@10 = {ndcg_10:.4f}")

PMF → MAE: 0.7740, RMSE: 0.9903
Precision: 0.6901
Recall: 1.0000
F1: 0.8166
nDCG@10 = 0.0456


- **MAE = 0.774:** en media, las predicciones de PMF se desvían **menos de 0.8 estrellas** de la valoración real.  
- **RMSE = 0.990:** al penalizar más los errores grandes, vemos que el “error típico” queda justo por debajo de **1 estrella**.

Estos números indican que PMF capta bien la tendencia general de cada usuario, reduciendo el error absoluto promedio respecto al baseline (≈0.89 MAE). Sin embargo, como revela el nDCG bajo, aún le cuesta ordenar bien los top-K para ranking.  

- **Recall = 1.0**, no hay falsos negativos.
- **Precision = 0.69**, 31% de falsos positivos.
- **F1 = 0.82**, media armónica entre ambos, fruto de un modelo que tiende a sobre-predecir "likes" para no perder ninguno. 

## Incluimos un sesgo

Como un 4 no significa lo mismo para 2 usuarios diferentes, incluimos sesgo tanto en los usuarios como en los libros

**SGD iterativo** con sesgos, devolviendo mu y las listas de sesgos

In [13]:
import pandas as pd
import numpy as np

train_df = pd.read_csv('./data/processed/train.csv')
test_df = pd.read_csv('./data/processed/test.csv')
NUM_FACTORS = 7

In [14]:
import random

NUM_USERS = int(max(train_df.user_id.max(), test_df.user_id.max()))
NUM_ITEMS = int(max(train_df.book_id.max(), test_df.book_id.max()))

random.seed(42)
P = [
    [random.random() for _ in range(NUM_FACTORS)]
    for _ in range(NUM_USERS)
]
Q = [
    [random.random() for _ in range(NUM_FACTORS)]
    for _ in range(NUM_ITEMS)
]


In [15]:
def biased_train(train_df, P, Q, lr, reg_f, reg_b, epochs):
    # Convertir a NumPy arrays si vienen como listas
    P = np.array(P, dtype=np.float32)
    Q = np.array(Q, dtype=np.float32)

    # Sesgos
    mu  = train_df.rating.mean()
    b_u = np.zeros(P.shape[0], dtype=np.float32)
    b_i = np.zeros(Q.shape[0], dtype=np.float32)

    for epoch in range(epochs):
        for _, row in train_df.iterrows():
            u = int(row.user_id) - 1
            i = int(row.book_id) - 1
            r = row.rating

            # Aquí ya puedes usar dot
            pred = mu + b_u[u] + b_i[i] + P[u].dot(Q[i])
            err  = r - pred

            # Actualizar sesgos
            b_u[u] += lr * (err - reg_b * b_u[u])
            b_i[i] += lr * (err - reg_b * b_i[i])

            # Actualizar factores
            P[u]    += lr * (err * Q[i] - reg_f * P[u])
            Q[i]    += lr * (err * P[u] - reg_f * Q[i])

    return mu, b_u, b_i, P, Q



#### Matriz de predicciones

In [32]:
def biased_pred_matrix(mu, b_u, b_i, P, Q, min_r=1.0, max_r=5.0):
    """
    Devuelve pred_matrix de forma (NUM_USERS, NUM_ITEMS) con sesgos.
    """
    base = np.dot(P, Q.T)              
    preds = mu + b_u[:, None] + b_i[None, :] + base
    return np.clip(preds, min_r, max_r)

In [16]:
mu, b_u, b_i, P, Q = biased_train(
    train_df,
    P, Q,
    lr=0.001,
    reg_f=0.1,
    reg_b=0.01,
    epochs=20
)


#### Métricas para PMF con sesgo

Debido al tamaño en memoria que tendría la matriz completa almacenada, modificamos los métodos para el cálculo de métricas para que no registre la matriz, sino que vaya haciendo sobre la marcha, mejorando eficiencia.

In [17]:
import numpy as np
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.metrics import precision_score, recall_score, f1_score

# umbral
thr = int(np.floor(train_df.rating.mean()))   # umbral binario

# MAE / RMSE sin crear la matriz completa
y_true, y_pred = [], []
for _, r in test_df.iterrows():
    u = int(r.user_id) - 1
    i = int(r.book_id) - 1

    # predicción con sesgos + producto escalar
    pred = mu + b_u[u] + b_i[i] + np.dot(P[u], Q[i])
    pred = np.clip(pred, 1.0, 5.0)

    y_true.append(r.rating)
    y_pred.append(pred)

mae  = mean_absolute_error(y_true, y_pred)
rmse = np.sqrt(mean_squared_error(y_true, y_pred))
print(f"PMF+bias → MAE: {mae:.4f}, RMSE: {rmse:.4f}")

# Precisión/Recall/F1 sin generar la matriz completa
y_true_bin = [(r.rating >= thr) for _, r in test_df.iterrows()]
y_pred_bin = [(p >= thr) for p in y_pred]

prec = precision_score(y_true_bin, y_pred_bin, zero_division=0)
rec  = recall_score   (y_true_bin, y_pred_bin, zero_division=0)
f1   = f1_score       (y_true_bin, y_pred_bin, zero_division=0)
print(f"Precision: {prec:.4f}, Recall: {rec:.4f}, F1: {f1:.4f}")

# nDCG@10 usuario a usuario 
def ndcg_for_user(u, K=10):
    # test items de este usuario
    df_u = test_df[test_df.user_id == u+1]
    if df_u.empty: return None

    # true relevances y predicciones
    true_rels = []
    preds     = []
    for _, r in df_u.iterrows():
        idx = int(r.book_id) - 1
        true_rels.append(int(r.rating >= thr))
        p = mu + b_u[u] + b_i[idx] + np.dot(P[u], Q[idx])
        preds.append(p)

    # ordenar por pred y calcular DCG/IDCG
    order = np.argsort(preds)[::-1][:K]
    dcg  = sum((2**true_rels[j] - 1)/np.log2(pos+2)
               for pos, j in enumerate(order))
    ideal = sorted(true_rels, reverse=True)[:K]
    idcg  = sum((2**rel - 1)/np.log2(i+2) for i, rel in enumerate(ideal))
    return dcg / idcg if idcg > 0 else 0.0

ndcgs = [ndcg_for_user(u) for u in range(int(test_df.user_id.max()))]
ndcg10 = np.nanmean([v for v in ndcgs if v is not None])
print(f"nDCG@10: {ndcg10:.4f}")



PMF+bias → MAE: 0.6753, RMSE: 0.8576
Precision: 0.9283, Recall: 0.9839, F1: 0.9553
nDCG@10: 0.9574


#### Pruebas

Aprovechando las métricas del PMF con sesgo, probamos a retornar recomendaciones en torno a un usuario para ver sus rating en la predicción.

In [None]:
import pandas as pd
import numpy as np

books = pd.read_csv('data/books.csv')

def top_n_books(user_id, mu, b_u, b_i, P, Q, books_df, N=10):
    """
    dataframe con n recomendaciones
    """
    u = user_id - 1

    # predicción para todos los ítems (vectorizado)
    raw_scores = mu + b_u[u] + b_i + np.dot(P[u], Q.T)

    # Clipping para asegurar rango [1, 5]
    scores = np.clip(raw_scores, 1.0, 5.0)

    # 2.3) Ordenamos descendentemente y tomamos top N
    top_idxs = np.argsort(scores)[::-1][:N]
    recs = [{
        'book_id':     int(idx + 1),
        'pred_rating': float(scores[idx])
    } for idx in top_idxs]

    # 2.4) Enriquecemos con título y autor
    recs_df = pd.DataFrame(recs).merge(
        books_df[['book_id', 'title', 'authors']],
        on='book_id', how='left'
    )

    return recs_df.sort_values('pred_rating', ascending=False)

# probamos con algunos usuarios
user = 1212
top10 = top_n_books(
    user_id=user,
    mu=mu,
    b_u=b_u,
    b_i=b_i,
    P=np.array(P, dtype=np.float32),
    Q=np.array(Q, dtype=np.float32),
    books_df=books,
    N=20
)

print(f"Top-10 recomendaciones para el usuario {user}:")
print(top10.to_string(index=False))



Top-10 recomendaciones para el usuario 1212:
 book_id  pred_rating                                                             title                                                                                                                                                authors
     862     4.836176                    Words of Radiance (The Stormlight Archive, #2)                                                                                                                                      Brandon Sanderson
    3628     4.769377                                    The Complete Calvin and Hobbes                                                                                                                                         Bill Watterson
     780     4.743976                                                 Calvin and Hobbes                                                                                                                           Bill Watterson, G.B. Trudeau