In [None]:
!pip install scikit-surprise

Collecting scikit-surprise
  Downloading scikit_surprise-1.1.4.tar.gz (154 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/154.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m153.6/154.4 kB[0m [31m4.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.4/154.4 kB[0m [31m3.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.4-cp310-cp310-linux_x86_64.whl size=2357289 sha256=c6edd13b926f81b63bcf7f42a1c5aa6d5a4a996fb3d289ea4a6c2fbb59766b54
  Stored in directory: /root/.cache/pip/wheels/4b/3f/df/6acbf0a

In [None]:
import pandas as pd
from surprise import Dataset, Reader, SVD, KNNBasic
from surprise.model_selection import train_test_split
from surprise import accuracy
from sklearn.metrics import average_precision_score

**Carga y Exploración de Datos**

In [None]:
try:
    metadata = pd.read_csv('metadata.csv', usecols=['asset_id', 'content_id', 'end_vod_date'])
    train = pd.read_csv('train.csv', usecols=['account_id', 'asset_id', 'tunein'])
except FileNotFoundError as e:
    print(f"Error al cargar los archivos CSV: {e}")
    raise
except pd.errors.EmptyDataError as e:
    print(f"El archivo CSV está vacío: {e}")
    raise
except Exception as e:
    print(f"Ocurrió un error inesperado al cargar los datos: {e}")
    raise

In [None]:
# Verificación de columnas y muestra de datos
print("Metadata:")
print(metadata.head())
print(metadata.columns)

print("\nTrain:")
print(train.head())
print(train.columns)

Metadata:
   asset_id  content_id            end_vod_date
0     15188         0.0  2020-12-01T23:59:59.0Z
1     24940         1.0  2022-12-14T23:59:59.0Z
2     21939         2.0  2020-12-01T23:59:59.0Z
3      9005         3.0  2021-04-30T23:59:59.0Z
4      7391         4.0  2020-12-31T23:59:59.0Z
Index(['asset_id', 'content_id', 'end_vod_date'], dtype='object')

Train:
   account_id  asset_id                 tunein
0       90627   18332.0  2021-02-18 22:52:00.0
1       90627   24727.0  2021-03-24 23:17:00.0
2        3387     895.0  2021-03-15 10:05:00.0
3        3387     895.0  2021-03-15 10:23:00.0
4        3387   26062.0  2021-03-16 09:24:00.0
Index(['account_id', 'asset_id', 'tunein'], dtype='object')


In [None]:
# Conversión de fechas a formato datetime
try:
    metadata['end_vod_date'] = pd.to_datetime(metadata['end_vod_date'], errors='coerce')
    train['tunein'] = pd.to_datetime(train['tunein'], errors='coerce')
except Exception as e:
    print(f"Error al convertir las fechas: {e}")
    raise

**División del Dataset en Train y Test**

In [None]:
try:
    train_df = train[train['tunein'] < '2021-03-01']
    test_df = train[train['tunein'] >= '2021-03-01']
except KeyError as e:
    print(f"Error en la división de los datos: {e}")
    raise

**Generación de Ratings Binarios**

In [None]:
# Generación de ratings binarios
train_df['rating'] = 1

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  train_df['rating'] = 1


In [None]:
# Filtramos contenidos disponibles después del 1 de marzo de 2021
try:
    available_content = metadata[metadata['end_vod_date'] >= '2021-03-01']['content_id'].unique()
except KeyError as e:
    print(f"Error al filtrar contenido disponible: {e}")
    raise

In [None]:
# Verificación de valores nulos y conversión de tipos de datos
print("Valores nulos en 'asset_id' de train_df:", train_df['asset_id'].isnull().sum())
print("Valores nulos en 'asset_id' de metadata:", metadata['asset_id'].isnull().sum())

train_df = train_df[train_df['asset_id'].notnull()]
metadata = metadata[metadata['asset_id'].notnull()]

Valores nulos en 'asset_id' de train_df: 0
Valores nulos en 'asset_id' de metadata: 0


In [None]:
try:
    train_df['asset_id'] = train_df['asset_id'].astype(int)
    metadata['asset_id'] = metadata['asset_id'].astype(int)
except ValueError as e:
    print(f"Error al convertir 'asset_id' a entero: {e}")
    raise

In [None]:
# Unimos train_df con metadata para obtener 'content_id'
try:
    train_df = pd.merge(train_df, metadata[['asset_id', 'content_id']], on='asset_id', how='left')
except KeyError as e:
    print(f"Error al hacer el merge de los datos: {e}")
    raise

In [None]:
# Limpieza de columnas duplicadas en train_df
train_df = train_df.loc[:, ~train_df.columns.duplicated()]

In [None]:
# Verificación después del merge
print("\nColumnas en train_df después del merge:")
print(train_df.columns)
print(train_df.head())


Columnas en train_df después del merge:
Index(['account_id', 'asset_id', 'tunein', 'rating', 'content_id'], dtype='object')
   account_id  asset_id              tunein  rating  content_id
0       90627     18332 2021-02-18 22:52:00       1      2040.0
1        3388     30840 2021-01-01 02:22:00       1      2100.0
2        3388     30840 2021-01-02 01:02:00       1      2100.0
3        3388     13180 2021-01-02 01:08:00       1      2100.0
4        3388     13180 2021-01-04 01:32:00       1      2100.0


In [None]:
if 'content_id' not in train_df.columns:
    print("Error: La columna 'content_id' no se creó en el merge.")
else:
    print("\nTrain DataFrame después del merge:")
    print(train_df.head())


Train DataFrame después del merge:
   account_id  asset_id              tunein  rating  content_id
0       90627     18332 2021-02-18 22:52:00       1      2040.0
1        3388     30840 2021-01-01 02:22:00       1      2100.0
2        3388     30840 2021-01-02 01:02:00       1      2100.0
3        3388     13180 2021-01-02 01:08:00       1      2100.0
4        3388     13180 2021-01-04 01:32:00       1      2100.0


In [None]:
# Filtramos por contenido disponible
try:
    train_df = train_df[train_df['content_id'].isin(available_content)]
except KeyError as e:
    print(f"Error al filtrar el DataFrame por contenido disponible: {e}")
    raise

In [None]:
# Unimos test_df con metadata para obtener 'content_id'
try:
    test_df = pd.merge(test_df, metadata[['asset_id', 'content_id']], on='asset_id', how='left')
except KeyError as e:
    print(f"Error al hacer el merge del test set con metadata: {e}")
    raise

In [None]:
# Limpieza de columnas duplicadas en test_df
test_df = test_df.loc[:, ~test_df.columns.duplicated()]

In [None]:
# Verificación después del merge en test_df
print("\nColumnas en test_df después del merge:")
print(test_df.columns)
print(test_df.head())


Columnas en test_df después del merge:
Index(['account_id', 'asset_id', 'tunein', 'content_id'], dtype='object')
   account_id  asset_id              tunein  content_id
0       90627   24727.0 2021-03-24 23:17:00      2040.0
1        3387     895.0 2021-03-15 10:05:00      1983.0
2        3387     895.0 2021-03-15 10:23:00      1983.0
3        3387   26062.0 2021-03-16 09:24:00       729.0
4        3387   26062.0 2021-03-16 09:44:00       729.0


**Factorización de Matrices (SVD)**

In [None]:
# Verifica que 'content_id' esté presente en train_df
print("\nColumnas en train_df antes de cargar datos en Surprise:")
print(train_df.columns)


Columnas en train_df antes de cargar datos en Surprise:
Index(['account_id', 'asset_id', 'tunein', 'rating', 'content_id'], dtype='object')


In [None]:
try:
    reader = Reader(rating_scale=(1, 1))
    data = Dataset.load_from_df(train_df[['account_id', 'content_id', 'rating']], reader)
except KeyError as e:
    print(f"Error al cargar los datos en Surprise: {e}")
    raise

In [None]:
# Dividimos los datos en train y test sets
try:
    trainset, testset = train_test_split(data, test_size=0.2)
except Exception as e:
    print(f"Error al dividir el dataset en train/test: {e}")
    raise

In [None]:
# Entrenamos el modelo SVD
try:
    svd = SVD()
    svd.fit(trainset)
except Exception as e:
    print(f"Error al entrenar el modelo SVD: {e}")
    raise

In [None]:
# Predecimos y evaluamos el modelo
try:
    predictions = svd.test(testset)
    accuracy.rmse(predictions)
except Exception as e:
    print(f"Error al realizar predicciones con SVD: {e}")
    raise

RMSE: 0.0000


**Generación de Recomendaciones**

In [None]:
def generar_recomendaciones_svd(model, account_id, train_df, num_recomendaciones=20):
    try:
        vistos = set(train_df[train_df['account_id'] == account_id]['content_id'].values)
        all_items = train_df['content_id'].unique()

        recomendaciones = [(item, model.predict(account_id, item).est) for item in all_items if item not in vistos]
        recomendaciones = sorted(recomendaciones, key=lambda x: x[1], reverse=True)[:num_recomendaciones]

        return [rec[0] for rec in recomendaciones]
    except KeyError as e:
        print(f"Error en la generación de recomendaciones: {e}")
        raise

In [None]:
# Manejo de usuarios 'cold start'
def generar_recomendaciones_cold_start(train_df, num_recomendaciones=20):
    try:
        contenido_popular = train_df['content_id'].value_counts().index[:num_recomendaciones]
        return contenido_popular.tolist()
    except KeyError as e:
        print(f"Error en la generación de recomendaciones para cold start: {e}")
        raise

In [None]:
# Ejemplo de recomendaciones para un usuario
try:
    account_id_ejemplo = test_df['account_id'].iloc[0]
    if account_id_ejemplo in train_df['account_id'].values:
        recomendaciones = generar_recomendaciones_svd(svd, account_id_ejemplo, train_df)
    else:
        print(f"Usuario {account_id_ejemplo} es un caso de cold start.")
        recomendaciones = generar_recomendaciones_cold_start(train_df)
    print(f"Recomendaciones para el usuario {account_id_ejemplo}: {recomendaciones}")
except IndexError as e:
    print(f"Error al intentar obtener el primer account_id de test_df: {e}")
    raise

Recomendaciones para el usuario 90627: [2100.0, 691.0, 3487.0, 3038.0, 604.0, 3225.0, 1018.0, 1877.0, 2411.0, 1009.0, 592.0, 3955.0, 3679.0, 623.0, 20.0, 2827.0, 3074.0, 2941.0, 2879.0, 2013.0]


In [27]:
# Generación de recomendaciones para todos los usuarios en el test set
def verificar_recomendaciones(model, test_df, train_df, num_recomendaciones=20):
    recomendaciones_por_usuario = {}

    for account_id in test_df['account_id'].unique():
        if account_id in train_df['account_id'].values:
            recomendaciones = generar_recomendaciones_svd(model, account_id, train_df, num_recomendaciones)
        else:
            print(f"Usuario {account_id} es un caso de cold start.")
            recomendaciones = generar_recomendaciones_cold_start(train_df, num_recomendaciones)

        recomendaciones_por_usuario[account_id] = recomendaciones

    return recomendaciones_por_usuario

try:
    recomendaciones_por_usuario = verificar_recomendaciones(svd, test_df, train_df)
    for user, recs in recomendaciones_por_usuario.items():
        print(f"Recomendaciones para el usuario {user}: {recs}")
except Exception as e:
    print(f"Error al generar recomendaciones para todos los usuarios: {e}")

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m
Recomendaciones para el usuario 20993: [2040.0, 2100.0, 691.0, 3487.0, 3038.0, 604.0, 3225.0, 1018.0, 1877.0, 2411.0, 1009.0, 592.0, 3955.0, 3679.0, 623.0, 20.0, 2827.0, 3074.0, 2941.0, 2879.0]
Recomendaciones para el usuario 96991: [2040.0, 2160.0, 1139.0, 1462.0, 3900.0, 1316.0, 2012.0, 3712.0, 176.0, 1800.0, 2627.0, 774.0, 1611.0, 135.0, 3353.0, 712.0, 558.0, 1020.0, 116.0, 304.0]
Recomendaciones para el usuario 60001: [2040.0, 2100.0, 691.0, 3487.0, 3038.0, 604.0, 3225.0, 1018.0, 1877.0, 2411.0, 1009.0, 592.0, 3955.0, 3679.0, 623.0, 20.0, 2827.0, 3074.0, 2941.0, 2879.0]
Recomendaciones para el usuario 49664: [2040.0, 2100.0, 691.0, 3487.0, 3038.0, 604.0, 3225.0, 1018.0, 2411.0, 1009.0, 592.0, 3955.0, 3679.0, 623.0, 20.0, 2827.0, 3074.0, 2941.0, 2879.0, 2013.0]
Recomendaciones para el usuario 20995: [2040.0, 2100.0, 691.0, 3487.0, 3038.0, 604.0, 3225.0, 1018.0, 1877.0, 2411.0, 1009.0, 592.0, 3955.0, 367

**Evaluación con MAP**

In [28]:
def calcular_MAP_svd(model, test_df, train_df):
    scores = []
    try:
        for account_id in test_df['account_id'].unique():
            if account_id in train_df['account_id'].values:
                recomendaciones = generar_recomendaciones_svd(model, account_id, train_df)
            else:
                recomendaciones = generar_recomendaciones_cold_start(train_df)

            # Verificamos si las recomendaciones son parte del contenido visto por el usuario en el test set
            vistos = set(test_df[test_df['account_id'] == account_id]['content_id'].values)
            y_true = [1 if rec in vistos else 0 for rec in recomendaciones]
            y_score = [model.predict(account_id, rec).est for rec in recomendaciones]

            if len(vistos) > 0:
                scores.append(average_precision_score(y_true, y_score))
    except KeyError as e:
        print(f"Error al calcular MAP: {e}")
        raise

    return sum(scores) / len(scores) if scores else 0


In [29]:
# Calcular y mostrar el MAP Score
try:
    map_score = calcular_MAP_svd(svd, test_df, train_df)
    print(f"MAP Score: {map_score}")
except Exception as e:
    print(f"Error al calcular el MAP Score: {e}")

[1;30;43mSe truncaron las últimas líneas 5000 del resultado de transmisión.[0m


MAP Score: 0.004974610600788011




**Conclusión**

En este proyecto, se desarrolló un sistema de recomendación empleando la factorización de matrices (SVD) sobre un conjunto de datos real de Telecom. El propósito fue generar 20 recomendaciones personalizadas para cada usuario, asegurando que no incluyeran contenido ya visualizado y que abarcaran también a aquellos usuarios sin historial previo (usuarios en cold start). La precisión del sistema se evaluó utilizando la métrica MAP, que permitió analizar la efectividad de las recomendaciones. Aunque el MAP Score obtenido fue bajo, esto refleja los desafíos inherentes a la generación de recomendaciones precisas en un escenario sin ratings explícitos y con restricciones en los datos. El proyecto pone de manifiesto la capacidad para aplicar técnicas avanzadas de recomendación y subraya la importancia de la optimización continua en sistemas de recomendación complejos.