# Notebook 5: Subsampling aleatorio de MovieLens

En este notebook generamos subconjuntos aleatorios del dataset de ratings para evaluar el impacto del tamaño de los datos en los modelos de recomendación y en la eficiencia energética.

In [1]:
import pandas as pd
import numpy as np
from pathlib import Path

# Carga de datos procesados

In [2]:
data_path = Path("../data/processed")
ratings = pd.read_csv(data_path / "ratings.csv")
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291


# Submuestreo aleatorio

Generaremos subconjuntos con diferentes proporciones de los datos originales.

In [3]:
def subsample_random(df, fraction, random_state=42):
    return df.sample(frac=fraction, random_state=random_state).reset_index(drop=True)

# Creación de subconjuntos

Por ejemplo, crearemos datasets con 10%, 25%, 50% y 75% del tamaño original.

In [4]:
fractions = [0.1, 0.25, 0.5, 0.75]

subsampled_path = data_path / "subsampled_random"
subsampled_path.mkdir(exist_ok=True)

for frac in fractions:
    subset = subsample_random(ratings, frac)
    subset.to_csv(subsampled_path / f"ratings_{int(frac*100)}.csv", index=False)
    print(f"Subconjunto {int(frac*100)}% guardado, {len(subset)} filas")

Subconjunto 10% guardado, 100021 filas
Subconjunto 25% guardado, 250052 filas
Subconjunto 50% guardado, 500104 filas
Subconjunto 75% guardado, 750157 filas


# Conclusiones

Estos subconjuntos nos permitirán evaluar el impacto del tamaño del dataset en:
- Rendimiento de los modelos
- Consumo energético
- Tiempo de entrenamiento