In [1]:
#Autor: Andrés
#Tarea: https://github.com/UCM-GIDIA-PD1/c2425-R4/issues/15
#Objetivo: crear particiones de datos para entrener modelos (train, validation, test)
#Descripción y uso: en primer lugar lee el data frame de peleas_ponderadas de la carpeta data se dividen el conjuntos
#de datos en tres subconjuntos y se guardan en parquets. Para usarlo simplemente ejecutar el archivo.
#Estado actual: terminado

In [2]:
import pandas as pd
import os

In [3]:
ruta = os.path.join(os.getcwd(), "..", "..", "data", "processed", "peleas_ponderadas.parquet")
df = pd.read_parquet(ruta)

In [4]:
import pandas as pd

# Ordenar por fecha (si no está ordenado ya)
df = df.sort_values(by="DATE")

# Definir los tamaños de cada subconjunto
train_size = 0.7  # 70%
val_size = 0.15    # 15%
test_size = 0.15   # 15%

# Calcular índices de corte
n = len(df)
train_end = int(n * train_size)
val_end = train_end + int(n * val_size)

# Dividir el DataFrame
df_train = df.iloc[:train_end]
df_val = df.iloc[train_end:val_end]
df_test = df.iloc[val_end:]

# Obtener las fechas de corte
train_end_date = df_train["DATE"].max()
val_end_date = df_val["DATE"].max()
test_end_date = df_test["DATE"].max()

print(f"Última fecha en train: {train_end_date}")
print(f"Última fecha en validation: {val_end_date}")
print(f"Última fecha en test: {test_end_date}")

# Mostrar tamaños
print(f"Train: {len(df_train)}, Validation: {len(df_val)}, Test: {len(df_test)}")


Última fecha en train: 2021-06-26 00:00:00
Última fecha en validation: 2023-04-22 00:00:00
Última fecha en test: 2025-02-15 00:00:00
Train: 2433, Validation: 521, Test: 522


In [5]:
# Verificar tamaños y balance
def check_distribution(data, name):
    total = len(data)
    class_dist = data["WINNER"].value_counts(normalize=True).round(2)
    print(f"{name}: {total} muestras ({total/len(df):.0%}) | Distribución: {class_dist.to_dict()}")

check_distribution(df_train, "Entrenamiento")
check_distribution(df_val, "Validación")
check_distribution(df_test, "Prueba")

Entrenamiento: 2433 muestras (70%) | Distribución: {False: 0.62, True: 0.38}
Validación: 521 muestras (15%) | Distribución: {False: 0.53, True: 0.47}
Prueba: 522 muestras (15%) | Distribución: {False: 0.55, True: 0.45}


In [6]:
base_dir = os.path.join(os.getcwd(), "..", "..", "data")
ruta_partition = os.path.join(base_dir, "P2")

os.makedirs(ruta_partition, exist_ok=True)

df_train.to_parquet(os.path.join(ruta_partition, "train.parquet"), index = False)
df_val.to_parquet(os.path.join(ruta_partition, "validation.parquet"), index = False)
df_test.to_parquet(os.path.join(ruta_partition, "test.parquet"), index = False)