
# üß† Notebook: Generaci√≥n del Dataset Consolidado `df_final.csv`

## üìå Objetivo General
Integrar m√∫ltiples archivos `.csv` ubicados en la carpeta `data/`, correspondientes a diferentes deportes, en un √∫nico archivo llamado `df_final.csv`, que ser√° la base de an√°lisis para la monitorizaci√≥n de los datos deportivos.


## ü•á Paso 1: Cargar todos los archivos CSV

In [47]:
from pathlib import Path
import pandas as pd

# ‚úÖ Usamos la carpeta actual (donde est√° el notebook) como base
data_folder = Path(".")  # Este notebook est√° en data/, as√≠ que buscamos en la misma carpeta
output_folder = data_folder / "concat"
output_folder.mkdir(parents=True, exist_ok=True)  # Crea 'data/concat' si no existe

# üîç Buscar todos los archivos CSV en esta carpeta
csv_files = list(data_folder.glob("*.csv"))

# üìã Mostrar archivos encontrados para verificaci√≥n
print("üìÅ Archivos encontrados:", [f.name for f in csv_files])


üìÅ Archivos encontrados: ['Atletismo_2024.csv', 'Badminton_2024.csv', 'Baloncesto_Femenino_2024.csv', 'Baloncesto_Masculino_2024.csv', 'Balonmano_Femenino_2024.csv', 'Balonmano_Masculino_2024.csv', 'Gimnasia_2024.csv']


## üß© Paso 2: Lectura individual e identificaci√≥n del deporte

In [48]:

dataframes = []
for file in csv_files:
    try:
        df = pd.read_csv(file)
        deporte = file.stem.split("_")[0]
        df.insert(0, "Deporte", deporte)  # Agregar columna con el nombre del deporte
        dataframes.append(df)
    except Exception as e:
        print(f"‚ùå Error leyendo {file.name}: {e}")


In [49]:
dataframes = []

for archivo in csv_files:
    nombre_archivo = archivo.stem  # ej: Atletismo_2024

    # === Extraer metadatos desde el nombre del archivo ===
    deporte = nombre_archivo.split("_")[0].capitalize()

    genero_archivo = None
    if "Femenino" in nombre_archivo:
        genero_archivo = "Femenino"
    elif "Masculino" in nombre_archivo:
        genero_archivo = "Masculino"

    try:
        # === Leer archivo ===
        df = pd.read_csv(archivo)
        df.columns = df.columns.str.strip().str.upper()

        # === A√±adir o completar columna GENERO solo si aplica ===
        if "GENERO" in df.columns:
            df["GENERO"] = df["GENERO"].fillna("").astype(str).str.strip().str.capitalize()
            if genero_archivo and df["GENERO"].eq("").all():
                df["GENERO"] = genero_archivo
        elif genero_archivo:
            df["GENERO"] = genero_archivo
        # Si no tiene g√©nero detectado y no estaba en el archivo, se deja sin columna

        # === Agregar columna DEPORTE ===
        df["DEPORTE"] = deporte

        dataframes.append(df)

        print(f"‚úÖ Procesado: {archivo.name}")

    except Exception as e:
        print(f"‚ùå Error con {archivo.name}: {e}")


‚úÖ Procesado: Atletismo_2024.csv
‚úÖ Procesado: Badminton_2024.csv
‚úÖ Procesado: Baloncesto_Femenino_2024.csv
‚úÖ Procesado: Baloncesto_Masculino_2024.csv
‚úÖ Procesado: Balonmano_Femenino_2024.csv
‚úÖ Procesado: Balonmano_Masculino_2024.csv
‚úÖ Procesado: Gimnasia_2024.csv


In [50]:
df_final = pd.concat(dataframes, ignore_index=True)
df_final.to_csv(output_folder / "df_final.csv", index=False)


## üîó Paso 3: Concatenaci√≥n flexible (merge por outer join)

In [51]:

if dataframes:
    df_final = pd.concat(dataframes, ignore_index=True, sort=False)
    print(f"‚úÖ DataFrame concatenado con {df_final.shape[0]} filas y {df_final.shape[1]} columnas.")
else:
    print("‚ö†Ô∏è No hay archivos v√°lidos para concatenar.")


‚úÖ DataFrame concatenado con 31979 filas y 36 columnas.


## üì¶ Paso 4: Concatenar y exportar los datos finales
En este paso, unificamos todos los DataFrames que se cargaron correctamente en pasos anteriores. Si ninguno de los archivos fue v√°lido, detenemos el proceso con un mensaje claro y detallado. De lo contrario, exportamos el dataset final a `data/concat/df_final.csv` para su uso posterior.

In [52]:

if dataframes:
    output_path = output_folder / "df_final_2.csv"
    df_final.to_csv(output_path, index=False)
    print(f"üìÅ Archivo guardado en: {output_path}")


PermissionError: [Errno 13] Permission denied: 'concat\\df_final_2.csv'

## ‚úÖ Resultado

El DataFrame final contiene todas las columnas y filas sin perder informaci√≥n, con nombre del deporte en la primera columna y estructura homog√©nea para su an√°lisis posterior.