
# üß† Notebook: Generaci√≥n del Dataset Consolidado `df_final.csv`

## üìå Objetivo General
Integrar m√∫ltiples archivos `.csv` ubicados en la carpeta `data/`, correspondientes a diferentes deportes, en un √∫nico archivo llamado `df_final.csv`, que ser√° la base de an√°lisis para la monitorizaci√≥n de los datos deportivos.


## ü•á Paso 1: Cargar todos los archivos CSV

In [6]:
from pathlib import Path
import pandas as pd

# ‚úÖ Usamos la carpeta actual (donde est√° el notebook) como base
data_folder = Path(".")  # Este notebook est√° en data/, as√≠ que buscamos en la misma carpeta
output_folder = data_folder / "concat"
output_folder.mkdir(parents=True, exist_ok=True)  # Crea 'data/concat' si no existe

# üîç Buscar todos los archivos CSV en esta carpeta
csv_files = list(data_folder.glob("*.csv"))

# üìã Mostrar archivos encontrados para verificaci√≥n
print("üìÅ Archivos encontrados:", [f.name for f in csv_files])


üìÅ Archivos encontrados: ['Atletismo_2024.csv', 'Badminton_2024.csv', 'Baloncesto_Femenino_2024.csv', 'Baloncesto_Masculino_2024.csv', 'Balonmano_Femenino_2024.csv', 'Balonmano_Masculino_2024.csv', 'Gimnasia_2024.csv']


## üß© Paso 2: Lectura individual e identificaci√≥n del deporte

In [7]:

dataframes = []
for file in csv_files:
    try:
        df = pd.read_csv(file)
        deporte = file.stem.split("_")[0]
        df.insert(0, "Deporte", deporte)  # Agregar columna con el nombre del deporte
        dataframes.append(df)
    except Exception as e:
        print(f"‚ùå Error leyendo {file.name}: {e}")


## üîó Paso 3: Concatenaci√≥n flexible (merge por outer join)

In [8]:

if dataframes:
    df_final = pd.concat(dataframes, ignore_index=True, sort=False)
    print(f"‚úÖ DataFrame concatenado con {df_final.shape[0]} filas y {df_final.shape[1]} columnas.")
else:
    print("‚ö†Ô∏è No hay archivos v√°lidos para concatenar.")


‚úÖ DataFrame concatenado con 31979 filas y 36 columnas.


## üíæ Paso 4: Guardar el archivo consolidado

In [9]:

if dataframes:
    output_path = output_folder / "df_final.csv"
    df_final.to_csv(output_path, index=False)
    print(f"üìÅ Archivo guardado en: {output_path}")


üìÅ Archivo guardado en: concat\df_final.csv


## ‚úÖ Resultado

El DataFrame final contiene todas las columnas y filas sin perder informaci√≥n, con nombre del deporte en la primera columna y estructura homog√©nea para su an√°lisis posterior.