
# 🧠 Notebook: Generación del Dataset Consolidado `df_final.csv`

## 📌 Objetivo General
Integrar múltiples archivos `.csv` ubicados en la carpeta `data/`, correspondientes a diferentes deportes, en un único archivo llamado `df_final.csv`, que será la base de análisis para la monitorización de los datos deportivos.


## 🥇 Paso 1: Cargar todos los archivos CSV

In [6]:
from pathlib import Path
import pandas as pd

# ✅ Usamos la carpeta actual (donde está el notebook) como base
data_folder = Path(".")  # Este notebook está en data/, así que buscamos en la misma carpeta
output_folder = data_folder / "concat"
output_folder.mkdir(parents=True, exist_ok=True)  # Crea 'data/concat' si no existe

# 🔍 Buscar todos los archivos CSV en esta carpeta
csv_files = list(data_folder.glob("*.csv"))

# 📋 Mostrar archivos encontrados para verificación
print("📁 Archivos encontrados:", [f.name for f in csv_files])


📁 Archivos encontrados: ['Atletismo_2024.csv', 'Badminton_2024.csv', 'Baloncesto_Femenino_2024.csv', 'Baloncesto_Masculino_2024.csv', 'Balonmano_Femenino_2024.csv', 'Balonmano_Masculino_2024.csv', 'Gimnasia_2024.csv']


## 🧩 Paso 2: Lectura individual e identificación del deporte

In [7]:

dataframes = []
for file in csv_files:
    try:
        df = pd.read_csv(file)
        deporte = file.stem.split("_")[0]
        df.insert(0, "Deporte", deporte)  # Agregar columna con el nombre del deporte
        dataframes.append(df)
    except Exception as e:
        print(f"❌ Error leyendo {file.name}: {e}")


## 🔗 Paso 3: Concatenación flexible (merge por outer join)

In [8]:

if dataframes:
    df_final = pd.concat(dataframes, ignore_index=True, sort=False)
    print(f"✅ DataFrame concatenado con {df_final.shape[0]} filas y {df_final.shape[1]} columnas.")
else:
    print("⚠️ No hay archivos válidos para concatenar.")


✅ DataFrame concatenado con 31979 filas y 36 columnas.


## 💾 Paso 4: Guardar el archivo consolidado

In [9]:

if dataframes:
    output_path = output_folder / "df_final.csv"
    df_final.to_csv(output_path, index=False)
    print(f"📁 Archivo guardado en: {output_path}")


📁 Archivo guardado en: concat\df_final.csv


## ✅ Resultado

El DataFrame final contiene todas las columnas y filas sin perder información, con nombre del deporte en la primera columna y estructura homogénea para su análisis posterior.