#### Objetivo :Unir todos los archivos CSV de datos de Strava individuales en un único dataset y combinarlos con la información del formulario de usuarios.

Proceso realizado:
- Concatenación de archivos CSV
- Lectura automática de todos los archivos CSV en la carpeta interim
- Uso de glob para encontrar todos los archivos .csv
- Concatenación de todos los DataFrames individuales en strava_conjunto

📋 Carga del formulario limpio
- Lectura del archivo formulario_limpio.csv procesado anteriormente
- Renombrado de la columna 'Nombre' a 'user' para hacer el join
- Unión de datasets

Merge entre strava_conjunto y formulario usando la columna 'user' como clave
- Tipo de join: left join para mantener todos los registros de Strava

💾 Exportación final

Guardado del dataset unificado como strava_final.csv en la carpeta processed
Resultado
Un dataset completo que combina:

- Datos de actividades de Strava (distancia, pace, elevación, etc.)
- Información personal (edad, sexo, peso, experiencia, etc.)
- Listo para el proceso de Feature Engineering.

In [12]:
import pandas as pd
import glob
import os

In [13]:
# ruta a la carpeta de los archivos CSV

ruta_carpeta = r"C:\Users\eduar\OneDrive\Escritorio\Master_DataScience_AI\TFM. “Predicción del rendimiento en corredores mediante técnicas de Machine Learning un enfoque aplicado al sector deportivo”\data\interim"

In [14]:
# leer y concatenar todos los archivos CSV en la carpeta

archivos = glob.glob(os.path.join(ruta_carpeta, "*.csv"))

strava_conjunto = pd.concat((pd.read_csv(f) for f in archivos), ignore_index=True)

In [15]:
strava_conjunto.tail()

Unnamed: 0,activity_id,activity_date,activity_type,distance_km,elapsed_time_hms,pace_formatted,elevation_gain,avg_cadence,avg_heart_rate,max_heart_rate,calories,user
668,14040459474,2025-03-31 16:30:19,Carrera,7.5,00:43:53,5.51,31.6,,,,,Natalia
669,14381422423,2025-05-05 04:53:39,Carrera,5.11,00:29:02,5.41,43.8,,,,,Natalia
670,14459102693,2025-05-12 18:01:48,Carrera,5.99,00:39:23,6.34,41.4,,,,,Natalia
671,15690967554,2025-09-04 05:45:57,Carrera,4.11,00:26:20,6.24,32.2,,,,,Natalia
672,15760163599,2025-09-10 05:22:09,Carrera,4.61,00:30:38,6.39,26.2,,,,,Natalia


In [16]:
# coger formulario de formulario.ipynb

# Cargar el DataFrame
formulario = pd.read_csv(r"C:\Users\eduar\OneDrive\Escritorio\Master_DataScience_AI\TFM. “Predicción del rendimiento en corredores mediante técnicas de Machine Learning un enfoque aplicado al sector deportivo”\data\forms\formulario_limpio.csv")

formulario.head()

Unnamed: 0,Nombre,Edad,Sexo,Peso,Altura,Nivel_experiencia,Objetivo,Dias_entrenamiento
0,Eduardo Sánchez,23,Masculino,67,175,Intermedio,Media Maraton (21 km),3
1,Axel,23,Masculino,80,185,Intermedio,Salud / Ocio,1
2,Juan Sánchez Arregui,23,Masculino,88,183,Principiante,Media Maraton (21 km),3
3,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3
4,Miguel,29,Masculino,83,193,Avanzado,Maratón (42 km),4


In [17]:
# cambiar columna formulario

formulario = formulario.rename(columns={'Nombre': 'user'})

# unir los dos dataframes por la columna 'user'

strava_final = pd.merge(strava_conjunto, formulario, on='user', how='left')
strava_final.head()

Unnamed: 0,activity_id,activity_date,activity_type,distance_km,elapsed_time_hms,pace_formatted,elevation_gain,avg_cadence,avg_heart_rate,max_heart_rate,calories,user,Edad,Sexo,Peso,Altura,Nivel_experiencia,Objetivo,Dias_entrenamiento
0,12286569161,2024-08-31 07:29:23,Run,4.0,00:20:27,5.07,2.4,,,,,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3
1,12312426596,2024-09-03 06:32:46,Run,7.0,00:39:19,5.37,7.0,,,,,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3
2,12327869051,2024-09-04 20:42:36,Run,8.0,00:45:00,5.38,64.7,,,,,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3
3,12377627761,2024-09-10 18:36:55,Run,5.01,00:24:54,4.58,35.8,,,,,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3
4,12377934099,2024-09-10 19:06:02,Run,6.01,00:36:29,6.04,55.9,,,,,Diego Llorente,26,Masculino,65,170,Avanzado,Salud / Ocio,3


In [18]:
strava_final.isna().sum()


activity_id             0
activity_date           0
activity_type           0
distance_km             0
elapsed_time_hms        0
pace_formatted          0
elevation_gain          1
avg_cadence           257
avg_heart_rate        450
max_heart_rate        450
calories              182
user                    0
Edad                    0
Sexo                    0
Peso                    0
Altura                  0
Nivel_experiencia       0
Objetivo                0
Dias_entrenamiento      0
dtype: int64

In [19]:
# guardar strava_final en csv en la carpeta processed
strava_final.to_csv(r"C:\Users\eduar\OneDrive\Escritorio\Master_DataScience_AI\TFM. “Predicción del rendimiento en corredores mediante técnicas de Machine Learning un enfoque aplicado al sector deportivo”\processed\strava_final.csv", index=False)