# Clean Strava file

This notebook is used to clean the Strava file. It rewrites the file **strava_ips.xlsx**. It performs the following operations:
* Delete the rows with more than 50% of missing.
* Clean dates to read with Looker Studio. Google sheets does not recognize the date format.
* Clean white spaces in the columns.
* Convert the numeric columns so that they are recognized as numbers in Looker Studio.

The data in the file strava_ips.xlsx should be copied to the Google sheet **Strava_IPS**. 
* Open your Google drive in your working directory. Here you will get your Google sheet. 
* Copy the file strava_ips.xlsx in the above directory.
* Open the Excel file in the drive. Copy and paste the data to the Google sheet Strava_IPS.

## Read file

In [12]:
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Open file activities.csv
df0 = pd.read_csv('../data/activities.csv')
df0.tail(3)

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Nota privada de actividad,Equipamiento de la actividad,Nombre de archivo,Peso del atleta,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Grado positivo promedio,Grado negativo promedio,Cadencia máx.,Cadencia promedio,Ritmo cardíaco máx..1,Ritmo cardíaco promedio,Máx. de vatios,Vatios promedio,Calorías,Temperatura máx.,Temperatura promedio,Esfuerzo relativo.1,Esfuerzo total,Cantidad de carreras,Tiempo de ascenso,Tiempo de descenso,Otro tiempo,Esfuerzo Percibido,Tipo,Hora de inicio,Potencia promedio ponderada,Conteo de potencia,Usar Esfuerzo Percibido,Esfuerzo relativo percibido,Viaje al trabajo.1,Peso total levantado,De carga,Distancia ajustada en pendientes,Tiempo de observación del clima,Condición climática,Temperatura,Sensación térmica,Punto de rocío,Humedad,Presión atmosférica,Velocidad del viento,Ráfaga de viento,Dirección del viento,Intensidad de la precipitación,Hora de salida del sol,Hora de puesta del sol,Fase lunar,Bicicleta,Equipamiento,Probabilidad de precipitación,Tipo de precipitación,Nubosidad,Visibilidad,Índice UV,Estado del ozono,Recuento de saltos,Complejidad total,Fluidez promedio,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Distancia recién recorrida,Distancia recién recorrida en caminos sin asfaltar,Número de actividades,Pasos en total,Emisión de carbono evitada,Largo de la piscina,Carga de entrenamiento,Intensidad,Ritmo ajustado en pendientes promedio,Tiempo del cronómetro,Ciclos en total,Recuperación,Con mascota,Competencia,Carrera larga,Por una causa,Multimedia
2817,16317339959,"1 nov 2025, 2:33:02 a.m.",Valle Alto,Caminata,Culiacán,5661,5.27,95.0,9.0,False,,Adidas Terrex Eastrail,activities/17402347750.fit.gz,,,5661.0,4922.0,5272.5,4.72,1.071,5.1,256.0,25.2,30.9,19.6,0.0,,,78.0,47.0,95.0,84.0,,,399.0,,,9.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,,11968176.0,,,,,,,,,,,0.931,0.0,,,,5846.0,0.0,,,,,,,0.0,,,,,
2818,16323406267,"1 nov 2025, 3:27:06 p.m.",Culiacán,Vuelta ciclista,Valle Alto,1439,5.0,110.0,3.0,False,,Trek X-Caliber 9,activities/17408530366.fit.gz,,14.5,1439.0,1093.0,5003.3,6.239,4.578,7.5,77.0,26.5,32.9,15.2,0.0,,,,,110.0,99.0,,46.0,129.0,,,3.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,,3.477,0.0,,,,,0.0,,,,,,,0.0,,,,,
2819,16332449927,"2 nov 2025, 1:44:23 a.m.",Culiacán,Vuelta ciclista,JAPAC,6401,23.63,149.0,23.0,False,,Trek X-Caliber 9,activities/17417815876.fit.gz,,14.5,6401.0,4350.0,23635.2,11.5,5.433,91.3,176.0,26.4,70.3,14.5,0.0,,,,,149.0,115.0,,78.0,602.0,,,23.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,,3.692,4207.2,,,,,0.0,,,,,,,0.0,,,,,


## Delete half empty columns

In [13]:
# Count missing values in each column. Sort from highest to lowest.
missing_values = df0.isnull().sum().sort_values(ascending=False)
missing_values

Grado positivo promedio                               2820
Máx. de vatios                                        2820
Grado negativo promedio                               2820
Fase lunar                                            2820
Probabilidad de precipitación                         2820
Nubosidad                                             2820
Tipo de precipitación                                 2820
Visibilidad                                           2820
Índice UV                                             2820
Hora de puesta del sol                                2820
Hora de salida del sol                                2820
Humedad                                               2820
Presión atmosférica                                   2820
Punto de rocío                                        2820
Sensación térmica                                     2820
Ráfaga de viento                                      2820
Velocidad del viento                                  28

In [14]:
# Drop columns with 50% missing values, but keep 'Descripción de la actividad'
cols_to_keep = ['Descripción de la actividad']
cols_above_thresh = df0.dropna(thresh=df0.shape[0]*0.5, axis=1).columns.tolist()
cols_final = [col for col in df0.columns if col in cols_above_thresh and col not in cols_to_keep]
cols_final += cols_to_keep  # Ensure 'Descripción de la actividad' is at the end
df1 = df0[cols_final]

# Count missing values in each column. Sort from highest to lowest.
missing_values = df1.isnull().sum().sort_values(ascending=False)
missing_values

Descripción de la actividad                          2149
Marcado                                               979
Ritmo cardíaco promedio                               828
Esfuerzo relativo.1                                   792
Esfuerzo relativo                                     792
Ritmo cardíaco máx.                                   792
Usar Esfuerzo Percibido                               778
Velocidad promedio durante el tiempo transcurrido     766
Vatios promedio                                       656
Peso de la bicicleta                                  655
Bicicleta                                             651
De carga                                              614
Velocidad promedio                                    598
Distancia sobre tierra                                436
Desnivel negativo                                     121
Viaje al trabajo.1                                     58
Desnivel alto                                          42
Desnivel bajo 

In [15]:
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2815,16317338796,"1 nov 2025, 12:21:19 a.m.",Tec de Monterrey,Vuelta ciclista,1777,5.88,114.0,3.0,True,Trek X-Caliber 9,activities/17402346604.fit.gz,14.5,1777.0,1666.0,5880.1,8.48,3.529,14.4,138.0,26.3,35.6,8.7,-0.1,87.0,44.0,128.0,3.0,,1.0,1.0,5230367.0,,3.309,0.0,Culiacán
2816,16317339938,"1 nov 2025, 12:59:59 a.m.",Culiacán,Vuelta ciclista,1495,2.83,96.0,1.0,False,Trek X-Caliber 9,activities/17402347733.fit.gz,14.5,1495.0,868.0,2836.4,5.45,3.268,3.3,20.0,28.0,31.4,2.2,0.0,82.0,28.0,86.0,1.0,,0.0,1.0,5230367.0,,1.897,0.0,Valle Alto
2817,16317339959,"1 nov 2025, 2:33:02 a.m.",Valle Alto,Caminata,5661,5.27,95.0,9.0,False,Adidas Terrex Eastrail,activities/17402347750.fit.gz,,5661.0,4922.0,5272.5,4.72,1.071,5.1,256.0,25.2,30.9,19.6,0.0,84.0,,399.0,9.0,,0.0,1.0,,,0.931,0.0,Culiacán
2818,16323406267,"1 nov 2025, 3:27:06 p.m.",Culiacán,Vuelta ciclista,1439,5.0,110.0,3.0,False,Trek X-Caliber 9,activities/17408530366.fit.gz,14.5,1439.0,1093.0,5003.3,6.239,4.578,7.5,77.0,26.5,32.9,15.2,0.0,99.0,46.0,129.0,3.0,,0.0,1.0,5230367.0,,3.477,0.0,Valle Alto
2819,16332449927,"2 nov 2025, 1:44:23 a.m.",Culiacán,Vuelta ciclista,6401,23.63,149.0,23.0,False,Trek X-Caliber 9,activities/17417815876.fit.gz,14.5,6401.0,4350.0,23635.2,11.5,5.433,91.3,176.0,26.4,70.3,14.5,0.0,115.0,78.0,602.0,23.0,,0.0,1.0,5230367.0,,3.692,4207.2,JAPAC


## Parse date

In [16]:
# Split the column 'Fecha de la actividad' into 4 columns
dfdate = df0['Fecha de la actividad'].str.split(expand=True).rename(columns={0: 'Day', 1: 'Month', 2: 'Year', 3: 'Time'})
# Delete '.' from 'Month' column
dfdate['Month'] = dfdate['Month'].str.replace('.', '')
dfdate['Mont_Num'] = dfdate['Month'].str.replace('ene', '01').str.replace('feb', '02').str.replace('mar', '03').str.replace('abr', '04').str.replace('may', '05').str.replace('jun', '06').str.replace('jul', '07').str.replace('ago', '08').str.replace('sept', '09').str.replace('oct', '10').str.replace('nov', '11').str.replace('dic', '12')
# Ensure Day has leading zeros for single digits
dfdate['Day'] = dfdate['Day'].str.zfill(2)
# Convert numeric values to datetime with error handling
dfdate['Date'] = pd.to_datetime(dfdate['Year'] + '-' + dfdate['Mont_Num'] + '-' + dfdate['Day'], errors='coerce')

# Define an empty dataframe
df1.loc[:,'Fecha de la actividad'] = dfdate['Date']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2815,16317338796,2025-11-01 00:00:00,Tec de Monterrey,Vuelta ciclista,1777,5.88,114.0,3.0,True,Trek X-Caliber 9,activities/17402346604.fit.gz,14.5,1777.0,1666.0,5880.1,8.48,3.529,14.4,138.0,26.3,35.6,8.7,-0.1,87.0,44.0,128.0,3.0,,1.0,1.0,5230367.0,,3.309,0.0,Culiacán
2816,16317339938,2025-11-01 00:00:00,Culiacán,Vuelta ciclista,1495,2.83,96.0,1.0,False,Trek X-Caliber 9,activities/17402347733.fit.gz,14.5,1495.0,868.0,2836.4,5.45,3.268,3.3,20.0,28.0,31.4,2.2,0.0,82.0,28.0,86.0,1.0,,0.0,1.0,5230367.0,,1.897,0.0,Valle Alto
2817,16317339959,2025-11-01 00:00:00,Valle Alto,Caminata,5661,5.27,95.0,9.0,False,Adidas Terrex Eastrail,activities/17402347750.fit.gz,,5661.0,4922.0,5272.5,4.72,1.071,5.1,256.0,25.2,30.9,19.6,0.0,84.0,,399.0,9.0,,0.0,1.0,,,0.931,0.0,Culiacán
2818,16323406267,2025-11-01 00:00:00,Culiacán,Vuelta ciclista,1439,5.0,110.0,3.0,False,Trek X-Caliber 9,activities/17408530366.fit.gz,14.5,1439.0,1093.0,5003.3,6.239,4.578,7.5,77.0,26.5,32.9,15.2,0.0,99.0,46.0,129.0,3.0,,0.0,1.0,5230367.0,,3.477,0.0,Valle Alto
2819,16332449927,2025-11-02 00:00:00,Culiacán,Vuelta ciclista,6401,23.63,149.0,23.0,False,Trek X-Caliber 9,activities/17417815876.fit.gz,14.5,6401.0,4350.0,23635.2,11.5,5.433,91.3,176.0,26.4,70.3,14.5,0.0,115.0,78.0,602.0,23.0,,0.0,1.0,5230367.0,,3.692,4207.2,JAPAC


# Clean activity name

To clean the activity name, we perform the following operations:
* Replace the tag 'Vuelta ciclista' por 'Ciclismo', and filter  only cycling activities.
* Eliminate extra blank spaces.
* Replace 'Ciudad de México' by 'CDMX', in case there are both tags.

In [18]:
# Chage 'Vuelta ciclista' in column 'Tipo de actividad' to 'Ciclismo'
df1.loc[:,'Tipo de actividad'] = df0['Tipo de actividad'].replace('Vuelta ciclista', 'Ciclismo')

In [19]:
# Copy Id activity column to a new dataframe
dfact = df1.iloc[:, 0:1].copy()
dfact['Tipo de actividad'] = df1['Tipo de actividad']

# Eliminate extra blank spaces at the ends in 'Nombre de la actividad' column
dfact['Activity'] = df0['Nombre de la actividad'].str.strip()
# Clean 'Activity' from special characters. Use only lower letters and numbers.
#dfact['Activity'] = dfact['Activity'].str.replace(' ','_').str.replace('[^a-zA-Z0-9]', '').str.lower()
# Eliminate accentuated characters.
#dfact['Activity'] = dfact['Activity'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [20]:
# Replace 'Ciudad de México' with 'CDMX'
dfact['Activity'] = dfact['Activity'].str.replace('Ciudad de México', 'CDMX')
dfact['Activity'].value_counts()

Activity
Tec de Monterrey                        1193
Culiacán                                 319
Las Palmas 2                              83
Guadalupe                                 68
CDMX                                      54
Zacatecas                                 48
Navolato                                  38
Arroyo de la Plata                        31
Ley del Valle                             30
Aguaruto                                  30
San Pedro                                 16
El Limón de los Ramos                     14
La Platanera                              14
Ley Palmito                               13
Aeropuerto                                13
Culiacán Centro                           13
Tolosa                                    12
Ojocaliente                               12
Solar Las Palmas 2                        11
El Batallón                               11
Tacoaleche                                11
Plaza Azahares                            11
C

In [21]:
df1.loc[:,'Nombre de la actividad'] = dfact['Activity']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2815,16317338796,2025-11-01 00:00:00,Tec de Monterrey,Ciclismo,1777,5.88,114.0,3.0,True,Trek X-Caliber 9,activities/17402346604.fit.gz,14.5,1777.0,1666.0,5880.1,8.48,3.529,14.4,138.0,26.3,35.6,8.7,-0.1,87.0,44.0,128.0,3.0,,1.0,1.0,5230367.0,,3.309,0.0,Culiacán
2816,16317339938,2025-11-01 00:00:00,Culiacán,Ciclismo,1495,2.83,96.0,1.0,False,Trek X-Caliber 9,activities/17402347733.fit.gz,14.5,1495.0,868.0,2836.4,5.45,3.268,3.3,20.0,28.0,31.4,2.2,0.0,82.0,28.0,86.0,1.0,,0.0,1.0,5230367.0,,1.897,0.0,Valle Alto
2817,16317339959,2025-11-01 00:00:00,Valle Alto,Caminata,5661,5.27,95.0,9.0,False,Adidas Terrex Eastrail,activities/17402347750.fit.gz,,5661.0,4922.0,5272.5,4.72,1.071,5.1,256.0,25.2,30.9,19.6,0.0,84.0,,399.0,9.0,,0.0,1.0,,,0.931,0.0,Culiacán
2818,16323406267,2025-11-01 00:00:00,Culiacán,Ciclismo,1439,5.0,110.0,3.0,False,Trek X-Caliber 9,activities/17408530366.fit.gz,14.5,1439.0,1093.0,5003.3,6.239,4.578,7.5,77.0,26.5,32.9,15.2,0.0,99.0,46.0,129.0,3.0,,0.0,1.0,5230367.0,,3.477,0.0,Valle Alto
2819,16332449927,2025-11-02 00:00:00,Culiacán,Ciclismo,6401,23.63,149.0,23.0,False,Trek X-Caliber 9,activities/17417815876.fit.gz,14.5,6401.0,4350.0,23635.2,11.5,5.433,91.3,176.0,26.4,70.3,14.5,0.0,115.0,78.0,602.0,23.0,,0.0,1.0,5230367.0,,3.692,4207.2,JAPAC


## Clean Activity Description

In [22]:
# Copy 'Id. de actividad' y 'Descripción de la actividad' en un dataframe nuevo
dfact = df1[df1['Tipo de actividad'] == 'Ciclismo'][['Id. de actividad', 'Nombre de la actividad', 'Descripción de la actividad']].copy()
print(f"Dataframe shape: {dfact.shape}")
print(f"Non-empty rows: {(~dfact['Descripción de la actividad'].isnull()).sum()}")
dfact.head()

Dataframe shape: (2167, 3)
Non-empty rows: 497


Unnamed: 0,Id. de actividad,Nombre de la actividad,Descripción de la actividad
0,353375734,Zacatecas,Vuelta a la Bufa
1,353377512,Tepetate,
2,353380425,Nochistlán - Tepatitlán,Tour Personal
3,353381733,Calvillo - Nochistlán,Tour Personal
4,353384459,Guadalupe - Calvillo,Tour Personal


In [23]:
# Identify the rows with 'Carrera' as the first word in 'Descripción de la actividad'. Define a
# new column 'Tipo rodada' and assign 'Carrera' to those rows.
dfact['Descripción de rodada'] = dfact['Descripción de la actividad'].str.split().str[0]
dfact['Tipo rodada'] = 'Vuelta'
dfact.loc[dfact['Nombre de la actividad'] == 'Tec de Monterrey', 'Tipo rodada'] = 'Commute'
dfact.loc[dfact['Descripción de rodada'] == 'Carrera', 'Tipo rodada'] = 'Carrera'
dfact.loc[dfact['Descripción de rodada'] == 'Tour', 'Tipo rodada'] = 'Tour'
dfact['Tipo rodada'].value_counts()

Tipo rodada
Commute    1074
Vuelta      997
Tour         69
Carrera      27
Name: count, dtype: int64

In [24]:
# Merge dfact to df1 according to 'Id. de actividad'
df1 = df1.merge(dfact[['Id. de actividad', 'Tipo rodada']], on='Id. de actividad', how='left')
df1.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,3069.0,14330.3,18.1,,406.5,427.9,2308.6,2554.9,26.9,0.0,,198.0,677.0,,0.0,0.0,,2169839.0,,,7331.0,Vuelta a la Bufa,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,22770.0,16473.0,92158.4,13.2,,791.3,874.1,2219.7,2473.5,21.0,0.0,,167.0,3059.0,,0.0,0.0,,2169839.0,,,20137.6,,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,30131.0,19435.0,98532.4,15.2,,1550.5,1744.2,1453.3,2091.8,40.4,-0.1,,169.0,3664.0,,0.0,0.0,,2169839.0,,,785.6,Tour Personal,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,41874.0,28662.0,114199.0,15.2,,2102.4,2093.8,1640.0,2417.8,39.2,0.2,,144.0,4594.0,,0.0,0.0,,2169839.0,,,21528.1,Tour Personal,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,43152.0,30451.0,151961.0,18.4,,1738.5,2602.7,1640.0,2455.1,27.5,-0.5,,153.0,5207.0,,0.0,0.0,,2169839.0,,,50302.5,Tour Personal,Tour


## Make numeric columns

In [25]:
# Numeric columns
cols = ['Tiempo transcurrido', 'Distancia', 'Ritmo cardíaco máx.', 'Esfuerzo relativo', 'Peso de la bicicleta',
        'Tiempo en movimiento', 'Velocidad máxima', 'Velocidad promedio', 'Desnivel positivo', 'Desnivel negativo', 
        'Desnivel bajo', 'Desnivel alto', 'Grado máximo', 'Pendiente promedio','Ritmo cardíaco promedio', 
        'Vatios promedio', 'Calorías', 'Marcado', 'Velocidad promedio durante el tiempo transcurrido',
       'Distancia sobre tierra']
df = df1.drop(columns=['Tiempo transcurrido.1', 'Distancia.1', 'Esfuerzo relativo.1', 'Usar Esfuerzo Percibido',
                       'Viaje al trabajo.1', 'De carga', 'Bicicleta'])
# Convert to numeric
df.loc[:, cols] = df[cols].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo en movimiento,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,18.1,,406.5,427.9,2308.6,2554.9,26.9,0.0,,198.0,677.0,,,7331.0,Vuelta a la Bufa,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,16473.0,13.2,,791.3,874.1,2219.7,2473.5,21.0,0.0,,167.0,3059.0,,,20137.6,,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,19435.0,15.2,,1550.5,1744.2,1453.3,2091.8,40.4,-0.1,,169.0,3664.0,,,785.6,Tour Personal,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,28662.0,15.2,,2102.4,2093.8,1640.0,2417.8,39.2,0.2,,144.0,4594.0,,,21528.1,Tour Personal,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,30451.0,18.4,,1738.5,2602.7,1640.0,2455.1,27.5,-0.5,,153.0,5207.0,,,50302.5,Tour Personal,Tour


## Save results

In [26]:
# Save the cleaned data to a new excel file
df.to_excel('../data/strava_ips.xlsx', index=False)