# Clean Strava file

This notebook is used to clean the Strava file. It rewrites the file **strava_ips.xlsx**. It performs the following operations:
* Delete the rows with more than 50% of missing.
* Clean dates to read with Looker Studio. Google sheets does not recognize the date format.
* Clean white spaces in the columns.
* Convert the numeric columns so that they are recognized as numbers in Looker Studio.

The data in the file strava_ips.xlsx should be copied to the Google sheet **Strava_IPS**. 
* Open your Google drive in your working directory. Here you will get your Google sheet. 
* Copy the file strava_ips.xlsx in the above directory.
* Open the Excel file in the drive. Copy and paste the data to the Google sheet Strava_IPS.

## Read file

In [80]:
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Open file activities.csv
df0 = pd.read_csv('../data/activities.csv')
df0.tail(3)

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Nota privada de actividad,Equipamiento de la actividad,Nombre de archivo,Peso del atleta,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Grado positivo promedio,Grado negativo promedio,Cadencia máx.,Cadencia promedio,Ritmo cardíaco máx..1,Ritmo cardíaco promedio,Máx. de vatios,Vatios promedio,Calorías,Temperatura máx.,Temperatura promedio,Esfuerzo relativo.1,Esfuerzo total,Cantidad de carreras,Tiempo de ascenso,Tiempo de descenso,Otro tiempo,Esfuerzo Percibido,Tipo,Hora de inicio,Potencia promedio ponderada,Conteo de potencia,Usar Esfuerzo Percibido,Esfuerzo relativo percibido,Viaje al trabajo.1,Peso total levantado,De carga,Distancia ajustada en pendientes,Tiempo de observación del clima,Condición climática,Temperatura,Sensación térmica,Punto de rocío,Humedad,Presión atmosférica,Velocidad del viento,Ráfaga de viento,Dirección del viento,Intensidad de la precipitación,Hora de salida del sol,Hora de puesta del sol,Fase lunar,Bicicleta,Equipamiento,Probabilidad de precipitación,Tipo de precipitación,Nubosidad,Visibilidad,Índice UV,Estado del ozono,Recuento de saltos,Complejidad total,Fluidez promedio,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Distancia recién recorrida,Distancia recién recorrida en caminos sin asfaltar,Número de actividades,Pasos en total,Emisión de carbono evitada,Largo de la piscina,Carga de entrenamiento,Intensidad,Ritmo ajustado en pendientes promedio,Tiempo del cronómetro,Ciclos en total,Multimedia
2620,15082470006,11 jul. 2025 16:07:38,Nissan 2,Caminata,Aguascalientes,15918,23.41,,,False,,Skechers Squad 232290,activities/15082470006.gpx,,,15918.0,15511.0,23409.300781,7.16,1.509206,83.825684,62.880806,1858.400024,1890.0,39.39394,0.090562,,,,,,,,,2272.240479,,,,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,,13682437.0,,,,,,,,,,0.0,1.470618,1224.599976,,,,27390.0,,,,,,,,
2621,15091449603,12 jul. 2025 13:35:53,Presa El Mastranto,Vuelta ciclista,,10109,40.97,147.0,33.0,False,,Trek X-Caliber 9,activities/16113281376.fit.gz,,14.5,10109.0,8651.0,40978.0,11.53,4.736794,366.537292,502.0,2238.0,2480.199951,24.799999,-0.002196,,,,,147.0,105.381279,,64.967407,892.0,,,33.0,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,4.053616,13585.700195,,,,,,,,,,,,media/5301D6B4-6BDD-4A22-B4C5-C77F6753DC35.jpg...
2622,15106139815,13 jul. 2025 18:57:08,Central de autobuses,Vuelta ciclista,Zacatecas,1464,5.14,152.0,20.0,False,,Trek X-Caliber 9,activities/16129436693.fit.gz,,14.5,1464.0,1429.0,5141.399902,7.92,3.597901,174.07637,138.0,2323.899902,2473.699951,31.25,2.567394,,,,,152.0,133.165482,,139.644913,267.0,,,20.0,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,3.511885,2839.899902,,,,,,,,,,,,


## Delete half empty columns

In [81]:
# Count missing values in each column. Sort from highest to lowest.
missing_values = df0.isnull().sum().sort_values(ascending=False)
missing_values

Grado negativo promedio                               2623
Grado positivo promedio                               2623
Hora de puesta del sol                                2623
Fase lunar                                            2623
Tipo de precipitación                                 2623
Probabilidad de precipitación                         2623
Índice UV                                             2623
Estado del ozono                                      2623
Tiempo de observación del clima                       2623
Condición climática                                   2623
Velocidad del viento                                  2623
Presión atmosférica                                   2623
Humedad                                               2623
Punto de rocío                                        2623
Potencia promedio ponderada                           2623
Conteo de potencia                                    2623
Esfuerzo relativo percibido                           26

In [82]:
# Drop columns with 50% missing values, but keep 'Descripción de la actividad'
cols_to_keep = ['Descripción de la actividad']
cols_above_thresh = df0.dropna(thresh=df0.shape[0]*0.5, axis=1).columns.tolist()
cols_final = [col for col in df0.columns if col in cols_above_thresh or col in cols_to_keep]
df1 = df0[cols_final]

# Count missing values in each column. Sort from highest to lowest.
missing_values = df1.isnull().sum().sort_values(ascending=False)
missing_values

Descripción de la actividad                          2133
Ritmo cardíaco promedio                               819
Marcado                                               791
Esfuerzo relativo                                     783
Esfuerzo relativo.1                                   783
Ritmo cardíaco máx.                                   783
Velocidad promedio durante el tiempo transcurrido     775
De carga                                              623
Vatios promedio                                       611
Peso de la bicicleta                                  610
Velocidad promedio                                    606
Bicicleta                                             606
Usar Esfuerzo Percibido                               576
Distancia sobre tierra                                440
Desnivel negativo                                     122
Viaje al trabajo.1                                     59
Desnivel alto                                          42
Desnivel bajo 

In [83]:
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2618,15062070140,9 jul. 2025 18:37:11,Guadalupe,Vuelta ciclista,Pagos,5816,13.22,128.0,8.0,False,Trek X-Caliber 9,activities/16080966128.fit.gz,14.5,5816.0,3889.0,13220.599609,8.6,3.399486,118.358093,404.0,2259.199951,2338.199951,21.348314,0.099844,89.400757,47.686947,334.0,8.0,0.0,0.0,1.0,5230367.0,0.0,2.273143,8472.799805
2619,15064232066,10 jul. 2025 00:48:39,Zacatecas Centro,Caminata,Zacatecas,8155,7.22,110.0,14.0,False,Adidas Terrex Eastrail,activities/16083343664.fit.gz,,8155.0,6694.0,7223.5,4.663636,1.079101,87.6978,847.0,2313.199951,2441.0,16.875,-0.944141,86.362045,,551.0,14.0,0.0,0.0,1.0,,0.0,0.885776,2593.300049
2620,15082470006,11 jul. 2025 16:07:38,Nissan 2,Caminata,Aguascalientes,15918,23.41,,,False,Skechers Squad 232290,activities/15082470006.gpx,,15918.0,15511.0,23409.300781,7.16,1.509206,83.825684,62.880806,1858.400024,1890.0,39.39394,0.090562,,,2272.240479,,0.0,0.0,1.0,,0.0,1.470618,1224.599976
2621,15091449603,12 jul. 2025 13:35:53,Presa El Mastranto,Vuelta ciclista,,10109,40.97,147.0,33.0,False,Trek X-Caliber 9,activities/16113281376.fit.gz,14.5,10109.0,8651.0,40978.0,11.53,4.736794,366.537292,502.0,2238.0,2480.199951,24.799999,-0.002196,105.381279,64.967407,892.0,33.0,0.0,0.0,1.0,5230367.0,0.0,4.053616,13585.700195
2622,15106139815,13 jul. 2025 18:57:08,Central de autobuses,Vuelta ciclista,Zacatecas,1464,5.14,152.0,20.0,False,Trek X-Caliber 9,activities/16129436693.fit.gz,14.5,1464.0,1429.0,5141.399902,7.92,3.597901,174.07637,138.0,2323.899902,2473.699951,31.25,2.567394,133.165482,139.644913,267.0,20.0,0.0,0.0,1.0,5230367.0,0.0,3.511885,2839.899902


## Parse date

In [84]:
# Split the column 'Fecha de la actividad' into 4 columns
dfdate = df0['Fecha de la actividad'].str.split(expand=True).rename(columns={0: 'Day', 1: 'Month', 2: 'Year', 3: 'Time'})
# Delete '.' from 'Month' column
dfdate['Month'] = dfdate['Month'].str.replace('.', '')
dfdate['Mont_Num'] = dfdate['Month'].str.replace('ene', '01').str.replace('feb', '02').str.replace('mar', '03').str.replace('abr', '04').str.replace('may', '05').str.replace('jun', '06').str.replace('jul', '07').str.replace('ago', '08').str.replace('sep', '09').str.replace('oct', '10').str.replace('nov', '11').str.replace('dic', '12')
# Convert numeric values to datetime
dfdate['Date'] = pd.to_datetime(dfdate['Year'] + '-' + dfdate['Mont_Num'] + '-' + dfdate['Day'])

# Define an empty dataframe
df1.loc[:,'Fecha de la actividad'] = dfdate['Date']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2618,15062070140,2025-07-09 00:00:00,Guadalupe,Vuelta ciclista,Pagos,5816,13.22,128.0,8.0,False,Trek X-Caliber 9,activities/16080966128.fit.gz,14.5,5816.0,3889.0,13220.599609,8.6,3.399486,118.358093,404.0,2259.199951,2338.199951,21.348314,0.099844,89.400757,47.686947,334.0,8.0,0.0,0.0,1.0,5230367.0,0.0,2.273143,8472.799805
2619,15064232066,2025-07-10 00:00:00,Zacatecas Centro,Caminata,Zacatecas,8155,7.22,110.0,14.0,False,Adidas Terrex Eastrail,activities/16083343664.fit.gz,,8155.0,6694.0,7223.5,4.663636,1.079101,87.6978,847.0,2313.199951,2441.0,16.875,-0.944141,86.362045,,551.0,14.0,0.0,0.0,1.0,,0.0,0.885776,2593.300049
2620,15082470006,2025-07-11 00:00:00,Nissan 2,Caminata,Aguascalientes,15918,23.41,,,False,Skechers Squad 232290,activities/15082470006.gpx,,15918.0,15511.0,23409.300781,7.16,1.509206,83.825684,62.880806,1858.400024,1890.0,39.39394,0.090562,,,2272.240479,,0.0,0.0,1.0,,0.0,1.470618,1224.599976
2621,15091449603,2025-07-12 00:00:00,Presa El Mastranto,Vuelta ciclista,,10109,40.97,147.0,33.0,False,Trek X-Caliber 9,activities/16113281376.fit.gz,14.5,10109.0,8651.0,40978.0,11.53,4.736794,366.537292,502.0,2238.0,2480.199951,24.799999,-0.002196,105.381279,64.967407,892.0,33.0,0.0,0.0,1.0,5230367.0,0.0,4.053616,13585.700195
2622,15106139815,2025-07-13 00:00:00,Central de autobuses,Vuelta ciclista,Zacatecas,1464,5.14,152.0,20.0,False,Trek X-Caliber 9,activities/16129436693.fit.gz,14.5,1464.0,1429.0,5141.399902,7.92,3.597901,174.07637,138.0,2323.899902,2473.699951,31.25,2.567394,133.165482,139.644913,267.0,20.0,0.0,0.0,1.0,5230367.0,0.0,3.511885,2839.899902


# Clean activity name

To clean the activity name, we perform the following operations:
* Replace the tag 'Vuelta ciclista' por 'Ciclismo', and filter  only cycling activities.
* Eliminate extra blank spaces.
* Replace 'Ciudad de México' by 'CDMX', in case there are both tags.

In [85]:
# Chage 'Vuelta ciclista' in column 'Tipo de actividad' to 'Ciclismo'
df1.loc[:,'Tipo de actividad'] = df0['Tipo de actividad'].replace('Vuelta ciclista', 'Ciclismo')

In [86]:
# Copy Id activity column to a new dataframe
dfact = df1.iloc[:, 0:1].copy()
dfact['Tipo de actividad'] = df1['Tipo de actividad']

# Eliminate extra blank spaces at the ends in 'Nombre de la actividad' column
dfact['Activity'] = df0['Nombre de la actividad'].str.strip()
# Clean 'Activity' from special characters. Use only lower letters and numbers.
#dfact['Activity'] = dfact['Activity'].str.replace(' ','_').str.replace('[^a-zA-Z0-9]', '').str.lower()
# Eliminate accentuated characters.
#dfact['Activity'] = dfact['Activity'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [87]:
# Replace 'Ciudad de México' with 'CDMX'
dfact['Activity'] = dfact['Activity'].str.replace('Ciudad de México', 'CDMX')
dfact['Activity'].value_counts()

Activity
Tec de Monterrey                          1068
Culiacán                                   296
Las Palmas 2                                75
Guadalupe                                   68
CDMX                                        54
Zacatecas                                   48
Navolato                                    38
Arroyo de la Plata                          31
Aguaruto                                    26
Ley del Valle                               16
San Pedro                                   16
El Limón de los Ramos                       14
Ley Palmito                                 13
Aeropuerto                                  13
Ojocaliente                                 12
Tolosa                                      12
La Platanera                                12
El Batallón                                 11
Trancoso                                    11
Tacoaleche                                  11
Culiacán Centro                             11
Sola

In [88]:
df1.loc[:,'Nombre de la actividad'] = dfact['Activity']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2618,15062070140,2025-07-09 00:00:00,Guadalupe,Ciclismo,Pagos,5816,13.22,128.0,8.0,False,Trek X-Caliber 9,activities/16080966128.fit.gz,14.5,5816.0,3889.0,13220.599609,8.6,3.399486,118.358093,404.0,2259.199951,2338.199951,21.348314,0.099844,89.400757,47.686947,334.0,8.0,0.0,0.0,1.0,5230367.0,0.0,2.273143,8472.799805
2619,15064232066,2025-07-10 00:00:00,Zacatecas Centro,Caminata,Zacatecas,8155,7.22,110.0,14.0,False,Adidas Terrex Eastrail,activities/16083343664.fit.gz,,8155.0,6694.0,7223.5,4.663636,1.079101,87.6978,847.0,2313.199951,2441.0,16.875,-0.944141,86.362045,,551.0,14.0,0.0,0.0,1.0,,0.0,0.885776,2593.300049
2620,15082470006,2025-07-11 00:00:00,Nissan 2,Caminata,Aguascalientes,15918,23.41,,,False,Skechers Squad 232290,activities/15082470006.gpx,,15918.0,15511.0,23409.300781,7.16,1.509206,83.825684,62.880806,1858.400024,1890.0,39.39394,0.090562,,,2272.240479,,0.0,0.0,1.0,,0.0,1.470618,1224.599976
2621,15091449603,2025-07-12 00:00:00,Presa El Mastranto,Ciclismo,,10109,40.97,147.0,33.0,False,Trek X-Caliber 9,activities/16113281376.fit.gz,14.5,10109.0,8651.0,40978.0,11.53,4.736794,366.537292,502.0,2238.0,2480.199951,24.799999,-0.002196,105.381279,64.967407,892.0,33.0,0.0,0.0,1.0,5230367.0,0.0,4.053616,13585.700195
2622,15106139815,2025-07-13 00:00:00,Central de autobuses,Ciclismo,Zacatecas,1464,5.14,152.0,20.0,False,Trek X-Caliber 9,activities/16129436693.fit.gz,14.5,1464.0,1429.0,5141.399902,7.92,3.597901,174.07637,138.0,2323.899902,2473.699951,31.25,2.567394,133.165482,139.644913,267.0,20.0,0.0,0.0,1.0,5230367.0,0.0,3.511885,2839.899902


## Clean Activity Description

In [89]:
# Copy 'Id. de actividad' y 'Descripción de la actividad' en un dataframe nuevo
dfact = df1[['Id. de actividad', 'Descripción de la actividad']].copy()
print(f"Dataframe shape: {dfact.shape}")
print(f"Non-empty rows: {(~dfact['Descripción de la actividad'].isnull()).sum()}")
dfact.head()

Dataframe shape: (2623, 2)
Non-empty rows: 490


Unnamed: 0,Id. de actividad,Descripción de la actividad
0,353375734,Vuelta a la Bufa
1,353377512,
2,353380425,Tour Personal
3,353381733,Tour Personal
4,353384459,Tour Personal


In [90]:
# Identify the rows with 'Carrera' as the first word in 'Descripción de la actividad'. Define a
# new column 'Tipo rodada' and assign 'Carrera' to those rows.
dfact['Descripción de rodada'] = dfact['Descripción de la actividad'].str.split().str[0]
dfact['Tipo rodada'] = 'Vuelta'
dfact.loc[dfact['Descripción de rodada'] == 'Carrera', 'Tipo rodada'] = 'Carrera'
dfact.loc[dfact['Descripción de rodada'] == 'Tour', 'Tipo rodada'] = 'Tour'
dfact['Tipo rodada'].value_counts()

Tipo rodada
Vuelta     2542
Tour         58
Carrera      23
Name: count, dtype: int64

In [91]:
# Add the column 'Tipo rodada' to the dataframe df1
df1.loc[0:df1.shape[0],'Tipo rodada'] = dfact['Tipo rodada']
df1.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df1.loc[0:df1.shape[0],'Tipo rodada'] = dfact['Tipo rodada']


Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,Vuelta a la Bufa,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,3069.0,14330.299805,18.1,,406.476013,427.936951,2308.600098,2554.899902,26.9,-0.04815,,197.826767,676.950317,,0.0,0.0,,2169839.0,,,7331.0,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,22770.0,16473.0,92158.398438,13.2,,791.320007,874.078064,2219.699951,2473.5,21.0,-0.002279,,166.551178,3059.111328,,0.0,0.0,,2169839.0,,,20137.599609,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,Tour Personal,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,30131.0,19435.0,98532.398438,15.2,,1550.469971,1744.161743,1453.300049,2091.800049,40.400002,-0.117728,,169.094589,3664.292969,,0.0,0.0,,2169839.0,,,785.599976,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,Tour Personal,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,41874.0,28662.0,114199.0,15.2,,2102.399902,2093.768555,1640.0,2417.800049,39.200001,0.209809,,143.750061,4593.980957,,0.0,0.0,,2169839.0,,,21528.099609,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,Tour Personal,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,43152.0,30451.0,151961.0,18.4,,1738.469971,2602.712891,1640.0,2455.100098,27.5,-0.457881,,153.353729,5206.807617,,0.0,0.0,,2169839.0,,,50302.5,Tour


## Make numeric columns

In [92]:
# Numeric columns
cols = ['Tiempo transcurrido', 'Distancia', 'Ritmo cardíaco máx.', 'Esfuerzo relativo', 'Peso de la bicicleta',
        'Tiempo en movimiento', 'Velocidad máxima', 'Velocidad promedio', 'Desnivel positivo', 'Desnivel negativo', 
        'Desnivel bajo', 'Desnivel alto', 'Grado máximo', 'Pendiente promedio','Ritmo cardíaco promedio', 
        'Vatios promedio', 'Calorías', 'Marcado', 'Velocidad promedio durante el tiempo transcurrido',
       'Distancia sobre tierra']
df = df1.drop(columns=['Tiempo transcurrido.1', 'Distancia.1', 'Esfuerzo relativo.1', 'Usar Esfuerzo Percibido',
                       'Viaje al trabajo.1', 'De carga', 'Bicicleta'])
# Convert to numeric
df.loc[:, cols] = df[cols].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo en movimiento,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,Vuelta a la Bufa,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,18.1,,406.476013,427.936951,2308.600098,2554.899902,26.9,-0.04815,,197.826767,676.950317,,,7331.0,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,16473.0,13.2,,791.320007,874.078064,2219.699951,2473.5,21.0,-0.002279,,166.551178,3059.111328,,,20137.599609,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,Tour Personal,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,19435.0,15.2,,1550.469971,1744.161743,1453.300049,2091.800049,40.400002,-0.117728,,169.094589,3664.292969,,,785.599976,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,Tour Personal,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,28662.0,15.2,,2102.399902,2093.768555,1640.0,2417.800049,39.200001,0.209809,,143.750061,4593.980957,,,21528.099609,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,Tour Personal,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,30451.0,18.4,,1738.469971,2602.712891,1640.0,2455.100098,27.5,-0.457881,,153.353729,5206.807617,,,50302.5,Tour


## Save results

In [93]:
# Save the cleaned data to a new excel file
df.to_excel('../data/strava_ips.xlsx', index=False)