# Clean Strava file

This notebook is used to clean the Strava file. It rewrites the file **strava_ips.xlsx**. It performs the following operations:
* Delete the rows with more than 50% of missing.
* Clean dates to read with Looker Studio. Google sheets does not recognize the date format.
* Clean white spaces in the columns.
* Convert the numeric columns so that they are recognized as numbers in Looker Studio.

The data in the file strava_ips.xlsx should be copied to the Google sheet **Strava_IPS**. 
* Open your Google drive in your working directory. Here you will get your Google sheet. 
* Copy the file strava_ips.xlsx in the above directory.
* Open the Excel file in the drive. Copy and paste the data to the Google sheet Strava_IPS.

## Read file

In [1]:
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Open file activities.csv
df0 = pd.read_csv('../data/activities.csv')
df0.tail(3)

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Nota privada de actividad,Equipamiento de la actividad,Nombre de archivo,Peso del atleta,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Grado positivo promedio,Grado negativo promedio,Cadencia máx.,Cadencia promedio,Ritmo cardíaco máx..1,Ritmo cardíaco promedio,Máx. de vatios,Vatios promedio,Calorías,Temperatura máx.,Temperatura promedio,Esfuerzo relativo.1,Esfuerzo total,Cantidad de carreras,Tiempo de ascenso,Tiempo de descenso,Otro tiempo,Esfuerzo Percibido,Tipo,Hora de inicio,Potencia promedio ponderada,Conteo de potencia,Usar Esfuerzo Percibido,Esfuerzo relativo percibido,Viaje al trabajo.1,Peso total levantado,De carga,Distancia ajustada en pendientes,Tiempo de observación del clima,Condición climática,Temperatura,Sensación térmica,Punto de rocío,Humedad,Presión atmosférica,Velocidad del viento,Ráfaga de viento,Dirección del viento,Intensidad de la precipitación,Hora de salida del sol,Hora de puesta del sol,Fase lunar,Bicicleta,Equipamiento,Probabilidad de precipitación,Tipo de precipitación,Nubosidad,Visibilidad,Índice UV,Estado del ozono,Recuento de saltos,Complejidad total,Fluidez promedio,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Distancia recién recorrida,Distancia recién recorrida en caminos sin asfaltar,Número de actividades,Pasos en total,Emisión de carbono evitada,Largo de la piscina,Carga de entrenamiento,Intensidad,Ritmo ajustado en pendientes promedio,Tiempo del cronómetro,Ciclos en total,Recuperación,Con mascota,Competencia,Carrera larga,Por una causa,Multimedia
2742,15882520779,21 sep. 2025 00:26:20,Las Palmas 2,Caminata,Culiacán,2536,4.02,137.0,8.0,False,,Skechers Squad 232290,activities/16961675464.fit.gz,,,2536.0,2536.0,4022.3,2.267,1.586,12.8,123.0,33.2,35.9,4.0,0.0,,,124.0,60.0,137.0,108.0,,,390.0,,,8.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,,13682437.0,,,,,,,,,,,1.586,0.0,,,,4824.0,0.0,,,,,,,0.0,,,,,
2743,15894285902,21 sep. 2025 22:00:35,Plaza Azahares,Caminata,Culiacán,1922,2.87,113.0,4.0,False,,Adidas Terrex Eastrail,activities/16973794176.fit.gz,,,1922.0,1922.0,2875.1,9.336,1.496,7.6,117.0,28.1,34.5,6.9,0.0,,,105.0,54.0,113.0,94.0,,,184.0,,,4.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,,11968176.0,,,,,,,,,,,1.496,215.8,,,,3350.0,0.0,,,,,,,0.0,,,,,
2744,15894285931,22 sep. 2025 00:36:49,Plaza Azahares,Caminata,Culiacán,3505,3.64,95.0,5.0,False,,Adidas Terrex Eastrail,activities/16973794159.fit.gz,,,3505.0,3058.0,3639.2,4.196,1.19,18.1,215.0,28.1,39.1,14.1,0.2,,,105.0,50.0,95.0,79.0,,,353.0,,,5.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,,11968176.0,,,,,,,,,,,1.038,0.0,,,,4250.0,0.0,,,,,,,0.0,,,,,


## Delete half empty columns

In [2]:
# Count missing values in each column. Sort from highest to lowest.
missing_values = df0.isnull().sum().sort_values(ascending=False)
missing_values

Grado positivo promedio                               2745
Máx. de vatios                                        2745
Grado negativo promedio                               2745
Fase lunar                                            2745
Probabilidad de precipitación                         2745
Nubosidad                                             2745
Tipo de precipitación                                 2745
Visibilidad                                           2745
Índice UV                                             2745
Hora de puesta del sol                                2745
Hora de salida del sol                                2745
Humedad                                               2745
Presión atmosférica                                   2745
Punto de rocío                                        2745
Sensación térmica                                     2745
Ráfaga de viento                                      2745
Velocidad del viento                                  27

In [3]:
# Drop columns with 50% missing values, but keep 'Descripción de la actividad'
cols_to_keep = ['Descripción de la actividad']
cols_above_thresh = df0.dropna(thresh=df0.shape[0]*0.5, axis=1).columns.tolist()
cols_final = [col for col in df0.columns if col in cols_above_thresh and col not in cols_to_keep]
cols_final += cols_to_keep  # Ensure 'Descripción de la actividad' is at the end
df1 = df0[cols_final]

# Count missing values in each column. Sort from highest to lowest.
missing_values = df1.isnull().sum().sort_values(ascending=False)
missing_values

Descripción de la actividad                          2140
Marcado                                               904
Ritmo cardíaco promedio                               824
Esfuerzo relativo.1                                   788
Esfuerzo relativo                                     788
Ritmo cardíaco máx.                                   788
Velocidad promedio durante el tiempo transcurrido     766
Usar Esfuerzo Percibido                               703
Vatios promedio                                       630
Peso de la bicicleta                                  629
Bicicleta                                             625
De carga                                              614
Velocidad promedio                                    598
Distancia sobre tierra                                436
Desnivel negativo                                     121
Viaje al trabajo.1                                     58
Desnivel alto                                          42
Desnivel bajo 

In [4]:
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2740,15868137717,19 sep. 2025 00:56:33,Tec de Monterrey,Vuelta ciclista,963,3.63,101.0,1.0,True,Trek X-Caliber 9,activities/16946877191.fit.gz,14.5,963.0,925.0,3634.9,6.6,3.93,6.5,35.0,30.4,35.5,4.0,0.0,81.0,37.0,38.0,1.0,,1.0,1.0,5230367.0,,3.775,170.5,Culiacán
2741,15882518186,20 sep. 2025 01:02:32,Tec de Monterrey,Vuelta ciclista,997,3.66,100.0,1.0,True,Trek X-Caliber 9,activities/16961672832.fit.gz,14.5,997.0,937.0,3659.3,7.3,3.905,7.2,27.0,30.2,35.8,3.7,0.0,78.0,39.0,57.0,1.0,,1.0,1.0,5230367.0,,3.67,157.5,Culiacán
2742,15882520779,21 sep. 2025 00:26:20,Las Palmas 2,Caminata,2536,4.02,137.0,8.0,False,Skechers Squad 232290,activities/16961675464.fit.gz,,2536.0,2536.0,4022.3,2.267,1.586,12.8,123.0,33.2,35.9,4.0,0.0,108.0,,390.0,8.0,,0.0,1.0,,,1.586,0.0,Culiacán
2743,15894285902,21 sep. 2025 22:00:35,Plaza Azahares,Caminata,1922,2.87,113.0,4.0,False,Adidas Terrex Eastrail,activities/16973794176.fit.gz,,1922.0,1922.0,2875.1,9.336,1.496,7.6,117.0,28.1,34.5,6.9,0.0,94.0,,184.0,4.0,,0.0,1.0,,,1.496,215.8,Culiacán
2744,15894285931,22 sep. 2025 00:36:49,Plaza Azahares,Caminata,3505,3.64,95.0,5.0,False,Adidas Terrex Eastrail,activities/16973794159.fit.gz,,3505.0,3058.0,3639.2,4.196,1.19,18.1,215.0,28.1,39.1,14.1,0.2,79.0,,353.0,5.0,,0.0,1.0,,,1.038,0.0,Culiacán


## Parse date

In [5]:
# Split the column 'Fecha de la actividad' into 4 columns
dfdate = df0['Fecha de la actividad'].str.split(expand=True).rename(columns={0: 'Day', 1: 'Month', 2: 'Year', 3: 'Time'})
# Delete '.' from 'Month' column
dfdate['Month'] = dfdate['Month'].str.replace('.', '')
dfdate['Mont_Num'] = dfdate['Month'].str.replace('ene', '01').str.replace('feb', '02').str.replace('mar', '03').str.replace('abr', '04').str.replace('may', '05').str.replace('jun', '06').str.replace('jul', '07').str.replace('ago', '08').str.replace('sep', '09').str.replace('oct', '10').str.replace('nov', '11').str.replace('dic', '12')
# Convert numeric values to datetime
dfdate['Date'] = pd.to_datetime(dfdate['Year'] + '-' + dfdate['Mont_Num'] + '-' + dfdate['Day'])

# Define an empty dataframe
df1.loc[:,'Fecha de la actividad'] = dfdate['Date']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2740,15868137717,2025-09-19 00:00:00,Tec de Monterrey,Vuelta ciclista,963,3.63,101.0,1.0,True,Trek X-Caliber 9,activities/16946877191.fit.gz,14.5,963.0,925.0,3634.9,6.6,3.93,6.5,35.0,30.4,35.5,4.0,0.0,81.0,37.0,38.0,1.0,,1.0,1.0,5230367.0,,3.775,170.5,Culiacán
2741,15882518186,2025-09-20 00:00:00,Tec de Monterrey,Vuelta ciclista,997,3.66,100.0,1.0,True,Trek X-Caliber 9,activities/16961672832.fit.gz,14.5,997.0,937.0,3659.3,7.3,3.905,7.2,27.0,30.2,35.8,3.7,0.0,78.0,39.0,57.0,1.0,,1.0,1.0,5230367.0,,3.67,157.5,Culiacán
2742,15882520779,2025-09-21 00:00:00,Las Palmas 2,Caminata,2536,4.02,137.0,8.0,False,Skechers Squad 232290,activities/16961675464.fit.gz,,2536.0,2536.0,4022.3,2.267,1.586,12.8,123.0,33.2,35.9,4.0,0.0,108.0,,390.0,8.0,,0.0,1.0,,,1.586,0.0,Culiacán
2743,15894285902,2025-09-21 00:00:00,Plaza Azahares,Caminata,1922,2.87,113.0,4.0,False,Adidas Terrex Eastrail,activities/16973794176.fit.gz,,1922.0,1922.0,2875.1,9.336,1.496,7.6,117.0,28.1,34.5,6.9,0.0,94.0,,184.0,4.0,,0.0,1.0,,,1.496,215.8,Culiacán
2744,15894285931,2025-09-22 00:00:00,Plaza Azahares,Caminata,3505,3.64,95.0,5.0,False,Adidas Terrex Eastrail,activities/16973794159.fit.gz,,3505.0,3058.0,3639.2,4.196,1.19,18.1,215.0,28.1,39.1,14.1,0.2,79.0,,353.0,5.0,,0.0,1.0,,,1.038,0.0,Culiacán


# Clean activity name

To clean the activity name, we perform the following operations:
* Replace the tag 'Vuelta ciclista' por 'Ciclismo', and filter  only cycling activities.
* Eliminate extra blank spaces.
* Replace 'Ciudad de México' by 'CDMX', in case there are both tags.

In [6]:
# Chage 'Vuelta ciclista' in column 'Tipo de actividad' to 'Ciclismo'
df1.loc[:,'Tipo de actividad'] = df0['Tipo de actividad'].replace('Vuelta ciclista', 'Ciclismo')

In [7]:
# Copy Id activity column to a new dataframe
dfact = df1.iloc[:, 0:1].copy()
dfact['Tipo de actividad'] = df1['Tipo de actividad']

# Eliminate extra blank spaces at the ends in 'Nombre de la actividad' column
dfact['Activity'] = df0['Nombre de la actividad'].str.strip()
# Clean 'Activity' from special characters. Use only lower letters and numbers.
#dfact['Activity'] = dfact['Activity'].str.replace(' ','_').str.replace('[^a-zA-Z0-9]', '').str.lower()
# Eliminate accentuated characters.
#dfact['Activity'] = dfact['Activity'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [8]:
# Replace 'Ciudad de México' with 'CDMX'
dfact['Activity'] = dfact['Activity'].str.replace('Ciudad de México', 'CDMX')
dfact['Activity'].value_counts()

Activity
Tec de Monterrey                        1149
Culiacán                                 309
Las Palmas 2                              79
Guadalupe                                 68
CDMX                                      54
Zacatecas                                 48
Navolato                                  38
Arroyo de la Plata                        31
Ley del Valle                             28
Aguaruto                                  28
San Pedro                                 16
La Platanera                              14
El Limón de los Ramos                     14
Ley Palmito                               13
Aeropuerto                                13
Ojocaliente                               12
Tolosa                                    12
Culiacán Centro                           12
Central de autobuses                      11
Solar Las Palmas 2                        11
Tacoaleche                                11
El Batallón                               11
S

In [9]:
df1.loc[:,'Nombre de la actividad'] = dfact['Activity']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad
2740,15868137717,2025-09-19 00:00:00,Tec de Monterrey,Ciclismo,963,3.63,101.0,1.0,True,Trek X-Caliber 9,activities/16946877191.fit.gz,14.5,963.0,925.0,3634.9,6.6,3.93,6.5,35.0,30.4,35.5,4.0,0.0,81.0,37.0,38.0,1.0,,1.0,1.0,5230367.0,,3.775,170.5,Culiacán
2741,15882518186,2025-09-20 00:00:00,Tec de Monterrey,Ciclismo,997,3.66,100.0,1.0,True,Trek X-Caliber 9,activities/16961672832.fit.gz,14.5,997.0,937.0,3659.3,7.3,3.905,7.2,27.0,30.2,35.8,3.7,0.0,78.0,39.0,57.0,1.0,,1.0,1.0,5230367.0,,3.67,157.5,Culiacán
2742,15882520779,2025-09-21 00:00:00,Las Palmas 2,Caminata,2536,4.02,137.0,8.0,False,Skechers Squad 232290,activities/16961675464.fit.gz,,2536.0,2536.0,4022.3,2.267,1.586,12.8,123.0,33.2,35.9,4.0,0.0,108.0,,390.0,8.0,,0.0,1.0,,,1.586,0.0,Culiacán
2743,15894285902,2025-09-21 00:00:00,Plaza Azahares,Caminata,1922,2.87,113.0,4.0,False,Adidas Terrex Eastrail,activities/16973794176.fit.gz,,1922.0,1922.0,2875.1,9.336,1.496,7.6,117.0,28.1,34.5,6.9,0.0,94.0,,184.0,4.0,,0.0,1.0,,,1.496,215.8,Culiacán
2744,15894285931,2025-09-22 00:00:00,Plaza Azahares,Caminata,3505,3.64,95.0,5.0,False,Adidas Terrex Eastrail,activities/16973794159.fit.gz,,3505.0,3058.0,3639.2,4.196,1.19,18.1,215.0,28.1,39.1,14.1,0.2,79.0,,353.0,5.0,,0.0,1.0,,,1.038,0.0,Culiacán


## Clean Activity Description

In [10]:
# Copy 'Id. de actividad' y 'Descripción de la actividad' en un dataframe nuevo
dfact = df1[df1['Tipo de actividad'] == 'Ciclismo'][['Id. de actividad', 'Nombre de la actividad', 'Descripción de la actividad']].copy()
print(f"Dataframe shape: {dfact.shape}")
print(f"Non-empty rows: {(~dfact['Descripción de la actividad'].isnull()).sum()}")
dfact.head()

Dataframe shape: (2118, 3)
Non-empty rows: 455


Unnamed: 0,Id. de actividad,Nombre de la actividad,Descripción de la actividad
0,353375734,Zacatecas,Vuelta a la Bufa
1,353377512,Tepetate,
2,353380425,Nochistlán - Tepatitlán,Tour Personal
3,353381733,Calvillo - Nochistlán,Tour Personal
4,353384459,Guadalupe - Calvillo,Tour Personal


In [11]:
# Identify the rows with 'Carrera' as the first word in 'Descripción de la actividad'. Define a
# new column 'Tipo rodada' and assign 'Carrera' to those rows.
dfact['Descripción de rodada'] = dfact['Descripción de la actividad'].str.split().str[0]
dfact['Tipo rodada'] = 'Vuelta'
dfact.loc[dfact['Nombre de la actividad'] == 'Tec de Monterrey', 'Tipo rodada'] = 'Commute'
dfact.loc[dfact['Descripción de rodada'] == 'Carrera', 'Tipo rodada'] = 'Carrera'
dfact.loc[dfact['Descripción de rodada'] == 'Tour', 'Tipo rodada'] = 'Tour'
dfact['Tipo rodada'].value_counts()

Tipo rodada
Commute    1040
Vuelta      982
Tour         69
Carrera      27
Name: count, dtype: int64

In [12]:
# Merge dfact to df1 according to 'Id. de actividad'
df1 = df1.merge(dfact[['Id. de actividad', 'Tipo rodada']], on='Id. de actividad', how='left')
df1.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,3069.0,14330.3,18.1,,406.5,427.9,2308.6,2554.9,26.9,0.0,,198.0,677.0,,0.0,0.0,,2169839.0,,,7331.0,Vuelta a la Bufa,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,22770.0,16473.0,92158.4,13.2,,791.3,874.1,2219.7,2473.5,21.0,0.0,,167.0,3059.0,,0.0,0.0,,2169839.0,,,20137.6,,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,30131.0,19435.0,98532.4,15.2,,1550.5,1744.2,1453.3,2091.8,40.4,-0.1,,169.0,3664.0,,0.0,0.0,,2169839.0,,,785.6,Tour Personal,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,41874.0,28662.0,114199.0,15.2,,2102.4,2093.8,1640.0,2417.8,39.2,0.2,,144.0,4594.0,,0.0,0.0,,2169839.0,,,21528.1,Tour Personal,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,43152.0,30451.0,151961.0,18.4,,1738.5,2602.7,1640.0,2455.1,27.5,-0.5,,153.0,5207.0,,0.0,0.0,,2169839.0,,,50302.5,Tour Personal,Tour


## Make numeric columns

In [13]:
# Numeric columns
cols = ['Tiempo transcurrido', 'Distancia', 'Ritmo cardíaco máx.', 'Esfuerzo relativo', 'Peso de la bicicleta',
        'Tiempo en movimiento', 'Velocidad máxima', 'Velocidad promedio', 'Desnivel positivo', 'Desnivel negativo', 
        'Desnivel bajo', 'Desnivel alto', 'Grado máximo', 'Pendiente promedio','Ritmo cardíaco promedio', 
        'Vatios promedio', 'Calorías', 'Marcado', 'Velocidad promedio durante el tiempo transcurrido',
       'Distancia sobre tierra']
df = df1.drop(columns=['Tiempo transcurrido.1', 'Distancia.1', 'Esfuerzo relativo.1', 'Usar Esfuerzo Percibido',
                       'Viaje al trabajo.1', 'De carga', 'Bicicleta'])
# Convert to numeric
df.loc[:, cols] = df[cols].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo en movimiento,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Descripción de la actividad,Tipo rodada
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,18.1,,406.5,427.9,2308.6,2554.9,26.9,0.0,,198.0,677.0,,,7331.0,Vuelta a la Bufa,Vuelta
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,16473.0,13.2,,791.3,874.1,2219.7,2473.5,21.0,0.0,,167.0,3059.0,,,20137.6,,Vuelta
2,353380425,2015-07-13 00:00:00,Nochistlán - Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,19435.0,15.2,,1550.5,1744.2,1453.3,2091.8,40.4,-0.1,,169.0,3664.0,,,785.6,Tour Personal,Tour
3,353381733,2015-07-12 00:00:00,Calvillo - Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,28662.0,15.2,,2102.4,2093.8,1640.0,2417.8,39.2,0.2,,144.0,4594.0,,,21528.1,Tour Personal,Tour
4,353384459,2015-07-11 00:00:00,Guadalupe - Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,30451.0,18.4,,1738.5,2602.7,1640.0,2455.1,27.5,-0.5,,153.0,5207.0,,,50302.5,Tour Personal,Tour


## Save results

In [14]:
# Save the cleaned data to a new excel file
df.to_excel('../data/strava_ips.xlsx', index=False)