# Clean Strava file

This notebook is used to clean the Strava file. It rewrites the file **strava_ips.xlsx**. It performs the following operations:
* Delete the rows with more than 50% of missing.
* Clean dates to read with Looker Studio. Google sheets does not recognize the date format.
* Clean white spaces in the columns.
* Convert the numeric columns so that they are recognized as numbers in Looker Studio.

The data in the file strava_ips.xlsx should be copied to the Google sheet **Strava_IPS**. 
* Move to the directory *My Drive/Capacitación/CADI Looker Studio*. 
* Copy the file strava_ips.xlsx in the above directory.
* Copy the data to the Google sheet Strava_IPS.

## Read file

In [3]:
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Open file activities.csv
df0 = pd.read_csv('../data/activities.csv')
df0.tail(3)

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Nota privada de actividad,Equipamiento de la actividad,Nombre de archivo,Peso del atleta,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Grado positivo promedio,Grado negativo promedio,Cadencia máx.,Cadencia promedio,Ritmo cardíaco máx..1,Ritmo cardíaco promedio,Máx. de vatios,Vatios promedio,Calorías,Temperatura máx.,Temperatura promedio,Esfuerzo relativo.1,Esfuerzo total,Cantidad de carreras,Tiempo de ascenso,Tiempo de descenso,Otro tiempo,Esfuerzo Percibido,Tipo,Hora de inicio,Potencia promedio ponderada,Conteo de potencia,Usar Esfuerzo Percibido,Esfuerzo relativo percibido,Viaje al trabajo.1,Peso total levantado,De carga,Distancia ajustada en pendientes,Tiempo de observación del clima,Condición climática,Temperatura,Sensación térmica,Punto de rocío,Humedad,Presión atmosférica,Velocidad del viento,Ráfaga de viento,Dirección del viento,Intensidad de la precipitación,Hora de salida del sol,Hora de puesta del sol,Fase lunar,Bicicleta,Equipamiento,Probabilidad de precipitación,Tipo de precipitación,Nubosidad,Visibilidad,Índice UV,Estado del ozono,Recuento de saltos,Complejidad total,Fluidez promedio,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Distancia recién recorrida,Distancia recién recorrida en caminos sin asfaltar,Número de actividades,Pasos en total,Emisión de carbono evitada,Largo de la piscina,Carga de entrenamiento,Intensidad,Ritmo ajustado en pendientes promedio,Tiempo del cronómetro,Ciclos en total,Multimedia
2422,13969648606,24 mar. 2025 01:54:30,Entronque a Villas del Río,Caminata,,3028,3.59,129.0,11.0,False,,Adidas Terrex Eastrail,activities/14911642861.fit.gz,,,3028.0,2810.0,3598.899902,1.561538,1.280747,11.052803,122.0,30.700001,36.799999,8.602151,0.005557,,,63.0,52.56218,129.0,118.125908,,,337.0,,,11.0,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,,11968176.0,,,,,,,,,,0.0,1.18854,1014.700012,,,,4202.0,,,,,,,,
2423,13975631234,24 mar. 2025 04:19:23,Culiacán,Vuelta ciclista,,1086,2.1,110.0,2.0,False,,Trek X-Caliber 9,activities/14918107896.fit.gz,,14.5,1086.0,909.0,2103.5,4.9,2.314081,16.551422,57.0,30.0,35.900002,10.144928,0.004754,,,,,110.0,99.162514,,34.942467,108.0,,,2.0,,,,,,,,,,,,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,1.936924,0.0,,,,,,,,,,,,
2424,13975632199,24 mar. 2025 17:50:48,Tec de Monterrey,Vuelta ciclista,,1392,4.95,117.0,3.0,True,,Trek X-Caliber 9,activities/14918108987.fit.gz,,14.5,1392.0,1192.0,4950.200195,7.26,4.152853,25.414196,69.0,31.4,41.099998,10.242588,0.032322,,,,,117.0,98.475693,,60.818764,131.0,,,3.0,,,,,,,,,,,,,1.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,3.556178,0.0,,,,,1.0766,,,,,,,


## Delete half empty columns

In [4]:
# Count missing values in each column. Sort from highest to lowest.
missing_values = df0.isnull().sum().sort_values(ascending=False)
missing_values

Conteo de potencia                                    2425
Dirección del viento                                  2425
Grado negativo promedio                               2425
Ráfaga de viento                                      2425
Velocidad del viento                                  2425
Presión atmosférica                                   2425
Humedad                                               2425
Máx. de vatios                                        2425
Punto de rocío                                        2425
Sensación térmica                                     2425
Temperatura máx.                                      2425
Temperatura                                           2425
Condición climática                                   2425
Esfuerzo total                                        2425
Cantidad de carreras                                  2425
Tiempo de ascenso                                     2425
Tiempo de descenso                                    24

In [5]:
# Drop columns with 50% missing values
df1 = df0.dropna(thresh=df0.shape[0]*0.5, axis=1)

# Count missing values in each column. Sort from highest to lowest.
missing_values = df1.isnull().sum().sort_values(ascending=False)
missing_values

Ritmo cardíaco promedio                              810
Marcado                                              793
Velocidad promedio durante el tiempo transcurrido    776
Ritmo cardíaco máx.                                  774
Esfuerzo relativo                                    774
Esfuerzo relativo.1                                  774
De carga                                             623
Velocidad promedio                                   607
Usar Esfuerzo Percibido                              589
Vatios promedio                                      580
Peso de la bicicleta                                 576
Bicicleta                                            572
Distancia sobre tierra                               458
Desnivel negativo                                    133
Viaje al trabajo.1                                    59
Desnivel alto                                         43
Desnivel bajo                                         43
Grado máximo                   

In [6]:
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2420,13969647930,23 mar. 2025 22:29:26,El Limón de los Ramos,Vuelta ciclista,8010,47.8,160.0,147.0,False,Trek X-Caliber 9,activities/14911642098.fit.gz,14.5,8010.0,7879.0,47800.101562,12.3,6.066772,178.258896,243.0,24.5,76.699997,9.345795,-0.004812,136.461121,82.375534,1295.0,147.0,0.0,0.0,1.0,5230367.0,0.0,5.967553,403.899994
2421,13969648205,24 mar. 2025 01:03:09,Villas del Río,Caminata,2517,3.15,131.0,7.0,False,Adidas Terrex Eastrail,activities/14911642398.fit.gz,,2517.0,2343.0,3152.600098,4.816667,1.34554,4.825,91.0,28.9,33.799999,1.864802,0.06344,108.068123,,235.0,7.0,0.0,0.0,1.0,,0.0,1.252523,0.0
2422,13969648606,24 mar. 2025 01:54:30,Entronque a Villas del Río,Caminata,3028,3.59,129.0,11.0,False,Adidas Terrex Eastrail,activities/14911642861.fit.gz,,3028.0,2810.0,3598.899902,1.561538,1.280747,11.052803,122.0,30.700001,36.799999,8.602151,0.005557,118.125908,,337.0,11.0,0.0,0.0,1.0,,0.0,1.18854,1014.700012
2423,13975631234,24 mar. 2025 04:19:23,Culiacán,Vuelta ciclista,1086,2.1,110.0,2.0,False,Trek X-Caliber 9,activities/14918107896.fit.gz,14.5,1086.0,909.0,2103.5,4.9,2.314081,16.551422,57.0,30.0,35.900002,10.144928,0.004754,99.162514,34.942467,108.0,2.0,,0.0,1.0,5230367.0,0.0,1.936924,0.0
2424,13975632199,24 mar. 2025 17:50:48,Tec de Monterrey,Vuelta ciclista,1392,4.95,117.0,3.0,True,Trek X-Caliber 9,activities/14918108987.fit.gz,14.5,1392.0,1192.0,4950.200195,7.26,4.152853,25.414196,69.0,31.4,41.099998,10.242588,0.032322,98.475693,60.818764,131.0,3.0,,1.0,1.0,5230367.0,0.0,3.556178,0.0


## Parse date

In [7]:
# Split the column 'Fecha de la actividad' into 4 columns
dfdate = df0['Fecha de la actividad'].str.split(expand=True).rename(columns={0: 'Day', 1: 'Month', 2: 'Year', 3: 'Time'})
# Delete '.' from 'Month' column
dfdate['Month'] = dfdate['Month'].str.replace('.', '')
dfdate['Mont_Num'] = dfdate['Month'].str.replace('ene', '01').str.replace('feb', '02').str.replace('mar', '03').str.replace('abr', '04').str.replace('may', '05').str.replace('jun', '06').str.replace('jul', '07').str.replace('ago', '08').str.replace('sep', '09').str.replace('oct', '10').str.replace('nov', '11').str.replace('dic', '12')
# Convert numeric values to datetime
dfdate['Date'] = pd.to_datetime(dfdate['Year'] + '-' + dfdate['Mont_Num'] + '-' + dfdate['Day'])

# Define an empty dataframe
df1.loc[:,'Fecha de la actividad'] = dfdate['Date']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2420,13969647930,2025-03-23 00:00:00,El Limón de los Ramos,Vuelta ciclista,8010,47.8,160.0,147.0,False,Trek X-Caliber 9,activities/14911642098.fit.gz,14.5,8010.0,7879.0,47800.101562,12.3,6.066772,178.258896,243.0,24.5,76.699997,9.345795,-0.004812,136.461121,82.375534,1295.0,147.0,0.0,0.0,1.0,5230367.0,0.0,5.967553,403.899994
2421,13969648205,2025-03-24 00:00:00,Villas del Río,Caminata,2517,3.15,131.0,7.0,False,Adidas Terrex Eastrail,activities/14911642398.fit.gz,,2517.0,2343.0,3152.600098,4.816667,1.34554,4.825,91.0,28.9,33.799999,1.864802,0.06344,108.068123,,235.0,7.0,0.0,0.0,1.0,,0.0,1.252523,0.0
2422,13969648606,2025-03-24 00:00:00,Entronque a Villas del Río,Caminata,3028,3.59,129.0,11.0,False,Adidas Terrex Eastrail,activities/14911642861.fit.gz,,3028.0,2810.0,3598.899902,1.561538,1.280747,11.052803,122.0,30.700001,36.799999,8.602151,0.005557,118.125908,,337.0,11.0,0.0,0.0,1.0,,0.0,1.18854,1014.700012
2423,13975631234,2025-03-24 00:00:00,Culiacán,Vuelta ciclista,1086,2.1,110.0,2.0,False,Trek X-Caliber 9,activities/14918107896.fit.gz,14.5,1086.0,909.0,2103.5,4.9,2.314081,16.551422,57.0,30.0,35.900002,10.144928,0.004754,99.162514,34.942467,108.0,2.0,,0.0,1.0,5230367.0,0.0,1.936924,0.0
2424,13975632199,2025-03-24 00:00:00,Tec de Monterrey,Vuelta ciclista,1392,4.95,117.0,3.0,True,Trek X-Caliber 9,activities/14918108987.fit.gz,14.5,1392.0,1192.0,4950.200195,7.26,4.152853,25.414196,69.0,31.4,41.099998,10.242588,0.032322,98.475693,60.818764,131.0,3.0,,1.0,1.0,5230367.0,0.0,3.556178,0.0


# Clean activity name

In [8]:
# Chage 'Vuelta ciclista' in column 'Tipo de actividad' to 'Ciclismo'
df1.loc[:,'Tipo de actividad'] = df0['Tipo de actividad'].replace('Vuelta ciclista', 'Ciclismo')

In [9]:
# Copy Id activity column to a new dataframe
dfact = df1.iloc[:, 0:1].copy()
dfact['Tipo de actividad'] = df1['Tipo de actividad']

# Eliminate extra blank spaces at the ends in 'Nombre de la actividad' column
dfact['Activity'] = df0['Nombre de la actividad'].str.strip()
# Clean 'Activity' from special characters. Use only lower letters and numbers.
#dfact['Activity'] = dfact['Activity'].str.replace(' ','_').str.replace('[^a-zA-Z0-9]', '').str.lower()
# Eliminate accentuated characters.
#dfact['Activity'] = dfact['Activity'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [10]:
# Replace 'Ciudad de México' with 'CDMX'
dfact['Activity'] = dfact['Activity'].str.replace('Ciudad de México', 'CDMX')
dfact['Activity'].value_counts()

Activity
Tec de Monterrey                        947
Culiacán                                280
Las Palmas 2                             70
Guadalupe                                66
Zacatecas                                48
CDMX                                     45
Navolato                                 33
Arroyo de la Plata                       31
Aguaruto                                 23
San Pedro                                16
El Limón de los Ramos                    14
Ley del Valle                            13
Ley Palmito                              13
Tolosa                                   12
Aeropuerto                               12
Ojocaliente                              12
Tacoaleche                               11
El Batallón                              11
Trancoso                                 11
Solar Las Palmas 2                       11
Vetagrande                               10
San Jerónimo                             10
La Zacatecana          

In [11]:
df1.loc[:,'Nombre de la actividad'] = dfact['Activity']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2420,13969647930,2025-03-23 00:00:00,El Limón de los Ramos,Ciclismo,8010,47.8,160.0,147.0,False,Trek X-Caliber 9,activities/14911642098.fit.gz,14.5,8010.0,7879.0,47800.101562,12.3,6.066772,178.258896,243.0,24.5,76.699997,9.345795,-0.004812,136.461121,82.375534,1295.0,147.0,0.0,0.0,1.0,5230367.0,0.0,5.967553,403.899994
2421,13969648205,2025-03-24 00:00:00,Villas del Río,Caminata,2517,3.15,131.0,7.0,False,Adidas Terrex Eastrail,activities/14911642398.fit.gz,,2517.0,2343.0,3152.600098,4.816667,1.34554,4.825,91.0,28.9,33.799999,1.864802,0.06344,108.068123,,235.0,7.0,0.0,0.0,1.0,,0.0,1.252523,0.0
2422,13969648606,2025-03-24 00:00:00,Entronque a Villas del Río,Caminata,3028,3.59,129.0,11.0,False,Adidas Terrex Eastrail,activities/14911642861.fit.gz,,3028.0,2810.0,3598.899902,1.561538,1.280747,11.052803,122.0,30.700001,36.799999,8.602151,0.005557,118.125908,,337.0,11.0,0.0,0.0,1.0,,0.0,1.18854,1014.700012
2423,13975631234,2025-03-24 00:00:00,Culiacán,Ciclismo,1086,2.1,110.0,2.0,False,Trek X-Caliber 9,activities/14918107896.fit.gz,14.5,1086.0,909.0,2103.5,4.9,2.314081,16.551422,57.0,30.0,35.900002,10.144928,0.004754,99.162514,34.942467,108.0,2.0,,0.0,1.0,5230367.0,0.0,1.936924,0.0
2424,13975632199,2025-03-24 00:00:00,Tec de Monterrey,Ciclismo,1392,4.95,117.0,3.0,True,Trek X-Caliber 9,activities/14918108987.fit.gz,14.5,1392.0,1192.0,4950.200195,7.26,4.152853,25.414196,69.0,31.4,41.099998,10.242588,0.032322,98.475693,60.818764,131.0,3.0,,1.0,1.0,5230367.0,0.0,3.556178,0.0


## Make numeric columns

In [12]:
# Numeric columns
cols = ['Tiempo transcurrido', 'Distancia', 'Ritmo cardíaco máx.', 'Esfuerzo relativo', 'Peso de la bicicleta',
        'Tiempo en movimiento', 'Velocidad máxima', 'Velocidad promedio', 'Desnivel positivo', 'Desnivel negativo', 
        'Desnivel bajo', 'Desnivel alto', 'Grado máximo', 'Pendiente promedio','Ritmo cardíaco promedio', 
        'Vatios promedio', 'Calorías', 'Marcado', 'Velocidad promedio durante el tiempo transcurrido',
       'Distancia sobre tierra']
df = df1.drop(columns=['Tiempo transcurrido.1', 'Distancia.1', 'Esfuerzo relativo.1', 'Usar Esfuerzo Percibido',
                       'Viaje al trabajo.1', 'De carga', 'Bicicleta'])
# Convert to numeric
df.loc[:, cols] = df[cols].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo en movimiento,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,18.1,,406.476013,427.936951,2308.600098,2554.899902,26.9,-0.04815,,197.826767,676.950317,,,7331.0
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,16473.0,13.2,,791.320007,874.078064,2219.699951,2473.5,21.0,-0.002279,,166.551178,3059.111328,,,20137.599609
2,353380425,2015-07-13 00:00:00,Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,19435.0,15.2,,1550.469971,1746.84021,1453.300049,2091.800049,40.400002,-0.117728,,169.094589,3664.283936,,,785.599976
3,353381733,2015-07-12 00:00:00,Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,28662.0,15.2,,2102.399902,2087.694336,1640.0,2417.800049,39.200001,0.209809,,143.750061,4593.98291,,,21528.099609
4,353384459,2015-07-11 00:00:00,Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,30451.0,18.4,,1738.469971,2602.431885,1640.0,2455.100098,27.5,-0.457881,,153.353729,5206.79834,,,50302.5


## Save results

In [13]:
# Save the cleaned data to a new excel file
df.to_excel('../data/strava_ips.xlsx', index=False)