# Clean Strava file

This notebook is used to clean the Strava file. It rewrites the file **strava_ips.xlsx**. It performs the following operations:
* Delete the rows with more than 50% of missing.
* Clean dates to read with Looker Studio. Google sheets does not recognize the date format.
* Clean white spaces in the columns.
* Convert the numeric columns so that they are recognized as numbers in Looker Studio.

The data in the file strava_ips.xlsx should be copied to the Google sheet **Strava_IPS**. 
* Open your Google drive in your working directory. Here you will get your Google sheet. 
* Copy the file strava_ips.xlsx in the above directory.
* Open the Excel file in the drive. Copy and paste the data to the Google sheet Strava_IPS.

## Read file

In [2]:
import pandas as pd

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)

# Open file activities.csv
df0 = pd.read_csv('../data/activities.csv')
df0.tail(3)

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Descripción de la actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Nota privada de actividad,Equipamiento de la actividad,Nombre de archivo,Peso del atleta,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Grado positivo promedio,Grado negativo promedio,Cadencia máx.,Cadencia promedio,Ritmo cardíaco máx..1,Ritmo cardíaco promedio,Máx. de vatios,Vatios promedio,Calorías,Temperatura máx.,Temperatura promedio,Esfuerzo relativo.1,Esfuerzo total,Cantidad de carreras,Tiempo de ascenso,Tiempo de descenso,Otro tiempo,Esfuerzo Percibido,Tipo,Hora de inicio,Potencia promedio ponderada,Conteo de potencia,Usar Esfuerzo Percibido,Esfuerzo relativo percibido,Viaje al trabajo.1,Peso total levantado,De carga,Distancia ajustada en pendientes,Tiempo de observación del clima,Condición climática,Temperatura,Sensación térmica,Punto de rocío,Humedad,Presión atmosférica,Velocidad del viento,Ráfaga de viento,Dirección del viento,Intensidad de la precipitación,Hora de salida del sol,Hora de puesta del sol,Fase lunar,Bicicleta,Equipamiento,Probabilidad de precipitación,Tipo de precipitación,Nubosidad,Visibilidad,Índice UV,Estado del ozono,Recuento de saltos,Complejidad total,Fluidez promedio,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra,Distancia recién recorrida,Distancia recién recorrida en caminos sin asfaltar,Número de actividades,Pasos en total,Emisión de carbono evitada,Largo de la piscina,Carga de entrenamiento,Intensidad,Ritmo ajustado en pendientes promedio,Tiempo del cronómetro,Ciclos en total,Multimedia
2480,14236481184,20 abr. 2025 19:12:19,Central de autobuses,Caminata,Culiacán,3873,4.27,113.0,7.0,False,,Skechers Squad 232290,activities/15193172556.fit.gz,,,3873.0,3134.0,4271.200195,2.641667,1.362859,26.783869,168.0,30.200001,41.099998,11.413043,0.07492,,,70.0,50.880341,113.0,90.114494,,,312.0,,,7.0,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,,13682437.0,,,,,,,,,,0.0,1.102814,800.299988,,,,5416.0,,,,,,,,
2481,14237836085,21 abr. 2025 00:24:25,Aguaruto,Vuelta ciclista,,4375,19.1,140.0,19.0,False,,Trek X-Caliber 9,activities/15194599580.fit.gz,,14.5,4375.0,3377.0,19103.800781,10.224,5.657033,42.621189,147.0,25.799999,36.900002,34.210526,0.000523,,,,,140.0,118.74575,,70.509026,452.0,,,19.0,,,,,,,,,,,0.0,,0.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,4.366583,1622.099976,,,,,,,,,,,,
2482,14246278039,21 abr. 2025 13:38:47,Tec de Monterrey,Vuelta ciclista,,822,3.6,111.0,2.0,True,,Trek X-Caliber 9,activities/15203430931.fit.gz,,14.5,822.0,822.0,3607.5,6.916667,4.388686,8.255239,33.0,30.200001,35.900002,3.918228,0.0,,,,,111.0,94.624222,,48.051315,74.0,,,2.0,,,,,,,,,,,0.0,,1.0,,1.0,,,,,,,,,,,,,,,,5230367.0,,,,,,,,,,,0.0,4.388686,0.0,,,,,0.7846,,,,,,,


## Delete half empty columns

In [3]:
# Count missing values in each column. Sort from highest to lowest.
missing_values = df0.isnull().sum().sort_values(ascending=False)
missing_values

Grado negativo promedio                               2483
Grado positivo promedio                               2483
Hora de puesta del sol                                2483
Fase lunar                                            2483
Tipo de precipitación                                 2483
Probabilidad de precipitación                         2483
Índice UV                                             2483
Estado del ozono                                      2483
Tiempo de observación del clima                       2483
Condición climática                                   2483
Velocidad del viento                                  2483
Presión atmosférica                                   2483
Humedad                                               2483
Punto de rocío                                        2483
Potencia promedio ponderada                           2483
Conteo de potencia                                    2483
Esfuerzo relativo percibido                           24

In [4]:
# Drop columns with 50% missing values
df1 = df0.dropna(thresh=df0.shape[0]*0.5, axis=1)

# Count missing values in each column. Sort from highest to lowest.
missing_values = df1.isnull().sum().sort_values(ascending=False)
missing_values

Ritmo cardíaco promedio                              812
Marcado                                              793
Esfuerzo relativo.1                                  776
Ritmo cardíaco máx.                                  776
Esfuerzo relativo                                    776
Velocidad promedio durante el tiempo transcurrido    775
De carga                                             623
Velocidad promedio                                   606
Vatios promedio                                      597
Peso de la bicicleta                                 593
Usar Esfuerzo Percibido                              590
Bicicleta                                            589
Distancia sobre tierra                               457
Desnivel negativo                                    132
Viaje al trabajo.1                                    59
Desnivel bajo                                         43
Desnivel alto                                         43
Desnivel positivo              

In [5]:
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2478,14225154462,19 abr. 2025 15:11:19,Coyoacán,Caminata,3009,4.2,122.0,9.0,False,Skechers Squad 232290,activities/15181256004.fit.gz,,3009.0,2932.0,4200.399902,2.66,1.432606,8.842156,263.0,2252.699951,2261.600098,9.090909,0.09761,103.935066,,297.0,9.0,0.0,0.0,1.0,,0.0,1.395946,254.100006
2479,14225156687,19 abr. 2025 16:02:37,CDMX,Vuelta ciclista,2338,11.34,150.0,23.0,False,Ecobici,activities/15181258351.fit.gz,14.5,2338.0,2201.0,11344.299805,8.566667,5.154157,10.695,158.0,2240.699951,2257.199951,4.761905,-0.091676,127.326721,50.669422,362.0,23.0,0.0,0.0,1.0,14026115.0,0.0,4.852139,0.0
2480,14236481184,20 abr. 2025 19:12:19,Central de autobuses,Caminata,3873,4.27,113.0,7.0,False,Skechers Squad 232290,activities/15193172556.fit.gz,,3873.0,3134.0,4271.200195,2.641667,1.362859,26.783869,168.0,30.200001,41.099998,11.413043,0.07492,90.114494,,312.0,7.0,0.0,0.0,1.0,,0.0,1.102814,800.299988
2481,14237836085,21 abr. 2025 00:24:25,Aguaruto,Vuelta ciclista,4375,19.1,140.0,19.0,False,Trek X-Caliber 9,activities/15194599580.fit.gz,14.5,4375.0,3377.0,19103.800781,10.224,5.657033,42.621189,147.0,25.799999,36.900002,34.210526,0.000523,118.74575,70.509026,452.0,19.0,0.0,0.0,1.0,5230367.0,0.0,4.366583,1622.099976
2482,14246278039,21 abr. 2025 13:38:47,Tec de Monterrey,Vuelta ciclista,822,3.6,111.0,2.0,True,Trek X-Caliber 9,activities/15203430931.fit.gz,14.5,822.0,822.0,3607.5,6.916667,4.388686,8.255239,33.0,30.200001,35.900002,3.918228,0.0,94.624222,48.051315,74.0,2.0,0.0,1.0,1.0,5230367.0,0.0,4.388686,0.0


## Parse date

In [6]:
# Split the column 'Fecha de la actividad' into 4 columns
dfdate = df0['Fecha de la actividad'].str.split(expand=True).rename(columns={0: 'Day', 1: 'Month', 2: 'Year', 3: 'Time'})
# Delete '.' from 'Month' column
dfdate['Month'] = dfdate['Month'].str.replace('.', '')
dfdate['Mont_Num'] = dfdate['Month'].str.replace('ene', '01').str.replace('feb', '02').str.replace('mar', '03').str.replace('abr', '04').str.replace('may', '05').str.replace('jun', '06').str.replace('jul', '07').str.replace('ago', '08').str.replace('sep', '09').str.replace('oct', '10').str.replace('nov', '11').str.replace('dic', '12')
# Convert numeric values to datetime
dfdate['Date'] = pd.to_datetime(dfdate['Year'] + '-' + dfdate['Mont_Num'] + '-' + dfdate['Day'])

# Define an empty dataframe
df1.loc[:,'Fecha de la actividad'] = dfdate['Date']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2478,14225154462,2025-04-19 00:00:00,Coyoacán,Caminata,3009,4.2,122.0,9.0,False,Skechers Squad 232290,activities/15181256004.fit.gz,,3009.0,2932.0,4200.399902,2.66,1.432606,8.842156,263.0,2252.699951,2261.600098,9.090909,0.09761,103.935066,,297.0,9.0,0.0,0.0,1.0,,0.0,1.395946,254.100006
2479,14225156687,2025-04-19 00:00:00,CDMX,Vuelta ciclista,2338,11.34,150.0,23.0,False,Ecobici,activities/15181258351.fit.gz,14.5,2338.0,2201.0,11344.299805,8.566667,5.154157,10.695,158.0,2240.699951,2257.199951,4.761905,-0.091676,127.326721,50.669422,362.0,23.0,0.0,0.0,1.0,14026115.0,0.0,4.852139,0.0
2480,14236481184,2025-04-20 00:00:00,Central de autobuses,Caminata,3873,4.27,113.0,7.0,False,Skechers Squad 232290,activities/15193172556.fit.gz,,3873.0,3134.0,4271.200195,2.641667,1.362859,26.783869,168.0,30.200001,41.099998,11.413043,0.07492,90.114494,,312.0,7.0,0.0,0.0,1.0,,0.0,1.102814,800.299988
2481,14237836085,2025-04-21 00:00:00,Aguaruto,Vuelta ciclista,4375,19.1,140.0,19.0,False,Trek X-Caliber 9,activities/15194599580.fit.gz,14.5,4375.0,3377.0,19103.800781,10.224,5.657033,42.621189,147.0,25.799999,36.900002,34.210526,0.000523,118.74575,70.509026,452.0,19.0,0.0,0.0,1.0,5230367.0,0.0,4.366583,1622.099976
2482,14246278039,2025-04-21 00:00:00,Tec de Monterrey,Vuelta ciclista,822,3.6,111.0,2.0,True,Trek X-Caliber 9,activities/15203430931.fit.gz,14.5,822.0,822.0,3607.5,6.916667,4.388686,8.255239,33.0,30.200001,35.900002,3.918228,0.0,94.624222,48.051315,74.0,2.0,0.0,1.0,1.0,5230367.0,0.0,4.388686,0.0


# Clean activity name

In [7]:
# Chage 'Vuelta ciclista' in column 'Tipo de actividad' to 'Ciclismo'
df1.loc[:,'Tipo de actividad'] = df0['Tipo de actividad'].replace('Vuelta ciclista', 'Ciclismo')

In [8]:
# Copy Id activity column to a new dataframe
dfact = df1.iloc[:, 0:1].copy()
dfact['Tipo de actividad'] = df1['Tipo de actividad']

# Eliminate extra blank spaces at the ends in 'Nombre de la actividad' column
dfact['Activity'] = df0['Nombre de la actividad'].str.strip()
# Clean 'Activity' from special characters. Use only lower letters and numbers.
#dfact['Activity'] = dfact['Activity'].str.replace(' ','_').str.replace('[^a-zA-Z0-9]', '').str.lower()
# Eliminate accentuated characters.
#dfact['Activity'] = dfact['Activity'].str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

In [9]:
# Replace 'Ciudad de México' with 'CDMX'
dfact['Activity'] = dfact['Activity'].str.replace('Ciudad de México', 'CDMX')
dfact['Activity'].value_counts()

Activity
Tec de Monterrey                        978
Culiacán                                283
Las Palmas 2                             72
Guadalupe                                66
CDMX                                     54
Zacatecas                                48
Navolato                                 33
Arroyo de la Plata                       31
Aguaruto                                 24
San Pedro                                16
El Limón de los Ramos                    14
Ley Palmito                              13
Ley del Valle                            13
Aeropuerto                               12
Ojocaliente                              12
Tolosa                                   12
Tacoaleche                               11
El Batallón                              11
Trancoso                                 11
Solar Las Palmas 2                       11
San Jerónimo                             10
Vetagrande                               10
Infonavit Las Flores   

In [10]:
df1.loc[:,'Nombre de la actividad'] = dfact['Activity']
df1.tail()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo transcurrido.1,Tiempo en movimiento,Distancia.1,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Esfuerzo relativo.1,Usar Esfuerzo Percibido,Viaje al trabajo.1,De carga,Bicicleta,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
2478,14225154462,2025-04-19 00:00:00,Coyoacán,Caminata,3009,4.2,122.0,9.0,False,Skechers Squad 232290,activities/15181256004.fit.gz,,3009.0,2932.0,4200.399902,2.66,1.432606,8.842156,263.0,2252.699951,2261.600098,9.090909,0.09761,103.935066,,297.0,9.0,0.0,0.0,1.0,,0.0,1.395946,254.100006
2479,14225156687,2025-04-19 00:00:00,CDMX,Ciclismo,2338,11.34,150.0,23.0,False,Ecobici,activities/15181258351.fit.gz,14.5,2338.0,2201.0,11344.299805,8.566667,5.154157,10.695,158.0,2240.699951,2257.199951,4.761905,-0.091676,127.326721,50.669422,362.0,23.0,0.0,0.0,1.0,14026115.0,0.0,4.852139,0.0
2480,14236481184,2025-04-20 00:00:00,Central de autobuses,Caminata,3873,4.27,113.0,7.0,False,Skechers Squad 232290,activities/15193172556.fit.gz,,3873.0,3134.0,4271.200195,2.641667,1.362859,26.783869,168.0,30.200001,41.099998,11.413043,0.07492,90.114494,,312.0,7.0,0.0,0.0,1.0,,0.0,1.102814,800.299988
2481,14237836085,2025-04-21 00:00:00,Aguaruto,Ciclismo,4375,19.1,140.0,19.0,False,Trek X-Caliber 9,activities/15194599580.fit.gz,14.5,4375.0,3377.0,19103.800781,10.224,5.657033,42.621189,147.0,25.799999,36.900002,34.210526,0.000523,118.74575,70.509026,452.0,19.0,0.0,0.0,1.0,5230367.0,0.0,4.366583,1622.099976
2482,14246278039,2025-04-21 00:00:00,Tec de Monterrey,Ciclismo,822,3.6,111.0,2.0,True,Trek X-Caliber 9,activities/15203430931.fit.gz,14.5,822.0,822.0,3607.5,6.916667,4.388686,8.255239,33.0,30.200001,35.900002,3.918228,0.0,94.624222,48.051315,74.0,2.0,0.0,1.0,1.0,5230367.0,0.0,4.388686,0.0


## Make numeric columns

In [11]:
# Numeric columns
cols = ['Tiempo transcurrido', 'Distancia', 'Ritmo cardíaco máx.', 'Esfuerzo relativo', 'Peso de la bicicleta',
        'Tiempo en movimiento', 'Velocidad máxima', 'Velocidad promedio', 'Desnivel positivo', 'Desnivel negativo', 
        'Desnivel bajo', 'Desnivel alto', 'Grado máximo', 'Pendiente promedio','Ritmo cardíaco promedio', 
        'Vatios promedio', 'Calorías', 'Marcado', 'Velocidad promedio durante el tiempo transcurrido',
       'Distancia sobre tierra']
df = df1.drop(columns=['Tiempo transcurrido.1', 'Distancia.1', 'Esfuerzo relativo.1', 'Usar Esfuerzo Percibido',
                       'Viaje al trabajo.1', 'De carga', 'Bicicleta'])
# Convert to numeric
df.loc[:, cols] = df[cols].apply(pd.to_numeric, errors='coerce')
df.head()

Unnamed: 0,Id. de actividad,Fecha de la actividad,Nombre de la actividad,Tipo de actividad,Tiempo transcurrido,Distancia,Ritmo cardíaco máx.,Esfuerzo relativo,Viaje al trabajo,Equipamiento de la actividad,Nombre de archivo,Peso de la bicicleta,Tiempo en movimiento,Velocidad máxima,Velocidad promedio,Desnivel positivo,Desnivel negativo,Desnivel bajo,Desnivel alto,Grado máximo,Pendiente promedio,Ritmo cardíaco promedio,Vatios promedio,Calorías,Marcado,Velocidad promedio durante el tiempo transcurrido,Distancia sobre tierra
0,353375734,2015-07-24 00:00:00,Zacatecas,Ciclismo,3069,14.33,,,False,TREK 8500,activities/400134783.gpx.gz,16.0,3069.0,18.1,,406.476013,427.936951,2308.600098,2554.899902,26.9,-0.04815,,197.826767,676.950317,,,7331.0
1,353377512,2015-07-19 00:00:00,Tepetate,Ciclismo,22770,92.15,,,False,TREK 8500,activities/400136595.gpx.gz,16.0,16473.0,13.2,,791.320007,874.078064,2219.699951,2473.5,21.0,-0.002279,,166.551178,3059.111328,,,20137.599609
2,353380425,2015-07-13 00:00:00,Tepatitlán,Ciclismo,30131,98.53,,,False,TREK 8500,activities/400139647.gpx.gz,16.0,19435.0,15.2,,1550.469971,1746.84021,1453.300049,2091.800049,40.400002,-0.117728,,169.094589,3664.283936,,,785.599976
3,353381733,2015-07-12 00:00:00,Nochistlán,Ciclismo,41874,114.2,,,False,TREK 8500,activities/400140985.gpx.gz,16.0,28662.0,15.2,,2102.399902,2087.694336,1640.0,2417.800049,39.200001,0.209809,,143.750061,4593.98291,,,21528.099609
4,353384459,2015-07-11 00:00:00,Calvillo,Ciclismo,43152,151.96,,,False,TREK 8500,activities/400143736.gpx.gz,16.0,30451.0,18.4,,1738.469971,2602.431885,1640.0,2455.100098,27.5,-0.457881,,153.353729,5206.79834,,,50302.5


## Save results

In [13]:
# Save the cleaned data to a new excel file
df.to_excel('../data/strava_ips.xlsx', index=False)