# Bibliotecas

In [1]:
import pandas as pd
import numpy as np

# Manipulação dos Dados

## Carregando os dados

### Importando dados do percurso

In [2]:
df_gpx = pd.read_csv(
    "tabela_final_lsmision_35km_ultima.csv", sep=";", index_col="Unnamed: 0"
)
df_gpx.head()

Unnamed: 0,latitude,longitude,elevacao,diff_elev,distancias,soma_elev,soma_dist,km_group,desnivel_positivo,desnivel_negativo
0,-223905289,-449661817,9220,0,0,0,0,0,0,0
1,-223905414,-449661728,9220,0,166,0,166,1,0,0
2,-223905539,-449661641,9220,0,165,0,33099999999999996,1,0,0
3,-223905742,-449661552,9210,-10,244,-10,575,1,0,-10
4,-223905946,-449661465,9210,0,244,-10,819,1,0,0


In [3]:
# Converter colunas de números com vírgula para ponto e tipo float
cols_to_convert = [
    "latitude",
    "longitude",
    "elevacao",
    "diff_elev",
    "distancias",
    "soma_elev",
    "soma_dist",
    "desnivel_positivo",
    "desnivel_negativo",
]
for col in cols_to_convert:
    df_gpx[col] = df_gpx[col].str.replace(",", ".", regex=False).astype(float)
df_gpx.head()

Unnamed: 0,latitude,longitude,elevacao,diff_elev,distancias,soma_elev,soma_dist,km_group,desnivel_positivo,desnivel_negativo
0,-22.390529,-44.966182,922.0,0.0,0.0,0.0,0.0,0,0.0,0.0
1,-22.390541,-44.966173,922.0,0.0,1.66,0.0,1.66,1,0.0,0.0
2,-22.390554,-44.966164,922.0,0.0,1.65,0.0,3.31,1,0.0,0.0
3,-22.390574,-44.966155,921.0,-1.0,2.44,-1.0,5.75,1,0.0,-1.0
4,-22.390595,-44.966147,921.0,0.0,2.44,-1.0,8.19,1,0.0,0.0


In [127]:
df_grouped = (
    df_gpx.groupby("km_group")
    .agg(
        {
            "elevacao": "first",
            "distancias": "sum",
            "soma_elev": "last",
            "soma_dist": "last",
            "desnivel_positivo": "sum",
            "desnivel_negativo": "sum",
        }
    )
    .reset_index()
)
df_grouped.tail(10)

Unnamed: 0,km_group,elevacao,distancias,soma_elev,soma_dist,desnivel_positivo,desnivel_negativo
28,28,1516.0,1000.04,343.0,27998.65,0.0,-251.0
29,29,1264.0,1000.72,222.0,28999.37,1.0,-122.0
30,30,1144.0,1000.5,81.0,29999.87,0.0,-141.0
31,31,1003.0,999.81,3.0,30999.68,1.0,-79.0
32,32,925.0,1000.23,46.0,31999.91,44.0,-1.0
33,33,968.0,997.33,188.0,32997.24,143.0,-1.0
34,34,1110.0,1001.26,147.0,33998.5,11.0,-52.0
35,35,1069.0,999.7,-2.0,34998.2,2.0,-151.0
36,36,919.0,1000.25,-3.0,35998.45,8.0,-9.0
37,37,919.0,13.26,-3.0,36011.71,0.0,0.0


In [126]:
df_grouped.describe()

Unnamed: 0,km_prova,elevacao,distancias,soma_elev,soma_dist,desnivel_positivo,desnivel_negativo
count,38.0,38.0,38.0,38.0,38.0,38.0,38.0
mean,18.5,1311.184211,947.676579,389.210526,18472.812632,73.342105,-73.421053
std,11.113055,395.795392,224.792307,395.897691,11069.869621,93.809547,86.031619
min,0.0,919.0,0.0,-3.0,0.0,0.0,-329.0
25%,9.25,1005.75,999.255,83.75,9247.6925,3.75,-132.5
50%,18.5,1134.0,999.9,212.5,18499.55,40.0,-33.5
75%,27.75,1671.25,1000.4525,749.25,27748.64,118.0,-9.0
max,37.0,2192.0,1002.81,1270.0,36011.71,354.0,0.0


### Importando dados dos Atletas

In [None]:
df_atletas_2023 = pd.read_csv("final_completo_dados_2023_FINAL_SEM_ERRO.csv", sep=",")
df_atletas_2023["ano"] = 2023

df_atletas_2023.head()

Unnamed: 0,Nome Atleta,Volta,Distância,Tempo,Ritmo,RAI,Elev.,FC,KM,Cadência,sexo,faixa_etaria,peso,ano
0,André Mapa,1.0,"1,00 km",4:45,4:45 /km,4:43 /km,-1 m,152 bpm,,,Homens,35 a 44,,2023
1,André Mapa,2.0,"1,00 km",4:58,4:58 /km,3:34 /km,85 m,157 bpm,,,Homens,35 a 44,,2023
2,André Mapa,3.0,"1,00 km",4:55,4:55 /km,3:59 /km,59 m,163 bpm,,,Homens,35 a 44,,2023
3,André Mapa,4.0,"1,00 km",6:03,6:03 /km,3:59 /km,94 m,175 bpm,,,Homens,35 a 44,,2023
4,André Mapa,5.0,"1,00 km",5:57,5:57 /km,4:20 /km,0 m,170 bpm,,,Homens,35 a 44,,2023


In [None]:
df_atletas_2023_selecionado = df_atletas_2023[
    [
        "Nome Atleta",
        "Volta",
        "Tempo",
        "Ritmo",
        "KM",
        "FC",
        "sexo",
        "faixa_etaria",
        "peso",
    ]
]
df_atletas_2023_selecionado.head()

Unnamed: 0,Nome Atleta,Volta,Tempo,Ritmo,KM,FC,sexo,faixa_etaria,peso,ano
0,André Mapa,1.0,4:45,4:45 /km,,152 bpm,Homens,35 a 44,,2023
1,André Mapa,2.0,4:58,4:58 /km,,157 bpm,Homens,35 a 44,,2023
2,André Mapa,3.0,4:55,4:55 /km,,163 bpm,Homens,35 a 44,,2023
3,André Mapa,4.0,6:03,6:03 /km,,175 bpm,Homens,35 a 44,,2023
4,André Mapa,5.0,5:57,5:57 /km,,170 bpm,Homens,35 a 44,,2023


In [49]:
df_atletas_2023_selecionado["Nome Atleta"].nunique()

89

- Temos 89 atletas em 2023

In [None]:
df_atletas_2022 = pd.read_csv("final_completo_dados_2022_P1.csv", sep=",")
df_atletas_2022["ano"] = 2022
df_atletas_2022.head()

Unnamed: 0,Nome Atleta,Volta,Distância,Tempo,Ritmo,RAI,Elev.,KM,FC,Cadência,sexo,faixa_etaria,peso,ano
0,Ayslan Miragaia 🦅,1.0,"1,00 km",4:24,4:24 /km,4:19 /km,0 m,,,,Homens,20 a 24,55 a 64 kg,2022
1,Ayslan Miragaia 🦅,2.0,"1,00 km",5:17,5:17 /km,3:41 /km,85 m,,,,Homens,20 a 24,55 a 64 kg,2022
2,Ayslan Miragaia 🦅,3.0,"1,00 km",5:00,5:00 /km,3:53 /km,60 m,,,,Homens,20 a 24,55 a 64 kg,2022
3,Ayslan Miragaia 🦅,4.0,"1,00 km",5:33,5:33 /km,3:48 /km,90 m,,,,Homens,20 a 24,55 a 64 kg,2022
4,Ayslan Miragaia 🦅,5.0,"1,00 km",5:52,5:52 /km,4:19 /km,-11 m,,,,Homens,20 a 24,55 a 64 kg,2022


In [None]:
df_atletas_2022_selecionado = df_atletas_2022[
    [
        "Nome Atleta",
        "Volta",
        "Tempo",
        "Ritmo",
        "KM",
        "FC",
        "sexo",
        "faixa_etaria",
        "peso",
    ]
]
df_atletas_2022_selecionado.head()

Unnamed: 0,Nome Atleta,Volta,Tempo,Ritmo,KM,FC,sexo,faixa_etaria,peso,ano
0,Ayslan Miragaia 🦅,1.0,4:24,4:24 /km,,,Homens,20 a 24,55 a 64 kg,2022
1,Ayslan Miragaia 🦅,2.0,5:17,5:17 /km,,,Homens,20 a 24,55 a 64 kg,2022
2,Ayslan Miragaia 🦅,3.0,5:00,5:00 /km,,,Homens,20 a 24,55 a 64 kg,2022
3,Ayslan Miragaia 🦅,4.0,5:33,5:33 /km,,,Homens,20 a 24,55 a 64 kg,2022
4,Ayslan Miragaia 🦅,5.0,5:52,5:52 /km,,,Homens,20 a 24,55 a 64 kg,2022


In [52]:
df_atletas_2022_selecionado["Nome Atleta"].nunique()

84

- Temos 84 atletas de 2022

In [87]:
df_atletas_concat = pd.concat(
    [df_atletas_2023_selecionado, df_atletas_2022_selecionado], ignore_index=True
)
df_atletas_concat

Unnamed: 0,Nome Atleta,Volta,Tempo,Ritmo,KM,FC,sexo,faixa_etaria,peso,ano
0,André Mapa,1.0,4:45,4:45 /km,,152 bpm,Homens,35 a 44,,2023
1,André Mapa,2.0,4:58,4:58 /km,,157 bpm,Homens,35 a 44,,2023
2,André Mapa,3.0,4:55,4:55 /km,,163 bpm,Homens,35 a 44,,2023
3,André Mapa,4.0,6:03,6:03 /km,,175 bpm,Homens,35 a 44,,2023
4,André Mapa,5.0,5:57,5:57 /km,,170 bpm,Homens,35 a 44,,2023
...,...,...,...,...,...,...,...,...,...,...
5855,Albert Melo,32.0,17:49,17:49 /km,,160 bpm,Homens,25 a 34,75 a 84 kg,2022
5856,Albert Melo,33.0,16:48,16:48 /km,,131 bpm,Homens,25 a 34,75 a 84 kg,2022
5857,Albert Melo,34.0,15:02,15:02 /km,,129 bpm,Homens,25 a 34,75 a 84 kg,2022
5858,Albert Melo,35.0,13:47,13:47 /km,,129 bpm,Homens,25 a 34,75 a 84 kg,2022


In [88]:
df_atletas_concat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5860 entries, 0 to 5859
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nome Atleta   5860 non-null   object 
 1   Volta         5289 non-null   float64
 2   Tempo         5289 non-null   object 
 3   Ritmo         5860 non-null   object 
 4   KM            571 non-null    object 
 5   FC            4666 non-null   object 
 6   sexo          5367 non-null   object 
 7   faixa_etaria  5524 non-null   object 
 8   peso          5131 non-null   object 
 9   ano           5860 non-null   int64  
dtypes: float64(1), int64(1), object(8)
memory usage: 457.9+ KB


In [89]:
df_atletas_concat["Nome Atleta"].nunique()

166

In [90]:
df_atletas_concat.to_csv("df_atletas_concat.csv", index=False)

## Tratando os dados

### Engenharia dos dados

- Vamos tratar, manipular, renomear colunas a fim de deixas as tabelas no formato que desejamos

#### Tabela Atleta

Vemos que a coluna 'Voltas' e a coluna 'KM' são a mesma coisa, ambas representam o Km daquela informação do atleta. E podemos ter atletas com uma coluna ou com a outra, então vamos consolidar em uma unica chamada 'km_prova'

In [None]:
df_atletas_concat["KM"] = df_atletas_concat["KM"].str.replace(",", ".").astype(float)

In [None]:
df_atletas_concat["km_prova"] = np.where(
    df_atletas_concat["Volta"].isnull(),
    df_atletas_concat["KM"],
    df_atletas_concat["Volta"],
)

df_atletas_concat.head()

Unnamed: 0,Nome Atleta,Volta,Tempo,Ritmo,KM,FC,sexo,faixa_etaria,peso,ano,km_prova
0,André Mapa,1.0,4:45,4:45 /km,,152 bpm,Homens,35 a 44,,2023,1.0
1,André Mapa,2.0,4:58,4:58 /km,,157 bpm,Homens,35 a 44,,2023,2.0
2,André Mapa,3.0,4:55,4:55 /km,,163 bpm,Homens,35 a 44,,2023,3.0
3,André Mapa,4.0,6:03,6:03 /km,,175 bpm,Homens,35 a 44,,2023,4.0
4,André Mapa,5.0,5:57,5:57 /km,,170 bpm,Homens,35 a 44,,2023,5.0


In [93]:
df_atletas_concat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5860 entries, 0 to 5859
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nome Atleta   5860 non-null   object 
 1   Volta         5289 non-null   float64
 2   Tempo         5289 non-null   object 
 3   Ritmo         5860 non-null   object 
 4   KM            571 non-null    float64
 5   FC            4666 non-null   object 
 6   sexo          5367 non-null   object 
 7   faixa_etaria  5524 non-null   object 
 8   peso          5131 non-null   object 
 9   ano           5860 non-null   int64  
 10  km_prova      5860 non-null   float64
dtypes: float64(3), int64(1), object(7)
memory usage: 503.7+ KB


In [94]:
df_atletas_concat[df_atletas_concat["km_prova"].isna()]

Unnamed: 0,Nome Atleta,Volta,Tempo,Ritmo,KM,FC,sexo,faixa_etaria,peso,ano,km_prova


- Agora não temos mais as colunas 'Volta' e 'KM', apenas a coluna 'km_prova' que representa a distância da prova para cada atleta. E não existe nenhum atleta sem essa informação.

In [95]:
df_atletas_concat = df_atletas_concat.drop(columns=["Volta", "KM"])
df_atletas_concat.head()

Unnamed: 0,Nome Atleta,Tempo,Ritmo,FC,sexo,faixa_etaria,peso,ano,km_prova
0,André Mapa,4:45,4:45 /km,152 bpm,Homens,35 a 44,,2023,1.0
1,André Mapa,4:58,4:58 /km,157 bpm,Homens,35 a 44,,2023,2.0
2,André Mapa,4:55,4:55 /km,163 bpm,Homens,35 a 44,,2023,3.0
3,André Mapa,6:03,6:03 /km,175 bpm,Homens,35 a 44,,2023,4.0
4,André Mapa,5:57,5:57 /km,170 bpm,Homens,35 a 44,,2023,5.0


Temos tambem a coluna 'Tempo' e 'Ritmo' que também são as mesmas coisas, e alguns atletas tem uma e não tem a outra informação, então vamos consolidar igual fizemos com as colunas 'KM' e 'Voltas'. Porém antes temos que limpar a coluna 'Ritmo' pois ela tem alem do numero tem a descrição, Exemplo: "6:03 /km".

In [None]:
df_atletas_concat["Ritmo"] = df_atletas_concat["Ritmo"].str.split(" /").str[0]
df_atletas_concat.head()

Unnamed: 0,Nome Atleta,Tempo,Ritmo,FC,sexo,faixa_etaria,peso,ano,km_prova
0,André Mapa,4:45,4:45,152 bpm,Homens,35 a 44,,2023,1.0
1,André Mapa,4:58,4:58,157 bpm,Homens,35 a 44,,2023,2.0
2,André Mapa,4:55,4:55,163 bpm,Homens,35 a 44,,2023,3.0
3,André Mapa,6:03,6:03,175 bpm,Homens,35 a 44,,2023,4.0
4,André Mapa,5:57,5:57,170 bpm,Homens,35 a 44,,2023,5.0


- Agora sim podemos consolidar

In [None]:
df_atletas_concat["tempo_por_km"] = df_atletas_concat["Tempo"].fillna(
    df_atletas_concat["Ritmo"]
)
df_atletas_concat = df_atletas_concat.drop(columns=["Tempo", "Ritmo"])
df_atletas_concat.head()

Unnamed: 0,Nome Atleta,FC,sexo,faixa_etaria,peso,ano,km_prova,tempo_por_km
0,André Mapa,152 bpm,Homens,35 a 44,,2023,1.0,4:45
1,André Mapa,157 bpm,Homens,35 a 44,,2023,2.0,4:58
2,André Mapa,163 bpm,Homens,35 a 44,,2023,3.0,4:55
3,André Mapa,175 bpm,Homens,35 a 44,,2023,4.0,6:03
4,André Mapa,170 bpm,Homens,35 a 44,,2023,5.0,5:57


- Agora temos uma só coluna que representa o tempo em minutos e segundos gastos por Kilometro, vamos transformar em segundos para termos uma variavel numerica.

In [None]:
# Ajuste para lidar com casos em que o tempo está apenas em segundos, exemplo: '28 s'
def tempo_para_segundos(x):
    if pd.isnull(x):
        return None
    x = str(x).strip()
    if "s" in x and ":" not in x:
        # Apenas segundos, exemplo: '28 s'
        return int(x.replace("s", "").strip())
    elif ":" in x:
        # Formato mm:ss
        partes = x.split(":")
        return int(partes[0]) * 60 + int(partes[1])
    else:
        return None


df_atletas_concat["tempo_por_km_seg"] = df_atletas_concat["tempo_por_km"].apply(
    tempo_para_segundos
)
df_atletas_concat = df_atletas_concat.drop(columns=["tempo_por_km"])
df_atletas_concat.head()

Unnamed: 0,Nome Atleta,FC,sexo,faixa_etaria,peso,ano,km_prova,tempo_por_km_seg
0,André Mapa,152 bpm,Homens,35 a 44,,2023,1.0,285
1,André Mapa,157 bpm,Homens,35 a 44,,2023,2.0,298
2,André Mapa,163 bpm,Homens,35 a 44,,2023,3.0,295
3,André Mapa,175 bpm,Homens,35 a 44,,2023,4.0,363
4,André Mapa,170 bpm,Homens,35 a 44,,2023,5.0,357


- Agora temos nossa coluna Segundos por KM.

Assim fica nossa tabela atletas final.

In [99]:
df_atletas_concat.head()

Unnamed: 0,Nome Atleta,FC,sexo,faixa_etaria,peso,ano,km_prova,tempo_por_km_seg
0,André Mapa,152 bpm,Homens,35 a 44,,2023,1.0,285
1,André Mapa,157 bpm,Homens,35 a 44,,2023,2.0,298
2,André Mapa,163 bpm,Homens,35 a 44,,2023,3.0,295
3,André Mapa,175 bpm,Homens,35 a 44,,2023,4.0,363
4,André Mapa,170 bpm,Homens,35 a 44,,2023,5.0,357


In [100]:
df_atletas_concat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5860 entries, 0 to 5859
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Nome Atleta       5860 non-null   object 
 1   FC                4666 non-null   object 
 2   sexo              5367 non-null   object 
 3   faixa_etaria      5524 non-null   object 
 4   peso              5131 non-null   object 
 5   ano               5860 non-null   int64  
 6   km_prova          5860 non-null   float64
 7   tempo_por_km_seg  5860 non-null   int64  
dtypes: float64(1), int64(2), object(5)
memory usage: 366.4+ KB


#### Tabela Percurso

In [101]:
df_grouped.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38 entries, 0 to 37
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   km_prova           38 non-null     int64  
 1   elevacao           38 non-null     float64
 2   distancias         38 non-null     float64
 3   soma_elev          38 non-null     float64
 4   soma_dist          38 non-null     float64
 5   desnivel_positivo  38 non-null     float64
 6   desnivel_negativo  38 non-null     float64
dtypes: float64(6), int64(1)
memory usage: 2.2 KB


In [None]:
df_grouped.rename(columns={"km_group": "km_prova"}, inplace=True)
df_percurso = df_grouped[["km_prova", "desnivel_positivo", "desnivel_negativo"]].copy()
df_percurso.head(10)

Unnamed: 0,km_prova,desnivel_positivo,desnivel_negativo
0,0,0.0,0.0
1,1,13.0,-9.0
2,2,88.0,0.0
3,3,58.0,0.0
4,4,46.0,-81.0
5,5,41.0,-58.0
6,6,128.0,-11.0
7,7,228.0,-7.0
8,8,1.0,-243.0
9,9,1.0,-122.0


### Limpeza dos dados

### Verificando valores faltantes

In [103]:
print(df_atletas_concat.isnull().sum() / len(df_atletas_concat) * 100)

Nome Atleta          0.000000
FC                  20.375427
sexo                 8.412969
faixa_etaria         5.733788
peso                12.440273
ano                  0.000000
km_prova             0.000000
tempo_por_km_seg     0.000000
dtype: float64


Aqui temos pontos a destacar:
- As varáveis 'sexo', 'faixa_etaria' e 'peso' são cruciais para nossas análises futuras, e tem uma baixa quantidade de valores faltantes, então vamos tratar elas:

   -- As variáveis 'sexo' e 'faixa_etaria' tem uma baixa porcentagem de valores nulos e vão ser importantes, então vamos apenas remover as linhas com valores nulos.

   -- A variável 'peso' ja tem 12,4% de falta, então se removermos as linhas faltantes, vai impactar nossos dados, vamos trasnformar esses valores faltantes em uma    nova classe, 'Não informado'.

- A varável 'FC' tem uma grande porcentagem de valores faltantes, então vamos remove-la da nossa base.

### Limpando valores duplicados

- Podemos ter alguns atletas repetidos em nossas tabelas

In [114]:
df_limpo = df_atletas_concat.drop_duplicates()

In [116]:
contagem_km_por_atleta = df_limpo["Nome Atleta"].value_counts()
print(contagem_km_por_atleta)

Nome Atleta
Chris 🏃🏼‍♀️🚴🏼‍♀️             73
Alex Junior Aj               72
Lebre Cigano                 72
Mikael Martins               71
Arnaldo Junio Rocha Pinho    71
                             ..
Cris Pescarmona ツ             2
Ezequiel Morales              2
Brunno Leoni                  2
Henrique Fernandes🦍           2
Roberta Morfeo                2
Name: count, Length: 166, dtype: int64


Podemos observar dois pontos principais:

1- É que alguns atletas participaram mais de uma vez nessa prova, vamos pegar apenas a primeira participação de cada, pois como vamos fazer comparações entre grupos, essa relação do atelta em duas provas gera dependencia, pois nossos dados deixam de ser independentes pois um atleta aparece mais de uma vez.

2- Quantidade de kms por alteta menor que 35, que é a quantidade de km da prova, podendo ser causado pelo instrumento usado na medição do desempenho na prova. Vamos remove-los também.

In [None]:
# 1. Para cada linha, crie uma nova coluna que informa qual o primeiro ano para aquele atleta
df_limpo.loc[:, ("ano_mais_antigo")] = df_limpo.groupby("Nome Atleta")["ano"].transform(
    "min"
)
# Exibir as primeiras linhas do DataFrame para conferência
df_limpo.head()

Unnamed: 0,Nome Atleta,FC,sexo,faixa_etaria,peso,ano,km_prova,tempo_por_km_seg,ano_mais_antigo
0,André Mapa,152 bpm,Homens,35 a 44,,2023,1.0,285,2023
1,André Mapa,157 bpm,Homens,35 a 44,,2023,2.0,298,2023
2,André Mapa,163 bpm,Homens,35 a 44,,2023,3.0,295,2023
3,André Mapa,175 bpm,Homens,35 a 44,,2023,4.0,363,2023
4,André Mapa,170 bpm,Homens,35 a 44,,2023,5.0,357,2023


In [None]:
df_atletas_final = df_limpo[df_limpo["ano"] == df_limpo["ano_mais_antigo"]].copy()

# 3. (Opcional, mas recomendado) Remova a coluna auxiliar
df_atletas_final.head()

Unnamed: 0,Nome Atleta,FC,sexo,faixa_etaria,peso,ano,km_prova,tempo_por_km_seg,ano_mais_antigo
0,André Mapa,152 bpm,Homens,35 a 44,,2023,1.0,285,2023
1,André Mapa,157 bpm,Homens,35 a 44,,2023,2.0,298,2023
2,André Mapa,163 bpm,Homens,35 a 44,,2023,3.0,295,2023
3,André Mapa,175 bpm,Homens,35 a 44,,2023,4.0,363,2023
4,André Mapa,170 bpm,Homens,35 a 44,,2023,5.0,357,2023


In [None]:
# Verificação 1: Contar quantos anos diferentes existem por atleta no dataframe final.
# O resultado deve ser 1 para todos.
print("Contagem de anos por atleta no dataframe final:")
print(df_atletas_final.groupby("Nome Atleta")["ano"].nunique())

# Verificação 2: Contar quantas linhas (KMs) existem por atleta.
# Os valores agora devem estar em torno de 35, e não 72.
print("\nContagem de KMs por atleta no dataframe final:")
print(df_atletas_final["Nome Atleta"].value_counts())

Contagem de anos por atleta no dataframe final:
Nome Atleta
ALFREDO GUIMARAES         1
Adriano Lucke             1
Albert Melo               1
Alessandro Sousa(allê)    1
Alex Junior Aj            1
                         ..
Vinicius Da Cruz Faria    1
Vivi RF                   1
clemilson silva           1
luciana porto             1
👑 VIRGINIO🏔               1
Name: ano, Length: 166, dtype: int64

Contagem de KMs por atleta no dataframe final:
Nome Atleta
Lebre Cigano                     72
Fernando Nazário                 51
Tony Ortiz                       40
Pedro Henrique Gonçalves (PH)    38
Aquaria Mundi                    38
                                 ..
Anderson Batata                   2
Ezequiel Morales                  2
Brunno Leoni                      2
Henrique Fernandes🦍               2
Roberta Morfeo                    2
Name: count, Length: 166, dtype: int64


- Podemos observar que mesmo após pegarmos a primeira participação na prova, ainda temos algumas observações com quantidade de km maior que 36, isso acontece pois o relogio, ou instrumento que marcou o desempenho durante o percurso pode quebrar a marcação em distancias menores, ou seja, o normal é marcar a cada 1km, porem pode acontecer que marcou a cada 500 metros, ou marcou a cada 1km mas depois teve marcações após 400m e depois 600m, enfim, erro de marcação. vamos remover todos esses que tem valores menores ou maiores que 36 km

In [None]:
contagem_km_por_atleta = df_atletas_final["Nome Atleta"].value_counts()
print(contagem_km_por_atleta)

Nome Atleta
André Mapa              35
Caiê Alonso             35
EDU TRAILRUN ⛰️⛰️       35
Bruno Reis              35
Ligia Almeida Fechio    35
                        ..
Anderson Batata          2
Ezequiel Morales         2
Brunno Leoni             2
Henrique Fernandes🦍      2
Roberta Morfeo           2
Name: count, Length: 166, dtype: int64


In [135]:
# Primeiro, crie uma lista de nomes de atletas válidos
atletas_validos = contagem_km_por_atleta[(contagem_km_por_atleta >= 34) & (contagem_km_por_atleta <= 36)].index

# Depois, filtre o dataframe original para manter apenas esses atletas
df_atletas_filtrado = df_atletas_final[df_atletas_final['Nome Atleta'].isin(atletas_validos)].copy()

In [136]:
contagem_km_por_atleta = df_atletas_filtrado['Nome Atleta'].value_counts()
print(contagem_km_por_atleta)

Nome Atleta
André Mapa                     35
Caiê Alonso                    35
EDU TRAILRUN ⛰️⛰️              35
Bruno Reis                     35
Ligia Almeida Fechio           35
                               ..
Franklin von Haydin            34
Arnaldo 🇧🇷 Lamounier Junior    34
Fernando Biagioni              34
Tamiris Barbosa 🌻              34
Raone Faria                    34
Name: count, Length: 144, dtype: int64


In [138]:
df_atletas_filtrado['Nome Atleta'].nunique()

144

- AO fim, temos 144 atletas.