# Prática 08 – Análise de Desempenho de Atletas

## Objetivo
Praticar funções avançadas, ordenação com sorted/lambda, tuplas e operações estatísticas básicas.

## Dataset
`datasets/atletas_corrida.csv`

**Colunas:** Nome, Idade, Sexo, Categoria, Tempo_5km, Tempo_10km, Cidade, Equipe

## Referências do Curso
- **Notebook:** `Programacao_Intensiva_Ciencia_de_Dados.ipynb`
  - Seção 1.5 – Funções Avançadas (função `calcular_estatisticas` como modelo de função documentada)
  - Seção 1.2 – Estruturas de Dados Fundamentais (tuplas para dados imutáveis, listas para rankings)
  - Seção 1.4 – Compreensões e Programação Funcional (sorted com key=lambda)
- **Documentação:** `documentacao_completa.md`
  - Seção 2.3 – Funções (docstrings, argumentos padrão, *args)
  - Seção 2.2 – Tuplas (unpacking, imutabilidade)

## Tarefas

### Nível Básico
1. Ler o CSV e armazenar em estrutura de dados adequada
2. Calcular o tempo médio na prova de 5km e 10km
3. Encontrar o atleta mais rápido e mais lento em cada prova
4. Contar quantos atletas há por categoria


In [1]:
import pandas as pd


db = pd.read_csv("datasets/atletas_corrida.csv")

In [2]:
db.head()

Unnamed: 0,Nome,Idade,Sexo,Categoria,Tempo_5km,Tempo_10km,Cidade,Equipe
0,Maria Moura,46,F,Master B,22.97,70.36,Florianopolis,Pelotao da Serra
1,Lorena Campos,26,F,Adulto,30.73,76.26,Natal,Equipe Maratona
2,Tatiana Oliveira,52,F,Master C,43.45,57.47,Fortaleza,Individual
3,Carlos Nunes,60,M,Master C,21.12,60.67,Vitoria,Individual
4,Fernanda Rodrigues,49,F,Master B,21.22,50.33,Teresina,Pes de Vento


In [5]:
tempo_medio_5km = db["Tempo_5km"].mean()
print(f"Tempo médio para 5km: {tempo_medio_5km:.2f} minutos")

tempo_medio_10km = db["Tempo_10km"].mean()
print(f"Tempo médio para 10km: {tempo_medio_10km:.2f} minutos")

Tempo médio para 5km: 29.41 minutos
Tempo médio para 10km: 67.24 minutos


In [10]:
atleta_mais_rapido_5km = db.loc[db["Tempo_5km"].idxmin()]
atleta_mais_lento_5km = db.loc[db["Tempo_5km"].idxmax()]
print(f"Atleta mais rápido nos 5km: {atleta_mais_rapido_5km["Nome"]} com tempo de {atleta_mais_rapido_5km["Tempo_5km"]} minutos")
print(f"Atleta mais lento nos 5km: {atleta_mais_lento_5km["Nome"]} com tempo de {atleta_mais_lento_5km["Tempo_5km"]} minutos")
atleta_mais_rapido_10km = db.loc[db["Tempo_10km"].idxmin()]
atleta_mais_lento_10km = db.loc[db["Tempo_10km"].idxmax()]
print(f"Atleta mais rápido nos 10km: {atleta_mais_rapido_10km["Nome"]} com tempo de {atleta_mais_rapido_10km["Tempo_10km"]} minutos")
print(f"Atleta mais lento nos 10km: {atleta_mais_lento_10km["Nome"]} com tempo de {atleta_mais_lento_10km["Tempo_10km"]} minutos")

Atleta mais rápido nos 5km: Gabriela Barros com tempo de 15.28 minutos
Atleta mais lento nos 5km: Daniela Ferreira com tempo de 44.79 minutos
Atleta mais rápido nos 10km: Heitor Martins com tempo de 37.8 minutos
Atleta mais lento nos 10km: Beatriz Vieira com tempo de 88.86 minutos


In [12]:
db.groupby("Categoria")["Nome"].count()

Categoria
Adulto       4
Master A     5
Master B    14
Master C    15
Sub-20       2
Name: Nome, dtype: int64

### Nível Intermediário
5. Criar ranking dos 10 melhores atletas no 5km usando `sorted` com `lambda`
6. Calcular a diferença de tempo entre 5km e 10km para cada atleta (ritmo)
7. Usando tuplas, armazenar (nome, tempo_5km, tempo_10km) e ordenar por tempo total
8. Criar uma função `desempenho_categoria(dados, categoria)` documentada com docstring que retorne estatísticas completas

In [14]:
#top_10_5km = db.nsmallest(10, "Tempo_5km")[["Nome", "Tempo_5km"]]
top_10_5km = db.sort_values("Tempo_5km").head(10)[["Nome", "Tempo_5km"]]

print("Top 10 atletas mais rápidos nos 5km:")
print(top_10_5km)

Top 10 atletas mais rápidos nos 5km:
                  Nome  Tempo_5km
15     Gabriela Barros      15.28
28      Renato Andrade      16.73
29         Lucas Gomes      17.19
27         Daniel Reis      17.73
19      Beatriz Vieira      17.86
34     Tatiana Andrade      19.65
3         Carlos Nunes      21.12
4   Fernanda Rodrigues      21.22
23     Luciana Correia      21.63
11      Heitor Martins      21.99


In [24]:
db["Ritmo"]  = db["Tempo_10km"] - db["Tempo_5km"]
db.head()

Unnamed: 0,Nome,Idade,Sexo,Categoria,Tempo_5km,Tempo_10km,Cidade,Equipe,Ritmo
0,Maria Moura,46,F,Master B,22.97,70.36,Florianopolis,Pelotao da Serra,47.39
1,Lorena Campos,26,F,Adulto,30.73,76.26,Natal,Equipe Maratona,45.53
2,Tatiana Oliveira,52,F,Master C,43.45,57.47,Fortaleza,Individual,14.02
3,Carlos Nunes,60,M,Master C,21.12,60.67,Vitoria,Individual,39.55
4,Fernanda Rodrigues,49,F,Master B,21.22,50.33,Teresina,Pes de Vento,29.11


In [31]:
lista = []

for index, row in db.iterrows():
    tempo_total = round(row["Tempo_5km"] + row["Tempo_10km"],2)
    lista.append((row["Nome"],row["Tempo_5km"], tempo_total))

lista.sort(key=lambda x: x[2])
lista[:5]

[('Heitor Martins', 21.99, 59.79),
 ('Tatiana Andrade', 19.65, 60.67),
 ('Raquel Ramos', 23.15, 62.51),
 ('Camila Campos', 23.61, 67.37),
 ('Lucas Gomes', 17.19, 70.99)]

In [33]:
import pandas as pd

def desempenho_categoria(dados: pd.DataFrame, categoria: str) -> dict:
    """
    Calcula estatísticas completas de desempenho para uma categoria específica.

    Parâmetros
    ----------
    dados : pd.DataFrame
        DataFrame contendo as colunas:
        ['Nome', 'Idade', 'Sexo', 'Categoria',
         'Tempo_5km', 'Tempo_10km', 'Cidade', 'Equipe'].

    categoria : str
        Nome da categoria a ser analisada (ex: 'Adulto', 'Master B').

    Retorno
    -------
    dict
        Dicionário contendo:
        - total_atletas
        - idade_media
        - idade_min
        - idade_max
        - tempo_5km (estatísticas completas)
        - tempo_10km (estatísticas completas)
        - melhor_5km (nome e tempo)
        - melhor_10km (nome e tempo)

    Observação
    ----------
    Caso a categoria não exista, retorna um dicionário vazio.
    """

    # Filtra a categoria
    df_categoria = dados[dados["Categoria"] == categoria]

    if df_categoria.empty:
        return {}

    # Estatísticas básicas
    total_atletas = len(df_categoria)
    idade_media = df_categoria["Idade"].mean()
    idade_min = df_categoria["Idade"].min()
    idade_max = df_categoria["Idade"].max()

    # Estatísticas completas de tempo
    stats_5km = df_categoria["Tempo_5km"].describe().to_dict()
    stats_10km = df_categoria["Tempo_10km"].describe().to_dict()

    # Melhor desempenho (menor tempo)
    melhor_5km_idx = df_categoria["Tempo_5km"].idxmin()
    melhor_10km_idx = df_categoria["Tempo_10km"].idxmin()

    melhor_5km = {
        "Nome": df_categoria.loc[melhor_5km_idx, "Nome"],
        "Tempo": df_categoria.loc[melhor_5km_idx, "Tempo_5km"],
    }

    melhor_10km = {
        "Nome": df_categoria.loc[melhor_10km_idx, "Nome"],
        "Tempo": df_categoria.loc[melhor_10km_idx, "Tempo_10km"],
    }

    return {
        "total_atletas": total_atletas,
        "idade_media": idade_media,
        "idade_min": idade_min,
        "idade_max": idade_max,
        "tempo_5km": stats_5km,
        "tempo_10km": stats_10km,
        "melhor_5km": melhor_5km,
        "melhor_10km": melhor_10km,
    }



In [35]:
resultado = desempenho_categoria(db, "Master B")
resultado

{'total_atletas': 14,
 'idade_media': np.float64(44.42857142857143),
 'idade_min': np.int64(40),
 'idade_max': np.int64(49),
 'tempo_5km': {'count': 14.0,
  'mean': 30.406428571428567,
  'std': 7.981496492747227,
  'min': 17.73,
  '25%': 23.5925,
  '50%': 30.665,
  '75%': 35.845,
  'max': 41.68},
 'tempo_10km': {'count': 14.0,
  'mean': 71.68142857142858,
  'std': 11.775242514009477,
  'min': 50.33,
  '25%': 62.03,
  '50%': 73.83,
  '75%': 77.92,
  'max': 88.16},
 'melhor_5km': {'Nome': 'Daniel Reis', 'Tempo': np.float64(17.73)},
 'melhor_10km': {'Nome': 'Fernanda Rodrigues', 'Tempo': np.float64(50.33)}}

### Nível Avançado
9. Criar uma função com *args que aceite múltiplos nomes de atletas e compare seus desempenhos
10. Implementar cálculo de mediana sem usar bibliotecas externas (como no notebook, Seção 1.5)
11. Classificar o ritmo de cada atleta: "Elite" (5km < 20min), "Avançado" (20-25), "Intermediário" (25-35), "Iniciante" (>35)
12. Gerar ranking por equipe (tempo médio dos membros) e por cidade


In [None]:

def comparar_atletas(dados: pd.DataFrame, *nomes: str) -> pd.DataFrame:
    """
    Compara múltiplos atletas considerando o ranking da base completa.
    """

    df = dados.copy()

    # Ranking considerando TODA a base
    df["Ranking_5km"] = df["Tempo_5km"].rank(method="min")
    df["Ranking_10km"] = df["Tempo_10km"].rank(method="min")

    # Agora filtra apenas os nomes desejados
    df_filtrado = df[df["Nome"].isin(nomes)].copy()

    if df_filtrado.empty:
        return pd.DataFrame()

    # Diferença entre provas
    df_filtrado["Diferenca_10k_5k"] = (
        df_filtrado["Tempo_10km"] - df_filtrado["Tempo_5km"]
    )

    # Ordena pelo melhor tempo de 5km
    df_filtrado = df_filtrado.sort_values(by="Tempo_5km")

    return df_filtrado[
        [
            "Nome",
            "Categoria",
            "Tempo_5km",
            "Tempo_10km",
            "Diferenca_10k_5k",
            "Ranking_5km",
            "Ranking_10km",
        ]
    ]

In [40]:
comparacao = comparar_atletas(
    db,
    "Maria Moura",
    "Carlos Nunes",
    "Fernanda Rodrigues"
)

print(comparacao)

                 Nome Categoria  Tempo_5km  Tempo_10km  Diferenca_10k_5k  \
3        Carlos Nunes  Master C      21.12       60.67             39.55   
4  Fernanda Rodrigues  Master B      21.22       50.33             29.11   
0         Maria Moura  Master B      22.97       70.36             47.39   

   Ranking_5km  Ranking_10km  
3          7.0          17.0  
4          8.0           6.0  
0         12.0          22.0  


In [41]:

def gerar_ranking_equipes_cidades(dados: pd.DataFrame, 
                                   nome_arquivo: str = "relatorio_pratica_08.txt"):


    # ===== Ranking por Equipe =====
    ranking_equipe = (
        dados.groupby("Equipe")[["Tempo_5km", "Tempo_10km"]]
        .mean()
        .sort_values(by="Tempo_5km")
    )

    ranking_equipe["Ranking_5km"] = ranking_equipe["Tempo_5km"].rank(method="min")
    ranking_equipe["Ranking_10km"] = ranking_equipe["Tempo_10km"].rank(method="min")

    # ===== Ranking por Cidade =====
    ranking_cidade = (
        dados.groupby("Cidade")[["Tempo_5km", "Tempo_10km"]]
        .mean()
        .sort_values(by="Tempo_5km")
    )

    ranking_cidade["Ranking_5km"] = ranking_cidade["Tempo_5km"].rank(method="min")
    ranking_cidade["Ranking_10km"] = ranking_cidade["Tempo_10km"].rank(method="min")

    # ===== Escrita do arquivo =====
    with open(nome_arquivo, "w", encoding="utf-8") as f:
        f.write("===== RANKING POR EQUIPE =====\n\n")

        for equipe, row in ranking_equipe.iterrows():
            f.write(
                f"{int(row['Ranking_5km'])}º (5km) | "
                f"{int(row['Ranking_10km'])}º (10km) | "
                f"{equipe} | "
                f"Média 5km: {row['Tempo_5km']:.2f} | "
                f"Média 10km: {row['Tempo_10km']:.2f}\n"
            )

        f.write("\n\n===== RANKING POR CIDADE =====\n\n")

        for cidade, row in ranking_cidade.iterrows():
            f.write(
                f"{int(row['Ranking_5km'])}º (5km) | "
                f"{int(row['Ranking_10km'])}º (10km) | "
                f"{cidade} | "
                f"Média 5km: {row['Tempo_5km']:.2f} | "
                f"Média 10km: {row['Tempo_10km']:.2f}\n"
            )

    print(f"Arquivo '{nome_arquivo}' gerado com sucesso!")

gerar_ranking_equipes_cidades(db)

Arquivo 'relatorio_pratica_08.txt' gerado com sucesso!
