O futebol, apesar de bastante divertido, se trata de um esporte que exige um esforço físico considerável por parte dos atletas que o praticam. Muitos jogadores, por exemplo, chegam a percorrer distâncias vistas em maratonas durante os noventa (90) minutos de uma partida. A exigência proposta por esta ação dentro de campo, além de disputas pela posse da bola com o adversário, podem acarretar em lesões aos praticantes do esporte.

Neste projeto, estaremos analisando um dataset contendo dados sobre estas respectivas lesões que podem acontecer durante um jogo de futebol. Este arquivo contém as seguintes colunas:

- `player_id` refere-se ao número utilizado para identificação do jogador;
- `season_name` refere-se à temporada em que a lesão ocorreu;
- `injury_reason` refere-se ao motivo da lesão;
- `from_date` refere-se à data em que o jogador sofreu a lesão;
- `end_date` refere-se à data em que o jogador se recuperou da lesão;
- `days_missed` refere-se à quantidade de dias perdidos pelo jogador nas atividades dos clubes;
- `games_missed` refere-se à quantidade de jogos perdidos por conta da lesão.

Analisaremos estes dados a fim responder as seguintes incógnitas:

- `Quais` são os tipos mais **comuns** de lesões?
- `Qual` é o **número** de lesões por temporada/mês/ano?
- `Qual` o **tempo médio** de recuperação dessas lesões?
- `Quais` são as partes do corpo **mais** lesionadas?
- `Como` se dá a **distribuição** de lesões por jogador? 

Primeiramente, começaremos importando todas as bibliotecas que serão fundamentais para o desenvolvimento das nossas análises, além do próprio dataset:

In [44]:
import pandas as pd                           # Biblioteca para manipulação de planilhas
import matplotlib.pyplot as plt               # Biblioteca dedicada à criação de gráficos

In [45]:
lesões = pd.read_csv("player_injuries.csv", parse_dates = ["from_date", "end_date"], index_col = "player_id").sort_index()    # Importando o dataset
lesões

Unnamed: 0_level_0,season_name,injury_reason,from_date,end_date,days_missed,games_missed
player_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2857,22/23,Leg injury,2023-04-13,2023-05-08,26.0,5
3333,24/25,Thigh problems,2024-10-01,2025-05-25,237.0,37
3333,24/25,Hamstring injury,2024-08-31,2024-09-14,15.0,2
3333,23/24,Muscle injury,2024-01-31,2024-06-12,134.0,19
3333,23/24,Muscle injury,2023-09-20,2023-10-15,26.0,6
...,...,...,...,...,...,...
1406115,21,Moisés CaicedoDefensive Midfield,NaT,NaT,,23
1406115,22,Khvicha KvaratskheliaLeft Winger,NaT,NaT,,24
1406115,25,Ousmane DembéléRight Winger,NaT,NaT,,28
1406115,10,Federico ValverdeCentral Midfield,NaT,NaT,,27


Após importarmos o dataset, renomearemos o índice e as colunas a fim de facilitar a manipulação das mesmas. 

In [46]:
# Renomeando o índice, as colunas e padronizando valores

lesões.index.name = "Player ID"
lesões.rename(columns = {"season_name": "Season"}, inplace = True)
lesões.rename(columns = {"injury_reason": "Injury Reason"}, inplace = True)
lesões.rename(columns = {"from_date": "From Date"}, inplace = True)
lesões.rename(columns = {"end_date": "End Date"}, inplace = True)
lesões.rename(columns = {"days_missed": "Days Missed"}, inplace = True)
lesões.rename(columns = {"games_missed": "Games Missed"}, inplace = True)

lesões["Injury Reason"] = lesões["Injury Reason"].str.title()

lesões

Unnamed: 0_level_0,Season,Injury Reason,From Date,End Date,Days Missed,Games Missed
Player ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2857,22/23,Leg Injury,2023-04-13,2023-05-08,26.0,5
3333,24/25,Thigh Problems,2024-10-01,2025-05-25,237.0,37
3333,24/25,Hamstring Injury,2024-08-31,2024-09-14,15.0,2
3333,23/24,Muscle Injury,2024-01-31,2024-06-12,134.0,19
3333,23/24,Muscle Injury,2023-09-20,2023-10-15,26.0,6
...,...,...,...,...,...,...
1406115,21,Moisés Caicedodefensive Midfield,NaT,NaT,,23
1406115,22,Khvicha Kvaratskhelialeft Winger,NaT,NaT,,24
1406115,25,Ousmane Dembéléright Winger,NaT,NaT,,28
1406115,10,Federico Valverdecentral Midfield,NaT,NaT,,27


É possível observar que nas visualizações anteriores do DataFrame, temos a presença de dados ausentes em algumas das colunas. Além disso, também há valores "incompletos" pertencentes à coluna `Injury Reason`, como o nome do jogador e a posição em que o mesmo atua. Como os valores não estão disponíveis em sua integridade, decidimos excluir-los da tabela, assim como, também, os valores ausentes.

Este processo irá **filtrar** as informações realmente necessárias para a realização da análise e descartar dados irrelevantes.

In [47]:
# Tratando dados ausentes

lesões = lesões.dropna()
lesões.isnull().value_counts()

Season  Injury Reason  From Date  End Date  Days Missed  Games Missed
False   False          False      False     False        False           76749
Name: count, dtype: int64

Agora que não há mais a presença de dados ausentes, podemos começar o processo da análise.