# Análise do Arquivo Players

Este notebook é dedicado à análise da tabela **Players** fornecida pela IBM, que contém dados detalhados sobre os jogadores, incluindo informações sobre seus desempenho e seus respectivos resultados. O objetivo deste notebook é facilitar a visualização e a análise desses dados, proporcionando estatísticas essenciais para estudos e pesquisas.

## Objetivo

O objetivo deste notebook é fornecer uma análise detalhada dos dados de jogadores, ajudando a identificar padrões e tendências que possam ser úteis para diversas aplicações, como previsões de resultados e desempenho dos jogadores.

## Como Usar Este Notebook

1. **Configuração do Ambiente**:
   - **Google Colab**: No Google Colab, será necessário fazer o upload das tabelas para o Google Drive e montar o drive no notebook.
   - **Localmente**: Se for rodar o notebook localmente, é necessário baixar as tabelas e colocá-las no mesmo diretório do notebook ou ajustar os caminhos dos arquivos conforme necessário.

2. **Instalação de Dependências**:
   - Certifique-se de que todas as bibliotecas necessárias estão instaladas. Você pode instalar as dependências utilizando o seguinte comando:
     ```python
     !pip install -r requirements.txt
     ```

3. **Execução do Notebook**:
   - Siga as células de código sequencialmente para garantir que todas as etapas sejam executadas corretamente. Cada seção do notebook está organizada para facilitar a compreensão e a análise dos dados.

## Nesse Notebook Será Abordado

1. **Pré-processamento de Dados**:
   - Limpeza dos dados, incluindo o tratamento de valores ausentes e a remoção de duplicatas.
   - Normalização e padronização dos dados utilizando técnicas como `StandardScaler` e `MinMaxScaler`.
   - Codificação de variáveis categóricas utilizando `LabelEncoder`.


# Dependências
Para rodar o notebook de forma local, é recomendado que inicie uma venv (ambiente virtual) e instale as dependências.

Se estiver utilizando o Google Colab, pule esta etapa.

In [81]:
# Instala as dependências
!pip install -r requirements.txt

# Importando bibliotecas

Aqui é importado as dependências necessárias para a executação do projeto.

In [82]:
import pandas as pd  # para ler, visualizar e printar informações do DataFrame
import matplotlib.pyplot as plt  # para construir e customizar gráficos
import seaborn as sns  # para visualizar gráficos
import numpy as np  # para operações matemáticas e manipulação de arrays
import math  # para executar operações matemáticas
from scipy.stats.mstats import winsorize  # para realizar a winsorização
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder  # para pré-processamento de dados
import statistics as sts  # para realizar cálculos estatísticos
import matplotlib as mpl  # para customizações adicionais em gráficos


# Carregando o dataset

Feita a importação do arquivo para leitura dos dados.

In [83]:
df = pd.read_csv('../../notebooks/data/players_nao_tratado.csv')

In [None]:
df.head(1)

# Pré-processamento de dados do arquivo players
O pré-processamento dos dados é uma etapa fundamental na construção de modelos preditivos eficazes. Ele garante que os dados estejam em uma forma adequada para análise, eliminando inconsistências, ajustando escalas e transformando variáveis para que possam ser utilizadas de forma eficiente pelos algoritmos de aprendizado de máquina.

Nesta seção, será realizado uma série de procedimentos para preparar o dataset para as etapas de modelagem subsequentes. As etapas incluem o tratamento de valores ausentes, a remoção de outliers, a codificação de variáveis categóricas e a normalização de variáveis numéricas. Essas ações são essenciais para melhorar a qualidade dos dados e, consequentemente, a performance do modelo preditivo.

Cada uma dessas etapas será detalhada a seguir, explicando as técnicas utilizadas e os motivos por trás de cada decisão tomada.

## Objetivo do Pré-Processamento de Dados

O principal objetivo desta seção é preparar os dados para análises subsequentes, garantindo que eles estejam completos, consistentes e prontos para modelagem. As etapas a seguir abordam o tratamento de valores ausentes, remoção de colunas irrelevantes, tratamento de outliers e transformação de variáveis.

## Como Usar Este Notebook

1. **Configuração do Ambiente**:
   - **Google Colab**: Se estiver usando o Google Colab, faça o upload das tabelas para o Google Drive e monte o drive no notebook.
   - **Localmente**: Se estiver rodando o notebook localmente, baixe as tabelas e coloque-as no mesmo diretório do notebook ou ajuste os caminhos dos arquivos conforme necessário.

2. **Instalação de Dependências**:
   - Certifique-se de que todas as bibliotecas necessárias estão instaladas no ambiente de execução. Para garantir isso, você pode utilizar um arquivo de dependências (como `requirements.txt`), ou instalar as bibliotecas manualmente.

3. **Execução do Notebook**:
   - Siga as células de código sequencialmente para garantir que todas as etapas sejam executadas corretamente. Ao final do pré-processamento, os dados estarão prontos para modelagem e análise.

## Etapas do Pré-Processamento

1. **Tratamento de Valores Ausentes**:
   - A identificação de valores ausentes (missing values) é essencial para garantir a integridade dos dados. Nesta etapa, serão identificadas colunas com valores faltantes e os métodos de imputação ou remoção desses valores serão definidos. Dependendo do contexto, os valores ausentes podem ser preenchidos com a média, mediana, ou descartados.
   
2. **Exclusão de Colunas**:
   - Algumas colunas podem não ser relevantes para a análise ou podem conter muitos valores ausentes. Neste caso, a exclusão dessas colunas se torna uma opção importante para garantir a qualidade do dataset e evitar viés nas análises.

3. **Identificação de Outliers por Gráficos**:
   - A visualização de dados por meio de gráficos, como boxplots, permite identificar a presença de outliers de forma visual. Isso ajuda a entender a distribuição das variáveis e identificar valores que se desviam significativamente do padrão esperado.

4. **Identificação de Outliers Usando o IQR**:
   - O método do intervalo interquartil (IQR) será utilizado para identificar outliers de maneira sistemática. Valores que estejam além de 1.5 vezes o IQR, abaixo do primeiro quartil ou acima do terceiro quartil, serão considerados outliers e tratados adequadamente.

5. **Tratamento de Outliers por Winsorização**:
   - Em vez de excluir outliers, que podem conter informações valiosas, utilizaremos a técnica de **winsorização**. Ela limita os valores extremos dentro de um intervalo aceitável, substituindo-os por valores próximos ao limite superior ou inferior da distribuição, preservando assim a integridade do dataset sem remover dados.

6. **Codificação de Variáveis Categóricas**:
   - As variáveis categóricas, como o nome dos times ou outras características qualitativas, serão transformadas em uma forma numérica para que possam ser utilizadas por algoritmos de aprendizado de máquina. A técnica de **One-Hot Encoding** ou **Label Encoding** será utilizada para esse processo, dependendo do número de categorias e da necessidade do modelo.

7. **Normalização dos Dados**:
   - Para garantir que todas as variáveis numéricas estejam na mesma escala, aplicaremos a normalização ou padronização dos dados. Isso é particularmente importante para algoritmos que são sensíveis à escala das variáveis, como métodos baseados em distância (KNN, SVM, etc.). As técnicas de **MinMaxScaler** ou **StandardScaler** serão aplicadas conforme a necessidade da modelagem.

## Resumo das Etapas

Após o pré-processamento, os dados estarão limpos e prontos para modelagem. O tratamento de valores ausentes, a remoção ou ajuste de outliers e a transformação de variáveis categóricas garantem que os dados estejam em uma condição ideal para algoritmos de aprendizado de máquina. A normalização das variáveis numéricas assegura que as variáveis estejam na mesma escala, o que é fundamental para melhorar o desempenho dos modelos preditivos.


Foi removido essas colunas, pois essas informações podem ser obtidas através de outras colunas no conjunto de dados. A soma ou combinação de outras colunas pode fornecer os mesmos valores ou informações equivalentes, tornando essas colunas redundantes para a análise. Ao eliminar essas colunas, o DataFrame fica mais enxuto e eficiente para o processamento e modelagem dos dados.

In [85]:
colunas_para_eliminar = [
    'yellow_cards_overall',
    'red_cards_overall',
    'sm_minutes_played_recorded_overall',
    'minutes_played_overall',
    'appearances_overall',
    'assists_overall',
    'clean_sheets_overall',
    'conceded_overall',
    'shots_total_overall'
]

# Eliminando as colunas
df = df.drop(columns=colunas_para_eliminar)

As colunas mostradas abaixo que foram excluídas foram devido à falta de informações em todas as linhas, ou seja, não tinha informações. A exclusão dessas colunas foi necessária para garantir a análise correta dos dados, pois nelas havia a existências de todos os dados nulos ou com N/A.

In [86]:
colunas_para_eliminar = [
    'short_passes_per_game_overall',
    'long_passes_per_game_overall',
    'distance_travelled_per_game_overall',
    'chances_created_per_game_overall',
    'aerial_duels_per_game_overall',
    'possession_regained_per_90_overall',
    'possession_regained_total_overall',
    'possession_regained_per90_percentile_overall',
    'additional_info',
    'tackles_successful_total_overall',
    'through_passes_total_overall',
    'through_passes_per_90_overall',
    'long_passes_total_overall',
    'long_passes_per_90_overall',
    'long_passes_per90_percentile_overall',
    'short_passes_total_overall',
    'short_passes_per_90_overall',
    'short_passes_per90_percentile_overall',
    'chances_created_total_overall',
    'chances_created_per_90_overall',
    'chances_created_per90_percentile_overall',
    'shots_per_goal_conceded_overall',
    'xg_faced_per_90_overall',
    'xg_faced_per90_percentile_overall',
    'xg_faced_per_game_overall',
    'xg_faced_total_overall',
    'pressures_total_overall',
    'pressures_per_90_overall',
    'pressures_per90_percentile_overall',
    'market_value',
    'market_value_percentile',
    'pen_save_percentage_overall',
    'sm_minutes_played_per90_percentile_overall',
    'aerial_duels_total_overall',
    'aerial_duels_per_90_overall',
    'aerial_duels_per90_percentile_overall',
    'aerial_duels_won_percentage_overall',
    'pen_committed_per90_percentile_overall',
    'through_passes_per90_percentile_overall',
    'tackles_successful_per90_percentile_overall',
    'progressive_passes_total_overall',
    'distance_travelled_total_overall',
    'distance_travelled_per_90_overall',
    'distance_travelled_per90_percentile_overall',
    'hattricks_total_overall',
    'three_goals_in_a_game_total_overall',
    'three_goals_in_a_game_percentage_overall',
    'man_of_the_match_total_overall',
    'annual_salary_eur',
    'annual_salary_eur_percentile',
    'annual_salary_gbp',
    'annual_salary_usd'
]

# Eliminando as colunas
df = df.drop(columns=colunas_para_eliminar)

 Removemos os dados relacionados aos goleiros, pois eles não contribuem para a análise preditiva de jogadores de outras posições. Por exemplo, a métrica saves_total_overall, que contabiliza o número de defesas realizadas por um jogador durante o jogo, é específica para goleiros e não tem relevância na avaliação de outros atletas.

In [87]:
colunas_para_eliminar = [
    'saves_total_overall',
    'save_percentage_percentile_overall',
    'sm_goals_conceded_total_overall',
    'shots_faced_per_90_overall',
    'shots_faced_per90_percentile_overall',
    'save_percentage_overall',
    'inside_box_saves_total_overall',
    'punches_total_overall',
    'punches_per_90_overall',
    'saves_per_90_overall',
    'shots_faced_total_overall',
    'pens_saved_total_overall',
    'punches_total_overall',
    'punches_per_90_overall',
    'punches_per90_percentile_overall'
]

# Eliminando as colunas
df = df.drop(columns=colunas_para_eliminar)

As colunas como birthday, birthday_GMT, league, season, e nationality foram excluídas porque fornecem informações que não impactam diretamente a análise de desempenho dos jogadores em campo.

In [88]:
colunas_para_eliminar = [
    'birthday',
    'birthday_GMT',
    'league',
    'season',
    'nationality'
]

# Eliminando as colunas
df = df.drop(columns=colunas_para_eliminar)


Essas colunas foram excluídas porque os dados que elas fornecem podem ser derivados de outras informações já presentes na tabela, evitando redundância. Com base em métricas agregadas e mais amplas, como estatísticas gerais de desempenho, podemos calcular as mesmas informações de forma mais eficiente. Dessa forma, simplificamos o conjunto de dados sem perder informações relevantes.

In [89]:
colunas_para_eliminar = [
    'assists_per_game_overall',
    'passes_per_game_overall',
    'passes_completed_per_game_overall',
    'key_passes_per_game_overall',
    'crosses_per_game_overall',
    'tackles_per_game_overall',
    'tackles_successful_per_game_overall',
    'dispossesed_per_game_overall',
    'pressures_per_game_overall',
    'saves_per_game_overall',
    'interceptions_per_game_overall',
    'dribbles_successful_per_game_overall',
    'shots_off_target_per_game_overall',
    'dribbles_per_game_overall',
    'shots_on_target_per_game_overall',
    'aerial_duels_won_per_game_overall',
    'shots_per_game_overall',
    'dribbled_past_per_game_overall',
    'blocks_per_game_overall',
    'clearances_per_game_overall',
    'pen_committed_per_game_overall',
    'hit_woodwork_per_game_overall',
    'offsides_per_game_overall',
    'xa_per_game_overall',
    'npxg_per_game_overall',
    'fouls_drawn_per_game_overall',
    'fouls_committed_per_game_overall',
    'duels_per_game_overall',
    'duels_won_per_game_overall',
    'accurate_crosses_per_game_overall',
    'goals_involved_per_90_overall',
    'assists_per_90_overall',
    'goals_per_90_overall',
    'goals_per_90_home',
    'goals_per_90_away',
    'conceded_per_90_overall',
    'cards_per_90_overall',
    'passes_per_90_overall',
    'passes_completed_per_90_overall',
    'tackles_per_90_overall',
    'shots_per_90_overall',
    'shots_on_target_per_90_overall',
    'shots_off_target_per_90_overall',
    'tackles_successful_per_90_overall',
    'interceptions_per_90_overall',
    'crosses_per_90_overall',
    'key_passes_per_90_overall',
    'dribbles_per_90_overall',
    'dribbles_successful_per_90_overall',
    'dribbled_past_per_90_overall',
    'blocks_per_90_overall',
    'clearances_per_90_overall',
    'pen_committed_per_90_overall',
    'hit_woodwork_per_90_overall',
    'offsides_per_90_overall',
    'xa_per_90_overall',
    'npxg_per_90_overall',
    'fouls_drawn_per_90_overall',
    'fouls_committed_per_90_overall',
    'xg_per_90_overall',
    'aerial_duels_won_per_90_overall',
    'duels_per_90_overall',
    'duels_won_per_90_overall',
    'dispossesed_per_90_overall',
    'accurate_crosses_per_90_overall'
]


As colunas de percentis listadas podem ser obtidas por meio da divisão de métricas específicas já presentes no conjunto de dados. Por exemplo, a porcentagem de passes completos por jogo pode ser calculada dividindo o número total de passes completados pelo número total de passes tentados. Dessa forma, ao calcular essas porcentagens a partir das informações existentes, podemos evitar redundância e simplificar o conjunto de dados, mantendo a análise objetiva e eficiente.

In [90]:
# Atualizando a lista de colunas para eliminar
colunas_para_eliminar = [
    'assists_per90_percentile_overall',
    'passes_per90_percentile_overall',
    'pass_completion_rate_percentile_overall',
    'passes_completed_per90_percentile_overall',
    'shots_per90_percentile_overall',
    'shots_on_target_per90_percentile_overall',
    'shots_off_target_per90_percentile_overall',
    'tackles_per90_percentile_overall',
    'interceptions_per90_percentile_overall',
    'cross_completion_rate_percentile_overall',
    'crosses_per90_percentile_overall',
    'dribbles_per90_percentile_overall',
    'conceded_per90_percentile_overall',
    'dribbled_past_per90_percentile_overall',
    'dribbles_successful_per90_percentile_overall',
    'dribbles_successful_percentage_percentile_overall',
    'blocks_per90_percentile_overall',
    'shot_conversion_rate_percentile_overall',
    'minutes_played_percentile_overall',
    'matches_played_percentile_overall',
    'min_per_goal_percentile_overall',
    'min_per_conceded_percentile_overall',
    'xa_per90_percentile_overall',
    'npxg_per90_percentile_overall',
    'fouls_drawn_per90_percentile_overall',
    'fouls_committed_per90_percentile_overall',
    'xg_per90_percentile_overall',
    'average_rating_percentile_overall',
    'clearances_per90_percentile_overall',
    'hit_woodwork_per90_percentile_overall',
    'offsides_per90_percentile_overall',
    'aerial_duels_won_per90_percentile_overall',
    'duels_won_per90_percentile_overall',
    'duels_per90_percentile_overall',
    'dispossesed_per90_percentile_overall',
    'accurate_crosses_per90_percentile_overall',
    'games_started_percentile_overall',
    'games_subbed_in_percentile_overall',
    'games_subbed_out_percentile_overall',
    'goals_involved_per90_percentile_overall',
    'goals_per90_percentile_overall',
    'goals_per90_percentile_away',
    'goals_per90_percentile_home',
    'clean_sheets_percentage_percentile_overall',
    'min_per_card_percentile_overall',
    'cards_per90_percentile_overall',
    'booked_over05_percentage_percentile_overall'
]

# Eliminando as colunas
df = df.drop(columns=colunas_para_eliminar)


In [None]:
colunas = df.columns
print(colunas)

Foi feita a remoção de jogadores que não participaram de nenhuma partida, pois esses jogadores apresentavam um número elevado de dados nulos e valores "N/A", o que poderia comprometer a qualidade do modelo. Para isso, substituímos os valores nulos nas colunas de aparições por 0 e filtramos o DataFrame para manter apenas os jogadores que têm pelo menos uma aparição, seja em casa ou fora.

In [92]:
# Substitui valores nulos por 0 nas colunas de aparições
df['appearances_home'] = df['appearances_home'].fillna(0)
df['appearances_away'] = df['appearances_away'].fillna(0)

# Filtra o DataFrame para remover os jogadores com aparições em casa e fora de casa igual a 0
df = df[(df['appearances_home'] + df['appearances_away']) > 0]

Separando os goleiros em um DataFrame específico e removendo-os do DataFrame original foi uma etapa necessária para aprimorar a qualidade do modelo. Os goleiros desempenham funções muito diferentes dos outros jogadores em campo, o que pode distorcer as análises e os resultados do modelo se eles forem mantidos juntos com jogadores de campo. Ao isolar os goleiros, garantimos que suas características e desempenhos sejam avaliados de forma adequada e independente, melhorando assim a precisão e a relevância das análises realizadas.

In [93]:
# Separando os jogadores com position = 'Goalkeeper' em um novo DataFrame
df_goalkeepers = df[df['position'] == 'Goalkeeper']

# Removendo as linhas dos goleiros do DataFrame original
df = df[df['position'] != 'Goalkeeper']



Substituir os nomes das posições por números usando um mapeamento, como o position_mapping, melhora a eficiência e a consistência dos dados. Números ocupam menos espaço e permitem operações de processamento mais rápidas em comparação com strings.

In [None]:
position_mapping = {
    'Defender': 1,
    'Midfielder': 2,
    'Forward': 3
    # Adicione mais posições conforme necessário
}
# Substituir os nomes das posições pelos números
df['position'] = df['position'].replace(position_mapping)


Foi alterado o número da posição dos goleiro para 1, assim como foi alterado na dos outros jogadores.

In [95]:
df['position'] = df['position'].replace('Goalkeeper', 1)


Codificar categorias como clubes em IDs numéricos melhora a eficiência de processamento e análise de dados, pois simplifica a manipulação e comparação de dados. Além disso, reduz o uso de memória ao substituir strings por inteiros. Esse formato é ideal para algoritmos de machine learning e operações matemáticas.

In [96]:
df['Current Club'], unique_clubs = pd.factorize(df['Current Club'])

# Adicionar 1 aos IDs para começar de 1 em vez de 0
df['Current Club'] += 1

# Criar o mapeamento dos IDs para os clubes
club_id_mapping = pd.Series(index=range(1, len(unique_clubs) + 1), data=unique_clubs)

Foi feito o mesmo com o data frame dos goleiros:

In [97]:
# Codificar os clubes em df_goalkeepers
df_goalkeepers['Current Club'], unique_clubs_goalkeepers = pd.factorize(df_goalkeepers['Current Club'])

# Adicionar 1 aos IDs para começar de 1 em vez de 0
df_goalkeepers['Current Club'] += 1

# Criar o mapeamento dos IDs para os clubes
club_id_mapping_goalkeepers = pd.Series(data=unique_clubs_goalkeepers, index=range(1, len(unique_clubs_goalkeepers) + 1))



## Tratamento de outliers
Essa subseção foi feita a identificação e tratamento de outliers. Outliers são valores que se distanciam significativamente do restante dos dados, podendo distorcer análises e influenciar negativamente o desempenho do modelos preditivos. Dessa forma, é necessário identificar esses valores anômalos para decidir se eles devem ser tratados ou removidos, garantindo que as análises e modelos subsequentes sejam precisos e confiáveis.

Nessa tabela, tratamos os outliers utilizando uma abordagem que envolveu a transformação das colunas categóricas em variáveis numéricas, facilitando o processo de detecção e manipulação dos outliers. Para essa transformação, foi utilizado o método Label Encoder, que converte as categorias em valores numéricos, atribuindo um número inteiro único para cada categoria. Essa transformação permitiu que os outliers fossem identificados e tratados de forma eficiente, melhorando a robustez dos modelos preditivos subsequentes.

In [98]:
# import numpy as np
# from sklearn.preprocessing import LabelEncoder

# # Definindo features categóricas ou numéricas
# colunas_numericas = []
# colunas_categoricas = []

# for each in df:
#     coluna = df[each]
#     if coluna.dtype in ['int64', 'float64']:
#         coluna.fillna(0, inplace=True)
#         colunas_numericas.append(coluna.name)
#     elif coluna.dtype in ['object', 'category']:
#         coluna.fillna("Sem dados", inplace=True)
#         colunas_categoricas.append(coluna.name)

# # Tratamento de outliers
# def tratar_outliers(df):
#     for coluna in colunas_numericas:
#         Q1 = df[coluna].quantile(0.25)
#         Q3 = df[coluna].quantile(0.75)
#         IQR = Q3 - Q1
#         limite_inferior = Q1 - 1.5 * IQR
#         limite_superior = Q3 + 1.5 * IQR
#         outliers = (df[coluna] < limite_inferior) | (df[coluna] > limite_superior)
#         media_coluna = df.loc[~outliers, coluna].mean()
#         media_coluna = np.round(media_coluna)
#         df.loc[outliers, coluna] = media_coluna
#     return df

# # Instanciando o LabelEncoder
# le = LabelEncoder()

# # Convertendo colunas categóricas para numéricas
# for coluna in colunas_categoricas:
#     df[coluna] = le.fit_transform(df[coluna])

# # Chamando a função de tratamento de outliers
# tratar_outliers(df)

# # Salvando o DataFrame tratado em um arquivo CSV
df.to_csv('../../notebooks/data/tratado/players_tratado.csv', index=False)


In [None]:
df.head(1)

## 2.6 Referências

Está é uma seção de referências com relação as bibliotecas que utilizamos ao longo deste arquivo

NUMPY. NumPy Documentation. Disponível em: <https://numpy.org/doc/>.

‌PANDAS. pandas documentation. Disponível em: <https://pandas.pydata.org/docs/>.

MATPLOTLIB. Matplotlib: Python plotting — Matplotlib 3.3.4 documentation. Disponível em: <https://matplotlib.org/stable/index.html>.

‌SEABORN. seaborn: statistical data visualization — seaborn 0.9.0 documentation. Disponível em: <https://seaborn.pydata.org/>.

‌SciPy documentation — SciPy v1.8.1 Manual. Disponível em: <https://docs.scipy.org/doc/scipy/>.

‌PYTHON SOFTWARE FOUNDATION. Math — Mathematical Functions — Python 3.8.3rc1 Documentation. Disponível em: <https://docs.python.org/3/library/math.html>.

‌SCIKIT-LEARN. scikit-learn: machine learning in Python. Disponível em: <https://scikit-learn.org/stable/>.
