# Pré-Processamento de dados do Arquivo Matches

O pré-processamento dos dados é uma etapa fundamental na construção de modelos preditivos eficazes. Ele garante que os dados estejam em uma forma adequada para análise, eliminando inconsistências, ajustando escalas e transformando variáveis para que possam ser utilizadas de forma eficiente pelos algoritmos de aprendizado de máquina.

Este notebook é dedicado ao pré-processamento da tabela **Matches** fornecida pela IBM, que contém dados detalhados sobre partidas realizadas, incluindo informações sobre os times e seus respectivos resultados. O objetivo deste notebook é facilitar a visualização e a análise desses dados, proporcionando estatísticas essenciais para estudos e pesquisas.

## Objetivo do Pré-Processamento de Dados

O principal objetivo desta seção é preparar os dados para análises subsequentes, garantindo que eles estejam completos, consistentes e prontos para modelagem. As etapas a seguir abordam o tratamento de valores ausentes, remoção de colunas irrelevantes, tratamento de outliers e transformação de variáveis.

## Como Usar Este Notebook

1. **Configuração do Ambiente**:
   - **Google Colab**: No Google Colab, será necessário fazer o upload das tabelas para o Google Drive e montar o drive no notebook.
   - **Localmente**: Se for rodar o notebook localmente, é necessário baixar as tabelas e colocá-las no mesmo diretório do notebook ou ajustar os caminhos dos arquivos conforme necessário.

2. **Instalação de Dependências**:
   - Certifique-se de que todas as bibliotecas necessárias estão instaladas. Você pode instalar as dependências utilizando o seguinte comando:
     ```python
     !pip install -r requirements.txt
     ```

3. **Execução do Notebook**:
   - Siga as células de código sequencialmente para garantir que todas as etapas sejam executadas corretamente. Cada seção do notebook está organizada para facilitar a compreensão e a análise dos dados.

## Nesse Notebook Será Abordado

1. **Pré-processamento de Dados**:
   - Limpeza dos dados, incluindo o tratamento de valores ausentes e a remoção de duplicatas.
   - Normalização e padronização dos dados utilizando técnicas como `StandardScaler` e `MinMaxScaler`.
   - Codificação de variáveis categóricas utilizando `LabelEncoder`.

   
## Etapas do Pré-Processamento

1. **Tratamento de Valores Ausentes**:
   - A identificação de valores ausentes (missing values) é essencial para garantir a integridade dos dados. Nesta etapa, serão identificadas colunas com valores faltantes e os métodos de imputação ou remoção desses valores serão definidos. Dependendo do contexto, os valores ausentes podem ser preenchidos com a média, mediana, ou descartados.
   
2. **Exclusão de Colunas**:
   - Algumas colunas podem não ser relevantes para a análise ou podem conter muitos valores ausentes. Neste caso, a exclusão dessas colunas se torna uma opção importante para garantir a qualidade do dataset e evitar viés nas análises.

3. **Identificação de Outliers por Gráficos**:
   - A visualização de dados por meio de gráficos, como boxplots, permite identificar a presença de outliers de forma visual. Isso ajuda a entender a distribuição das variáveis e identificar valores que se desviam significativamente do padrão esperado.

4. **Identificação de Outliers Usando o IQR**:
   - O método do intervalo interquartil (IQR) será utilizado para identificar outliers de maneira sistemática. Valores que estejam além de 1.5 vezes o IQR, abaixo do primeiro quartil ou acima do terceiro quartil, serão considerados outliers e tratados adequadamente.

5. **Tratamento de Outliers por Winsorização**:
   - Em vez de excluir outliers, que podem conter informações valiosas, utilizaremos a técnica de **winsorização**. Ela limita os valores extremos dentro de um intervalo aceitável, substituindo-os por valores próximos ao limite superior ou inferior da distribuição, preservando assim a integridade do dataset sem remover dados.

6. **Codificação de Variáveis Categóricas**:
   - As variáveis categóricas, como o nome dos times ou outras características qualitativas, serão transformadas em uma forma numérica para que possam ser utilizadas por algoritmos de aprendizado de máquina. A técnica de **One-Hot Encoding** ou **Label Encoding** será utilizada para esse processo, dependendo do número de categorias e da necessidade do modelo.

7. **Normalização dos Dados**:
   - Para garantir que todas as variáveis numéricas estejam na mesma escala, aplicaremos a normalização ou padronização dos dados. Isso é particularmente importante para algoritmos que são sensíveis à escala das variáveis, como métodos baseados em distância (KNN, SVM, etc.). As técnicas de **MinMaxScaler** ou **StandardScaler** serão aplicadas conforme a necessidade da modelagem.

## Resumo das Etapas

Após o pré-processamento, os dados estarão limpos e prontos para modelagem. O tratamento de valores ausentes, a remoção ou ajuste de outliers e a transformação de variáveis categóricas garantem que os dados estejam em uma condição ideal para algoritmos de aprendizado de máquina. A normalização das variáveis numéricas assegura que as variáveis estejam na mesma escala, o que é fundamental para melhorar o desempenho dos modelos preditivos.


# Dependências
Para rodar o notebook de forma local, é recomendado que inicie uma venv (ambiente virtual) e instale as dependências.

Se estiver utilizando o Google Colab, pule esta etapa.

# Importando bibliotecas

Aqui é importado as dependências necessárias para a executação do projeto.

In [1]:
import pandas as pd #para ler, visualizar e printar infos do df
import matplotlib.pyplot as plt #para construir e customizar gráficos
import seaborn as sns #para visualizar uns gráficos
import numpy as np #numpy porque é sempre bom importar numpy
import math #para executar operações matemáticas
from scipy.stats.mstats import winsorize #para realizar a winsorização
from sklearn.preprocessing import LabelEncoder #para realizar o pré-processamento de dados

# Carregando o dataset

Feita a importação do arquivo para leitura dos dados.

In [2]:
df = pd.read_csv('../../notebooks/data/matches_nao_tratado.csv', sep=',')

## 1.1 Missing Values

No processo de pré-processamento de dados, uma das primeiras etapas envolve a verificação e o tratamento de valores ausentes, conhecidos como **missing values**. Valores ausentes podem surgir por diversos motivos e, se não forem tratados, podem comprometer a qualidade das análises e modelos preditivos. Entretanto, ao inspecionar o dataset utilizado neste projeto, foi constatado que ele não contém valores nulos ou errados.

Como não foram encontrados valores nulos ou inconsistentes no dataset, não foi necessário aplicar técnicas de imputação ou remoção de dados. Este resultado é ideal, pois garante que todos os dados disponíveis podem ser utilizados diretamente nas análises e na construção dos modelos preditivos, sem a necessidade de intervenção adicional.


## 1.2 Exclusão de linhas com status incompleto

Durante o processo de pré-processamento, identificamos que algumas partidas no dataset possuem os status "incomplete" ou "suspended". Esses status indicam que as partidas não foram concluídas ou foram interrompidas, o que pode comprometer a qualidade das análises e previsões.

Especificamente, observamos a seguinte distribuição de status no dataset:
- 282 partidas com status "incomplete"
- 93 partidas com status "complete"
- 5 partidas com status "suspended"

Para garantir a integridade dos dados e a precisão do modelo preditivo, decidimos remover todas as linhas que não possuíam o status "complete". Dessa forma, asseguramos que o dataset final seja composto apenas por partidas totalmente concluídas, fornecendo uma base mais confiável para as análises subsequentes.


In [None]:
# Visualizar a contagem dos diferentes status
print(df['status'].value_counts())

# Filtrar as linhas onde o status não é "incomplete" nem "suspended"
df_filtered = df[(df['status'] != 'incomplete') & (df['status'] != 'suspended')]

# Verificar se as linhas foram removidas
print(df_filtered['status'].value_counts())

df_filtered.head()

## 1.3 Exclusão de colunas

Como parte do processo de pré-processamento, é importante identificar e remover colunas que não acrescentam valor significativo à análise ou que podem introduzir ruído nos modelos preditivos. No dataset original, identificamos várias colunas que foram consideradas desnecessárias para os objetivos do projeto, seja por serem redundantes, irrelevantes ou por não fornecerem informações úteis para as previsões.

As colunas a seguir foram identificadas para exclusão com base nos seguintes critérios:
- **Irrelevância para Análise Preditiva**: Colunas como `timestamp`, `date_GMT`, e `Game Week` foram removidas, pois não contribuem diretamente para a análise do desempenho das equipes ou para a previsão de resultados.
- **Dados Redundantes**: Colunas que agregam informações já disponíveis em outras colunas, como `total_goals_at_half_time`, foram excluídas para evitar duplicidade.
- **Colunas Incompletas ou de Difícil Metrificação**: Colunas como `referee` foram removidas por serem difíceis de quantificar de maneira que agregue valor ao modelo.

In [None]:
#Exclusão de colunas

#Identificação de colunas a ser excluída
colunas_dropar = ['timestamp', 'date_GMT', 'status', 'attendance', 'referee', 'Game Week', 'total_goal_count', 'total_goals_at_half_time', 'home_team_goal_count_half_time', 'away_team_goal_count_half_time', 'home_team_goal_timings', 'away_team_goal_timings', 'home_team_first_half_cards', 'home_team_second_half_cards', 'away_team_first_half_cards', 'away_team_second_half_cards', 'over_15_percentage_pre_match', 'over_25_percentage_pre_match', 'over_35_percentage_pre_match', 'over_45_percentage_pre_match', 'over_15_HT_FHG_percentage_pre_match', 'over_05_HT_FHG_percentage_pre_match', 'over_15_2HG_percentage_pre_match', 'over_05_2HG_percentage_pre_match', 'stadium_name']

#Exclusão das colunas identificadas
df = df_filtered.drop(columns=colunas_dropar)

df.head()

## 1.4 Codificação de variáveis categóricas

Nessa etapa foi feito a transformação das variáveis categóricas para um formato numérico que possa ser interpretado pelos algoritmos de aprendizado de máquina. Para este propósito, foi utilizado a técnica de codificação através do `LabelEncoder`, que converte categorias em valores inteiros, facilitando sua utilização nos modelos.

#### Variáveis Categóricas Codificadas

No dataset, os nomes dos times de futebol são variáveis categóricas que precisam ser convertidas em formato numérico. Isso permitirá que os modelos interpretem as equipes como entradas válidas durante o processo de treinamento.

In [None]:
# Inicializando o LabelEncoder
label_encoder = LabelEncoder()

# Codificando os nomes dos times
df['home_team_encoded'] = label_encoder.fit_transform(df['home_team_name'])
df['away_team_encoded'] = label_encoder.fit_transform(df['away_team_name'])

# Ordenando as colunas codificadas em ordem crescente
df = df.sort_values(by=['home_team_encoded', 'away_team_encoded']).reset_index(drop=True)

df.head()



## 1.5 Identificação de Outliers

Essa subseção foi feita a identificação e tratamento de outliers. Outliers são valores que se distanciam significativamente do restante dos dados, podendo distorcer análises e influenciar negativamente o desempenho do modelos preditivos. Dessa forma, é necessário identificar esses valores anômalos para decidir se eles devem ser tratados ou removidos, garantindo que as análises e modelos subsequentes sejam precisos e confiáveis.

Abaixo foi feita a visualização através de boxplots para identificar outliers nas colunas numéricas do dataset. Os boxplots são ferramentas visuais eficazes para detectar outliers, pois mostram a distribuição dos dados e destacam pontos que estão além dos limites esperados.

In [None]:
def plot_boxplots_with_outliers(df, max_plots_per_fig=10):
    # filtrar colunas numéricas dos dados
    numeric_cols = df.select_dtypes(include=['number']).columns
    # caso não tenha
    if len(numeric_cols) == 0:
        raise ValueError("Nenhuma coluna numérica no DataFrame.")
    # número de figuras necessárias pra plotar as colunas
    num_figures = math.ceil(len(numeric_cols) / max_plots_per_fig)
    for fig_idx in range(num_figures):
        start_idx = fig_idx * max_plots_per_fig
        end_idx = start_idx + max_plots_per_fig
        cols_to_plot = numeric_cols[start_idx:end_idx]
        fig, axes = plt.subplots(nrows=len(cols_to_plot), ncols=1, figsize=(8, len(cols_to_plot) * 4))
        # se tiver só uma (tabela de league) não gera lista
        if len(cols_to_plot) == 1:
            axes = [axes]
        for ax, col in zip(axes, cols_to_plot):
            try:
                sns.boxplot(x=df[col], ax=ax)
                ax.set_title(f'Boxplot de {col}')
                ax.set_xlabel(col)
            except ValueError as e:
                print(f"Erro ao criar boxplot para a coluna '{col}': {e}")
        plt.tight_layout()
        plt.show()
# informações para diagnóstico
print(df.info())
# primeiras colunas do dataframe para ter certeza que foi carregado corretamente
print(df.head())
plot_boxplots_with_outliers(df)

## 1.5.1 Quantidade de outliers por coluna

Após a identificação visual dos outliers utilizando boxplots, é importante quantificar esses outliers em cada coluna numérica. A quantificação dos outliers nos dá uma visão mais clara da extensão dos valores atípicos em nosso dataset, permitindo decisões informadas sobre como lidar com eles. Com isso garantindo a integridade dos modelos preditivos, já que um grande número de outliers pode distorcer os resultados e influenciar negativamente o desempenho dos algoritmos.

Nesta subseção, foi utilizado o método do Intervalo Interquartil (IQR) para identificar e contar a quantidade de outliers presentes em cada coluna numérica do dataset.

In [None]:
for column in df.select_dtypes(include=['number']).columns:
    def identificar_outliers_iqr(coluna):
      Q1 = coluna.quantile(0.25)
      Q3 = coluna.quantile(0.75)
      IQR = Q3 - Q1
      limite_inferior = Q1 - 1.5 * IQR
      limite_superior = Q3 + 1.5 * IQR
      return (coluna < limite_inferior) | (coluna > limite_superior)

# Aplicar a função apenas nas colunas numéricas
outliers = df.select_dtypes(include=[np.number]).apply(identificar_outliers_iqr)

# Contar a quantidade de outliers por coluna
quantidade_outliers = outliers.sum()

# Imprimir o resultado
print(quantidade_outliers)

## 1.6 Tratamento de outliers

Para reduzir o impacto desses outliers sem removê-los completamente, foi utilizado uma técnica chamada **Winsorização**. A Winsorização ajusta os valores dos outliers para que fiquem dentro de limites especificados, permitindo que os dados extremos sejam mantidos, mas com menos influência nas análises.

A Winsorização é utilizada para reduzir a influência de outliers nos dados sem removê-los, substituindo os valores fora de um certo limite por valores próximos ao limite. Isso preserva a integridade dos dados enquanto minimiza o impacto dos outliers extremos.


In [None]:
# Função para aplicar Winsorização
def aplicar_winsorizacao(coluna, limite_inferior=0.05, limite_superior=0.05):
    return winsorize(coluna, limits=(limite_inferior, limite_superior))

# Aplicar a Winsorização nas colunas numéricas
df_winsorizado = df.select_dtypes(include=[np.number]).apply(aplicar_winsorizacao)

# Substituir as colunas originais pelas winsorizadas
df[df_winsorizado.columns] = df_winsorizado

df.to_csv('../../notebooks/data/tratado/matches_tratado.csv', index=False)

# Verificação dos resultados
print("Valores mínimos e máximos depois da Winsorização:")
print(df_winsorizado.min())
print(df_winsorizado.max())

print(df.head())

# 2. Referências

Está é uma seção de referências com relação as bibliotecas que utilizamos ao longo deste arquivo

NUMPY. NumPy Documentation. Disponível em: <https://numpy.org/doc/>.

‌PANDAS. pandas documentation. Disponível em: <https://pandas.pydata.org/docs/>.

MATPLOTLIB. Matplotlib: Python plotting — Matplotlib 3.3.4 documentation. Disponível em: <https://matplotlib.org/stable/index.html>.

‌SEABORN. seaborn: statistical data visualization — seaborn 0.9.0 documentation. Disponível em: <https://seaborn.pydata.org/>.

‌SciPy documentation — SciPy v1.8.1 Manual. Disponível em: <https://docs.scipy.org/doc/scipy/>.

‌PYTHON SOFTWARE FOUNDATION. Math — Mathematical Functions — Python 3.8.3rc1 Documentation. Disponível em: <https://docs.python.org/3/library/math.html>.

‌SCIKIT-LEARN. scikit-learn: machine learning in Python. Disponível em: <https://scikit-learn.org/stable/>.
