# Exploração de dados do Arquivo Matches

Este notebook é dedicado na exploração incial da tabela **Matches** fornecida pela IBM, que contém dados detalhados sobre partidas realizadas, incluindo informações sobre os times e seus respectivos resultados. O objetivo deste notebook é facilitar a visualização e a análise desses dados, proporcionando estatísticas essenciais para estudos e pesquisas.

## Objetivo

O objetivo deste notebook é fornecer uma análise detalhada dos dados de partidas, ajudando a identificar padrões e tendências que possam ser úteis para diversas aplicações, como previsões de resultados e desempenho dos times.

## Como Usar Este Notebook

1. **Configuração do Ambiente**:
   - **Google Colab**: No Google Colab, será necessário fazer o upload das tabelas para o Google Drive e montar o drive no notebook.
   - **Localmente**: Se for rodar o notebook localmente, é necessário baixar as tabelas e colocá-las no mesmo diretório do notebook ou ajustar os caminhos dos arquivos conforme necessário.

2. **Instalação de Dependências**:
   - Certifique-se de que todas as bibliotecas necessárias estão instaladas. Você pode instalar as dependências utilizando o seguinte comando:
     ```python
     !pip install -r requirements.txt
     ```

3. **Execução do Notebook**:
   - Siga as células de código sequencialmente para garantir que todas as etapas sejam executadas corretamente. Cada seção do notebook está organizada para facilitar a compreensão e a análise dos dados.

## Nesse Notebook Será Abordado

1. **Exploração de Dados**:
   - Realização de estatísticas descritivas básicas de cada coluna, identificando se cada coluna é numérica ou categórica.
   - Visualização dos dados através de gráficos para entender melhor a distribuição e as relações entre as variáveis.
   - Produção de pelo menos 3 gráficos para visualizar a relação entre variáveis.


# Dependências
Para rodar o notebook de forma local, é recomendado que inicie uma venv (ambiente virtual) e instale as dependências.

Se estiver utilizando o Google Colab, pule esta etapa.

# Importando bibliotecas

Aqui é importado as dependências necessárias para a executação do projeto.

In [1]:
import pandas as pd #para ler, visualizar e printar infos do df
import matplotlib.pyplot as plt #para construir e customizar gráficos
import seaborn as sns #para visualizar uns gráficos
import numpy as np #numpy porque é sempre bom importar numpy
import math #para executar operações matemáticas
from scipy.stats.mstats import winsorize #para realizar a winsorização
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder #para realizar o pré-processamento de dados

# Carregando o dataset

Feita a importação do arquivo para leitura dos dados.

In [2]:
df = pd.read_csv('../../notebooks/data/matches_nao_tratado.csv', sep=',')

# 1. Análise Exploratória de dados

A Análise Exploratória de Dados (AED) é uma área na ciência de dados utilizada para examinar e investigar conjuntos de dados através de técnicas estatísticas e de visualização. O objetivo principal da AED é facilitar o entendimento, a navegação e o uso dos dados, permitindo que padrões, anomalias e relações entre variáveis sejam identificados de maneira eficiente. No contexto deste projeto, a AED será aplicada para obter estatísticas iniciais que orientarão as etapas subsequentes da análise de dados, como o pré-processamento e a formulação de hipóteses.

Nesta etapa, serão realizadas as seguintes atividades:
- **Informações gerais**: Coleta e apresentação de informações básicas sobre o conjunto de dados.
- **Identificação das colunas numéricas e categóricas**: Classificação das variáveis do conjunto de dados em numéricas e categóricas, facilitando a aplicação de técnicas estatísticas apropriadas para cada tipo.
- **Estatística descritiva das colunas**: Cálculo de medidas estatísticas como média, mediana, desvio padrão, entre outras, para resumir as características principais das variáveis numéricas e categóricas.

## 1.1 Visualização e exploração de dados

Nesta subseção, será abordado as técnicas e métodos utilizados para a visualização e exploração inicial dos dados. Através dessas técnicas, é possível obter uma compreensão preliminar da estrutura e das características do conjunto de dados, o que é essencial para orientar as etapas subsequentes da análise.


Utilizando o comando `shape` abaixo, se observa que há 380 linhas e 57 colunas a serem tratadas.

In [None]:
df.shape #para obter quantidade de linhas e colunas

Com o método `.info()` consegue se obter informações detalhadas sobre o DataFrame. Especificamente, ele permite analisar os tipos de variáveis presentes no conjunto de dados.

- **Identificação de colunas com variáveis numéricas**: Observando os tipos de dados associados a essas colunas, como valores inteiros (`int64`) e de ponto flutuante (`float64`), que são indicativos de variáveis numéricas.
- **Identificação de colunas com variáveis categóricas**: Analisando os tipos de dados (`object` ou `category`) e a quantidade de valores únicos em cada coluna, que geralmente indicam variáveis categóricas.

Dessa forma foi observado que a tabela tem 8 colunas categóricas e 49 numéricas. Informações importantes para o pré-processamento, onde irá ocorrer uma codificação transformando essas colunas categóricas em numéricas.

In [None]:
df.info() #para obter informações do dataframe

O método `.describe()` é utilizado para fornecer um resumo estatístico detalhado das variáveis numéricas. Ao utilizar o `.describe()`, obtemos informações como a média, desvio padrão, valores mínimo e máximo, além dos quartis. Com esses dados é possível entender a distribuição e a variabilidade dos dados, ajudando a identificar padrões, tendências, valores nulos e possíveis *outliers*. Portanto, com esse resumo fica mais prático e rápido na etapa de pré-processamento.


In [None]:
df.describe() #para obter estatísticas descritivas

## 1.2 Valores Nulos

Aqui é feita a verificação de valores nulos no DataFrame utilizando o método `isnull().sum()`. Este método permite contar a quantidade de valores NaN (Not a Number) em cada coluna, facilitando a identificação de colunas que necessitam de tratamento para lidar com dados ausentes.

In [None]:
df.isnull().sum() #para ver contagem de valores NaN

Além disso, é importante verificar a presença de linhas duplicadas no DataFrame. Utilizamos o método `duplicated()` para identificar essas linhas, garantindo que cada entrada no conjunto de dados seja única e evitando redundâncias que possam distorcer a análise.

In [None]:
df[df.duplicated(keep='first')] # para identificar linhas duplicadas


Nas células anteriores foi observado que os valores nulos só se encontram nas colunas categóricas e não nas numéricas. Além disso, não há linhas duplicadas no conjunto de dados.

A presença de valores nulos nas colunas categóricas requer um tratamento específico, que pode incluir a imputação de valores ou a exclusão das linhas afetadas, dependendo do contexto e da importância dessas colunas para a análise. A ausência de valores nulos nas colunas numéricas simplifica o pré-processamento dessas variáveis, permitindo uma análise mais direta.

Após a análise das colunas categóricas e numéricas será decidido se os valores nulos serão excluídos ou imputados.

## 1.3 Identificação e Seleção de Colunas

Nesta seção, é realizado a identificação das colunas presentes no dataset, classificando-as em numéricas e categóricas. Essa é uma etapa importante para direcionar as próximas análises, permitindo que possamos aplicar técnicas de estatística descritiva adequadas para cada tipo de dado e preparar as colunas corretamente para o pré-processamento.

O código abaixo realiza essa divisão entre colunas categóricas e numéricas.

In [None]:
# Identificação das colunas
columns_info = df.dtypes

# Obtém os tipos de dados de todas as colunas do DataFrame 'df' e armazena na variável 'columns_info'.
# Seleciona todas as colunas do DataFrame 'df' que têm tipos de dados numéricos e armazena os nomes dessas colunas em uma lista chamada 'numerical_cols'.
numerical_cols = df.select_dtypes(include=[np.number]).columns.tolist()

# Seleciona todas as colunas do DataFrame 'df' que não têm tipos de dados numéricos e armazena os nomes dessas colunas em uma lista chamada 'categorical_cols'.
categorical_cols = df.select_dtypes(exclude=[np.number]).columns.tolist()

# Imprime a lista de colunas numéricas.
print(f"Colunas Numéricas: {numerical_cols}")

# Imprime a lista de colunas categóricas.
print(f"Colunas Categóricas: {categorical_cols}")


 A partir dessa divisão, foi realizada uma análise crítica para determinar quais colunas seriam mantidas no modelo preditivo e quais seriam excluídas, com base em sua relevância e potencial impacto nos resultados.

### Colunas Categóricas

As colunas categóricas foram analisadas para determinar sua utilidade no modelo. Decidimos manter aquelas que apresentam informações relevantes para a previsão, como o nome dos times e o status das partidas. Colunas que não fornecem valor direto para a análise, como datas e nomes de estádios, foram excluídas, ficando 2 categóricas.

### Colunas Numéricas

As colunas numéricas também passaram por uma avaliação cuidadosa. Mantivemos aquelas que contribuem diretamente para a análise preditiva, como dados de desempenho dos times e estatísticas de jogo. Algumas colunas foram consideradas redundantes ou irrelevantes, como contagens acumulativas ou identificadores temporais, e foram removidas do dataset, ficando 33 numéricas.

### Resumo do Dataset

A tabela abaixo resume a quantidade de colunas numéricas e categóricas que foram identificadas e mantidas para análise:

| Dataset  | Colunas Numéricas | Colunas Categóricas |
|----------|-------------------|---------------------|
| Matches  | 33                | 2                   |

Após essa filtragem, o dataset ficou mais enxuto e focado, o que nos permitirá conduzir análises mais precisas e relevantes nas etapas subsequentes.


## 1.4 Adicionando nova variável

Para enriquecer a exploração dos dados e permitir análises mais detalhadas, foi criada uma nova variável que agrega informações essenciais sobre o desempenho das equipes durante as partidas. Essas variáveis sintetizam diferentes aspectos do jogo, facilitando a identificação de padrões e a realização de previsões.




In [9]:
df['result'] = np.where(df['home_team_goal_count'] > df['away_team_goal_count'], 'home_win',
                           np.where(df['home_team_goal_count'] < df['away_team_goal_count'], 'away_win', 'tie'))

df.to_csv('../../notebooks/data/matches_nao_tratado.csv', index=False)

### Criação da Variável

- **Resultado da Partida (`result`)**: Foi criada uma nova coluna que indica o resultado da partida, classificando-o como `home_win` (vitória do time da casa), `away_win` (vitória do time visitante), ou `tie` (empate). Essa variável será fundamental para explorar as condições que levam a um time vencer ou empatar.


### Utilização da Variável

Essa nova variável foi adicionadas ao modelo com o objetivo de ampliar o escopo das análises exploratórias, permitindo uma investigação mais profunda sobre os fatores que impactam os resultados das partidas. Com essas adições, a análise fica mais aprofundada para identificar relações complexas entre diferentes aspectos do jogo.

## 1.5 Gráficos

Para ilustrar melhor a exploração de dados, foram feitos dois gráficos:

#### Quantidade de gols marcados pelo time da casa 

Mostrar a distribuição de uma variável numérica específica, como a quantidade de gols marcados pelo time da casa.

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(df['home_team_goal_count'], bins=10, kde=True)
plt.title('Distribuição dos Gols Marcados pelo Time da Casa')
plt.xlabel('Gols Marcados')
plt.ylabel('Frequência')
plt.show()


#### Comparação de resultados dos times

Comparar a frequência de resultados categóricos das colunas home_win, away_win, tie.

In [None]:
plt.figure(figsize=(10, 6))
sns.countplot(x='result', data=df)
plt.title('Distribuição dos Resultados das Partidas')
plt.xlabel('Resultado')
plt.ylabel('Frequência')
plt.show()


# 2. Referências

Está é uma seção de referências com relação as bibliotecas que utilizamos ao longo deste arquivo

NUMPY. NumPy Documentation. Disponível em: <https://numpy.org/doc/>.

‌PANDAS. pandas documentation. Disponível em: <https://pandas.pydata.org/docs/>.

MATPLOTLIB. Matplotlib: Python plotting — Matplotlib 3.3.4 documentation. Disponível em: <https://matplotlib.org/stable/index.html>.

‌SEABORN. seaborn: statistical data visualization — seaborn 0.9.0 documentation. Disponível em: <https://seaborn.pydata.org/>.

‌SciPy documentation — SciPy v1.8.1 Manual. Disponível em: <https://docs.scipy.org/doc/scipy/>.

‌PYTHON SOFTWARE FOUNDATION. Math — Mathematical Functions — Python 3.8.3rc1 Documentation. Disponível em: <https://docs.python.org/3/library/math.html>.

‌SCIKIT-LEARN. scikit-learn: machine learning in Python. Disponível em: <https://scikit-learn.org/stable/>.
