<a id="atributes"></a>
### **1. Reconhecimento de Atributos**

Esta etapa consiste no entendimento do dataset de modo geral, relacionando suas dimensões, seus exemplos, representando os registros e entradas, e atributos, representando suas colunas e características. Os atributos, por sua vez, podem ser investigados quanto ao seu tipo, escala, valores únicos, etc. Para esta etapa, é aconselhável também acessar os dicionários dos dados, caso existam, a fim de ter uma dimensão maior da natureza e detalhes importantes dos dados.

<a id="univariate"></a>
### **2. Análise Univariada**

Esta etapa consiste na descrição dos dados avaliando seus atributos, um por vez. Dessa forma, é possível visualizar as distribuições das variáveis e seus respectivos parâmetros estatísticos que os descrevem.

<a id="multivariate"></a>
### **3. Análise Multivariada**

Esta etapa consiste na descrição dos dados avaliando seus atributos em conjunto. Dessa forma, é possível visualizar correlações entre as variáveis e seus respectivos parâmetros estatísticos que os descrevem.

<a id="aberrant"></a>
### **4. Deteção de Anomalias**

Esta etapa consiste na identificação de anomalias nos dados, seja referente a inconsistência do valor medido (exemplo: idade acima de 300 anos), seja a ausência de um valor. É importante mencionar que a ocorrência sistemática de qualquer anomalia pode estar relacionada ao processo de coleta dos dados, algo que, do ponto de vista estatístico, deve ser analisado cuidadosamente e tratado conforme regras específicas, conforme consta no estado da arte.

<a id="outliers"></a>
### **5. Deteção de Outliers**

Esta etapa consiste na identificação de pontos extremos que podem representar algum tipo de anomalia nos dados e interferir nos parâmetros estatísticos. É importante lembrar que nem sempre um outlier é decorrente de um erro ou anomalia, pois simplesmente pode representar um espaço pouco explorado ou com poucos exemplos à disposição no dataset.

<a id="feature_eng"></a>
### **6. Engenharia de Features**

Esta etapa consiste na transformação e criação de novas características no dataset ou, simplesmente, na diminuição de sua dimensionalidade por meio da seleção das características mais relevantes e as que melhor representam a variância dos dados. Esta etapa está diretamente relacionada com o entendimento da natureza dos dados e do negócio. Porém, vale lembrar que nem sempre esta etapa ocorre dentro da EDA, podendo fazer também parte do pré-processamento.

Observações:

* Uma observação importante nessas etapas é que, em diversos casos, a EDA e o pré-processamento entram num ciclo, onde o que é descoberto em uma etapa é transformado na consequente que, por sua vez, após estas transformações aplicadas, é possível criar novas visualizações e entendimentos complementares sobre os dados originados, novamente na EDA.

* Além disso, as etapas de descoberta de anomalias ou outliers podem ser tratadas ainda na EDA ou, simplesmente, mantidas para que no pré-processamento de dados sejam passadas por uma limpeza e transformação adicionais.

<a id="hands_on_eda"></a>
## **Hands On!**

# Libs

In [None]:
!pip install polars
!pip install geobr geopandas==0.12.2
#!pip uninstall geopandas
#!pip install geopandas==0.12.2

In [2]:
import pandas as pd
import numpy as np

import geobr

# visualização de dados
import matplotlib.pyplot as plt
import seaborn as sns


# set some options in pandas
pd.set_option('display.max_columns', 140)
pd.set_option('display.max_rows', 140)


import warnings
warnings.filterwarnings('ignore')

# Montando o drive

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Load Data

In [4]:
df_raw = pd.read_csv('/content/drive/MyDrive/Bases de Dados/dados_enem_2021_BA.csv')
quest = pd.read_csv('/content/drive/MyDrive/Bases de Dados/dados_enem_2021_BA_questoes_socieconomicas.csv')

# Definindo funções

In [6]:
def gerar_histograma (dataframe,
                      variavel,
                      bins = 30,
                      color = 'red',
                      xlabel = 'Variável',
                      ylabel = 'Frequência',
                      titulo = 'Histograma',
                      fontsize = 15,
                      fontweight = 'bold',
                      figsize = (8, 5)
                      ):
    fig, ax = plt.subplots(figsize = figsize)
    ax.hist(data_frame[variavel], bins = bins,
            color = color)
    ax.set(xlabel = xlabel, ylabel = ylabel)
    ax,set_tittle(titulo, fontsize = fontsize,
                  fontweight = fontweight
                  );


def gerar_painel_barra(dataframe,
                       var,
                       hue,
                       title = '',
                       title_subplot_1 = '',
                       title_subplot_2 = '',
                       legend_subplot_2 = '',
                       xlabel = 'Quantidade',
                       ylabel = '',
                       figsize = (12, 6)
                      ):
    fig, ax = plt.subplots(1, 2, figsize = figsize)
    sns.countplot(data = data_frame,
                  y = var,
                  ax = ax[0])
    sns.countplot(data = dataframe,
                  y = var,
                  hue = hue,
                  ax = ax[1])
    ax[0].set(ylabel = ylabel, xlabel = xlabel, title = title_subplot_1)
    ax[1].set(ylabel = ylabel, xlabel = xlabel, title = title_subplot_2)
    ax[1].legend(title = legend_subplot_2)
    fig.suptitle(title)
    fig.tight_layout(pad = 4)


def box_plot(data, title, xlabel, ylabel, figsize = (12, 5)):
    fig, ax = plt.subplots(figsize = figsize)
    sns.boxplot(data = data, ax = ax)
    ax.set(title = title, xlabel = xlabel, ylabel = ylabel)


def boxplot_por_filtro(filtro, data_frame, order = None):
    'Gera um boxplot com filtro para o eixo x e a variável no eixo y.'
    provas = ['MATEMATICA', 'CIENCIAS_NATUREZA', 'LINGUAGENS', 'HUMANAS', 'REDACAO']
    filtro_tratado = ' '.join(filtro.split('_')).capitalize()

    for prova in provas:
        prova_nome_minusculo = prova.lower()
        fig, ax = plot.subplots(figsize = (15, 5))
        sns.boxplot(x = filtro, y = prova, data = data_frame, ax = ax,
                    order = order)
        ax.set(
              xlabel = filtro_tratado,
              ylabel = f'Nota em {prova_nome_minusculo}',
              title = f'Nota em {prova_nome_minusculo} filtrada por {filtro_tratado}'
        )


def check_missing(df):
    import pandas
    if isinstance(df, pandas.core.frame.DataFrame):
        return (((df.isnull().sum()/df.shape[0])*100).round(2)).sort_values(ascending = False)
    return None


def show_percentage_missing(df):
    import matplotlib.pyplot as plt

    missing = check_missing(df)
    plt.figure(figsize = (10, 20))
    plt.barh(y = missing.index, width = missing.values, color = 'darkgray', height = 0.7, align = 'edge')
    plt.xlabel('% of missing values', size = 10)
    plt.ylabel('Columns', size = 10)
    plt.title('Missing Values', fontdict = {'color':'gray', 'weight':'bold', 'size': 12})
    plt.grid(alpha = 0.5)
    plt.show()


def feature_plot_stat(feature, data):
    fig, ax = plt.subplots(1, 3, figsize = (15, 5))
    fig.suptitle(f'Univariate analysis for {feature}')
    sns.histplot(data[feature], kde = True, ax = ax[0])
    ax[0].set_xlabel('Distribution of '+feature)
    sns.boxplot(y = data[feature], ax = ax[1])
    sns.violinplot(x = data[feature], ax = ax[2])
    fig.tight_layout(pad = 3)


def univariate_analysis(features: list, data = pd.DataFrame):
    for feature in features:
        feature_plot_stat(feature, data)