# Book 1.1 - Analise Exploratoria e Pré Processamentos

Este notebook serviu como registro prático e teórico no meu aprendizado de Machine Learning.

`Enriqueci este notebook com anotações adicionais e aplicações práticas tornando-o uma referência valiosa para consultas e implementações em futuros projetos reais.`

Espero que este material inspire outros a explorar ainda mais o fascinante mundo do Machine Learning. 

1. **Análise Exploratória de Dados**  
   - Exploração inicial para compreender as características e padrões presentes na base de dados.

2. **Preparação dos Dados**  
   - Aplicação de transformações essenciais para otimizar o desempenho dos modelos:
     - **Normalização de Dados Numéricos**: Ajuste dos valores numéricos para uma escala comum.
     - **Dummificação de Dados Categóricos Não Binários**: Conversão de variáveis categóricas em variáveis dummy (variáveis indicadoras).
     - **Binarização de Dados Categóricos Binários**: Transformação de variáveis categóricas binárias em formato adequado para o modelo.

3. **Divisão dos Dados em Conjuntos de Treino e Teste**  
   - Métodos para dividir os dados:
     - **Divisão Simples**: Separação direta dos dados em treino e teste.
     - **Divisão Estratificada**: Separação dos dados levando em conta as proporções das classes da variavel target.

4. **Treinamento do Modelo de Classificação**  [B1.2]
   - Construção e ajuste de modelos para prever as classes dos dados.

5. **Avaliação do Modelo**  [B1.2]
   - Utilização de métricas de desempenho e da Curva ROC (AUC) para avaliar a eficácia do modelo.


Compartilhar conhecimento é uma alegria—viva ao aprendizado contínuo, boa pratica e bons estudo a quem estiver lendo, abraços!

# Carregamento dos Dados

In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

#ignorando Warning inuteis
import warnings 
from pandas.errors import SettingWithCopyWarning
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)
warnings.filterwarnings(action='ignore', category=FutureWarning)
warnings.simplefilter(action='ignore', category=UserWarning)

pd.set_option('display.max_info_columns', 500)
pd.set_option('display.max_info_rows', 500)

In [2]:
import requests

arquivo = 'fake_database'
url = "https://raw.githubusercontent.com/GabrielGabes/functions_gsa/main/" + arquivo + ".py"
response = requests.get(url)
code = response.text
exec(code)
df = fake_database2()
display(df.head())

arquivo = 'funcoes_estatisticas'
url = "https://raw.githubusercontent.com/GabrielGabes/functions_gsa/main/" + arquivo + ".py"
response = requests.get(url)
code = response.text
exec(code)
print('TUDO OK')

Unnamed: 0,x_num0,x_num1,x_num2,x_num3,x_num4,x_num5,x_num6,x_num7,x_num8,x_num9,...,x_bin0,x_bin1,x_bin2,x_bin3,x_bin4,x_cat0,x_cat1,x_cat2,x_cat_0,x_cat_1
0,4.875997,-1.491729,2.491069,1.874948,-0.000381,1.478758,3.972563,0.230329,5.149503,0.595726,...,sim,não,sim,não,sim,A,B,A,C,D
1,3.750108,-0.510656,-0.462908,0.928715,0.496968,-0.995687,2.219878,-1.951839,0.335021,-0.071709,...,não,não,não,sim,não,B,B,C,C,B
2,1.915908,2.793605,2.989653,1.743696,-0.213394,-0.274895,0.106642,1.605156,2.169961,-1.126328,...,sim,sim,sim,não,sim,C,A,C,B,C
3,3.575351,2.779022,4.928382,3.046386,-1.832086,-2.961492,1.171947,1.044997,3.281876,-1.733729,...,não,não,não,sim,não,B,A,A,D,D
4,4.812294,0.316227,0.704474,0.908321,0.050424,-2.080064,2.597434,-1.643092,-0.138313,-1.498914,...,sim,não,não,não,não,A,B,A,D,B


TUDO OK


# Analises Iniciais

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column   Dtype  
---  ------   -----  
 0   x_num0   float64
 1   x_num1   float64
 2   x_num2   float64
 3   x_num3   float64
 4   x_num4   float64
 5   x_num5   float64
 6   x_num6   float64
 7   x_num7   float64
 8   x_num8   float64
 9   x_num9   float64
 10  y        object 
 11  x_bin0   object 
 12  x_bin1   object 
 13  x_bin2   object 
 14  x_bin3   object 
 15  x_bin4   object 
 16  x_cat0   object 
 17  x_cat1   object 
 18  x_cat2   object 
 19  x_cat_0  object 
 20  x_cat_1  object 
dtypes: float64(10), object(11)
memory usage: 164.2+ KB


In [4]:
display(df.describe(include='all'))

Unnamed: 0,x_num0,x_num1,x_num2,x_num3,x_num4,x_num5,x_num6,x_num7,x_num8,x_num9,...,x_bin0,x_bin1,x_bin2,x_bin3,x_bin4,x_cat0,x_cat1,x_cat2,x_cat_0,x_cat_1
count,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,1000.0,...,1000,1000,1000,1000,1000,1000,1000,1000,1000,1000
unique,,,,,,,,,,,...,2,2,2,2,2,3,3,3,4,4
top,,,,,,,,,,,...,sim,não,sim,não,não,B,B,A,C,A
freq,,,,,,,,,,,...,507,506,523,504,517,478,506,349,262,272
mean,0.373174,-0.541882,0.562408,0.129762,-0.437947,-0.21443,0.570959,0.032212,0.634909,-0.015363,...,,,,,,,,,,
std,3.64737,2.548695,2.20444,1.824277,1.514773,2.223698,1.791882,1.704247,3.257973,1.636706,...,,,,,,,,,,
min,-10.204761,-9.394415,-7.253433,-6.424158,-5.150128,-6.930263,-4.477678,-6.070341,-9.850075,-5.977606,...,,,,,,,,,,
25%,-2.186816,-2.288441,-0.805367,-1.106714,-1.548526,-1.588163,-0.684286,-1.162802,-1.301229,-1.23484,...,,,,,,,,,,
50%,0.072133,-0.422179,0.703392,0.069086,-0.508409,-0.028795,0.510706,0.024088,1.097662,0.133894,...,,,,,,,,,,
75%,2.758995,1.228562,1.971074,1.43329,0.5104,1.339017,1.909531,1.218243,2.768943,1.094207,...,,,,,,,,,,


In [5]:
import plotly.express as px

import scipy.stats as stats
from scipy.stats import chi2_contingency

In [6]:
# Variavel Dependente
var_dep = 'y'
px.histogram(df, x=var_dep, text_auto=True, color=var_dep)

for coluna in df.columns:
    if df[coluna].dtype == 'O':
        print('='*15, coluna, '='*15)
        fig = px.histogram(df, x=coluna, text_auto=True, color=coluna)
        fig.show()
    elif df[coluna].dtype == 'int64' or df[coluna].dtype == 'float64':
        fig = px.box(df, x=coluna)
        fig.show()

In [7]:
# Iterando analise grafico e teste de hipotese para todas colunas
coluna_p_menor_05 = []

for coluna in df.columns:
    if df[coluna].dtype == 'O':
        
        tabela_contingencia = pd.crosstab(df[var_dep], df[coluna])
        chi2, p, dof, expected = chi2_contingency(tabela_contingencia)
        print('P-value:', round(p,4))
        
        fig = px.histogram(df, x=coluna, text_auto=True, color=var_dep, barmode='group')
        fig.show()

        if p < 0.10:
            coluna_p_menor_05.append(coluna)

P-value: 0.0


P-value: 0.0


P-value: 0.0


P-value: 0.0


P-value: 0.5685


P-value: 1.0


P-value: 0.0


P-value: 0.0


P-value: 0.4579


P-value: 0.0


P-value: 0.9121


In [8]:
for coluna in df.columns:
    if df[coluna].dtype == 'int64' or df[coluna].dtype == 'float64':
        grupos = df.groupby(var_dep)[coluna].apply(list)
        
        if len(df[var_dep].unique()) == 2:
            # Extração dos grupos para aplicação do teste de Mann-Whitney
            grupo1, grupo2 = grupos
            stat, p_value_mw = stats.mannwhitneyu(grupo1, grupo2)
            print('P-value (Mann-Whitney):', round(p_value_mw, 4))

            # Aplicação do teste T de Student se os dados parecem seguir uma distribuição normal
            stat, p_value_t = stats.ttest_ind(grupo1, grupo2)
            print('P-value (Teste T):', round(p_value_t, 4))

            if p_value_mw < 0.05 or p_value_t < 0.05:
                coluna_p_menor_05.append(coluna)

        elif len(df[var_dep].unique()) > 2:
            # Aplicando o teste ANOVA
            f_value, p_value_kk = stats.f_oneway(*grupos)
            print('P-value (Kruskal-Wallis):', round(p_value_kk, 4))
            
            # Aplicando o teste de Kruskal-Wallis
            kruskal_stat, p_value_anova = stats.kruskal(*grupos)
            print('P-value (Anova):', round(p_value_anova, 4))
            
            if p_value_kk < 0.05 or p_value_anova < 0.05:
                coluna_p_menor_05.append(coluna)
    
        fig = px.violin(df, x=coluna, y=var_dep, color=var_dep, box=True, points="all", hover_data=df.columns)
        #px.box(df, x=coluna, y=var_dep, color=var_dep)
        fig.show()

P-value (Mann-Whitney): 0.0153
P-value (Teste T): 0.006


P-value (Mann-Whitney): 0.0
P-value (Teste T): 0.0


P-value (Mann-Whitney): 0.0
P-value (Teste T): 0.0


P-value (Mann-Whitney): 0.5095
P-value (Teste T): 0.8758


P-value (Mann-Whitney): 0.0
P-value (Teste T): 0.0


P-value (Mann-Whitney): 0.0313
P-value (Teste T): 0.0014


P-value (Mann-Whitney): 0.0
P-value (Teste T): 0.0


P-value (Mann-Whitney): 0.4121
P-value (Teste T): 0.8327


P-value (Mann-Whitney): 0.0003
P-value (Teste T): 0.0


P-value (Mann-Whitney): 0.6974
P-value (Teste T): 0.3265


In [9]:
coluna_p_menor_05

['y',
 'x_bin0',
 'x_bin1',
 'x_bin2',
 'x_cat0',
 'x_cat1',
 'x_cat_0',
 'x_num0',
 'x_num1',
 'x_num2',
 'x_num4',
 'x_num5',
 'x_num6',
 'x_num8']

In [10]:
if var_dep in coluna_p_menor_05:
    coluna_p_menor_05.remove(var_dep)

In [11]:
x = df[coluna_p_menor_05]
y = df[var_dep]

# Transformando Variaveis

## Dummyrização

In [12]:
x.info()

colunas_categoricas = []
colunas_binarias = []
colunas_mais3_categorias = []

for coluna in x.columns:
    if df[coluna].dtype == 'O':
        categorias = x[coluna].unique()
        if len(categorias) == 2:
            print('2 niveis:', coluna, '=>', categorias)
            colunas_categoricas.append(coluna)
            colunas_binarias.append(coluna)
        else:
            print('3 niveis:', coluna, '=>', categorias)
            colunas_categoricas.append(coluna)
            colunas_mais3_categorias.append(coluna)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column   Dtype  
---  ------   -----  
 0   x_bin0   object 
 1   x_bin1   object 
 2   x_bin2   object 
 3   x_cat0   object 
 4   x_cat1   object 
 5   x_cat_0  object 
 6   x_num0   float64
 7   x_num1   float64
 8   x_num2   float64
 9   x_num4   float64
 10  x_num5   float64
 11  x_num6   float64
 12  x_num8   float64
dtypes: float64(7), object(6)
memory usage: 101.7+ KB
2 niveis: x_bin0 => ['sim' 'não']
2 niveis: x_bin1 => ['não' 'sim']
2 niveis: x_bin2 => ['sim' 'não']
3 niveis: x_cat0 => ['A' 'B' 'C']
3 niveis: x_cat1 => ['B' 'A' 'C']
3 niveis: x_cat_0 => ['C' 'B' 'D' 'A']


In [13]:
from sklearn.compose import make_column_transformer
from sklearn.preprocessing import OneHotEncoder #transformando colunas com 2 categorias em 0 e 1

coluna = x.columns
one_hot = make_column_transformer((
    OneHotEncoder(drop='if_binary'), #caso a coluna tenha apenas 2 categorias 
    colunas_categoricas), #passando quais são essas colunas
    remainder = 'passthrough', sparse_threshold=0) #oque deve ser feito com as outras

#Aplicando transformação
x = one_hot.fit_transform(x)

#Os novos nomes das colunas #'onehotencoder=transformadas; 'remainder'=não transformadas
novos_nomes_colunas = one_hot.get_feature_names_out(coluna)

x = pd.DataFrame(x, columns = novos_nomes_colunas) #alterando de volta
x_columns = x.columns.tolist() 
x.head()

Unnamed: 0,onehotencoder__x_bin0_sim,onehotencoder__x_bin1_sim,onehotencoder__x_bin2_sim,onehotencoder__x_cat0_A,onehotencoder__x_cat0_B,onehotencoder__x_cat0_C,onehotencoder__x_cat1_A,onehotencoder__x_cat1_B,onehotencoder__x_cat1_C,onehotencoder__x_cat_0_A,onehotencoder__x_cat_0_B,onehotencoder__x_cat_0_C,onehotencoder__x_cat_0_D,remainder__x_num0,remainder__x_num1,remainder__x_num2,remainder__x_num4,remainder__x_num5,remainder__x_num6,remainder__x_num8
0,1.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,4.875997,-1.491729,2.491069,-0.000381,1.478758,3.972563,5.149503
1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,3.750108,-0.510656,-0.462908,0.496968,-0.995687,2.219878,0.335021
2,1.0,1.0,1.0,0.0,0.0,1.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,1.915908,2.793605,2.989653,-0.213394,-0.274895,0.106642,2.169961
3,0.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,3.575351,2.779022,4.928382,-1.832086,-2.961492,1.171947,3.281876
4,1.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,4.812294,0.316227,0.704474,0.050424,-2.080064,2.597434,-0.138313


### Normalização

In [14]:
from sklearn.preprocessing import MinMaxScaler
normalizacao = MinMaxScaler()
x = normalizacao.fit_transform(x)

#df['Close_padronizada'] = (df[coluna] - df[coluna].mean()) / df[coluna].std()
#df['Close_normalizada'] = (df[coluna] - df[coluna].min()) / (df[coluna].max() - df[coluna].min())

## Dependente

In [15]:
# DEFININDO VARIAVEL DEPENDENTE
from sklearn.preprocessing import LabelEncoder
y = LabelEncoder().fit_transform(y)

# Dividindo a Base em Treino e Teste 

In [16]:
from sklearn.model_selection import train_test_split
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, 
                                                    stratify = y, #para manter a proporção da Var Dep nos splits
                                                    random_state = 5) #raiz da aleatoridade
# test_size = 0.25 #porcentagem que ira ser separado para testes

x_treino.shape, x_teste.shape
y_treino.shape, y_teste.shape

((750,), (250,))

# FIM