# <center>Regress√£o Linear - Previs√£o de IMC

 Legendas:
   * <code style="color:green">Teoria/Instru√ß√µes</code>
   * <code style="color:purple">Coment√°rios</code>
   * <code style="color:red">D√∫vidas a serem esclarecidas</code>

### <center>Importando Bibliotecas

In [None]:
import pandas as pd # importando a biblioteca de manipula√ß√£o de dados
import statsmodels.api as sm # biblioteca para a regress√£o log√≠stica
import numpy as np # biblioteca para calculo
from matplotlib import pyplot as plt # importando a biblioteca de visualiza√ß√£o de dados 
import seaborn as sns# importando a biblioteca de visualiza√ß√£o de dados 
from tabulate import tabulate # biblioteca para estilizar tabelas
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # fun√ß√µes de erro
from statsmodels.stats.outliers_influence import variance_inflation_factor # fun√ß√µes para calcular o vif
import scipy.stats as stats # biblioteca para modelagem
import pylab # biblioteca para o qqplot
from statsmodels.stats.diagnostic import het_breuschpagan # fun√ß√£o para o teste de breusch-pagan
from scipy.stats import shapiro # teste de normalidade
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
import statsmodels.formula.api as smf
from sklearn.feature_selection import RFE
from sklearn.ensemble import RandomForestRegressor

### <center>Fun√ß√µes para sele√ß√£o de vari√°veis utilizando m√©todos backward, forward e stepwise:

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o forward stepwise com base no p-valor das vari√°veis independentes.
# A cada passo, adiciona a vari√°vel independente com o menor p-valor ao modelo, desde que o p-valor 
# seja menor que o n√≠vel de signific√¢ncia especificado.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# - signif: N√≠vel de signific√¢ncia para a inclus√£o das vari√°veis (por exemplo, 0.05).
# Retorna: DataFrame contendo as vari√°veis selecionadas e seus respectivos p-valores.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_pvalor_forward(var_dependente, var_independente, base, signif):

    preditoras = []
    pvalor_preditoras = []
    Y = base[var_dependente]
    while True and var_independente != [] :
        lista_pvalor = []
        lista_variavel = []
        for var in var_independente:
            X = sm.add_constant(base[ [var] +  preditoras ])
            
            modelo = sm.OLS(Y,X).fit()
            
            if( preditoras == []):
    
                pvalor = modelo.pvalues[1]
                variavel = modelo.pvalues.index[1]
            
            else:
                pvalor = modelo.pvalues.drop(preditoras)[1]
                variavel = modelo.pvalues.drop(preditoras).index[1]
                
            lista_pvalor.append(pvalor)
            lista_variavel.append(variavel)          
        
        if( lista_pvalor[ np.argmin(lista_pvalor) ] < signif ):
            preditoras.append( lista_variavel[np.argmin(lista_pvalor)] )
            pvalor_preditoras.append(lista_pvalor[ np.argmin(lista_pvalor) ])
            var_independente.remove( lista_variavel[ np.argmin(lista_pvalor)] )
        else:
            break
    info_final = pd.DataFrame({ 'var': preditoras, 'pvalor': pvalor_preditoras})
    return info_final

# Exemplo de uso
# colunas_pvalor = selecionar_pvalor_forward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat, signif=0.05)
# colunas_pvalor

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o forward stepwise com base no crit√©rio de informa√ß√£o de Akaike (AIC).
# A cada passo, adiciona a vari√°vel independente que minimiza o AIC ao modelo.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# Retorna: DataFrame contendo as combina√ß√µes de vari√°veis selecionadas e seus respectivos AICs, 
# ordenados do menor para o maior AIC.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_aic_forward(var_dependente, var_independente, base):
    
    preditoras = []
    aic_preditoras = []
    Y = base[var_dependente]
    lista_final = []
    aic_melhor = float('inf')
    
    while True and var_independente != []:
        lista_aic = []
        lista_variavel = []
        lista_modelos =[]
        if(var_independente == []):
            break
        for var in var_independente:
            X = sm.add_constant(base[ [var] +  preditoras ])
            aic = sm.OLS(Y,X).fit().aic
            variavel = var
                
            lista_aic.append(aic)
            
            lista_variavel.append(var)
            
            lista_modelos.append( [var] +  preditoras )
            
        if( lista_aic[ np.argmin(lista_aic) ] < aic_melhor ):
            
            lista_final.append(lista_modelos[ np.argmin(lista_aic)]  )
            
            preditoras.append( lista_variavel[np.argmin(lista_aic)] )
            
            aic_preditoras.append(lista_aic[ np.argmin(lista_aic) ])
            
            var_independente.remove( lista_variavel[ np.argmin(lista_aic)] )
            
            aic_melhor = lista_aic[ np.argmin(lista_aic) ] 
            
        else:
            break
        
    info_final = pd.DataFrame({ 'var': lista_final, 'aic': aic_preditoras}).sort_values(by = 'aic')
    return info_final

# Exemplo de uso
# colunas_aic = selecionar_aic_forward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat)
# colunas_aic

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o forward stepwise com base no crit√©rio de informa√ß√£o bayesiano (BIC).
# A cada passo, adiciona a vari√°vel independente que minimiza o BIC ao modelo.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# Retorna: DataFrame contendo as combina√ß√µes de vari√°veis selecionadas e seus respectivos BICs, 
# ordenados do menor para o maior BIC.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_bic_forward(var_dependente, var_independente, base):
    
    preditoras = []
    bic_preditoras = []
    Y = base[var_dependente]
    lista_final = []
    bic_melhor = float('inf')
    
    while True and var_independente != []:
        lista_bic = []
        lista_variavel = []
        lista_modelos =[]
        if(var_independente == []):
            break
        for var in var_independente:
            X = sm.add_constant(base[ [var] +  preditoras ])
            bic = sm.OLS(Y,X).fit().bic
            variavel = var
                
            lista_bic.append(bic)
            
            lista_variavel.append(var)
            
            lista_modelos.append( [var] +  preditoras )
            
        if( lista_bic[ np.argmin(lista_bic) ] < bic_melhor ):
            
            lista_final.append(lista_modelos[ np.argmin(lista_bic)]  )
            
            preditoras.append( lista_variavel[np.argmin(lista_bic)] )
            
            bic_preditoras.append(lista_bic[ np.argmin(lista_bic) ])
            
            var_independente.remove( lista_variavel[ np.argmin(lista_bic)] )
            
            aic_melhor = lista_bic[ np.argmin(lista_bic) ] 
            
        else:
            break
        
    info_final = pd.DataFrame({ 'var': lista_final, 'bic': bic_preditoras}).sort_values(by = 'bic')
    return info_final

# Exemplo de uso
# colunas_bic = selecionar_bic_forward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat)
# colunas_bic

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o backward stepwise com base no p-valor das vari√°veis independentes.
# A cada passo, remove a vari√°vel independente com o maior p-valor do modelo, 
# desde que seja maior que o n√≠vel de signific√¢ncia especificado.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# - signif: N√≠vel de signific√¢ncia para a remo√ß√£o das vari√°veis (por exemplo, 0.05).
# Retorna: DataFrame contendo as vari√°veis restantes ap√≥s a sele√ß√£o backward.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_pvalor_backward(var_dependente, var_independente, base, signif):
    Y = base[var_dependente]
    
    while True and var_independente != []:
        
        X_geral = sm.add_constant(base[var_independente])
        
        modelo = sm.OLS(Y,X_geral).fit()
        
        pvalor_geral = modelo.pvalues
        
        variavel_geral = modelo.pvalues.index
        
        if(pvalor_geral[ np.argmax(pvalor_geral) ] > signif ):
            var_independente.remove( variavel_geral[ np.argmax(pvalor_geral) ] )
        else:
            break
    
    
    
    info_final = pd.DataFrame({ 'var': var_independente})
    return info_final

# Exemplo de uso
# colunas_pvalor_back = selecionar_pvalor_backward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat, signif=0.05)
# colunas_pvalor_back

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o backward stepwise com base no crit√©rio de informa√ß√£o de Akaike (AIC).
# A cada passo, remove a vari√°vel que minimiza o AIC, desde que a remo√ß√£o resulte em um AIC menor do que o modelo atual.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# Retorna: DataFrame contendo as combina√ß√µes de vari√°veis selecionadas e seus respectivos AICs, 
# ordenados do menor para o maior AIC.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_aic_backward(var_dependente, var_independente, base):
    Y = base[var_dependente]
    
    preditoras_finais = []
    
    aic_final = []
    
    while True and var_independente != []:
        
        lista_aic = []
        lista_preditoras = []

        X_geral = sm.add_constant(base[var_independente])
        
        aic_geral = sm.OLS(Y,X_geral).fit().aic
    
        aic_final.append(aic_geral)
        
        preditoras_finais.append(base[var_independente].columns.to_list())
        
        for var in var_independente:
            
            lista_variaveis = var_independente.copy()
            lista_variaveis.remove(var)
            
            X = sm.add_constant(base[ lista_variaveis ])
            aic = sm.OLS(Y,X).fit().aic    
            
            lista_aic.append(aic)
            
            lista_preditoras.append(var)
            
        if(lista_aic[ np.argmin(lista_aic) ] < aic_geral ):
            var_independente.remove( lista_preditoras[ np.argmin(lista_aic) ] )
            
        else:
            break
    
    
    info_final = pd.DataFrame({ 'var': preditoras_finais, 'aic':aic_final }).sort_values(by = 'aic')
    return info_final

# Exemplo de uso
# colunas_aic_back = selecionar_aic_backward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat)
# colunas_aic_back

In [None]:
# Esta fun√ß√£o realiza uma sele√ß√£o backward stepwise com base no crit√©rio de informa√ß√£o bayesiano (BIC).
# A cada passo, remove a vari√°vel que minimiza o BIC, desde que a remo√ß√£o resulte em um BIC menor do que o modelo atual.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# Retorna: DataFrame contendo as combina√ß√µes de vari√°veis selecionadas e seus respectivos BICs, 
# ordenados do menor para o maior BIC.
# criada por Mateus Rocha - time ASN.Rocks

def selecionar_bic_backward(var_dependente, var_independente, base):
    Y = base[var_dependente]
    
    preditoras_finais = []
    
    bic_final = []
    
    while True and var_independente != []:
        
        lista_bic = []
        lista_preditoras = []

        X_geral = sm.add_constant(base[var_independente])
        
        bic_geral = sm.OLS(Y,X_geral).fit().bic
    
        bic_final.append(bic_geral)
        
        preditoras_finais.append(base[var_independente].columns.to_list())
        
        for var in var_independente:
            
            lista_variaveis = var_independente.copy()
            lista_variaveis.remove(var)
            
            X = sm.add_constant(base[ lista_variaveis ])
            bic = sm.OLS(Y,X).fit().bic    
            
            lista_bic.append(bic)
            
            lista_preditoras.append(var)
            
        if(lista_bic[ np.argmin(lista_bic) ] < bic_geral ):
            var_independente.remove( lista_preditoras[ np.argmin(lista_bic) ] )
            
        else:
            break
    
    
    info_final = pd.DataFrame({ 'var': preditoras_finais, 'bic':bic_final }).sort_values(by = 'bic')
    return info_final

# Exemplo de uso
# colunas_bic_back = selecionar_bic_backward(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat)
# colunas_bic_back

In [None]:
# Esta fun√ß√£o realiza a sele√ß√£o stepwise de vari√°veis, usando os m√©todos forward e backward 
# com base em uma m√©trica espec√≠fica (AIC, BIC ou p-valor).
# O processo consiste em primeiro aplicar a sele√ß√£o forward com a m√©trica escolhida e, 
# em seguida, a backward, ajustando o modelo at√© que a diferen√ßa entre as m√©tricas seja menor 
# que um valor de toler√¢ncia (epsilon).
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# - metrica: A m√©trica a ser usada no processo de sele√ß√£o (pode ser 'aic', 'bic', ou 'pvalor').
# - signif: N√≠vel de signific√¢ncia usado para a sele√ß√£o por p-valor (padr√£o 0.05).
# - epsilon: Diferen√ßa m√≠nima aceit√°vel entre as m√©tricas forward e backward para parar o processo (padr√£o 0.0001).
# Retorna: DataFrame contendo as vari√°veis selecionadas e suas respectivas m√©tricas (AIC, BIC ou p-valor), 
# dependendo da m√©trica usada.
# criada por Mateus Rocha - time ASN.Rocks

def stepwise( var_dependente , var_independente , base, metrica, signif = 0.05, epsilon = 0.0001):
    
    lista_var = var_independente
    
    metrica_forward = 0
    
    metrica_backward = 0
    
    while True:
    
        if(metrica == 'aic'):
            resultado = selecionar_aic_forward(var_dependente = var_dependente, var_independente = var_independente, base = base)

            if (len(resultado) == 1):
                return resultado
            
            resultado_final = selecionar_aic_backward(var_dependente = var_dependente, var_independente = resultado['var'].to_list()[0], base = base)

            if(len(resultado_final) == 1):
                return resultado_final

            metrica_forward = resultado['aic'].to_list()[0]

            metrica_backward = resultado_final['aic'].to_list()[0]


        elif(metrica == 'bic'):
            resultado = selecionar_bic_forward(var_dependente = var_dependente, var_independente = var_independente, base = base)

            if (len(resultado) == 1):
                return resultado

            resultado_final = selecionar_bic_backward(var_dependente = var_dependente, var_independente = resultado['var'].to_list()[0], base = base)

            if(len(resultado_final) == 1):
                return resultado_final

            metrica_forward = resultado['bic'].to_list()[0]

            metrica_backward = resultado_final['bic'].to_list()[0]

        elif(metrica == 'pvalor'):
            resultado = selecionar_pvalor_forward(var_dependente = var_dependente, var_independente = var_independente, base = base, signif = signif)

            if (len(resultado) == 1):
                return resultado

            resultado_final = selecionar_pvalor_backward(var_dependente = var_dependente, var_independente = resultado['var'].to_list(), base = base, signif = signif)

            if(len(resultado_final) == 1):
                return resultado_final

            return resultado_final

        if( abs(metrica_forward - metrica_backward) < epsilon ):
            break
        else:
            var_independente = set(resultado_final['var'].to_list() + lista_var)

# Exemplo de uso
# colunas_stepwise = stepwise(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat, metrica='aic', signif=0.05)
# colunas_stepwise

In [None]:
# Esta fun√ß√£o realiza a sele√ß√£o de vari√°veis usando os m√©todos forward, backward ou stepwise, com base em uma m√©trica escolhida (AIC, BIC ou p-valor).
# O usu√°rio pode escolher o m√©todo de sele√ß√£o (forward, backward ou both) e a m√©trica desejada para o crit√©rio de inclus√£o ou exclus√£o de vari√°veis.
# Par√¢metros:
# - var_dependente: Nome da vari√°vel dependente.
# - var_independente: Lista de vari√°veis independentes a serem avaliadas.
# - base: Conjunto de dados contendo as vari√°veis dependentes e independentes.
# - metodo: M√©todo de sele√ß√£o ('forward', 'backward' ou 'both').
# - metrica: A m√©trica a ser utilizada para a sele√ß√£o ('aic', 'bic' ou 'pvalor').
# - signif: N√≠vel de signific√¢ncia usado para a sele√ß√£o por p-valor (padr√£o 0.05).
# Retorna: Resultado da sele√ß√£o de vari√°veis com base no m√©todo e m√©trica escolhidos.
# criada por Mateus Rocha - time ASN.Rocks

def step( var_dependente , var_independente , base, metodo, metrica, signif = 0.05):
    
    if( metodo == 'forward' and metrica == 'aic' ):
        resultado = selecionar_aic_forward(var_dependente = var_dependente, var_independente = var_independente, base = base)
    elif(metodo == 'forward' and metrica == 'bic' ):
        resultado = selecionar_bic_forward(var_dependente = var_dependente, var_independente = var_independente, base = base)
    elif(metodo == 'forward' and metrica == 'pvalor' ):
        resultado = selecionar_pvalor_forward(var_dependente = var_dependente, var_independente = var_independente, base = base, signif = signif)
    elif( metodo == 'backward' and metrica == 'aic' ):
        resultado = selecionar_aic_backward(var_dependente = var_dependente, var_independente = var_independente, base = base)
    elif(metodo == 'backward'and metrica == 'bic' ):
        resultado = selecionar_bic_backward(var_dependente = var_dependente, var_independente = var_independente, base = base)
    elif(metodo == 'backward' and metrica == 'pvalor' ):
        resultado = selecionar_pvalor_backward(var_dependente = var_dependente, var_independente = var_independente, base = base, signif = signif)
    elif(metodo == 'both'):
        resultado = stepwise( var_dependente = var_dependente , var_independente = var_independente , base = base, metrica = metrica, signif = signif)
        
    # Ajustar a exibi√ß√£o do pandas para n√£o truncar as colunas e linhas longas
    pd.set_option('display.max_colwidth', None)  # N√£o cortar as colunas
    pd.set_option('display.max_rows', None)  # Mostrar todas as linhas
    
    return resultado
    
# Exemplo de uso
# colunas_step = step(var_dependente='bodyfat', var_independente=X.columns.to_list(), base=Bodyfat, metodo='both', metrica='aic', signif=0.05)
# colunas_step

## <center>1. Defini√ß√£o do problema de neg√≥cio

### <center>Contexto

Para termos uma medida precisa da gordura corporal do nosso corpo, o processo √© custoso, inconveniente e cansativo. Sendo assim, √© desej√°vel que existam m√©todos f√°ceis de estimar a gordura corporal que n√£o sejam inconvenientes, nem t√£o custosos.
Com os dados do arquivo Bodyfat.csv, criaremos um modelo para identificar a melhor forma de prever o valor do IMC utilizando vari√°veis independentes, validaremos o modelo e verificaremos se n√£o tem multicolinearidade.

## <center>2. Entendimento e aquisi√ß√£o de dados

### <center>Importando arquivo de dados

In [None]:
df = pd.read_csv("Bodyfat.csv")
df = df.select_dtypes(include=['number']) # Filtrar apenas colunas num√©ricas

### <center>Dicion√°rio de dados

| Vari√°vel  | Descri√ß√£o | Unidade de Medida | Tipo | Coment√°rio |
|-----------|-----------|------------------|------|------------|
| Density   | Densidade corporal, usada para calcular a gordura corporal | - | Quantitativa cont√≠nua | N√£o ser√° utilizada na an√°lise |
| bodyfat   | Percentual de gordura corporal, a vari√°vel alvo | % | Quantitativa cont√≠nua | Vari√°vel dependente (target). Validar outlier com a √°rea de neg√≥cio |
| Age       | Idade do indiv√≠duo | Anos | Quantitativa discreta | - |
| Weight    | Peso do indiv√≠duo | Libras | Quantitativa cont√≠nua | - |
| Height    | Altura do indiv√≠duo | Polegadas | Quantitativa cont√≠nua | Tratar outlier de altura |
| Neck      | Circunfer√™ncia do pesco√ßo | Polegadas | Quantitativa cont√≠nua | - |
| Chest     | Circunfer√™ncia do peito | Polegadas | Quantitativa cont√≠nua | - |
| Abdomen   | Circunfer√™ncia abdominal | Polegadas | Quantitativa cont√≠nua | - |
| Hip       | Circunfer√™ncia do quadril | Polegadas | Quantitativa cont√≠nua | - |
| Thigh     | Circunfer√™ncia da coxa | Polegadas | Quantitativa cont√≠nua | - |
| Knee      | Circunfer√™ncia do joelho | Polegadas | Quantitativa cont√≠nua | - |
| Ankle     | Circunfer√™ncia do tornozelo | Polegadas | Quantitativa cont√≠nua | - |
| Biceps    | Circunfer√™ncia do b√≠ceps em repouso | Polegadas | Quantitativa cont√≠nua | - |
| Forearm   | Circunfer√™ncia do antebra√ßo | Polegadas | Quantitativa cont√≠nua | - |
| Wrist     | Circunfer√™ncia do punho | Polegadas | Quantitativa cont√≠nua | - |

### <center>Conhecendo minhas vari√°veis

#### <code style="color:green">An√°lise Univariada</code>

Antes de realizar qualquer modelagem, devemos sempre analisar nossas vari√°veis, em especial a vari√°vel dependente.

Podemos fazer uso de ferramentas como:

- An√°lises Descritivas;
- Gr√°ficos boxplot;
- Gr√°ficos histograma;
- Gr√°ficos de dispers√£o.

A ideia √© analisar do que se tratam os dados e se possuem algo estranho.

- Observar se a mediana e m√©dia est√£o pr√≥ximas;
- Verificar se existem valores estranhos de m√≠nimo e m√°ximo, por exemplo, valores negativos no m√≠nimo e valores = 0 no m√°x;
- Observar o movimento dos dados analisando os quartis;
- Criar coluna no dicion√°rio de dados para anotar observa√ß√µes sobre cada vari√°vel para alinhar com a √°rea de neg√≥cio.

In [None]:
# Verificando as colunas e primeiras linhas da base de dados
df.head()

In [None]:
# Transformando unidade de medida das vari√°veis para facilitar interpreta√ß√£o

# Transformando a vari√°vel weight de libras para quilos
df['Weight'] = df['Weight'] * 0.453592

# Transformando as vari√°veis em polegadas para cent√≠metros
df['Height'] = df['Height'] * 2.54
df['Neck'] = df['Neck'] * 2.54
df['Chest'] = df['Chest'] * 2.54
df['Abdomen'] = df['Abdomen'] * 2.54
df['Hip'] = df['Hip'] * 2.54
df['Thigh'] = df['Thigh'] * 2.54
df['Knee'] = df['Knee'] * 2.54
df['Ankle'] = df['Ankle'] * 2.54
df['Biceps'] = df['Biceps'] * 2.54
df['Forearm'] = df['Forearm'] * 2.54
df['Wrist'] = df['Wrist'] * 2.54

In [None]:
# Verificando valores faltantes e tipos de dados de cada campo
df.info()

In [None]:
# Verificando principais valores estat√≠sticos das vari√°veis em quest√£o. Aten√ß√£o especial √† vari√°vel dependente (y)
df.describe().T

In [None]:
# Gerando boxplot, histograma e violino de cada vari√°vel
def plot_histogram_boxplot(df):
    
    # Gera histogramas e boxplots para todas as colunas num√©ricas de um DataFrame.

    num_cols = df.select_dtypes(include=['number']).columns  # Filtra apenas colunas num√©ricas
    
    for coluna in num_cols:
        fig, axes = plt.subplots(1, 3, figsize=(15, 5))  # Criar subplots lado a lado

        # Histograma com densidade
        sns.histplot(df[coluna], kde=True, bins=30, color="#39568C", ax=axes[0]) # kde=True adiciona a curva de densidade
        axes[0].set_title(f"Histograma de {coluna}")
        axes[0].set_ylabel("Densidade")
        axes[0].axvline(df[coluna].mean(), color='red', linestyle='dashed', linewidth=2, label="Mean")  # Linha da m√©dia
        axes[0].legend() 

        # Boxplot
        sns.boxplot(y=df[coluna], color="#F8766D", ax=axes[1])
        axes[1].set_title(f"Boxplot de {coluna}")

        # Gr√°fico de violino
        sns.violinplot(y=df[coluna], ax=axes[2])
        axes[2].set_title(f"Gr√°fico de Violino de {coluna}")

        plt.tight_layout()
        plt.show()

# Exemplo de uso:
plot_histogram_boxplot(df)

## <center>3. Prepara√ß√£o dos dados

#### <code style="color:green">Pr√©-processamento e Limpeza dos dados</code>

- Verificar observa√ß√µes sobre a an√°lise univariada com a √°rea de neg√≥cio e realizar tratamento dos dados
- Criar ABT
- Realizar transforma√ß√£o de dados quando necess√°rio

In [None]:
# tirando uma variavel que n√£o ser√° usada (contexto negocio)
df = df.drop(["Density"], axis=1)
df

In [None]:
# Atribuir o valor da m√©dia da altura de todas as observa√ß√µes (adultos) ao outlier de Height ( = 74.93)

df['Height'] = df['Height'].replace(74.93, df['Height'].mean())

df.describe().T


## <center>4. An√°lise explorat√≥ria dos dados

#### <code style="color:green">Etapas da EDA</code>

- An√°lise bivariada
- Avaliar e tratar multicolinearidade
- Fazer descritiva com foco no modelo
- Validar pressupostos

#### <code style="color:green">An√°lise Bivariada</code>

- Cruzar vari√°veis e identificar correla√ß√£o de pearson
- Observar rela√ß√£o entre cada vari√°vel independente e a vari√°vel dependente para identificar correla√ß√£o visualmente (vontade de tra√ßar uma reta angular?)
- Analisar matriz de correla√ß√£o (acima de 0,7 indica alta correla√ß√£o)
- Escolher quais vari√°veis manter no modelo

In [None]:
# Gerando gr√°ficos de dispers√£o entre todas as vari√°veis

# Ajustar o tamanho da figura
plt.figure(figsize=(12, 10))  # Ajuste o tamanho conforme necess√°rio

# Verificar linearidade (gr√°ficos de dispers√£o)
sns.pairplot(df, corner=True)

# Mostrar o gr√°fico
plt.show()

In [None]:
# Heatmap para c√°lculo de correla√ß√£o com valores de correla√ß√£o

# corr_matrix = pd.concat([y, X], axis=1).corr()
corr_matrix = df.corr()

# Criar a m√°scara para a parte superior da matriz, evitando redund√¢ncia j√° que a matriz √© sim√©trica
mask = np.triu(np.ones_like(corr_matrix, dtype=bool)) 

# Ajustar o tamanho da figura
plt.figure(figsize=(12, 10))

# Criar o heatmap
sns.heatmap(corr_matrix, annot=True, fmt='.1f', center=0, vmax=1, vmin=-1, cmap="RdBu_r", annot_kws={"size": 10}, mask=mask)
plt.show()


<code style="color:purple">Observa√ß√µes</code>

- Pode-se observar que as vari√°veis Ankle, Age e Height, no gr√°fico de dispers√£o, n√£o apresentam um comportamente linear. Vamos retir√°-las do df para rodar o primeiro modelo.

- Tamb√©m observa-se que a vari√°vel Weight possui correla√ß√£o forte com Hip, Abdomen, Chest, Thigh e Knee. Isso pode causar multicolinearidade no modelo.

<code style="color:red">D√∫vida</code>

   - Ao observar que a vari√°vel Weight possui correla√ß√£o forte com v√°rias outras vari√°veis, como testar qual podemos retirar para gerar o melhor modelo?

## <center>5. Modelagem

### <center>Criando o modelo de regress√£o linear m√∫ltipla

In [None]:
# Definir a vari√°vel dependente (y) e as independentes (X)

# Criando o objeto y com a vari√°vel dependente
y = df["bodyfat"]
# Criando a matriz X sem a vari√°vel dependente
X = df.drop(columns=["bodyfat"])  # Usando todas as vari√°veis independentes num√©ricas

# Adicionando uma coluna com todos os valores = 1 para que o B0 seja calculado
X = sm.add_constant(X)

# Ajustando o modelo
modelo_full = sm.OLS(y, X).fit()
# Resumo do modelo
print(modelo_full.summary())
# Gerando a predi√ß√£o atrav√©s deste modelo
chute_modelo_full = modelo_full.predict(X)

"""
Existe a op√ß√£o de utilizar o Scikit-Learn para predi√ß√µes e deploy, mas √© menos detalhado para an√°lise estat√≠stica. N√£o precisa adicionar constante. 

Para utilizar este m√©todo, separar√≠amos as observa√ß√µes em test e treino
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

modelo = LinearRegression()
modelo.fit(X_train, y_train)
"""

<code style="color:purple">Resultados do modelo com todas as vari√°veis independentes</code>

De acordo com os resultados obtidos na regress√£o utilizando todas as vari√°veis independentes, observa-se que:

- **P>|t|**  A maior parte das vari√°veis independentes deste modelo s√£o n√£o significativas.
- **Test F (Prob (F-statistic))**:	9.75e-64, indica que pelo menos 1 vari√°vel independente √© significativa.
- **Cond. No.** = 4.37e+04 nos d√° um ind√≠cio do motivo deste resultado, j√° que por ser muito grande, indica alta multicolinearidade entre as vari√°veis.
- **R2** = 0.749: O modelo explica 74.9% da varia√ß√£o do percentual de gordura corporal (bodyfat), o que indica um bom ajuste.
- **ùëÖ2 ajustado** = 0.735 ‚Üí Leva em conta o n√∫mero de vari√°veis no modelo e √© um pouco menor, sugerindo que algumas vari√°veis podem n√£o estar contribuindo significativamente.
**Estat√≠stica F** = 54.50 ‚Üí Testa se pelo menos uma vari√°vel independente tem um coeficiente diferente de zero.
**p-valor do F-statistic**: 9.75e-64 ‚Üí Extremamente pequeno, indicando que o modelo √© estatisticamente significativo.

<code style="color:purple">Coment√°rios</code>

Antes de utilizar um m√©todo de sele√ß√£o de vari√°veis, vamos retirar algumas vari√°veis do df que foram identificadas com baixa correla√ß√£o com a vari√°vel dependente. 

In [None]:
# Criando uma nova matriz X sem as vari√°veis Height, Age e Ankle
X_manual = df.drop(columns=["bodyfat", "Height", "Age", "Ankle"])  # Usando todas as vari√°veis independentes num√©ricas, exceto Height, Age e Ankle

# Aqui lembre-se do B0. Basicamente vamos adicionar uma coluna de 1s para que o B0 seja calculado.
X_manual = sm.add_constant(X_manual)
# Ajustando o modelo
manual = sm.OLS(y, X_manual).fit()
# Resumo do modelo
print(manual.summary()) 
# gerando a predi√ß√£o arav√©s desse modelo
pred_manual = manual.predict(X_manual)


### <code style="color:green">Sele√ß√£o de Vari√°veis</code>

Sele√ß√£o de vari√°veis √© uma etapa que objetiva selecionar apenas as vari√°veis √∫teis para o modelo.

#### <center>M√©todos:

1: **Lasso (Regulariza√ß√£o L1)**: Usa uma penaliza√ß√£o (L1) que for√ßa coeficientes irrelevantes a zero, eliminando vari√°veis automaticamente.
- Melhor para: Modelos lineares, muitas vari√°veis
- Vantagens: F√°cil de interpretar, evita overfitting
- Desvantagens: Pode descartar vari√°veis importantes
- Popularidade: 4

2: **Random Forest/XGBoost**: Calculam a import√¢ncia de cada vari√°vel no modelo.
- Melhor para: Qualquer modelo
- Vantagens: Considera intera√ß√µes e rela√ß√µes n√£o lineares
- Desvantagens: Dif√≠cil de interpretar
- Popularidade: 5

3: **RFE (Sele√ß√£o Recursiva)**: Remove iterativamente a vari√°vel menos importante at√© encontrar o melhor conjunto.
- Melhor para: Modelos espec√≠ficos (Linear, SVM)
- Vantagens: Boa sele√ß√£o para modelos pequenos
- Desvantagens: Computacionalmente caro
- Popularidade: 3

4: **Stepwise Selection**: Testa vari√°veis iterativamente, adicionando (forward), removendo (backward) ou integrando o backward e forward juntos com base no p-valor ou AIC/BIC
- Melhor para: Modelos estat√≠sticos
- Vantagens: Interpret√°vel
- Desvantagens: Propenso a overfitting, lento
- Popularidade: 2

5: **Mutual Information**: Mede a depend√™ncia entre vari√°veis (entropia).
- Melhor para: Dados categ√≥ricos
- Vantagens: Lida em com n√£o-linearidade
- Desvantagens: Dif√≠cil de interpretar
- Popularidade: 2

#### <center>Forward AIC

In [None]:
# Realizando a sele√ß√£o de vari√°veis pelo m√©todo forward com base no AIC, utilizando as fun√ß√µes criadas no in√≠cio do documento


# Criando o objeto X com as vari√°veis independentes, ou seja, tirando o que foi feito antes e a vari√°vel resposta

X = df.drop(["bodyfat"],axis = 1)

# Criando o objeto y com a vari√°vel dependente
y = df["bodyfat"]

colunas_forw = step(var_dependente = 'bodyfat', var_independente = X.columns.to_list(), 
                    base = df, metodo = 'forward', metrica = 'aic')
colunas_forw

#### <code style="color:purple">Observa√ß√µes: </code>

- Note que as melhores vari√°veis est√£o na primeira linha.
- Tanto no AIC quanto no BIC, quanto menor for o valor, melhor o modelo ser√°
- Agora vamos pegar essas colunas e criar o modelo

In [None]:
# colocando em uma lista o nome de todas as variaveis do modelo com menor aic
X_forw = df[colunas_forw['var'].to_list()[0]]
# Aqui lembre-se do B0. Basicamente vamos adicionar uma coluna de 1s para que o B0 seja calculado.
X_forw = sm.add_constant(X_forw)
# Ajustando o modelo
forw = sm.OLS(y, X_forw).fit()
# Resumo do modelo
print(forw.summary()) 
# gerando a predi√ß√£o arav√©s desse modelo
pred_forw = forw.predict(X_forw)

#### <code style="color:purple">Observa√ß√µes: </code>

Por que alguns p-valores s√£o n√£o significativos?

#### <center>Backward AIC

In [None]:
# regressao por backward com a regra de AIC
colunas_backw = step(var_dependente = 'bodyfat', var_independente = X.columns.to_list(), base = df, metodo = 'backward' ,metrica = 'aic')
colunas_backw

In [None]:
# colocando em uma lista o nome de todas as variaveis do modelo com menor aic
X_backw = df[colunas_backw['var'].to_list()[0]] 
# Aqui lembre-se do B0. Basicamente vamos adicionar uma coluna de 1s para que o B0 seja calculado.
X_backw = sm.add_constant(X_backw)
# Ajustando o modelo
backw = sm.OLS(y, X_backw).fit()
# Resumo do modelo
print(backw.summary()) 
# gerando a predi√ß√£o arav√©s desse modelo
pred_backw = backw.predict(X_backw)

#### <center>Stepwise AIC

In [None]:
# regressao por stepwise com a regra de AIC
colunas_stepw = step(var_dependente = 'bodyfat', var_independente = X.columns.to_list(), base = df, metodo = 'both' ,metrica = 'aic')
colunas_stepw

In [None]:
# colocando em uma lista o nome de todas as variaveis do modelo com menor aic
X_stepw = df [ colunas_stepw['var'].to_list()[0] ] 
# Aqui lembre-se do B0. Basicamente vamos adicionar uma coluna de 1s para que o B0 seja calculado.
X_stepw = sm.add_constant(X_stepw)
# Ajustando o modelo
stepw = sm.OLS(y, X_stepw).fit()
# Resumo do modelo
print(stepw.summary()) 
# gerando a predi√ß√£o arav√©s desse modelo
pred_stepw = stepw.predict(X_stepw)

In [None]:
X

In [None]:
# regressao por stepwise com a regra de p-valor


colunas_stepw_p = step(var_dependente = 'bodyfat', var_independente = X.columns.to_list(), base = df, metodo = 'both' ,metrica = 'pvalor')
colunas_stepw_p


In [None]:
# colocando em uma lista o nome de todas as variaveis do modelo com p-valor
X_stepw_p = df[colunas_stepw_p['var'].to_list()] 
# Aqui lembre-se do B0. Basicamente vamos adicionar uma coluna de 1s para que o B0 seja calculado.
X_stepw_p = sm.add_constant(X_stepw_p)
# Ajustando o modelo
stepw_p = sm.OLS(y, X_stepw_p).fit()
# Resumo do modelo
print(stepw_p.summary()) 
# gerando a predi√ß√£o arav√©s desse modelo
pred_stepw_p = stepw_p.predict(X_stepw_p)

### <center>Verificando a qualidade dos modelos

### <code style="color:green">Interpretando os Resultados - M√©tricas de Qualidade de Ajuste</code>

- **$R^{2}$**: Mede a propor√ß√£o da varia√ß√£o de y explicada pelo modelo. Quanto mais pr√≥ximo de 1, melhor o ajuste.
- **$R^{2}$ ajustado**: Considera o n√∫mero de vari√°veis no modelo, penalizando modelos com vari√°veis explicativas irrelevantes. Se muito menor que $R^{2}$, pode indicar que algumas vari√°veis n√£o contribuem significativamente. √â √∫til para comparar modelos com diferentes quantidades de vari√°veis.
- **Estat√≠stica F**: Testa a signific√¢ncia global do modelo, ou seja, se pelo menos uma vari√°vel independente tem um coeficiente diferente de zero. F alto, melhor. √â a estat√≠stica do teste que s√≥ poder√° ser interpretada se comparada a estat√≠stica F tabelada com o n√≠vel de signific√¢ncia de interesse.
- **Prob (F-statistic)**: √â a probabilidade da estat√≠stica F. Se (Prob (F-statistic)) < 0,05 (n√≠vel de signific√¢ncia), rejeita-se H0, ou seja, pelo menos uma vari√°vel independente √© significativa.
\begin{align*}
H_0: & \quad \beta_1 = \beta_2 = \cdots = \beta_k = 0 \\
H_1: & \quad \text{Ao menos um  √© } \beta_i \neq 0
\end{align*}
- **Log-Likelihood**: Mede a qualidade do ajuste (log-verossimilhan√ßa); Quanto mais positivos, melhor o modelo ajusta os dados.
- **AIC e BIC**: Crit√©rios para comparar modelos; valores menores indicam melhor ajuste com menos complexidade. BIC penaliza mais modelos com muitas vari√°veis.
- **Coeficientes (coef)**: Representam o impacto de cada vari√°vel independente sobre y. Valores positivos indicam rela√ß√£o direta, e negativos indicam rela√ß√£o inversa. √â o valor da constante no modelo de regress√£o. Representa o valor esperado da vari√°vel dependente quando todas as vari√°veis independentes s√£o zero. N√£o tem interpreta√ß√£o.
- **Erro padr√£o (std err):** Mede a incerteza na estimativa do coeficiente. Indica a precis√£o do coeficiente estimado. Um erro padr√£o menor indica uma estimativa mais precisa (ou seja, em diferentes amostras os resultados seriam os mesmos).
- **Valor t (t)**: √â o valor da estat√≠stica de teste para a signific√¢ncia dos coeficientes.
- **P>|t|**: Representa o resultado do teste t para cada vari√°vel. Quando P>|t| > 0,05, n√£o rejeitamos H0 (B=0), indicando que a vari√°vel pode n√£o ser significativa para prever y. p>|t| < 0.05 indica que a vari√°vel tem efeito significativo no modelo.
\begin{align*}
H_0: & \quad \beta_i = 0 \\
H_1: & \quad \beta_i \neq 0
\end{align*}
- **Intervalo de confian√ßa [0.025, 0.975]**: Indica a faixa na qual o coeficiente pode variar com 95% de confian√ßa. Se o intervalo inclui 0, a vari√°vel pode n√£o ser significativa.
- **condition number**: Se muito grande, indica multicolinearidade.


#### Como interpretar o modelo:
- Se **muitas vari√°veis n√£o s√£o significativas** (P>|t| > 0,05), pode ser necess√°rio refazer a sele√ß√£o de vari√°veis.
- Se **$R^{2}$ for baixo**, o modelo pode n√£o explicar bem a variabilidade da vari√°vel dependente. Mas se for alto demais, pode indicar sobreajuste (overfitting).
- Se **$R^{2}$ ajustado for muito menor que $R^{2}$**, o modelo pode estar incluindo vari√°veis irrelevantes.
- Se **AIC/BIC forem muito altos**, pode haver um modelo mais simples com melhor desempenho.
- Se coeficientes com p-valores baixos s√£o mais confi√°veis na previs√£o da vari√°vel dependente.
- Se muitas vari√°veis t√™m p-valores altos, pode ser necess√°rio simplificar o modelo.


#### Calculando MAE e RMSE

- **RMSE**: Valores mais pr√≥ximos de 0 indicam um bom RMSE no geral, mas se o RMSE do modelo for melhor que o RMSE da m√©dia, ent√£o podemos considerar que √© um bom modelo.
- **MAE**: O MAE tamb√©m mede o erro m√©dio das previs√µes, mas sem elevar ao quadrado as diferen√ßas, sendo mais interpret√°vel e menos sens√≠vel a outliers do que o RMSE.
F√≥rmula do RMSE:
\begin{equation} RMSE = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2} \end{equation}

onde:

$n$ √© o n√∫mero de observa√ß√µes.
$y_i$ √© o valor observado.
$\hat{y}_i$ √© o valor predito.
F√≥rmula do MAE:
\begin{equation} MAE = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i| \end{equation}

onde:

$n$ √© o n√∫mero de observa√ß√µes.
$y_i$ √© o valor observado.
$\hat{y}_i$ √© o valor predito.

**Interpreta√ß√£o**:

MAE mede o erro m√©dio absoluto das previs√µes, penalizando todas as diferen√ßas de forma linear.
RMSE penaliza erros maiores de forma quadr√°tica, sendo mais sens√≠vel a outliers.
Compara√ß√£o: Se MAE e RMSE s√£o pr√≥ximos, os erros est√£o distribu√≠dos de maneira uniforme. Se RMSE for muito maior que o MAE, significa que h√° alguns erros muito grandes (outliers influentes).

In [None]:
# Criar um DataFrame para armazenar os resultados de cada modelo (AIC, BIC, RMSE, MAE e R¬≤)

resultados = pd.DataFrame({
    'Modelo': ['Modelo Completo', 'Modelo Manual', 'Forward Stepwise', 'Backward Stepwise', 'Stepwise AIC', 'Stepwise P-Valor'],
    'AIC': [modelo_full.aic, manual.aic, forw.aic, backw.aic, stepw.aic, stepw_p.aic],
    'BIC': [modelo_full.bic, manual.bic, forw.bic, backw.bic, stepw.bic, stepw_p.bic],
    'RMSE': [np.sqrt(mean_squared_error(y, chute_modelo_full)), 
             np.sqrt(mean_squared_error(y, pred_manual)), 
             np.sqrt(mean_squared_error(y, pred_forw)), 
             np.sqrt(mean_squared_error(y, pred_backw)), 
             np.sqrt(mean_squared_error(y, pred_stepw)), 
             np.sqrt(mean_squared_error(y, pred_stepw_p))],
    'R¬≤': [r2_score(y, chute_modelo_full), 
           r2_score(y, pred_manual), 
           r2_score(y, pred_forw), 
           r2_score(y, pred_backw), 
           r2_score(y, pred_stepw), 
           r2_score(y, pred_stepw_p)],
    'MAE': [mean_absolute_error(y, chute_modelo_full), 
            mean_absolute_error(y, pred_manual), 
            mean_absolute_error(y, pred_forw), 
            mean_absolute_error(y, pred_backw), 
            mean_absolute_error(y, pred_stepw), 
            mean_absolute_error(y, pred_stepw_p)]
})

df_resultados = pd.DataFrame(resultados)
# Exibir os resultados formatados como tabela
df_resultados

### <code style="color:green">Comparando modelos</code>

- **AIC, BIC, RMSE E MAE**: Quanto menor, melhor
- **${R^2}$**: Quanto maior, melhor

In [None]:
# Como os modelos ficaram os mesmos (backward pelo AIC, forward pelo AIC e setpwise pelo AIC)
tentativas = pd.DataFrame({
'chute_modelo_full': chute_modelo_full,
'chute_modelo_step_aic': pred_stepw,
'chute_modelo_step_pvalor':pred_stepw_p,
'chute_modelo_manual': pred_manual,
})
tentativas

In [None]:
# definindo o tamanho da √°rea do gr√°fico
plt.figure(figsize=(10, 6))
# adicionando a primeira camada que s√£o nossos dados reais em azul
plt.scatter(df["bodyfat"], df["bodyfat"], color='blue', label='real')
# adicionando a camada do chute da m√©dia em vermelho
df["chute_media"] = df["bodyfat"].mean()
plt.scatter(df["chute_media"], df["bodyfat"], color='red', label='chute_media')
# adicionando a camada das nossas predi√ß√µes do modelo completo (sem nenhuma sele√ß√£o) em verde
plt.scatter(tentativas["chute_modelo_full"], df["bodyfat"], color='green', label='chute_modelo_full')
# adicionando a camada das nossas predi√ß√µes do modelo stepwise pelo aic em laranja
plt.scatter(tentativas["chute_modelo_step_aic"], df["bodyfat"], color='orange', label='chute_modelo_step_aic')
# adicionando a camada das nossas predi√ß√µes do modelo stepwise por p-valor em pink
plt.scatter(tentativas["chute_modelo_step_pvalor"], df["bodyfat"], color='pink', label='chute_modelo_step_pvalor')
# adicionando a camada das nossas predi√ß√µes do modelo manual em roxo
plt.scatter(tentativas["chute_modelo_manual"], df["bodyfat"], color='purple', label='chute_modelo_manual')

plt.xlabel('Nosso Desenho')
plt.ylabel('Arte Real')
plt.legend()
plt.show()

<code style="color:purple">Coment√°rios:</code>

Vamos seguir com a an√°lise do modelo stepw_p

#### <code style="color:green">Comparar efeitos e varia√ß√µes</code>

- Analisar os nossos coeficientes observando o intervalo de confian√ßa (apesar que j√° sai no summary)
- Vamos gerar os gr√°ficos dos intervalos para facilitar a visualiza√ß√£o

In [None]:
# pegando o intervalo de confian√ßa dos coeficientes menos o B0
intervalo_confianca_forward = stepw_p.conf_int(alpha=0.05)[1:] 
intervalo_confianca_forward

In [None]:
# criando o gr√°fico para o intervalo de confian√ßa
fig, ax = plt.subplots() 

ax.errorbar(stepw_p.params.drop(['const']), # pegando os valores dos coeficientes e retirando a constante 
            stepw_p.params.drop(['const']).index,  # pegando os nomes dos coeficientes e retirando a constante
            xerr=[stepw_p.params.drop(['const']) - intervalo_confianca_forward[0], # criando as barras dos intervalos (limite inferior) 
                  intervalo_confianca_forward[1] - stepw_p.params.drop(['const'])], # criando as barras dos intervalos (limite superior)
            fmt='o', capsize=5)

ax.set_xlabel('Coeficientes') # adicionando o r√≥tulo do eixo x
ax.set_ylabel('Vari√°veis') # adicionando o r√≥tulo do eixo y
ax.axvline(x=0,linestyle='--', color = "#440154FF") # criando uma linha vertical no x = 0
plt.xticks(rotation=45) # adicionando uma rota√ß√£o de 45 graus nos valores de x
plt.tight_layout()
plt.show()

<code style="color:purple">Coment√°rios:</code>

- Quando algum intervalo corta a linha do 0 significa que o coeficiente n√£o foi significativo.
- Note que todas, neste caso, foram significativas.

### <center>Validando o modelo

#### <code style="color:green">An√°lise de res√≠duos</code>

O res√≠duo nada mais √© que o erro do nosso modelo, ou seja o quanto ele est√° errando ao tentar prever a vari√°vel dependente. Nesse caso, devemos analisar um conjunto de caracter√≠sticas para considerar o nosso modelo como um modelo robusto:
 
- Homogeneidade de vari√¢ncias: Vamos analisar o gr√°fico das predi√ß√µes sobre os res√≠duos. Se tiver algum tipo de padr√£o ent√£o as vari√¢ncias dos nossos res√≠duos s√£o heteroced√°sticas, isto √©, n√£o homog√™neas.

- Normalidade: Os res√≠duos precisam seguir uma distribui√ß√£o normal com m√©dia igual a 0. Para isso vamos usar o QQ-Plot e teste estat√≠stico

- Independ√™ncia: Os res√≠duos n√£o podem apresentar nenhum padr√£o conforme a varia√ß√£o de ychapeu

#### <code style="color:green">Qualidade dos Res√≠duos</code>

- **Omnibus**: O teste Omnibus avalia se os res√≠duos seguem uma distribui√ß√£o normal, considerando a assimetria e a curtose dos res√≠duos. Um valor de p grande sugere que os res√≠duos podem ser normais. Este valor representa a estat√≠stica do teste.

- **Prob(Omnibus)**: Valor-p associado ao teste Omnibus, indicando a probabilidade de observar o resultado dado se a hip√≥tese nula de distribui√ß√£o normal for verdadeira. Idealmente, esperamos que os res√≠duos sejam normais para garantir que os pressupostos do modelo estejam corretos.

\begin{align*}
H_{0}: & \quad \text{Os res√≠duos s√£o normais} \\
H_{1}: & \quad \text{Os res√≠duos n√£o s√£o normais}
\end{align*}

- **Skew**: Mede a assimetria da distribui√ß√£o dos dados. Valores negativos de Skew indicam uma cauda mais longa √† esquerda (distribui√ß√£o assim√©trica negativa), enquanto valores positivos indicam uma cauda mais longa √† direita (distribui√ß√£o assim√©trica positiva).

- **Kurtosis**: Mede se a distribui√ß√£o dos dados tem caudas mais pesadas ou mais leves em rela√ß√£o √† distribui√ß√£o normal. Valores de curtose maiores que 3 indicam que os dados t√™m caudas mais pesadas ou uma distribui√ß√£o mais pontuda do que a normal.

- **Durbin-Watson**: Testa a autocorrela√ß√£o nos res√≠duos de uma an√°lise de regress√£o. O ideal √© que os res√≠duos n√£o sejam correlacionados entre si. Valores de Durbin-Watson pr√≥ximos de 2 sugerem que n√£o h√° autocorrela√ß√£o nos res√≠duos. Valores pr√≥ximos de 0 indicam autocorrela√ß√£o positiva (os res√≠duos consecutivos est√£o correlacionados), enquanto valores pr√≥ximos de 4 indicam autocorrela√ß√£o negativa.

\begin{align*}
H_0: & \quad \text{N√£o h√° autocorrela√ß√£o nos res√≠duos} \\
H_1: & \quad \text{H√° autocorrela√ß√£o nos res√≠duos}
\end{align*}

- **Jarque-Bera (JB)**: O teste de Jarque-Bera verifica se os res√≠duos t√™m assimetria e curtose compat√≠veis com uma distribui√ß√£o normal, baseando-se em uma combina√ß√£o dessas duas m√©tricas.

- **Prob(JB)**: Valor-p para o teste Jarque-Bera, avaliando a probabilidade de observar tais estat√≠sticas se a assimetria e a curtose corresponderem a uma distribui√ß√£o normal.

\begin{align*}
H_0: & \quad \text{Os dados possuem assimetria e curtose que correspondem a uma distribui√ß√£o normal} \\
H_1: & \quad \text{Os dados n√£o possuem assimetria e curtose que correspondem a uma distribui√ß√£o normal}
\end{align*}

- **Cond. No**: O N√∫mero de Condi√ß√£o avalia a multicolinearidade, ou seja, a correla√ß√£o entre as vari√°veis independentes. Valores muito altos (geralmente acima de 30) indicam forte multicolinearidade, o que pode comprometer a estabilidade dos coeficientes estimados no modelo.


In [None]:
# criando gr√°fico de res√≠duos (res√≠duo x predito)
plt.figure(figsize=(10, 6))
plt.scatter(tentativas["chute_modelo_step_pvalor"],stepw_p.resid, color='black')
plt.axhline(y=0, color = 'black')
plt.xlabel('Valores Ajustados')
plt.ylabel('Res√≠duos')
plt.show()

#### <code style="color:purple">Observa√ß√µes:</code>

- Note que os res√≠duos n√£o apresentam nenhum padr√£o, ou seja, demonstram independ√™ncia.

#### <code style="color:green">Teste de Normalidade de Shapiro + QQ-plot + Histograma</code>

Gr√°ficos s√£o um pouco subjetivos. Dependendo do problema n√£o d√° para enxergar algo ou tirar uma conclus√£o. 
Testes estat√≠sticos s√£o mais confi√°veis, portanto √© melhor testar a normalidade e a homogeneidade de vari√¢ncias.

Normalidade (Shapiro-Wilk):

- $H_{0}:$ Os res√≠duos s√£o normais
- $H_{1}:$ Os res√≠duos n√£o s√£o normais

In [None]:
# ele gera a estat√≠stica do teste e o p-valor
shapiro(stepw_p.resid) 

In [None]:
# qqplot 
stats.probplot(stepw_p.resid, dist="norm",plot=pylab)
pylab.plot()

In [None]:
# visualizando o histograma
stepw_p.resid.plot(kind='hist', bins = 50)
plt.show()

#### <code style="color:purple">Observa√ß√µes:</code>

- Note que n√£o rejeitamos $H_{0}$, logo os res√≠duos podem ser considerados como normais.
- Para que sejam considerados normais, os res√≠duos precisam seguir a linha em vermelho no qq-plot, o que pode indicar, novamente, normalidade.
- Pelo histograma, vemos um gr√°fico bem pr√≥ximo da normalidade

#### <code style="color:green">Teste de Homogeneidade de Vari√¢ncia</code>

Validando o pressuposto de Homogeneidade de Vari√¢ncias atrav√©s do teste de Breusch-Pagan:

- $H_{0}:$ Os res√≠duos possuem homogeneidade nas vari√¢ncias
- $H_{1}:$ Os res√≠duos n√£o possuem homogeneidade nas vari√¢ncias

In [None]:
# Realizando o teste de Breusch-Pagan para verificar heterocedasticidade
# Passamos os res√≠duos do modelo (stepw_p.resid) e as vari√°veis explicativas (stepw_p.model.exog)
teste_bp = het_breuschpagan(stepw_p.resid, stepw_p.model.exog)
# Definindo os r√≥tulos para os resultados do teste
rotulos = ['LM Statistic', 'LM-Test p-value', 'F-Statistic', 'F-Test p-value']
# Usando zip para associar cada r√≥tulo ao seu respectivo resultado do teste e convertendo em um dicion√°rio
resultado_bp = dict(zip(rotulos, teste_bp))
# Exibindo o p-valor do LM-Test
print(resultado_bp['LM-Test p-value'])

#### <code style="color:purple">Observa√ß√µes:</code>

- N√£o rejeitamos $H_{0}$, logo as vari√¢ncias dos res√≠duos podem ser consideradas homog√™neas.
- Sendo assim, esse modelo passou nos 4 pressupostos!

#### <code style="color:green">Multicolinearidade</code>

A multicolinearidade √© um problema quando estamos tentando criar nosso modelo. Ela ocorre quando temos um conjunto de vari√°veis INDEPENDENTES que s√£o altamente correlacionadas umas com as outras, o que gera um modelo com pouca confiabilidade. 

Vou analisar direto o VIF do modelo stepw_p:

In [None]:
# criando um dataframe vazio
vif = pd.DataFrame() 
# adicionando as colunas que voc√™ quer analisar (deixe a coluna const!)
vif["Vari√°veis"] =X_stepw_p.columns 
# para cada coluna, calcule o VIF
vif["VIF"] = [variance_inflation_factor(X_stepw_p.values, i) for i in range(len(X_stepw_p.columns))] 
vif

#### <code style="color:purple">Observa√ß√µes:</code>

- Normalmente, utiliza-se VIF entre 3 ou 5, ou seja, este modelo, por mais que tenha passado na an√°lise de res√≠duo est√° com o dilema da multicolinearidade.

- Uma vari√°vel pode influenciar no VIF da outra, por isso sempre come√ßar observando a matriz de correla√ß√£o a fim de selecionar as vari√°veis que fazem mais sentido serem mantidas. Diminuindo assim a chance de ter VIF alto.

In [None]:
# vamos pegar da primeira at√©  a 14 coluna
correlacao = df[df.columns[np.arange(0,13)]].corr(method='pearson')

# Visualiza a matriz de correla√ß√£o
plt.figure(figsize=(10, 8))
sns.heatmap(correlacao, annot=True, cmap='coolwarm', fmt='.2f', vmin=-1, vmax=1)
plt.title('Matriz de Correla√ß√£o')
plt.show()

"""
# Heatmap para c√°lculo de correla√ß√£o

# corr_matrix = pd.concat([y, X], axis=1).corr()
corr_matrix = df.corr()

# Criar a m√°scara para a parte superior da matriz, evitando redund√¢ncia j√° que a matriz √© sim√©trica
mask = np.triu(np.ones_like(corr_matrix, dtype=bool)) 

# Ajustar o tamanho da figura
plt.figure(figsize=(12, 10))

# Criar o heatmap
sns.heatmap(corr_matrix, annot=True, fmt='.2f', center=0, vmax=1, vmin=-1, cmap="RdBu_r", annot_kws={"size": 10}, mask=mask)
plt.show()
"""