Importando bibliotecas

In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

from statsmodels.stats.stattools import durbin_watson
from statsmodels.stats.outliers_influence import variance_inflation_factor

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid", palette="muted", font_scale=1.1)
custom_palette = [
    "#D9ED92",  # verde claro amarelado
    "#B5E48C",  # verde claro
    "#99D98C",  # verde médio
    "#76C893",  # verde esverdeado
    "#52B69A",  # verde-água
    "#34A0A4",  # verde-azulado
    "#168AAD",  # azul esverdeado
    "#1A759F",  # azul médio
    "#1E6091",  # azul escuro
    "#184E77",  # azul bem escuro
    "#134770"   # azul mais
]

Importando base de dados Numérica

In [None]:
df = pd.read_csv("../databases/ENEM_2023_FINAL_num.csv")
display(df)

Definição de variáveis

In [None]:
# Notas das outras matérias para nota da redação (RLM)
X1 = df[['NU_NOTA_CH', 'NU_NOTA_CN', 'NU_NOTA_MT', 'NU_NOTA_LC']]  # variáveis independentes
X3 = df[['NU_NOTA_CH', 'NU_NOTA_LC']]  # variáveis independentes
y = df['NU_NOTA_REDACAO'] # variável dependente

# Renda para nota (RL)
X2 = df[['EST_RENDA_PER_CAP']]  # variáveis independentes
X4 = df[['NU_NOTA_LC']]  # variáveis independentes
y1 = df['NU_NOTA_CH']
y2 = df['NU_NOTA_CN']
y3 = df['NU_NOTA_MT']
y4 = df['NU_NOTA_LC']

Ajuste do modelo (análise estatística)

In [None]:
X_const = sm.add_constant(X1)          # adiciona intercepto (a)
modelo = sm.OLS(y, X_const).fit()     # ajusta regressão (Aplica os Mínimos Quadrados Ordinários e estima os Bs)
print(modelo.summary())

In [None]:
X_const1 = sm.add_constant(X2)          
modelo1 = sm.OLS(y1, X_const1).fit()
print(modelo1.summary())

In [None]:
X_const2 = sm.add_constant(X2)          
modelo2 = sm.OLS(y2, X_const2).fit()
print(modelo2.summary())

In [None]:
X_const3 = sm.add_constant(X2)          
modelo3 = sm.OLS(y3, X_const3).fit()
print(modelo3.summary())

In [None]:
X_const4 = sm.add_constant(X2)          
modelo4 = sm.OLS(y4, X_const4).fit()
print(modelo4.summary())

In [None]:
X_const5 = sm.add_constant(X2)          
modelo5 = sm.OLS(y, X_const5).fit()
print(modelo5.summary())

In [None]:
X_const6 = sm.add_constant(X3)          
modelo6 = sm.OLS(y, X_const6).fit()
print(modelo6.summary())

In [None]:
X_const7 = sm.add_constant(X4)          
modelo7 = sm.OLS(y, X_const7).fit()
print(modelo7.summary())

Ajuste de modelo (focado em previsão)

In [None]:
reg = LinearRegression()
reg1 = LinearRegression()
reg2 = LinearRegression()
reg3 = LinearRegression()
reg4 = LinearRegression()
reg5 = LinearRegression()
reg6 = LinearRegression()
reg7 = LinearRegression()

reg.fit(X1, y)
reg1.fit(X2, y1)
reg2.fit(X2, y2)
reg3.fit(X2, y3)
reg4.fit(X2, y4)
reg5.fit(X2, y)
reg6.fit(X3, y)
reg7.fit(X4, y)

def mostrar_resultados(reg, X, nome="Modelo"):
    print(f"Intercepto (a - {nome}):", reg.intercept_)
    print(f"Coeficientes (b - {nome}):", reg.coef_)
    
    # Montar a função linear
    termos = [f"{reg.intercept_:.3f}"]
    for i, coef in enumerate(reg.coef_):
        termos.append(f"{coef:.3f}*x{i+1}")
    funcao = " + ".join(termos)
    
    print(f"Função linear ({nome}): y = {funcao}")
    print("-" * 50)

# Usando os modelos
modelos = [
    (reg, X1, "Multivariada 1"),
    (reg1, X2, "Simples 1"),
    (reg2, X2, "Simples 2"),
    (reg3, X2, "Simples 3"),
    (reg4, X2, "Simples 4"),
    (reg5, X2, "Simples 5"),
    (reg6, X3, "Multivariada 2"),
    (reg7, X4, "Simples 6")
]

for modelo, X, nome in modelos:
    mostrar_resultados(modelo, X, nome)

Avaliar qualidade do modelo

In [None]:
# R²
y_pred = reg.predict(X1)
y_pred1 = reg1.predict(X2)
y_pred2 = reg2.predict(X2)
y_pred3 = reg3.predict(X2)
y_pred4 = reg4.predict(X2)
y_pred5 = reg5.predict(X2)
y_pred6 = reg6.predict(X3)
y_pred7 = reg7.predict(X4)

# Erro padrão (RMSE)
rmse = np.sqrt(mean_squared_error(y, y_pred))
rmse1 = np.sqrt(mean_squared_error(y1, y_pred1))
rmse2 = np.sqrt(mean_squared_error(y2, y_pred2))
rmse3 = np.sqrt(mean_squared_error(y3, y_pred3))
rmse4 = np.sqrt(mean_squared_error(y4, y_pred4))
rmse5 = np.sqrt(mean_squared_error(y, y_pred5))
rmse6 = np.sqrt(mean_squared_error(y, y_pred6))
rmse7 = np.sqrt(mean_squared_error(y, y_pred7))

def R2(y, ypred, nome):
    print(f"R² ({nome}): {r2_score(y, ypred)}")

def Erro_Padrao(rmse, nome):
    print(f"RMSE ({nome}): {rmse}")


R = [
    (y, y_pred, "Multivariada 1"),
    (y, y_pred6, "Multivariada 2"),
    (y1, y_pred1,"Simples 1"),
    (y2, y_pred2,"Simples 2"),
    (y3, y_pred3, "Simples 3"),
    (y4, y_pred4, "Simples 4"),
    (y, y_pred5, "Simples 5"),
    (y, y_pred7, "Simples 6")
]


RMSEs = [
    (rmse, "Multivariada 1"),
    (rmse6, "Multivariada 2"),
    (rmse1, "Simples 1"),
    (rmse2, "Simples 2"),
    (rmse3, "Simples 3"),
    (rmse4, "Simples 4"),
    (rmse5, "Simples 5"),
    (rmse7, "Simples 6")
]

for y, ypred, nome in R:
    R2(y, ypred, nome)

print("-" * 50)

for rmse, nome in RMSEs:
    Erro_Padrao(rmse, nome)

Variáveis de resíduo

In [None]:
residuos = y - y_pred
residuos1 = y1 - y_pred1
residuos2 = y2 - y_pred2
residuos3 = y3 - y_pred3
residuos4 = y4 - y_pred4
residuos5 = y - y_pred5
residuos6 = y - y_pred6
residuos7 = y - y_pred7


Pressupostos do modelo

Linearidade (Y deve ter relação linear com cada X)

In [None]:
def plot_regressao(x, y, y_pred, nome_var):
    plt.scatter(x, y, color='#D9ED92', alpha=0.5, label='Dados observados')
    plt.plot(x, y_pred, color='red', label='Reta de regressão')
    plt.xlabel('Renda per capita')
    plt.ylabel(nome_var)
    plt.title(f'Regressão: {nome_var} ~ Renda per capita')
    plt.legend()

    plt.gca().set_facecolor("none")  # área do gráfico
    plt.gcf().patch.set_alpha(0)     # figura inteira
    plt.savefig(f"../images/Linearidade/{nome_var}.png", transparent=False, dpi=300)

    plt.show()

plot_regressao(X2, y1, y_pred1, "Nota CH")
plot_regressao(X2, y2, y_pred2, "Nota CN")
plot_regressao(X2, y3, y_pred3, "Nota MT")
plot_regressao(X2, y4, y_pred4, "Nota LC")
plot_regressao(X2, y, y_pred5, "Nota Redação")
plot_regressao(X4, y, y_pred7, "Nota Redação1")

Independência dos resíduos (erros não correlacionados)

In [None]:
dw = durbin_watson(residuos)
dw1 = durbin_watson(residuos1)
dw2 = durbin_watson(residuos2)
dw3 = durbin_watson(residuos3)
dw4 = durbin_watson(residuos4)
dw5 = durbin_watson(residuos5)
dw6 = durbin_watson(residuos6)
dw7 = durbin_watson(residuos7)

def IndepResiduos(dwn):
    print(f"Durbin-Watson: {dwn:.3f} (≈2 indica independência dos resíduos)")

IndepResiduos(dw)
IndepResiduos(dw6)

IndepResiduos(dw1)
IndepResiduos(dw2)
IndepResiduos(dw3)
IndepResiduos(dw4)
IndepResiduos(dw5)
IndepResiduos(dw7)

Homocedasticidade (resíduos devem ter variância constante e média = 0) 

In [None]:
# A média dos resíduos precisam ser iguais a zero
def plot_residuos_zero(pred, residuo, img):
    plt.scatter(pred, residuo, color='#99D98C', alpha=0.5)
    plt.axhline(0, color="red", linestyle="--")
    plt.xlabel("Valores ajustados (y_pred)")
    plt.ylabel("Resíduos")
    plt.title("Resíduos vs Valores ajustados")

    plt.gca().set_facecolor("none")  # área do gráfico
    plt.gcf().patch.set_alpha(0)     # figura inteira
    plt.savefig(f"../images/Homocedasticidade/{img}.png", transparent=False, dpi=300)

    plt.show()

plot_residuos_zero(y_pred, residuos, "M1")
plot_residuos_zero(y_pred6, residuos6, "M2")

plot_residuos_zero(y_pred1, residuos1, "S1")
plot_residuos_zero(y_pred2, residuos2, "S2")
plot_residuos_zero(y_pred3, residuos3, "S3")
plot_residuos_zero(y_pred4, residuos4, "S4")
plot_residuos_zero(y_pred5, residuos5, "S5")
plot_residuos_zero(y_pred7, residuos7, "S6")

Analisar resíduos (normalidade)

In [None]:
def plot_residuos_normal(residuo, img):
    sm.qqplot(residuo, line="45", markerfacecolor="#52B69A", markeredgecolor="#52B69A", alpha=0.6)
    plt.title("QQ-plot dos resíduos")
    plt.gca().set_facecolor("none")  # área do gráfico
    plt.gcf().patch.set_alpha(0)     # figura inteira
    plt.savefig(f"../images/ResidNormal/{img}.png", transparent=False, dpi=300)

    plt.show()

plot_residuos_normal(residuos, "M1")
plot_residuos_normal(residuos6, "M2")

plot_residuos_normal(residuos1, "S1")
plot_residuos_normal(residuos2, "S2")
plot_residuos_normal(residuos3, "S3")
plot_residuos_normal(residuos4, "S4")
plot_residuos_normal(residuos5, "S5")
plot_residuos_normal(residuos7, "S6")

Ausência de multicolinearidade (no caso da regressão múltipla)

In [None]:
vif_data = pd.DataFrame()
vif_data["Variável"] = X1.columns
vif_data["VIF"] = [variance_inflation_factor(X1.values, i) 
                   for i in range(X1.shape[1])]

print("\nFatores de Inflação da Variância (VIF):")
print(vif_data)

vif_data1 = pd.DataFrame()
vif_data1["Variável"] = X3.columns
vif_data1["VIF"] = [variance_inflation_factor(X3.values, j) 
                   for j in range(X3.shape[1])]

print("\nFatores de Inflação da Variância (VIF):")
print(vif_data1)