Importando as bibliotecas necessárias para machine learning e visualização

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error, r2_score
import warnings
warnings.filterwarnings('ignore')

Configurando o estilo dos gráficos para melhor visualização

In [None]:

plt.style.use('seaborn')
sns.set_palette("husl")

Carregando o dataset

Carregando o arquivo CSV com os dados dos estudantes

In [None]:

try:
    df = pd.read_csv('student_performance.csv')
    print("\nPrimeiras linhas do dataset:")
    print(df.head())
except FileNotFoundError:
    print("Erro: Arquivo não encontrado. Por favor, verifique o caminho do arquivo.")
    exit()

Separando variáveis independentes (X) e dependente (y)

Todas as colunas exceto nota_final

In [None]:
X = df.drop('nota_final', axis=1)  
y = df['nota_final']

Normalizando os dados

In [None]:
scaler = StandardScaler()

Dividindo os dados em conjuntos de treino e teste

In [None]:
X_treino, X_teste, y_treino, y_teste = train_test_split(X_scaled = scaler.fit_transform(X)
    X_scaled, y, test_size=0.2, random_state=42
)
print("\nFormato dos dados de treino:", X_treino.shape)
print("Formato dos dados de teste:", X_teste.shape)

Treinando o modelo de Regressão Linear

In [None]:
modelo_linear = LinearRegression()
modelo_linear.fit(X_treino, y_treino)

Treinando o modelo de Árvore de Decisão

In [None]:
modelo_arvore = DecisionTreeRegressor(random_state=42)
modelo_arvore.fit(X_treino, y_treino)

Fazendo previsões com os modelos

In [None]:
y_pred_linear = modelo_linear.predict(X_teste)
y_pred_arvore = modelo_arvore.predict(X_teste)

Calculando métricas para Regressão Linear

In [None]:
mse_linear = mean_squared_error(y_teste, y_pred_linear)
r2_linear = r2_score(y_teste, y_pred_linear)

Calculando métricas para Árvore de Decisão

In [None]:
mse_arvore = mean_squared_error(y_teste, y_pred_arvore)
r2_arvore = r2_score(y_teste, y_pred_arvore)

Exibindo as métricas de desempenho

In [None]:
print("\nMétricas de Desempenho:")
print("\nRegressão Linear:")
print(f"MSE: {mse_linear:.4f}")
print(f"R²: {r2_linear:.4f}")

print("\nÁrvore de Decisão:")
print(f"MSE: {mse_arvore:.4f}")
print(f"R²: {r2_arvore:.4f}")

Criando gráfico de dispersão para Regressão Linear

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(y_teste, y_pred_linear, alpha=0.5)
plt.plot([y_teste.min(), y_teste.max()], [y_teste.min(), y_teste.max()], 'r--', lw=2)
plt.title('Valores Reais vs Previstos - Regressão Linear')
plt.xlabel('Valores Reais')
plt.ylabel('Valores Previstos')
plt.savefig('comparacao_linear.png')
plt.close()

Criando gráfico de dispersão para Árvore de Decisão

In [None]:
plt.figure(figsize=(10, 6))
plt.scatter(y_teste, y_pred_arvore, alpha=0.5)
plt.plot([y_teste.min(), y_teste.max()], [y_teste.min(), y_teste.max()], 'r--', lw=2)
plt.title('Valores Reais vs Previstos - Árvore de Decisão')
plt.xlabel('Valores Reais')
plt.ylabel('Valores Previstos')
plt.savefig('comparacao_arvore.png')
plt.close()

Analisando a importância das features no modelo de Regressão Linear

In [None]:
coeficientes = pd.DataFrame({
    'Feature': X.columns,
    'Importância': abs(modelo_linear.coef_)
})
coeficientes = coeficientes.sort_values('Importância', ascending=False)

print("\nImportância das Features:")
print(coeficientes)

Criando gráfico de importância das features

In [None]:

plt.figure(figsize=(10, 6))
sns.barplot(data=coeficientes, x='Importância', y='Feature')
plt.title('Importância das Features no Modelo')
plt.savefig('importancia_features.png')
plt.close()