### Polynomial Regression

In [6]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score


import pickle
import numpy as np

In [3]:
with open('../data/students_performance.pkl', 'rb') as f:
    X_train, y_train, X_test, y_test = pickle.load(f)

In [30]:
poly = PolynomialFeatures(degree = 1)
X_poly_model_train = poly.fit_transform(X_train)
X_poly_model_test = poly.transform(X_test)

In [5]:
X_poly_model_train.shape, X_poly_model_test.shape

((850, 171), (150, 171))

In [31]:
poly_regressor = LinearRegression()
poly_regressor.fit(X_poly_model_train, y_train)

In [8]:
poly_regressor.score(X_poly_model_train, y_train)

0.27953233354566076

In [9]:
poly_regressor.score(X_poly_model_test, y_test)

0.03231449734117131

In [32]:
predictions = poly_regressor.predict(X_poly_model_test)
predictions

array([67.875, 57.5  , 61.25 , 59.5  , 69.5  , 69.5  , 73.875, 66.125,
       77.75 , 64.5  , 69.5  , 60.875, 77.875, 66.125, 68.25 , 57.125,
       61.   , 82.125, 72.25 , 76.25 , 68.875, 64.25 , 69.5  , 69.   ,
       63.75 , 57.5  , 65.375, 69.125, 57.125, 77.625, 56.5  , 73.5  ,
       68.5  , 65.125, 68.125, 66.125, 76.75 , 69.875, 78.375, 68.625,
       68.125, 53.   , 60.125, 81.125, 63.625, 78.375, 65.5  , 60.875,
       84.875, 65.25 , 66.125, 56.75 , 56.875, 61.75 , 72.   , 67.875,
       64.25 , 69.75 , 73.75 , 64.25 , 63.75 , 78.25 , 73.25 , 66.125,
       68.75 , 60.875, 64.5  , 65.5  , 72.875, 71.875, 68.75 , 60.125,
       72.375, 73.25 , 61.5  , 68.75 , 72.625, 64.5  , 65.75 , 64.75 ,
       73.5  , 76.5  , 78.   , 68.75 , 82.   , 73.   , 63.75 , 77.625,
       71.75 , 65.25 , 61.5  , 65.125, 60.875, 60.25 , 69.625, 61.75 ,
       52.25 , 60.875, 61.   , 61.   , 72.875, 61.5  , 60.625, 63.625,
       66.125, 64.625, 69.   , 65.25 , 68.625, 74.   , 81.875, 81.125,
      

In [11]:
y_test

array([69.33333333, 77.33333333, 45.33333333, 67.66666667, 74.33333333,
       73.        , 70.33333333, 43.66666667, 89.        , 38.66666667,
       51.33333333, 64.33333333, 83.66666667, 81.33333333, 54.        ,
       39.        , 52.        , 86.33333333, 53.66666667, 79.66666667,
       63.        , 55.66666667, 76.33333333, 61.        , 48.33333333,
       64.66666667, 58.66666667, 50.33333333, 63.        , 82.33333333,
       80.        , 89.        , 89.33333333, 56.66666667, 55.        ,
       85.        , 97.33333333, 60.        , 71.33333333, 72.66666667,
       68.66666667, 57.33333333, 69.66666667, 71.33333333, 79.        ,
       57.66666667, 85.33333333, 61.66666667, 83.33333333, 56.33333333,
       39.66666667, 63.        , 48.33333333, 57.33333333, 39.66666667,
       71.33333333, 52.66666667, 64.33333333, 77.33333333, 61.33333333,
       67.66666667, 77.66666667, 50.33333333, 71.66666667, 65.66666667,
       64.33333333, 72.33333333, 51.33333333, 66.66666667, 54.66

In [None]:
import plotly.express as px
import pandas as pd


df = pd.DataFrame({
    'Real': y_test,
    'Previsto': predictions
})

fig = px.scatter(df, x='Real', y='Previsto',
                 labels={'Real': 'Valor Real', 'Previsto': 'Valor Previsto'},
                 title='Valores Reais vs Valores Previstos')
fig.add_shape(
    dict(
        type='line',
        x0=df['Real'].min(),
        y0=df['Real'].min(),
        x1=df['Real'].max(),
        y1=df['Real'].max(),
        line=dict(color='Red', dash='dash')
    )
)

fig.show()


In [34]:
mae = mean_absolute_error(y_test, predictions)
mse = mean_squared_error(y_test, predictions)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, predictions)

print(f"MAE: {mae:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R²: {r2:.2f}")

MAE: 10.30
RMSE: 12.90
R²: 0.14
