In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.tree import DecisionTreeRegressor
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.preprocessing import StandardScaler
import lightgbm as lgbm
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

In [2]:
def pred_linear_regression(df, X, y):

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)

    modelo = LinearRegression()
    modelo.fit(X_train, y_train)

    y_pred = modelo.predict(X_test)

    mse = mean_squared_error(y_test, y_pred)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)

    return mse, r2, mae

def pred_decision_tree(df, X, y):

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)

    tree = DecisionTreeRegressor(random_state = 42)
    tree.fit(X_train, y_train)
    Y_pred_tree = tree.predict(X_test)
    mse_tree = mean_squared_error(y_test, Y_pred_tree)
    mae_tree = mean_absolute_error(y_test, Y_pred_tree)

    return mse_tree, mae_tree

def pred_gradient_boosting_regression(df, X, y):

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)

    gboost = GradientBoostingRegressor(n_estimators = 100, random_state = 42)
    gboost.fit(X_train, y_train)

    Y_pred_gboost = gboost.predict(X_test)

    mse_gboost = mean_squared_error(y_test, Y_pred_gboost)
    mae_gboost = mean_absolute_error(y_test, Y_pred_gboost)
    return mse_gboost, mae_gboost

def pred_knn_regression(df, X, y):

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)

    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    X_test_scaled = scaler.transform(X_test)

    knn = KNeighborsRegressor(n_neighbors = 5)
    knn.fit(X_train_scaled, y_train)

    Y_pred_knn = knn.predict(X_test_scaled)

    mse_knn = mean_squared_error(y_test, Y_pred_knn)
    mae_knn = mean_absolute_error(y_test, Y_pred_knn)
    return mse_knn, mae_knn

def pred_light_gbm(df, X, y):

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)

    lgb_model = lgbm.LGBMRegressor(n_estimators = 100, random_state = 42, verbosity = -1)
    lgb_model.fit(X_train, y_train)

    Y_pred_lgb = lgb_model.predict(X_test)

    mse_lgb = mean_squared_error(y_test, Y_pred_lgb)
    mae_lgb = mean_absolute_error(y_test, Y_pred_lgb)
    return mse_lgb, mae_lgb

df_names = ['Matemática', 'Português']

coefs = pd.DataFrame({
    'materia': [],
    'modelo': [],
    'x': [],
    'variavel_target': [],
    'mse': [],
    'r2': [],
    'mae': []
})

df_mat = pd.read_csv("data/student-mat.csv", sep = ';')
df_por = pd.read_csv("data/student-por.csv", sep = ';')
dfs = [df_mat, df_por]

for i in (dfs):
    i['Pstatus'] = i['Pstatus'].str.replace("A", "S").str.replace("T", "J")
    i['sex'] = i['sex'].str.replace("M", "Masculino").str.replace("F", "Feminino")
    i['address'] = i['address'].str.replace("R", "Rural").str.replace("U", "Urbano")
    i['Mjob'] = i['Mjob'].str.replace("at_home", "Lar").str.replace("health", "Saude").str.replace("other", "Outro").str.replace("services", "Func. Publico").str.replace("teacher", "Professor")
    i['Fjob'] = i['Fjob'].str.replace("at_home", "Lar").str.replace("health", "Saude").str.replace("other", "Outro").str.replace("services", "Func. Publico").str.replace("teacher", "Professor")
    i['reason'] = i['reason'].str.replace("home", "Local").str.replace("reputation", "Reputacao").str.replace("course", "Curso").str.replace("other", "Outro")
    i['guardian'] = i['guardian'].str.replace("mother", "Mae").str.replace("father", "Pai").str.replace("other", "Outro")

    i['schoolsup'] = i['schoolsup'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['famsup'] = i['famsup'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['paid'] = i['paid'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['activities'] = i['activities'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['nursery'] = i['nursery'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['higher'] = i['higher'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['internet'] = i['internet'].str.replace("yes", "Sim").str.replace("no", "Nao")
    i['romantic'] = i['romantic'].str.replace("yes", "Sim").str.replace("no", "Nao")

dfs[0] = pd.get_dummies(df_mat, columns = ['school', 'higher', 'internet'])
dfs[1] = pd.get_dummies(df_por, columns = ['school', 'higher', 'internet'])

for i in dfs:
    i['school_GP'] = i['school_GP'].astype(int)
    i['school_MS'] = i['school_MS'].astype(int)
    i['higher_Nao'] = i['higher_Nao'].astype(int)
    i['higher_Sim'] = i['higher_Sim'].astype(int)
    i['internet_Nao'] = i['internet_Nao'].astype(int)
    i['internet_Sim'] = i['internet_Sim'].astype(int)

for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_lr, r2_lr, mae_lr = pred_linear_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Regressao Linear', str(X), str(y), mse_lr, f'{r2_lr:.2f}', mae_lr]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    mse_lr, r2_lr, mae_lr = pred_linear_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Regressao Linear', str(X), str(y), mse_lr, f'{r2_lr:.2f}', mae_lr]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = ['G1', 'G2']
    mse_lr, r2_lr, mae_lr = pred_linear_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Regressao Linear', str(X), str(y), mse_lr, f'{r2_lr:.2f}', mae_lr]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    mse_lr, r2_lr, mae_lr = pred_linear_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Regressao Linear', str(X), str(y), mse_lr, f'{r2_lr:.2f}', mae_lr]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_tree, mae_tree = pred_decision_tree(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Arvore de  Decisao', str(X), str(y), mse_tree, '-', mae_tree]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    mse_tree, mae_tree = pred_decision_tree(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Arvore de  Decisao', str(X), str(y), mse_tree, '-', mae_tree]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = ['G1', 'G2']
    mse_tree, mae_tree = pred_decision_tree(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Arvore de  Decisao', str(X), str(y), mse_tree, '-', mae_tree]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    mse_tree, mae_tree = pred_decision_tree(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Arvore de  Decisao', str(X), str(y), mse_tree, '-', mae_tree]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_gb, mae_gb = pred_gradient_boosting_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Gradient Boosting', str(X), str(y), mse_gb, '-', mae_gb]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    mse_gb, mae_gb = pred_gradient_boosting_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Gradient Boosting', str(X), str(y), mse_gb, '-', mae_gb]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    mse_gb, mae_gb = pred_gradient_boosting_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Gradient Boosting', str(X), str(y), mse_gb, '-', mae_gb]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_knn, mae_knn = pred_knn_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'KNN', str(X), str(y), mse_knn, '-', mae_knn]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_knn, mae_knn = pred_knn_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'KNN', str(X), str(y), mse_knn, '-', mae_knn]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = ['G1', 'G2']
    mse_knn, mae_knn = pred_knn_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'KNN', str(X), str(y), mse_knn, '-', mae_knn]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    mse_knn, mae_knn = pred_knn_regression(i, X, y)
    coefs.loc[len(coefs)] = [name, 'KNN', str(X), str(y), mse_knn, '-', mae_knn]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    mse_lgbm, mae_lgbm = pred_light_gbm(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Light GBM', str(X), str(y), mse_lgbm, '-', mae_lgbm]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    mse_lgbm, mae_lgbm = pred_light_gbm(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Light GBM', str(X), str(y), mse_lgbm, '-', mae_lgbm]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    mse_lgbm, mae_lgbm = pred_light_gbm(i, X, y)
    coefs.loc[len(coefs)] = [name, 'Light GBM', str(X), str(y), mse_lgbm, '-', mae_lgbm]

coefs['rmse'] = np.sqrt(coefs['mse'].astype(float))

coefs['rmse'] = coefs['rmse'].apply(lambda x: round(x, 2))
coefs['mse'] = coefs['mse'].apply(lambda x: round(x, 2))
coefs['mae'] = coefs['mae'].apply(lambda x: round(x, 2))

In [4]:
def pred_gradient_boosting_regression_grid_search(df, X, y):

    param_grid_gb = {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 5, 7],
        'subsample': [0.6, 0.8, 1.0]
    }

    grid_search_gb = GridSearchCV(
        estimator = GradientBoostingRegressor(),
        param_grid = param_grid_gb,
        cv = 5,
        scoring = 'neg_mean_absolute_error',
        n_jobs = -1
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    grid_search_gb.fit(X_train, y_train)

    return grid_search_gb.best_params_, grid_search_gb.best_score_ * -1


def pred_knn_regression_grid_search(df, X, y):

    param_grid_knn = {
        'n_neighbors': [3, 5, 7, 9],
        'weights': ['uniform', 'distance'],
        'metric': ['euclidean', 'manhattan']
    }

    grid_search_knn = GridSearchCV(
        estimator = KNeighborsRegressor(),
        param_grid = param_grid_knn,
        cv = 5,
        scoring = 'neg_mean_absolute_error',
        n_jobs = -1
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    grid_search_knn.fit(X_train_scaled, y_train)

    return grid_search_knn.best_params_, grid_search_knn.best_score_ * -1


def pred_decision_tree_grid_search(df, X, y):

    param_grid_dt = {
        'max_depth': [None, 10, 20],
        'min_samples_split': [2, 5, 10],
        'min_samples_leaf': [1, 2, 4]
    }

    grid_search_dt = GridSearchCV(
        estimator = DecisionTreeRegressor(),
        param_grid = param_grid_dt,
        cv = 5,
        scoring = 'neg_mean_absolute_error',
        n_jobs = -1
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    grid_search_dt.fit(X_train, y_train)

    return grid_search_dt.best_params_, grid_search_dt.best_score_ * -1


def pred_light_gbm_grid_search(df, X, y):

    param_grid_lgbm = {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2],
        'num_leaves': [20, 31, 40],
        'max_depth': [-1, 10, 20],
        'subsample': [0.6, 0.8, 1.0]
    }

    grid_search_lgbm = GridSearchCV(
        estimator = lgbm.LGBMRegressor(),
        param_grid = param_grid_lgbm,
        cv = 5,  #
        scoring = 'neg_mean_absolute_error',
        n_jobs = -1
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    grid_search_lgbm.fit(X_train, y_train)

    return grid_search_lgbm.best_params_, grid_search_lgbm.best_score_ * -1


In [5]:
coefs2 = pd.DataFrame({
    'materia': [],
    'modelo': [],
    'x': [],
    'variavel_target': [],
    'mae': []
})


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_decision_tree_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_decision_tree_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_decision_tree_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_gradient_boosting_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_gradient_boosting_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_gradient_boosting_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_knn_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'KNN', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_knn_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'KNN', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_knn_regression_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'KNN', str(X), str(y), best_score_]



for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_light_gbm_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Light GBM', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_light_gbm_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Light GBM', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_light_gbm_grid_search(dfs[0], X, y)
    coefs2.loc[len(coefs2)] = [name, 'Light GBM', str(X), str(y), best_score_]

  _data = np.array(data, dtype=dtype, copy=copy,


In [6]:
def pred_gradient_boosting_regression_random_search(df, X, y):

    param_dist_gb = {
        'n_estimators': [50, 100, 200],
        'learning_rate': np.linspace(0.01, 0.3, 10),
        'max_depth': [3, 5, 7],
        'subsample': [0.6, 0.8, 1.0]
    }

    random_search_gb = RandomizedSearchCV(
        estimator = GradientBoostingRegressor(),
        param_distributions = param_dist_gb,
        n_iter = 20,
        cv = 5,
        scoring = 'neg_mean_squared_error',
        n_jobs = -1,
        random_state = 42
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    random_search_gb.fit(X_train, y_train)

    return random_search_gb.best_params_, random_search_gb.best_score_ * -1


def pred_knn_regression_random_search(df, X, y):

    param_dist_knn = {
        'n_estimators': [50, 100, 200],
        'learning_rate': np.linspace(0.01, 0.3, 10),
        'max_depth': [3, 5, 7],
        'subsample': [0.6, 0.8, 1.0]
    }

    random_search_knn = RandomizedSearchCV(
        estimator = GradientBoostingRegressor(),
        param_distributions = param_dist_knn,
        n_iter = 20,
        cv = 5,
        scoring = 'neg_mean_squared_error',
        n_jobs = -1,
        random_state = 42
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train)
    random_search_knn.fit(X_train_scaled, y_train)

    return random_search_knn.best_params_, random_search_knn.best_score_ * -1


def pred_decision_tree_random_search(df, X, y):

    param_dist_dt = {
        'n_estimators': [50, 100, 200],
        'learning_rate': np.linspace(0.01, 0.3, 10),
        'max_depth': [3, 5, 7],
        'subsample': [0.6, 0.8, 1.0]
    }

    random_search_dt = RandomizedSearchCV(
        estimator = GradientBoostingRegressor(),
        param_distributions = param_dist_dt,
        n_iter = 20,
        cv = 5,
        scoring = 'neg_mean_squared_error',
        n_jobs = -1,
        random_state = 42
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    random_search_dt.fit(X_train, y_train)

    return random_search_dt.best_params_, random_search_dt.best_score_ * -1


def pred_light_gbm_random_search(df, X, y):

    param_dist_lgbm = {
        'n_estimators': [50, 100, 200],
        'learning_rate': np.linspace(0.01, 0.3, 10),
        'max_depth': [3, 5, 7],
        'subsample': [0.6, 0.8, 1.0]
    }

    random_search_lgbm = RandomizedSearchCV(
        estimator = GradientBoostingRegressor(),
        param_distributions = param_dist_lgbm,
        n_iter = 20,
        cv = 5,
        scoring = 'neg_mean_squared_error',
        n_jobs = -1,
        random_state = 42
    )

    X_train, X_test, y_train, y_test = train_test_split(df[X], df[y], test_size = 0.2, random_state = 42)
    random_search_lgbm.fit(X_train, y_train)

    return random_search_lgbm.best_params_, random_search_lgbm.best_score_ * -1

In [7]:
coefs3 = pd.DataFrame({
    'materia': [],
    'modelo': [],
    'x': [],
    'variavel_target': [],
    'mse': []
})


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_decision_tree_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_decision_tree_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_decision_tree_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Arvore de Decisao', str(X), str(y), best_score_]


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_gradient_boosting_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_gradient_boosting_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_gradient_boosting_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Gradient Boosting', str(X), str(y), best_score_]


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_knn_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'KNN', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_knn_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'KNN', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_knn_regression_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'KNN', str(X), str(y), best_score_]


for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G1'
    best_params_, best_score_ = pred_light_gbm_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Light GBM', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['failures', 'studytime', 'Medu', 'Fedu', 'school_GP', 'school_MS', 'higher_Nao', 'higher_Sim', 'internet_Nao', 'internet_Sim']
    y = 'G2'
    best_params_, best_score_ = pred_light_gbm_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Light GBM', str(X), str(y), best_score_]
for name, i in zip(df_names, dfs):
    X = ['G1', 'G2']
    y = 'G3'
    best_params_, best_score_ = pred_light_gbm_random_search(dfs[0], X, y)
    coefs3.loc[len(coefs3)] = [name, 'Light GBM', str(X), str(y), best_score_]


# 1 - Métricas utilizadas

#### Como visto anteriormente, dar uma olhada mais afundo nas métricas, o que elas significam, saber qual algoritmo conseguiu performar melhor e fazer as melhores previsões, assim como o oposto.

#### As métricas que vamos utilizar são:

- *MSE - Erro quadrático médio*
- *RMSE - Raiz do erro quadrático médio*
- *R² - Coeficiente de determinação*
- *MAE - Erro médio absoluto*

### 1.1 - MSE - Erro quadrático médio

##### Avalia o tamanho dos erros que o algoritmo está cometendo e os eleva ao quadrado, a fim de tornar os erros grandes ainda maiores.

##### Este modelo nos ajuda a ver se o modelo está cometendo muitos erros grandes.

### 1.2 - RMSE - Raiz do erro quadrático médio

##### Avalia o tamanho dos erros que o algoritmo está cometendo mas não os eleva ao quadrado.

##### Este modelo nos ajuda a ver se o modelo está cometendo erros como o MSE porém estes erros estarão na mesma unidade da medição.

### 1.3 - R² - Coeficiente de determinação (Regressão Linear)

##### Avalia o quão bem a Regressão Linear consegue explicar alguma coisa baseado em outras. Varia de 0 a 1, correspondendo à 0% e 100%

##### Um R² de 0 significa que o modelo de Regressão Linear não explica nada e essencialmente é como se estivesse adivinhando.

### 1.4 - MAE - Erro médio absoluto

##### O quão longe, em média, as previsões do modelo estão dos valores reais, ignorando se o valor é negativo ou positivo.

# 2 - Tabela de métricas

In [3]:
coefs

Unnamed: 0,materia,modelo,x,variavel_target,mse,r2,mae,rmse
0,Matemática,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,12.64,0.08,3.0,3.56
1,Português,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,7.14,0.17,2.07,2.67
2,Matemática,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,12.26,0.14,2.95,3.5
3,Português,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,7.43,0.17,2.03,2.72
4,Matemática,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...","['G1', 'G2']",12.45,0.11,2.97,3.53
5,Português,Regressao Linear,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...","['G1', 'G2']",7.28,0.17,2.05,2.7
6,Matemática,Regressao Linear,"['G1', 'G2']",G3,4.21,0.79,1.26,2.05
7,Português,Regressao Linear,"['G1', 'G2']",G3,1.37,0.86,0.73,1.17
8,Matemática,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,17.56,-,3.41,4.19
9,Português,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,8.85,-,2.41,2.98


### A tabela acima nos mostra o seguinte:

##### Para todos os modelos utilizados, quando utilizamos as variáveis: *repetições* / *tempo de estudo* / *escola* / *educação mãe* / *educação pai* / *interesse em ensino superior* / *acesso à internet*, para prever as notas G1 e G2. Vemos que o algoritmo comete muitos erros, e erros grandes.

##### O MSE varia entre 7 para Português e 15 (chegando até 19) para Matemática. Porém considerando que a variável alvo varia entre 0 e 20. Um erro de MSE de 7 é bastante considerável.

##### A Regressão Linear consegue prever aproximadamente 15 a 20% das notas dos alunos baseada nessas informações, e o acerto da previsão da nota final baseado nas outras notas é de aproximadamente 80%

##### Por outro lado, considerando valores absolutos do MAE, observamos que a média dos erros do modelo não está tão longe dos valores reais. Eem média os maiores erros foram entre 2 e 3,5. Considerando a escala da variável entre 0 e 20, esta métrica mostrou que os modelos, quando não erraram bastante, tiveram uma taxa de acerto relativamente boa.

# Tuning de Hiperparametros

##### Vamos aplicar técnicas chamadas de Tuning de Hiperparametros.

##### Isso nada mais é do que ajustes que podemos fazer para calibrar alguns parâmetros de como o algoritmo aplica suas fórmulas.

##### O objetivo disso é vermos se alguns modelos podem ter sua eficiencia melhorada e oferecer melhores resultados, num escopo de diferentes valores.

##### Vamos utilizar 2 técnicas para realizar esses ajustes:

- Grid Search
- Random Search

In [8]:
coefs2

Unnamed: 0,materia,modelo,x,variavel_target,mae
0,Matemática,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,2.635511
1,Português,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,2.635511
2,Matemática,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,2.884817
3,Português,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,2.884817
4,Matemática,Arvore de Decisao,"['G1', 'G2']",G3,1.237203
5,Português,Arvore de Decisao,"['G1', 'G2']",G3,1.237203
6,Matemática,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,2.482702
7,Português,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,2.489647
8,Matemática,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,2.702944
9,Português,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,2.699618


In [9]:
coefs3

Unnamed: 0,materia,modelo,x,variavel_target,mse
0,Matemática,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,9.600895
1,Português,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,9.638552
2,Matemática,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,13.453558
3,Português,Arvore de Decisao,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,13.419085
4,Matemática,Arvore de Decisao,"['G1', 'G2']",G3,4.0923
5,Português,Arvore de Decisao,"['G1', 'G2']",G3,4.090966
6,Matemática,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,9.745117
7,Português,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G1,9.783166
8,Matemática,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,13.396017
9,Português,Gradient Boosting,"['failures', 'studytime', 'Medu', 'Fedu', 'sch...",G2,13.450997


### As tabelas acima nos mostram o seguinte:

##### A primeira tabela (Referente ao ajuste de Grid Search), podemos observar que em média, temos uma métrica de MAE (Erro médio absoluto) de aproximadamente 2,5, em comparação de erros acima de 3 e quase 4 quando comparados antes dos ajustes.

##### Isso significa que a calibragem do Grid Search ajudou o modelo à performar melhor e fazer predições melhores e com menos erros.

##### A segunda tabela (Referente ao ajuste de Random Search), podemos observar que em média, temos uma métrica de MSE (Erro quadrático médio) de aproximadamente 9 e 13, em comparação de erros de antes dos ajustes.

##### Isso significa que a calibragem do Random Search não ajudou o modelo à performar melhor e fazer predições melhores.

# Conclusões Finais

### Com tudo o que vimos nos dados dos estudantes, podemos tirar algumas conclusões:

1) Quanto mais tempo o aluno passa estudando, maior é a nota. Essa correlação é quase o dobro em Português do que em Matemática.

2) Isso explica o aumento de notas baixas durante o ano, significando que esta matéria fique bastante difícil com relação ao tempo, de maneira que nem um aluno que passa muito tempo estudando consiga um bom desempenho.

3) Há um menor tempo de dedicação aos estudos em matemática, por causa da crescente complexidade na matéria ao longo do ano, isso pode fazer com que os alunos acabem se "desmotivando" para estudar.

4) Alunos da escola Gabriel Pereira tem uma nota em português maior do que os alunos da escola Mousinho da Silveira.

5) A estrutura familiar do aluno não se relaciona tanto com a quantidade de horas que o aluno estuda e suas notas.

6) Alunos da zona urbana tem uma média de notas superior à alunos que moram em área rual. Assim como os que estudam mais longe de casa tem uma nota menor dos que estudam mais perto de casa.

7) Alunos com suporte educacional extra tendem a concentrar suas notas entre 7.5 e 10, alunos sem suporte adquirem uma frequência maior de notas 0.

# Propostas

##### Propomos, então, a implementação dos seguintes modelos de modo a mitigar os principais problemas apresentados acima:

## 1 - Aumentar interesse do aluno.

##### Aumentar o interesse do aluno em estudar matemática ao diminuir o foco em decorar fórmulas onde isso ocorre, ao invés, trazer problemas mais palpáveis do ambiente do aluno para a sala de aula, mostrando onde tais numeros, fórmulas e metodologias se aplicam ao cotidiano do contexto em que o aluno está inserido, fazendo-o perceber como a matemática se aplica ao seu próprio dia a dia.

##### Exemplo: como alunos em um contexto rural tem notas menores, podemos ensinar matemática num contexto rural e de campo, mostrando como a matemática se aplica em diferentes áreas e ciclos de plantio, como a matemática foi usada na construção de casas na época dos grandes latifúndios, conceitos de matemática e física que se aplicam à GPS, ferramenta muito usada no controle de máquinas agrícolas.

## 2 - Recompensar esforço.

##### Ao diminuir um pouco a quantidade e complexidade do conteúdo, ao decorar menos fórmulas e entender mais, o aluno se sente mais recompensado, e consequentemente mais motivado à estudar mais, quando vê que seu entendimento foi convertido em uma nota maior.

##### Exemplo: Compor parte da média final com várias lições de casa e trabalhos, pode estimular o aluno à se dedicar apenas um pouco mais todos os dias, aumentando o número de horas que passa estudando sem nem perceber que está estudando, e não apenas motivar o aluno à estudar somente em vésperas de provas.

## 3 - Estudo da escola Gabriel Pereira.

##### Realizar um estudo mais aprofundado e detalhado sobre as diferenças das didáticas e planos estudantis das duas escolas:

- Como são as aulas dos professores ? E suas formações ?
- O quão atualizado é o material didático ? Há diferença entre eles ?
- Há diferenças nos valores da escola ?
- Como estão estruturados os horários e intervalos ?
- Há diferença entre aplicabilidade de provas ?

##### Estes questionamentos devem ser feitos a fim de entender melhor a causa das notas da escola Gabriel Pereira serem melhores, e, partir destes pontos, traçar um plano para a analisar as possíveis implementações e mudanças a serem feitas na escola Mousinho da Silveira.