# Análise das variáveis/indicadores por regressão linear
- Bullying, Relação com os professores, Relação com os alunos

In [None]:
import pandas as pd

In [None]:
# carrega dataset original
df_train = pd.read_csv('../../datasets/bullying_notamedia_train.csv', sep=',')
df_test = pd.read_csv('../../datasets/bullying_notamedia_test.csv', sep=',')

In [None]:
# mostre todas as variáveis
df_train.columns

In [None]:
variaveis_numericas = ['Ano', 'Idade', 'Sonhos ruins', 'Fisico', 'Social', 'Verbal', 'Material', 'Virtual']
variaveis_categoricas = ['Cor ', 'Genero', 'Demora dormir', 'Qualidade do sono', 'Relação com Amigos', 'Relação com Professores', 'Auto-Imag', 'Mora com pais', 'Escolari-mãe', 'Escolari-pai', 'Tipo escola']
variavel_target = 'Nota-media'

In [None]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

num_pipeline = Pipeline([
    ('robust_scaler', StandardScaler())
])

cat_pipeline = Pipeline([
    ('one-hot-encoding', OneHotEncoder(handle_unknown='ignore'))
])


# (name, transformer, columns)
preprocessed_pipeline = ColumnTransformer([
    ('numerical', num_pipeline, variaveis_numericas),
    ('categorical', cat_pipeline, variaveis_categoricas)
])

In [None]:
# treina o modelo de pré-processamento e
# preprocessa o treinamento
X_train = preprocessed_pipeline.fit_transform(df_train)
X_train

In [None]:
X_train.min(axis=0), X_train.max(axis=0)

In [None]:
# recupera os nomes das features após aplicar o one-hot encoding
cat_feature_names = preprocessed_pipeline.named_transformers_['categorical'].named_steps['one-hot-encoding'].get_feature_names()
cat_feature_names

In [None]:
# substitua o indice da feature pelo nome original da variavel


In [None]:
feature_names = variaveis_numericas + list(cat_feature_names)
feature_names

In [None]:
len(feature_names)

In [None]:
# notas médias do treinamento
y_train = df_train['Nota-media']
y_train

In [None]:
# preprocessa o teste
X_test = preprocessed_pipeline.transform(df_test)
y_test = df_test['Nota-media']

In [None]:
# treinando um XGBoost
from xgboost import XGBRegressor

regressor = XGBRegressor()

regressor.fit(X_train, y_train)

In [None]:
# predição do conjunto de treinamento
y_train_pred = regressor.predict(X_train)

In [None]:
# coeficiente de determinação
# quanto mais próximo de 1, significa que as variáveis de estudo explicam melhor a variável de saída
from sklearn.metrics import r2_score

r2_train = r2_score(y_train, y_train_pred)
print(f'Coeficiente de Determinação para o Treinamento: {r2_train}')

In [None]:
# medindo o erro de predição para o treinamento (que são amostras já vistas durante o treinamento)
from sklearn.metrics import mean_absolute_error

mae_train = mean_absolute_error(y_train, y_train_pred)
print(f'Mean Absolute Error para o Treinamento: {mae_train}')

In [None]:
# predição do conjunto de treinamento
y_test_pred = regressor.predict(X_test)

In [None]:
# medindo o erro de predição para o teste
from sklearn.metrics import mean_absolute_error

mae_test = mean_absolute_error(y_test, y_test_pred)
print(f'Mean Absolute Error para o Teste: {mae_test}')

In [None]:
# visualizando quais são as variáveis mais importantes/relevantes para a predição
import eli5

In [None]:
eli5.show_weights(regressor, feature_names=feature_names)

In [None]:
# features categóricas ==> para descobrir o que é x0, x1, etc
for i, feat_name in enumerate(variaveis_categoricas):
    print(f'x{i} ==> {feat_name}')