# Análise das variáveis/indicadores | XGBoost

- Apenas variáveis de caráter pessoal & se tem bullying ou não (binário)

In [1]:
import pandas as pd
import seaborn as sns
import plotly.express as px

In [2]:
# carrega dataset pré-processado
df_train = pd.read_csv('../../datasets/new-bullying_notamedia_train.csv', sep=',')
df_test = pd.read_csv('../../datasets/new-bullying_notamedia_test.csv', sep=',')

In [3]:
# mostre todas as variáveis
df_train.columns

Index(['Unnamed: 0', 'Escola', 'Curso', 'Cor ', 'Genero', 'Ano', 'Idade',
       'Demora dormir', 'Sonhos ruins', 'Qualidade do sono',
       'Relação com Amigos', 'Relação com Professores', 'Auto-Imag', 'Fisico',
       'Social', 'Verbal', 'Material', 'Virtual', 'Mora com pais',
       'Escolari-mãe', 'Escolari-pai', 'Nota-exatas', 'Nota-humanas',
       'Nota-biológicas', 'Tipo escola', 'Bullying Total', 'Sofreu Bullying?',
       'Cor Agrupada', 'Média-notas', 'Média-notas-cat', 'SOFREU-BULLYING'],
      dtype='object')

In [4]:
variaveis_categoricas = ['Cor Agrupada', 'Genero', 'Auto-Imag', 'Tipo escola', 'Sofreu Bullying?']
variavel_target = 'Média-notas'

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

num_pipeline = Pipeline([
    ('robust_scaler', StandardScaler())
])

cat_pipeline = Pipeline([
    ('one-hot-encoding', OneHotEncoder(handle_unknown='ignore'))
])


# (name, transformer, columns)
preprocessed_pipeline = ColumnTransformer([
    #('numerical', num_pipeline, variaveis_numericas),
    ('categorical', cat_pipeline, variaveis_categoricas)
])

In [6]:
# treina o modelo de pré-processamento e
# preprocessa o treinamento
X_train = preprocessed_pipeline.fit_transform(df_train)
X_train

array([[1., 0., 0., ..., 0., 1., 0.],
       [1., 0., 1., ..., 1., 0., 1.],
       [1., 0., 0., ..., 1., 0., 1.],
       ...,
       [0., 1., 0., ..., 1., 1., 0.],
       [0., 1., 1., ..., 1., 1., 0.],
       [1., 0., 0., ..., 1., 0., 1.]])

In [7]:
X_train.min(axis=0), X_train.max(axis=0)

(array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
 array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]))

In [8]:
# recupera os nomes das features após aplicar o one-hot encoding
cat_feature_names = preprocessed_pipeline.named_transformers_['categorical'].named_steps['one-hot-encoding'].get_feature_names()
cat_feature_names



array(['x0_Branca', 'x0_Não-Branca', 'x1_Feminino', 'x1_Masculino',
       'x2_Boa', 'x2_Muito boa', 'x2_Muito ruim', 'x2_Regular', 'x2_Ruim',
       'x3_Privada', 'x3_Pública', 'x4_Não Sofreu Bullying',
       'x4_Sofreu Bullying'], dtype=object)

In [10]:
feature_names = list(cat_feature_names)
feature_names

['x0_Branca',
 'x0_Não-Branca',
 'x1_Feminino',
 'x1_Masculino',
 'x2_Boa',
 'x2_Muito boa',
 'x2_Muito ruim',
 'x2_Regular',
 'x2_Ruim',
 'x3_Privada',
 'x3_Pública',
 'x4_Não Sofreu Bullying',
 'x4_Sofreu Bullying']

In [11]:
len(feature_names)

13

In [None]:
# notas médias do treinamento
y_train = df_train['Média-notas']
y_train

In [None]:
# preprocessa o teste
X_test = preprocessed_pipeline.transform(df_test)
y_test = df_test['Média-notas']

In [None]:
# treinando um XGBoost
from xgboost import XGBRegressor

regressor = XGBRegressor()

regressor.fit(X_train, y_train)

In [None]:
regressor.feature_importances_

In [None]:
importances = pd.Series(data=regressor.feature_importances_, index=feature_names)
fig = px.bar(x=importances, y=importances.index)
fig.show()

In [None]:
# predição do conjunto de treinamento
y_train_pred = regressor.predict(X_train)

In [None]:
# coeficiente de determinação
# quanto mais próximo de 1, significa que as variáveis de estudo explicam melhor a variável de saída
from sklearn.metrics import r2_score

r2_train = r2_score(y_train, y_train_pred)
print(f'Coeficiente de Determinação para o Treinamento: {r2_train}')

In [None]:
# medindo o erro de predição para o treinamento (que são amostras já vistas durante o treinamento)
from sklearn.metrics import mean_absolute_error

mae_train = mean_absolute_error(y_train, y_train_pred)
print(f'Mean Absolute Error para o Treinamento: {mae_train}')

In [None]:
# predição do conjunto de treinamento
y_test_pred = regressor.predict(X_test)

In [None]:
# medindo o erro de predição para o teste
from sklearn.metrics import mean_absolute_error

mae_test = mean_absolute_error(y_test, y_test_pred)
print(f'Mean Absolute Error para o Teste: {mae_test}')

In [None]:
from sklearn.metrics import mean_squared_error

rmse = mean_squared_error(y_test, y_test_pred, squared=False)
print(f'RMSE para o Teste: {rmse}')

In [None]:
# visualizando quais são as variáveis mais importantes/relevantes para a predição
import eli5

In [None]:
eli5.show_weights(regressor, feature_names=feature_names, top=100)

In [None]:
# quanto maior o valor, mais importante a feature é para o modelo

In [None]:
# features categóricas ==> para descobrir o que é x0, x1, etc
for i, feat_name in enumerate(variaveis_categoricas):
    print(f'x{i} ==> {feat_name}')