# Análise das variáveis/indicadores | Regressão Linear

- Todas as variáveis & se tem bullying ou não (binário)

In [1]:
import pandas as pd
import seaborn as sns
import plotly.express as px

In [2]:
# carrega dataset pré-processado
df_train = pd.read_csv('../../../datasets/new-bullying_notamedia_train.csv', sep=',')
df_test = pd.read_csv('../../../datasets/new-bullying_notamedia_test.csv', sep=',')

In [3]:
# mostre todas as variáveis
df_train.columns

Index(['Unnamed: 0', 'Escola', 'Curso', 'Cor ', 'Genero', 'Ano', 'Idade',
       'Demora dormir', 'Sonhos ruins', 'Qualidade do sono',
       'Relação com Amigos', 'Relação com Professores', 'Auto-Imag', 'Fisico',
       'Social', 'Verbal', 'Material', 'Virtual', 'Mora com pais',
       'Escolari-mãe', 'Escolari-pai', 'Nota-exatas', 'Nota-humanas',
       'Nota-biológicas', 'Tipo escola', 'Bullying Total', 'Sofreu Bullying?',
       'Cor Agrupada', 'Média-notas', 'Média-notas-cat', 'SOFREU-BULLYING'],
      dtype='object')

In [4]:
variaveis_numericas = ['Ano', 'Idade', 'Sonhos ruins']
variaveis_categoricas = ['Cor Agrupada', 'Genero', 'Demora dormir', 'Qualidade do sono', 'Relação com Amigos', 'Relação com Professores', 'Auto-Imag', 'Mora com pais', 'Escolari-mãe', 'Escolari-pai', 'Tipo escola', 'Sofreu Bullying?']
variavel_target = 'Média-notas'

In [5]:
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

num_pipeline = Pipeline([
    ('robust_scaler', StandardScaler())
])

cat_pipeline = Pipeline([
    ('one-hot-encoding', OneHotEncoder(handle_unknown='ignore'))
])


# (name, transformer, columns)
preprocessed_pipeline = ColumnTransformer([
    ('numerical', num_pipeline, variaveis_numericas),
    ('categorical', cat_pipeline, variaveis_categoricas)
])

In [6]:
# treina o modelo de pré-processamento e
# preprocessa o treinamento
X_train = preprocessed_pipeline.fit_transform(df_train)
X_train

array([[ 1.21780166,  0.13871371,  0.1383059 , ...,  0.        ,
         1.        ,  0.        ],
       [ 0.03332293, -0.64733067,  2.43948068, ...,  1.        ,
         0.        ,  1.        ],
       [ 2.4022804 ,  0.13871371,  0.1383059 , ...,  1.        ,
         0.        ,  1.        ],
       ...,
       [-1.1511558 ,  0.9247581 , -1.01228149, ...,  1.        ,
         1.        ,  0.        ],
       [-1.1511558 ,  1.71080248,  0.1383059 , ...,  1.        ,
         1.        ,  0.        ],
       [-1.1511558 , -1.43337505,  0.1383059 , ...,  1.        ,
         0.        ,  1.        ]])

In [7]:
X_train.min(axis=0), X_train.max(axis=0)

(array([-1.1511558 , -2.21941944, -1.01228149,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ]),
 array([2.4022804 , 1.71080248, 2.43948068, 1.        , 1.        ,
        1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 1.        , 1.        , 1.        , 1.        ,
        1.        , 1.

In [8]:
# recupera os nomes das features após aplicar o one-hot encoding
cat_feature_names = preprocessed_pipeline.named_transformers_['categorical'].named_steps['one-hot-encoding'].get_feature_names()
cat_feature_names



array(['x0_Branca', 'x0_Não-Branca', 'x1_Feminino', 'x1_Masculino',
       'x2_1-2 vezes por semana', 'x2_2-3 vezes por semana',
       'x2_< 1 vez por semana', 'x2_> 3 vezes por semana', 'x3_Boa',
       'x3_Muito boa', 'x3_Muito ruim', 'x3_Regular', 'x3_Ruim', 'x4_Boa',
       'x4_Muito boa', 'x4_Muito ruim', 'x4_Regular', 'x4_Ruim', 'x5_Boa',
       'x5_Muito boa', 'x5_Muito ruim', 'x5_Regular', 'x5_Ruim', 'x6_Boa',
       'x6_Muito boa', 'x6_Muito ruim', 'x6_Regular', 'x6_Ruim', 'x7_Não',
       'x7_Sim', 'x8_Ensino médio', 'x8_Fundamental ', 'x8_Fundamental 1',
       'x8_Fundamental 2', 'x8_Graduação', 'x8_Pós-graduação',
       'x9_Ensino médio', 'x9_Fundamental 1', 'x9_Fundamental 2',
       'x9_Graduação', 'x9_Pós-graduação', 'x10_Privada', 'x10_Pública',
       'x11_Não Sofreu Bullying', 'x11_Sofreu Bullying'], dtype=object)

In [9]:
feature_names = variaveis_numericas + list(cat_feature_names)
feature_names

['Ano',
 'Idade',
 'Sonhos ruins',
 'x0_Branca',
 'x0_Não-Branca',
 'x1_Feminino',
 'x1_Masculino',
 'x2_1-2 vezes por semana',
 'x2_2-3 vezes por semana',
 'x2_< 1 vez por semana',
 'x2_> 3 vezes por semana',
 'x3_Boa',
 'x3_Muito boa',
 'x3_Muito ruim',
 'x3_Regular',
 'x3_Ruim',
 'x4_Boa',
 'x4_Muito boa',
 'x4_Muito ruim',
 'x4_Regular',
 'x4_Ruim',
 'x5_Boa',
 'x5_Muito boa',
 'x5_Muito ruim',
 'x5_Regular',
 'x5_Ruim',
 'x6_Boa',
 'x6_Muito boa',
 'x6_Muito ruim',
 'x6_Regular',
 'x6_Ruim',
 'x7_Não',
 'x7_Sim',
 'x8_Ensino médio',
 'x8_Fundamental ',
 'x8_Fundamental 1',
 'x8_Fundamental 2',
 'x8_Graduação',
 'x8_Pós-graduação',
 'x9_Ensino médio',
 'x9_Fundamental 1',
 'x9_Fundamental 2',
 'x9_Graduação',
 'x9_Pós-graduação',
 'x10_Privada',
 'x10_Pública',
 'x11_Não Sofreu Bullying',
 'x11_Sofreu Bullying']

In [10]:
len(feature_names)

48

In [11]:
# notas médias do treinamento
y_train = df_train['Média-notas']
y_train

0      3.333333
1      4.000000
2      3.333333
3      4.000000
4      4.000000
         ...   
386    4.000000
387    3.333333
388    4.000000
389    3.333333
390    3.666667
Name: Média-notas, Length: 391, dtype: float64

In [12]:
# preprocessa o teste
X_test = preprocessed_pipeline.transform(df_test)
y_test = df_test['Média-notas']

In [13]:
# treinando um regressor linear
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()

regressor.fit(X_train, y_train)

In [14]:
# predição do conjunto de treinamento
y_train_pred = regressor.predict(X_train)

In [15]:
# coeficiente de determinação
# quanto mais próximo de 1, significa que as variáveis de estudo explicam melhor a variável de saída
from sklearn.metrics import r2_score

r2_train = r2_score(y_train, y_train_pred)
print(f'Coeficiente de Determinação para o Treinamento: {r2_train}')

Coeficiente de Determinação para o Treinamento: -0.13148814120887375


In [16]:
# medindo o erro de predição para o treinamento (que são amostras já vistas durante o treinamento)
from sklearn.metrics import mean_absolute_error

mae_train = mean_absolute_error(y_train, y_train_pred)
print(f'Mean Absolute Error para o Treinamento: {mae_train}')

Mean Absolute Error para o Treinamento: 0.5475210464620631


In [17]:
# predição do conjunto de treinamento
y_test_pred = regressor.predict(X_test)

In [18]:
# medindo o erro de predição para o teste
from sklearn.metrics import mean_absolute_error

mae_test = mean_absolute_error(y_test, y_test_pred)
print(f'Mean Absolute Error para o Teste: {mae_test}')

Mean Absolute Error para o Teste: 0.5648915816326531


In [19]:
from sklearn.metrics import mean_squared_error

rmse = mean_squared_error(y_test, y_test_pred, squared=False)
print(f'RMSE para o Teste: {rmse}')

RMSE para o Teste: 0.6935665333695951


In [21]:
# visualizando quais são as variáveis mais importantes/relevantes para a predição
import eli5

In [22]:
eli5.show_weights(regressor, feature_names=feature_names, top=100)

Weight?,Feature
29124685750680.637,x1_Feminino
29124685750680.566,x1_Masculino
26893786952488.902,x10_Privada
26893786952488.8,x10_Pública
8884544807984.832,x2_1-2 vezes por semana
8884544807984.63,x2_2-3 vezes por semana
8884544807984.594,x2_< 1 vez por semana
8884544807984.443,x2_> 3 vezes por semana
8453835996953.854,x9_Pós-graduação
8453835996953.812,x9_Graduação


In [23]:
# quanto maior o valor, mais importante a feature é para o modelo

In [24]:
# features categóricas ==> para descobrir o que é x0, x1, etc
for i, feat_name in enumerate(variaveis_categoricas):
    print(f'x{i} ==> {feat_name}')

x0 ==> Cor Agrupada
x1 ==> Genero
x2 ==> Demora dormir
x3 ==> Qualidade do sono
x4 ==> Relação com Amigos
x5 ==> Relação com Professores
x6 ==> Auto-Imag
x7 ==> Mora com pais
x8 ==> Escolari-mãe
x9 ==> Escolari-pai
x10 ==> Tipo escola
x11 ==> Sofreu Bullying?
