# Imports

In [1]:
import pandas as pd
from sklearn.linear_model import LinearRegression

# Load Dataset

In [2]:
df = pd.read_csv('train.csv')

In [3]:
df.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


# Data Preparation

In [4]:
df.head()

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.826,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar


In [5]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [6]:
features = ['idade', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']


label = ['saldo_atual'] # variavel resposta

In [7]:
x_train = df.loc[:, features]
y_train = df.loc[:, label]

# Model Training

In [8]:
# model definition
lr_model = LinearRegression()

# model fit ( ajuste, treinamento )
lr_model.fit(x_train, y_train)

# previsão
y_pred = lr_model.predict(x_train)

In [9]:
len(features)

12

Nós treinamos o modelo usando 12 parâmetros, portanto a nossa variável de resposta (`saldo_atual`) será aproximada por uma função linear dependente de 12 varíaveis.

$f(x_1, x_2, ..., x_{12}) = a_0 + a_1x_1 + a_2x_2 + ... + a_{12}x_{12}$

O algoritmo encontrará quais são os valores dos parâmetros ($a_0, a_1, ..., a_{12}$) que minimizarão o erro quadrático:

$MSE = \sum_{i=1}^{N} (y_i - f(x_1, x_2, ..., x_{12}))^2$

$MSE = \sum_{i=1}^{N} (y_i - (a_0 + a_1x_1 + a_2x_2 + ... + a_{12}x_{12}) )^2$

Para consultar tais valores usamos os atributos `.coef_` e `.intecept_` do nosso objeto `lr_model`

In [10]:
lr_model.coef_

array([[ 3.96706202e-04, -4.00595601e-02,  2.77622532e-06,
        -1.04318668e-03,  9.80890872e+00, -1.22353405e-02,
        -6.33015538e-03, -3.57808095e-03, -2.15858165e+00,
         3.77570060e-04,  6.79176336e-03,  3.48471845e-03]])

In [11]:
lr_model.intercept_

array([190.82359144])

Os valores preditos para variável de saída (`saldo_atual`) foram armazenados na variável `y_pred`

In [12]:
y_pred

array([[346.66954862],
       [367.84027655],
       [431.46897895],
       ...,
       [412.25174802],
       [400.68529863],
       [455.26482252]])

In [13]:
df1 = df.loc[:, ['id_cliente', 'saldo_atual']]
df1['predicted'] = y_pred

df1.head()


Unnamed: 0,id_cliente,saldo_atual,predicted
0,1767,278.172008,346.669549
1,11920,268.874152,367.840277
2,8910,446.643127,431.468979
3,4964,321.141267,445.506463
4,10100,428.716114,378.271169


# Model Training - Statsmodels

O statsmodels é a biblioteca de regressão do Python mais próxima da aplicação do R.

In [14]:
features = ['idade', 'divida_atual', 'num_emprestimos']
label = ['saldo_atual']

x_train = df.loc[:, features]
y_train = df.loc[:, label]

In [15]:
df2 = pd.concat([x_train, y_train], axis=1)
df2.head()

Unnamed: 0,idade,divida_atual,num_emprestimos,saldo_atual
0,21,2577.05,6,278.172008
1,40,2465.39,5,268.874152
2,36,1055.29,0,446.643127
3,58,703.05,0,321.141267
4,35,891.29,2,428.716114


In [17]:
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [18]:
# model definition
lr_model = smf.ols(formula='saldo_atual ~ idade + divida_atual + num_emprestimos', data=df2)

# model training
lr_model = lr_model.fit()

anova_results = sm.stats.anova_lm(lr_model, typ=1)
anova_results

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
idade,1.0,408.5925,408.5925,0.009575,0.9220529
divida_atual,1.0,44940050.0,44940050.0,1053.104993,3.537135e-219
num_emprestimos,1.0,3976.109,3976.109,0.093174,0.7601864
Residual,9496.0,405230900.0,42673.85,,


In [19]:
anova_results = sm.stats.anova_lm(lr_model, typ=2)
anova_results

Unnamed: 0,sum_sq,df,F,PR(>F)
idade,1.755753,1.0,4.1e-05,0.9948823
divida_atual,44908620.0,1.0,1052.368542,4.9288670000000004e-219
num_emprestimos,3976.109,1.0,0.093174,0.7601864
Residual,405230900.0,9496.0,,


In [20]:
print(lr_model.summary())

                            OLS Regression Results                            
Dep. Variable:            saldo_atual   R-squared:                       0.100
Model:                            OLS   Adj. R-squared:                  0.100
Method:                 Least Squares   F-statistic:                     351.1
Date:                Wed, 15 Mar 2023   Prob (F-statistic):          3.21e-216
Time:                        09:44:56   Log-Likelihood:                -64119.
No. Observations:                9500   AIC:                         1.282e+05
Df Residuals:                    9496   BIC:                         1.283e+05
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept         490.1201      3.419    1

# Performance

In [31]:
import numpy as np

In [22]:
from sklearn import metrics as mt

Usamos a função `r2_score()` do módulo `metrics` do pacote `sklearn` para determinarmos o valor da métrica $R^{2}$.

$R^{2} = 1 - \frac{SSE}{SST}$

onde:

* $SSE = \sum_{i} e_i^2 = \sum_{i}  (y_i -\hat{y_i})^2$


* $SSR = \sum_{i}  (\hat{y_i} -\bar{y_i})^2$


* $SST = SSE + SSR$

In [26]:
r2_squared = mt.r2_score(y_train, y_pred)
r2_squared

0.16917364489050024

In [28]:
print(f'{r2_squared*100:.2f}% da variação da variável alvo y é reduzida, levando em consideração o preditor')
print(f'{r2_squared*100:.2f}% da variação da variável alvo y é “explicada" pela variação do preditor x')

16.92% da variação da variável alvo y é reduzida, levando em consideração o preditor
16.92% da variação da variável alvo y é “explicada" pela variação do preditor x


Usamos a função `mean_squared_error()` do módulo `metrics` do pacote `sklearn` para determinarmos o valor da métrica $MSE$.


$MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2$

In [29]:
mse = mt.mean_squared_error(y_train, y_pred)
mse

39370.26503401534

O $RMSE$ é calculado usado a seguinte fórmula:


$RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y_i})^2}$

$RMSE = \sqrt{MSE}$ 

In [32]:
rmse = np.sqrt(mse)
rmse

198.4194169783173