# Regressão Linear na prática

## Imports

In [23]:
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn import metrics as mt

## Load Dataset

In [2]:
df_root = pd.read_csv('../dataset/train.csv')
df = df_root.copy()
df

Unnamed: 0,id_cliente,idade,saldo_atual,divida_atual,renda_anual,valor_em_investimentos,taxa_utilizacao_credito,num_emprestimos,num_contas_bancarias,num_cartoes_credito,dias_atraso_dt_venc,num_pgtos_atrasados,num_consultas_credito,taxa_juros,investe_exterior,pessoa_polit_exp,limite_adicional
0,1767,21,278.172008,2577.05,24196.89636,104.306544,31.038763,6,5,7,21,14,9,15,Não,Não,Negar
1,11920,40,268.874152,2465.39,19227.37796,69.858778,36.917093,5,8,5,40,23,10,18,Não,Não,Negar
2,8910,36,446.643127,1055.29,42822.28223,134.201478,34.561714,0,3,6,26,13,3,15,Sim,Não,Negar
3,4964,58,321.141267,703.05,51786.82600,297.350067,31.493561,0,3,7,12,7,2,1,Sim,Não,Negar
4,10100,35,428.716114,891.29,44626.85346,134.201478,28.028887,2,8,7,24,10,8,20,Sim,Não,Negar
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9495,5155,29,157.500279,157.98,32624.67754,237.739275,32.407322,100,4,4,24,15,1,14,Sim,Não,Negar
9496,11977,1237,497.714090,805.43,49024.15700,118.883577,23.632195,0,4,7,10,11,2,3,Não,Não,Negar
9497,9278,47,306.557684,2250.42,42200.88978,134.201478,34.623576,4,4,4,13,8,4,24,Não,Não,Negar
9498,2525,42,209.870718,505.37,35391.32289,245.498881,28.758818,3,7,6,24,13,3,11,Sim,Não,Negar


## Data Preparation

In [3]:
df.columns

Index(['id_cliente', 'idade', 'saldo_atual', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros',
       'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'],
      dtype='object')

In [48]:
features = [ 'idade', 'divida_atual', 'renda_anual',
       'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
       'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
       'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']

label = ['saldo_atual']

x_train = df.loc[:, features]
y_train = df.loc[:, label]

## Model Training

In [49]:
# Definição do Modelo
lr_model = LinearRegression()

# Treinamento do modelo (ajuste, treinamento)
lr_model.fit(x_train, y_train)

# Previsão
y_pred = lr_model.predict(x_train)

In [50]:
# Valores
df_pred = df.loc[:, ['id_cliente', 'saldo_atual']]
df_pred['previsao'] = y_pred

df_pred.head(10)

Unnamed: 0,id_cliente,saldo_atual,previsao
0,1767,278.172008,346.669549
1,11920,268.874152,367.840277
2,8910,446.643127,431.468979
3,4964,321.141267,445.506463
4,10100,428.716114,378.271169
5,2755,327.437723,352.483346
6,2859,635.332001,410.604085
7,5569,213.441895,210.685639
8,11674,566.245423,388.619965
9,5779,272.577709,301.147706


In [51]:
lr_model.coef_ #coeficientes da reta

array([[ 3.96706202e-04, -4.00595601e-02,  2.77622532e-06,
        -1.04318668e-03,  9.80890872e+00, -1.22353405e-02,
        -6.33015538e-03, -3.57808095e-03, -2.15858165e+00,
         3.77570060e-04,  6.79176336e-03,  3.48471845e-03]])

## Performance

### Testando várias variáveis, várias features

In [52]:
# Mostrando o R2 do meu modelo anteriormente feito, com todas as features
mt.r2_score(y_train, y_pred)

0.16917364489050013

### Testando "idade", "divida_atual" e "renda_anual"

In [26]:
features_teste = ["idade", "divida_atual", "renda_anual"]

x_train = df.loc[:, features_teste] # O x_train que muda, o y_train se mantém o mesmo, pois o label é o mesmo.

#### Treinando o modelo...

In [27]:
# Definição do Modelo
lr_model = LinearRegression()

# Treinamento do modelo (ajuste, treinamento)
lr_model.fit(x_train, y_train)

# Previsão
y_pred = lr_model.predict(x_train)

In [36]:
# Valores
df_pred = df.loc[:, ['id_cliente', 'saldo_atual']]
df_pred['previsao'] = y_pred

df_pred.head(10)

Unnamed: 0,id_cliente,saldo_atual,previsao
0,1767,278.172008,346.296731
1,11920,268.874152,367.46917
2,8910,446.643127,431.069457
3,4964,321.141267,445.2804
4,10100,428.716114,377.825596
5,2755,327.437723,352.05009
6,2859,635.332001,410.230239
7,5569,213.441895,210.398269
8,11674,566.245423,388.312036
9,5779,272.577709,300.654427


In [31]:
mt.r2_score(y_train, y_pred)

0.10045480225396786

### Experimento 02 - Labels que eu acho que importam mais...

In [92]:
# O que eu acho que explica o saldo atual? Vamos fazer um experimento...

# Acho que
features_teste = [ 'divida_atual',
      'taxa_utilizacao_credito', 'dias_atraso_dt_venc']

x_train = df.loc[:, features_teste] # O x_train que muda, o y_train se mantém o mesmo, pois o label é o mesmo.

#### Treinando o modelo...

In [93]:
# Instanciando meu modelo
reg = LinearRegression()

# Treinando meu modelo com x_train e y_train
reg.fit(x_train, y_train)

# Prevendo
y_pred = reg.predict(x_train)

In [94]:
mt.r2_score(y_train, y_pred)

0.16861830221419905