# Linear Regression

### Imports

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns
from scipy import stats
from sklearn.linear_model import LinearRegression
from sklearn import preprocessing, metrics

### Carregando o Dataset

In [2]:
df = pd.read_csv('dataset/train.csv')

In [None]:
df.info()

In [4]:
df.isnull().sum()

id_cliente                 0
idade                      0
saldo_atual                0
divida_atual               0
renda_anual                0
valor_em_investimentos     0
taxa_utilizacao_credito    0
num_emprestimos            0
num_contas_bancarias       0
num_cartoes_credito        0
dias_atraso_dt_venc        0
num_pgtos_atrasados        0
num_consultas_credito      0
taxa_juros                 0
investe_exterior           0
pessoa_polit_exp           0
limite_adicional           0
dtype: int64

In [None]:
df

In [None]:
pd.unique(df['limite_adicional'])

In [None]:
df.count()

In [None]:
df.duplicated()

In [None]:
stats.zscore(df['idade'])

In [None]:
np.abs(stats.zscore(df['idade']))

In [77]:
df['outlier'] = np.abs(stats.zscore(df['idade']))

### Preparando os dados

In [None]:
df.columns

In [5]:
# features = ['idade', 'divida_atual', 'renda_anual',
#        'valor_em_investimentos', 'taxa_utilizacao_credito', 'num_emprestimos',
#        'num_contas_bancarias', 'num_cartoes_credito', 'dias_atraso_dt_venc',
#        'num_pgtos_atrasados', 'num_consultas_credito', 'taxa_juros']
features = ['idade', 'divida_atual', 'num_emprestimos']
label = ['saldo_atual']

In [6]:
x_train = df.loc[:, features]
y_train = df.loc[:, label]

# x_train = df.drop(['id_cliente', 'investe_exterior', 'pessoa_polit_exp', 'limite_adicional'])
# y_train = df.saldo_atual

In [None]:
x_train.head()

In [7]:
x_normalize = preprocessing.StandardScaler()
x_norm = x_normalize.fit_transform(x_train)

In [None]:
len(x_norm)

### Treinando o Modelo

In [7]:
# model definition
lr_model = LinearRegression()

# model fit
lr_model.fit(x_train, y_train)

# Previsão
y_pred = lr_model.predict(x_train)

lr_model.coef_

array([[-1.98465962e-05, -5.94767379e-02, -1.03443974e-02]])

In [8]:
df01 = df.loc[:, ['id_cliente', 'saldo_atual']]
df01['predict'] = y_pred
df01.head()

Unnamed: 0,id_cliente,saldo_atual,predict
0,1767,278.172008,336.783121
1,11920,268.874152,343.434261
2,8910,446.643127,427.35421
3,4964,321.141267,448.30386
4,10100,428.716114,437.087727


### Analisando a Perfomance

In [10]:
r2_squared = np.round( 100*metrics.r2_score(y_train, y_pred),  2)
print(f'R2 square: {r2_squared}%')

# Conclusão
print(f'{r2_squared}% da variação da variável y é reduzida, levando em consideração o preditor')
print(f'{r2_squared}% da variação da variável y é "explicada" pela variação do peditor x')

R2 square: 9.98%
9.98% da variação da variável y é reduzida, levando em consideração o preditor
9.98% da variação da variável y é "explicada" pela variação do peditor x


### Gráficos

In [None]:
df.head()

In [None]:
plt.figure(figsize=(5, 3))
sns.countplot(x=df['investe_exterior'], stat='percent', legend='full')