In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

## Base Crédito

#### Obejtivo: Prever se uma pessoa tem a tendência de pagar ou não o empréstimo.

### Exploração dos dados

In [None]:
base_credit = pd.read_csv('../database/credit_data.csv')

O objetivo é prever o atributo default que indica se o usuário pagou ou não o empréstimo. 

In [None]:
base_credit.head() # Exibe as primeiras linhas do dataset

In [None]:
base_credit.tail() # Exibe as últimas linhas do dataset

In [None]:
base_credit.describe() # Estatísticas descritivas, quantidade, média, desvio padrão, mínimo, máximo, etc.

In [None]:
base_credit[base_credit['income'].max() == base_credit['income']]   # pessoa com a maior renda

In [None]:
base_credit[base_credit['loan'].min() == base_credit['loan']]   # pessoa com o menor empréstimo

In [None]:
np.unique(base_credit['default'], return_counts=True) # Contagem de valores únicos

In [None]:
sns.countplot(x=base_credit['default']); # Gráfico de barras

In [None]:
plt.hist(x= base_credit['age']); # Histograma para visualizar a distribuição de idades

In [None]:
plt.hist(x= base_credit['income']); # Histograma para visualizar a distribuição de renda

In [None]:
plt.hist(x=base_credit['loan']); # Histograma para visualizar a distribuição de empréstimos

In [None]:
grafico = px.scatter_matrix(base_credit, dimensions=['age', 'income', 'loan'], color='default'); # Gráfico de dispersão
grafico.show() 
# visulizar valores que fogem do padrão

### Tratamento de valores Inconsistentes

In [None]:
base_credit.loc[base_credit['age'] < 0] # idade negativa

In [None]:
base_credit[base_credit['age'] < 0] # idade negativa

In [None]:
# Apagar coluna de idade inteira
base_credit2 = base_credit.drop('age', axis=1) # axis=1 para apagar coluna inteira, axis=0 para apagar linha inteira
base_credit2

In [None]:
# Apagar somente registros com valores negativos
base_credit3 = base_credit.drop(base_credit[base_credit['age'] < 0].index)
base_credit3

In [None]:
# Validar se os dados foram apagados
base_credit3.loc[base_credit3['age'] < 0]

In [None]:
# Preencher os valores manualmente 
# Preencher com a média das idades
base_credit.mean() # Média de todas as colunas

In [None]:
base_credit['age'].mean() # Média da coluna idade

In [None]:
base_credit['age'][base_credit['age'] > 0].mean() # Média da coluna idade sem valores negativos

In [None]:
base_credit.loc[base_credit['age'] < 0, 'age'] = 40.92 # Preencher com a média

In [None]:
base_credit.loc[base_credit['age'] < 0] # Validar se os valores foram preenchidos

In [None]:
base_credit.head(27)

In [None]:
grafico = px.scatter_matrix(base_credit, dimensions=['age', 'income', 'loan'], color='default'); # Gráfico de dispersão
grafico.show()

### Tratamento dos Valores que estão faltando

In [None]:
base_credit.isnull()

In [None]:
base_credit.isnull().sum()

In [None]:
base_credit.loc[pd.isnull(base_credit['age'])] # Localizar valores nulos

In [None]:
# Preencher valores nulos com a média
base_credit.fillna(base_credit['age'].mean(), inplace=True)

In [None]:
#testar se os valores nulos foram preenchidos
base_credit.loc[pd.isnull(base_credit['age'])]

In [None]:
base_credit.loc[base_credit['clientid'].isin([29, 31, 32])]

### Divisão entre previsores e classe

In [None]:
# Previsores
x_credit = base_credit.iloc[:, 1:4].values

In [None]:
x_credit

In [None]:
# Classe
y_credit = base_credit.iloc[:, 4].values

In [None]:
y_credit

### Escalonamento de Valores

In [None]:
x_credit[:, 0].min(), x_credit[:, 1].min(), x_credit[:, 2].min() # Renda, idade e dívida mínima

In [None]:
x_credit[:, 0].max(), x_credit[:, 1].max() , x_credit[:, 2].max() # Renda, idade e dívida máximo

In [None]:
# Tranformando os dados para a mesma escala
from sklearn.preprocessing import StandardScaler

scaler_credit = StandardScaler()
x_credit = scaler_credit.fit_transform(x_credit)

In [None]:
x_credit[:, 0].min(), x_credit[:, 1].min(), x_credit[:, 2].min() # Renda, idade e dívida mínima

In [None]:
x_credit[:, 0].max(), x_credit[:, 1].max() , x_credit[:, 2].max() # Renda, idade e dívida máximo

#### Divisão de Base de Treinamento e Teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_credit_treinament, x_credit_test, y_credit_treinament, y_credit_test = train_test_split(x_credit, y_credit, test_size=0.25, random_state=0)

In [None]:
x_credit_treinament.shape, x_credit_test.shape, y_credit_treinament.shape, y_credit_test.shape

In [None]:
import pickle

In [None]:
with open('../database/credit.pkl', mode = 'wb') as f:
    pickle.dump([x_credit_treinament, x_credit_test, y_credit_treinament, y_credit_test], f)