In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

Importando base de dados

In [31]:
#Importando a base de dados
base_credit = pd.read_csv('credit_risk_dataset.csv')

#Visualizando a base de dados
display(base_credit)

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.10,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4
...,...,...,...,...,...,...,...,...,...,...,...,...
32576,57,53000,MORTGAGE,1.0,PERSONAL,C,5800,13.16,0,0.11,N,30
32577,54,120000,MORTGAGE,4.0,PERSONAL,A,17625,7.49,0,0.15,N,19
32578,65,76000,RENT,3.0,HOMEIMPROVEMENT,B,35000,10.99,1,0.46,N,28
32579,56,150000,MORTGAGE,5.0,PERSONAL,B,15000,11.48,0,0.10,N,26


In [None]:
# describe mostra a quantidade
base_credit.describe()

#Filtrando para a pessoa que mais ganha
base_credit[base_credit['person_income'] >= 1440000.000000]


Visualização dos dados

In [None]:
#Visualização dos dados - Função "Unique" vai contar os valores unicos que existem na coluna
np.unique(base_credit['loan_status'], return_counts=True) #Return_count vai mostra a quantidade de cada um dos valores

In [None]:
#Gerando um gráfico de contagem - ; no final é para não aparecer mensagem
sns.countplot(x = base_credit['loan_status']);

In [None]:
#Gerando um histograma de divisão em faixas
plt.hist(x = base_credit['person_age']);

In [None]:
plt.hist(x = base_credit['person_income']);

In [None]:
plt.hist(x = base_credit['loan_amnt']);

In [None]:
#Gerando um gráfico dinamico com plotly - dimensions server para escolher quais parametros vamos analisar
grafico = px.scatter_matrix(base_credit, dimensions=['person_age', 'person_income', 'loan_amnt'], color='loan_status')
grafico.show()

Tratamento de valores Inconsistentes

In [None]:
#Localizando idades inconsistentes utilizando o comando "loc" da biblioteca Pandas
base_credit.loc[base_credit['person_age'] < 0]

#Outra forma - Utilizando um filtro ao invés do Loc
base_credit[base_credit['person_age'] < 0]

In [None]:
#Caso Isolado - precisar apagar a coluna inteira

#Drop -> Irá realizar a exclusão, para excluir uma coluna utilizamos o atributo "axis".
#Axis - 0 = linha, 1 = coluna
base_credit2 = base_credit.drop('person_age', axis= 1)
display(base_credit2)

In [None]:
#Apagar somente os registros com valores inconsistentes
base_credit3 = base_credit.drop(base_credit[base_credit["person_age"] < 0 ].index)
display(base_credit3)
#Código acima realiza, nova base vai ser igual a velha base removendo o filtro "person_age" menor que 0, ou seja removendo os valores inconsistentes

In [None]:
#Verificando se valores inconsistentes foram excluidos
base_credit3.loc[base_credit3["person_age"] < 0]

In [None]:
#Outra maneira - preencher valores inconsistentes manualmente

In [None]:
#Outra maneira - Preencher com a média 
base_credit['person_age'].mean()

#Filtrando média sem valores inconsistentes
base_credit['person_age'][base_credit['person_age'] > 0].mean()

In [None]:
#Localizando registros que tem problema com a idade faltando
base_credit.loc[base_credit["person_age"] < 0, 'person_age'] = 27.73

base_credit.loc[base_credit["person_age"] < 0]

#Visualizar primeiros registros
base_credit.head(10)

Tratamento de valores faltantes

In [None]:
#isnull irá mostar os valores faltantes dentro da tabela
base_credit.isnull()

#Ira ser feito o somatorio dos valores faltantes
base_credit.isnull().sum()


#Irá localizar somente os valores faltantes com um filtro
base_credit.loc[pd.isnull(base_credit['person_age'])]

In [None]:
#Função fillna do pandas para preencher valores nulos
base_credit["person_age"].fillna(base_credit['person_age'].mean(), inplace=True)

#Verificando novamente
base_credit.loc[pd.isnull(base_credit['person_age'])]

#Caso fosse verificar por id especifico
#base_credit.loc[(base_credit[''] == 1 )] | base_credit.loc[(base_credit[''] == 2 )]

#Mesma coisa que o de cima, mas utilizando a função isin do pandas
#base_credit.loc[base_credit["clientid"]].isin([1, 2])

Divisão entre previsores e classe

In [89]:
#Selecionar bases e colunas do dataframe, selecionei somente coluna de idade, renda e divida
x_credit = base_credit.iloc[:, [0, 1, 6]].values
display(x_credit)

array([[    22,  59000,  35000],
       [    21,   9600,   1000],
       [    25,   9600,   5500],
       ...,
       [    65,  76000,  35000],
       [    56, 150000,  15000],
       [    66,  42000,   6475]], dtype=int64)

In [None]:

y_credit = base_credit.iloc[:, 10].values

display(y_credit)


Escalonamento dos valores

In [85]:
#Analisando a menor renda, e a menor idade, menor divida
x_credit[:,2].min(), x_credit[:,0].min(), x_credit[:,1].min()


(500, 20, 4000)

In [86]:
#Analisando a maior renda, maior idade, maior divida
x_credit[:,2].max(), x_credit[:,0].max(), x_credit[:,1].max()

(35000, 144, 6000000)

In [93]:
#Formula padronização dos dados 
from sklearn.preprocessing import StandardScaler

scaler_credit = StandardScaler()
x_credit = scaler_credit.fit_transform(x_credit)

x_credit[:,2].min(), x_credit[:,0].min(), x_credit[:,1].min()

#x_credit[:,2].max(), x_credit[:,0].max(), x_credit[:,1].max()
 

(-1.437739010418245, -1.2184346364593488, -1.0014952772370846)

In [92]:
x_credit

array([[-0.90337383, -0.11414329,  4.01940376],
       [-1.06090423, -0.91114671, -1.35864998],
       [-0.43078263, -0.91114671, -0.64684875],
       ...,
       [ 5.87043346,  0.16012914,  4.01940376],
       [ 4.45265984,  1.35402091,  0.85584274],
       [ 6.02796387, -0.38841572, -0.49262515]])