link do dataset: https://www.kaggle.com/laotse/credit-risk-dataset?select=credit_risk_dataset.csv

## Descrição das colunas :


person_age: idade da pesoa quando pegou o empréstimo.

person_income: renda por ano.

person_home_ownership: tipo de propriedade da casa.

person_emp_length: quantidade de tempo em anos que a pessoa está empregada.

loan_intent: objetivo do emprestimo.

loan_grade: é um sistema de classificação que envolve a atribuição de uma pontuação de qualidade a um empréstimo com base no histórico de crédito do mutuário, qualidade da caução e probabilidade de reembolso do principal e juros.

loan_amnt:valor do empréstimo.

loan_int_rate: o juros pago pelo empréstimo.

loan_status: status de risco do empréstimo.

loan_percent_income: relação entre o valor do empréstimo e a receita anual.

cb_person_default_on_file: histórico de inadimplência.

cb_person_cred_hist_length: representa o número de anos de história pessoal desde o primeiro empréstimo tomado por uma pessoa.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv('credit_risk_dataset.csv')

In [3]:
df.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4


In [4]:
df.columns = [ 'idade','renda_por_ano','tipo_moradia','tempo_de_emprego','objetivo_emprestimo',
               'class_risco_historico','montante_emprestimo','taxa_juros','risco_emprestimo',
               'porc_empr_renda_anual','inadimplencia_hist','qtd_anos_primeiro_emprestimo']

In [5]:
df = df[['idade','tempo_de_emprego','tipo_moradia',
         'objetivo_emprestimo','montante_emprestimo','taxa_juros',
         'renda_por_ano','porc_empr_renda_anual','class_risco_historico','inadimplencia_hist',
         'qtd_anos_primeiro_emprestimo','risco_emprestimo']]

In [6]:
df.head()

Unnamed: 0,idade,tempo_de_emprego,tipo_moradia,objetivo_emprestimo,montante_emprestimo,taxa_juros,renda_por_ano,porc_empr_renda_anual,class_risco_historico,inadimplencia_hist,qtd_anos_primeiro_emprestimo,risco_emprestimo
0,22,123.0,RENT,PERSONAL,35000,16.02,59000,0.59,D,Y,3,1
1,21,5.0,OWN,EDUCATION,1000,11.14,9600,0.1,B,N,2,0
2,25,1.0,MORTGAGE,MEDICAL,5500,12.87,9600,0.57,C,N,3,1
3,23,4.0,RENT,MEDICAL,35000,15.23,65500,0.53,C,N,2,1
4,24,8.0,RENT,MEDICAL,35000,14.27,54400,0.55,C,Y,4,1


In [7]:
df.shape

(32581, 12)

# Tratando os dados

- Tratando os dados ausentes.

In [8]:
df.isnull().sum()

idade                              0
tempo_de_emprego                 895
tipo_moradia                       0
objetivo_emprestimo                0
montante_emprestimo                0
taxa_juros                      3116
renda_por_ano                      0
porc_empr_renda_anual              0
class_risco_historico              0
inadimplencia_hist                 0
qtd_anos_primeiro_emprestimo       0
risco_emprestimo                   0
dtype: int64

In [9]:
df['taxa_juros'] = df['taxa_juros'].fillna(df.taxa_juros.mean())

In [10]:
df = df.dropna()

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 31686 entries, 0 to 32580
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   idade                         31686 non-null  int64  
 1   tempo_de_emprego              31686 non-null  float64
 2   tipo_moradia                  31686 non-null  object 
 3   objetivo_emprestimo           31686 non-null  object 
 4   montante_emprestimo           31686 non-null  int64  
 5   taxa_juros                    31686 non-null  float64
 6   renda_por_ano                 31686 non-null  int64  
 7   porc_empr_renda_anual         31686 non-null  float64
 8   class_risco_historico         31686 non-null  object 
 9   inadimplencia_hist            31686 non-null  object 
 10  qtd_anos_primeiro_emprestimo  31686 non-null  int64  
 11  risco_emprestimo              31686 non-null  int64  
dtypes: float64(3), int64(5), object(4)
memory usage: 3.1+ MB


- Tratando os dados das colunas **objetivo_emprestimo**,**tipo_moradia** e **inadimplencia_hist**

In [12]:
objetivo = {'EDUCATION': "educacao", 'MEDICAL': "saude", 'VENTURE': "risco", 
            'PERSONAL': "pessoal", 'DEBTCONSOLIDATION': "consolidacao_debito" ,'HOMEIMPROVEMENT':'reformar_casa'}
df['objetivo_emprestimo'] = df['objetivo_emprestimo'].map(objetivo)


tipo_moradia = {'RENT': 'alugada', 'MORTGAGE': 'hipoteca', 'OWN': 'propria', 'OTHER': 'outro'  }
df['tipo_moradia'] = df['tipo_moradia'].map(tipo_moradia)

In [13]:
df['inadimplencia_hist'] = df['inadimplencia_hist'].apply(lambda x:  1 if x =='Y' else 0)

In [14]:
df.head()

Unnamed: 0,idade,tempo_de_emprego,tipo_moradia,objetivo_emprestimo,montante_emprestimo,taxa_juros,renda_por_ano,porc_empr_renda_anual,class_risco_historico,inadimplencia_hist,qtd_anos_primeiro_emprestimo,risco_emprestimo
0,22,123.0,alugada,pessoal,35000,16.02,59000,0.59,D,1,3,1
1,21,5.0,propria,educacao,1000,11.14,9600,0.1,B,0,2,0
2,25,1.0,hipoteca,saude,5500,12.87,9600,0.57,C,0,3,1
3,23,4.0,alugada,saude,35000,15.23,65500,0.53,C,0,2,1
4,24,8.0,alugada,saude,35000,14.27,54400,0.55,C,1,4,1


# EDA

- Quais fatores influenciam na classificação do empréstimo como sendo de risco ou não.




- Transformar variáveis categóricas em variáveis numéricas.

In [15]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()


df['tipo_moradia_id']  = encoder.fit_transform(df['tipo_moradia'])
df['objetivo_emprestimo_id']  = encoder.fit_transform(df['objetivo_emprestimo'])
df['class_risco_historico_id']  = encoder.fit_transform(df['class_risco_historico'])

- Verificando dados inconsistentes.

In [16]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
idade,31686.0,27.747302,6.360283,20.0,23.0,26.0,30.0,144.0
tempo_de_emprego,31686.0,4.789686,4.14263,0.0,2.0,4.0,7.0,123.0
montante_emprestimo,31686.0,9661.337815,6336.226458,500.0,5000.0,8000.0,12500.0,35000.0
taxa_juros,31686.0,11.037157,3.070128,5.42,8.49,11.011695,13.16,23.22
renda_por_ano,31686.0,66691.878306,62427.286689,4000.0,39397.0,56000.0,80000.0,6000000.0
porc_empr_renda_anual,31686.0,0.169612,0.106297,0.0,0.09,0.15,0.23,0.83
inadimplencia_hist,31686.0,0.177649,0.382223,0.0,0.0,0.0,0.0,1.0
qtd_anos_primeiro_emprestimo,31686.0,5.809316,4.060867,2.0,3.0,4.0,8.0,30.0
risco_emprestimo,31686.0,0.215426,0.411124,0.0,0.0,0.0,0.0,1.0
tipo_moradia_id,31686.0,0.648141,0.831374,0.0,0.0,0.0,1.0,3.0


- Pode ser observados dados inconsistentes, como por exemplo idade máxima de 144 anos e tempo de emprego de 123 anos

- Tratando os dados inconsistentes das colunas **idade** e **tempo_de_emprego**.

In [17]:
df.query('idade > 94')

Unnamed: 0,idade,tempo_de_emprego,tipo_moradia,objetivo_emprestimo,montante_emprestimo,taxa_juros,renda_por_ano,porc_empr_renda_anual,class_risco_historico,inadimplencia_hist,qtd_anos_primeiro_emprestimo,risco_emprestimo,tipo_moradia_id,objetivo_emprestimo_id,class_risco_historico_id
81,144,4.0,alugada,risco,4800,13.57,250000,0.02,C,0,3,0,0,4,2
183,144,4.0,hipoteca,educacao,6000,11.86,200000,0.03,B,0,2,0,1,1,1
575,123,2.0,alugada,educacao,20400,10.25,80004,0.25,B,0,3,0,0,1,1
747,123,7.0,alugada,risco,20000,11.011695,78000,0.26,B,0,4,0,0,4,1
32297,144,12.0,hipoteca,pessoal,5000,12.73,6000000,0.0,C,0,25,0,1,2,2


In [20]:
df.query('tempo_de_emprego >40')

Unnamed: 0,idade,tempo_de_emprego,tipo_moradia,objetivo_emprestimo,montante_emprestimo,taxa_juros,renda_por_ano,porc_empr_renda_anual,class_risco_historico,inadimplencia_hist,qtd_anos_primeiro_emprestimo,risco_emprestimo,tipo_moradia_id,objetivo_emprestimo_id,class_risco_historico_id
0,22,123.0,alugada,pessoal,35000,16.02,59000,0.59,D,1,3,1,0,2,3
210,21,123.0,hipoteca,risco,20000,6.54,192000,0.1,A,0,4,0,1,4,0
32355,78,41.0,alugada,saude,3000,7.51,48000,0.06,A,0,25,0,0,5,0


In [21]:
df = df.query('idade <= 94 and tempo_de_emprego <= 41')

In [75]:
df.to_csv('dados_analise_risco_de_cresdito.csv',index=False)