## **Base de dados de crédito**

**Dados coletados:** https://www.kaggle.com/laotse/credit-risk-dataset

**Sobre o conjunto de dados**

Descrição detalhada dos dados do conjunto de dados de Risco de Crédito:

Nome do recurso	Descrição

person_age:	Idade

person_income:	Renda Anual

person_home_ownership:	Casa própria

person_emp_length:	Duração do emprego (em anos)

loan_intent:	Intenção de empréstimo

loan_grade:	Grau de empréstimo

loan_amnt:	Valor do empréstimo

loan_int_rate:	Taxa de juros

loan_status:	Status do empréstimo (0 é não inadimplência, 1 é inadimplência)

loan_percent_income:	Percentual de renda

cb_person_default_on_file:	Inadimplência histórica

cb_preson_cred_hist_length:	Duração do histórico de crédito

### **Importação das Bibliotecas e carregamento dos dados** 

In [None]:
import pandas as pd
import numpy as np 
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px


import warnings

warnings.filterwarnings('ignore')
plt.style.use('dark_background')

df = pd.read_csv('/Users/diogomonteiro/credit_risk.csv')
df

### **Análise Exploratória dos dados** 

In [None]:
# Função para analise das colunas

def analise(df):
    for i in df.columns:
        if df[i].dtypes == 'int64' or df[i].dtypes == 'float64':
            print('_______________________________________________________')
            print(f'COLUNA: {df[i].name}')
            print('-------------------------------------------------------')
            print(f'Tipo da coluna: {df[i].dtypes}')
            print('-------------------------------------------------------')
            print(f'Valores unicos: {df[i].nunique()}')
            print('-------------------------------------------------------')
            print(f'Valores nulos:{df[i].isna().sum()}')
            print('-------------------------------------------------------')
            print(f'Analisando a média, mediana, desvio padrão e quartis:\n{df[i].describe()}')
            print('-------------------------------------------------------')
            # Crie a figura e os eixos
            fig, axs = plt.subplots(1, 3, figsize=(16, 8))
    
            # Plotando o boxplot no primeiro eixo
            sns.boxplot(y=df[i], ax=axs[0])
            axs[0].set_title(f'Boxplot de {df[i].name}')
    
            # Plotando o histograma no segundo eixo
            sns.histplot(df[i], kde=True, ax=axs[1])
            axs[1].set_title(f'Histograma de {df[i].name}')

            sns.heatmap(df[[i,'loan_status']].corr(),annot=True ,ax=axs[2])
            axs[2].set_title(f'Heatmap das {df[i].name} e {df.loan_status.name}')
    
            # Mostrando os plots
            plt.show();

        else:

            print('_________________________________________________')
            print(f'COLUNA: {df[i].name}')
            print('-------------------------------------------------')
            print(f'Tipo da coluna: {df[i].dtypes}')
            print('-------------------------------------------------')
            print(f'Valores unicos: {df[i].nunique()}')
            print('-------------------------------------------------')
            print(f'Valores nulos:{df[i].isna().sum()}')
            print('-------------------------------------------------')
            print(f'Contagem de valores:\n{df[i].value_counts()}')
            print('-------------------------------------------------')
            plt.figure(figsize=(16,8))
            sns.histplot(df[i])
            plt.show();

# Função para analise das colunas individual
def analise_ind(df):

    if df.dtypes == 'int64' or df.dtypes == 'float64':
        print('_______________________________________________________')
        print(f'COLUNA: {df.name}')
        print('-------------------------------------------------------')
        print(f'Tipo da coluna: {df.dtypes}')
        print('-------------------------------------------------------')
        print(f'Valores unicos: {df.nunique()}')
        print('-------------------------------------------------------')
        print(f'Valores nulos:{df.isna().sum()}')
        print('-------------------------------------------------------')
        print(f'Analisando a média, mediana, desvio padrão e quartis:\n{df.describe()}')
        print('-------------------------------------------------------')
        # Crie a figura e os eixos
        fig, axs = plt.subplots(1, 2, figsize=(16, 8))

        # Plotando o boxplot no primeiro eixo
        sns.boxplot(y=df[i], ax=axs[0])
        axs[0].set_title(f'Boxplot de {df[i].name}')

        # Plotando o histograma no segundo eixo
        sns.histplot(df[i], kde=True, ax=axs[1])
        axs[1].set_title(f'Histograma de {df[i].name}')

        # Mostrando os plots
        plt.show();

    else:
        print('_________________________________________________')
        print(f'COLUNA: {df.name}')
        print('-------------------------------------------------')
        print(f'Tipo da coluna: {df.dtypes}')
        print('-------------------------------------------------')
        print(f'Valores unicos: {df.nunique()}')
        print('-------------------------------------------------')
        print(f'Valores nulos:{df.isna().sum()}')
        print('-------------------------------------------------')
        print(f'Contagem de valores:\n{df.value_counts()}')
        print('-------------------------------------------------')
        plt.figure(figsize=(16,8))
        sns.histplot(df)
        plt.show();

analise(df)

Analisando as variáveis, percebi que temos dados nulos e outliers.

Outliers na idade e no tempo de trabalho na empresa.

### **Tratamento dos dados**

In [None]:
df1 = df.copy()
df1 = df1.loc[df1['person_age'] < 90,:]
df1

In [None]:
df1 = df1.dropna()
df1.isna().sum()

In [None]:
df1 = df1.loc[df1.person_emp_length <= 35,:]
df1

In [None]:
analise(df1)

In [None]:
df1[['loan_status','cb_person_cred_hist_length']]

### **Pré-Processamento dos dados**

### **Criando os Modelos de Machine Learning**