# 01 - Preparação dos dados

In [1]:
#importando bibliotecas
import os
import re
import pandas as pd
import numpy as np


In [2]:
dataframe = pd.read_csv("C:/Users/Dell/Desktop/data.csv", sep = ',' , encoding = 'utf-8')
dataframe.head(5)

Unnamed: 0,Loan_ID,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,CoapplicantIncome,LoanAmount,Loan_Amount_Term,Credit_History,Property_Area,Loan_Status
0,LP001002,Male,No,0,Graduate,No,5849,0.0,,360.0,1.0,Urban,Y
1,LP001003,Male,Yes,1,Graduate,No,4583,1508.0,128.0,360.0,1.0,Rural,N
2,LP001005,Male,Yes,0,Graduate,Yes,3000,0.0,66.0,360.0,1.0,Urban,Y
3,LP001006,Male,Yes,0,Not Graduate,No,2583,2358.0,120.0,360.0,1.0,Urban,Y
4,LP001008,Male,No,0,Graduate,No,6000,0.0,141.0,360.0,1.0,Urban,Y


In [3]:
#Vericando quantidade de linhas e colunas
linhas, colunas = dataframe.shape
print(f'a quantidade de linhas do dataframe é {linhas} e {colunas}')

a quantidade de linhas do dataframe é 614 e 13


In [4]:
#Veficando tipo dos dados
#dataframe.dtypes
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 614 entries, 0 to 613
Data columns (total 13 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Loan_ID            614 non-null    object 
 1   Gender             601 non-null    object 
 2   Married            611 non-null    object 
 3   Dependents         599 non-null    object 
 4   Education          614 non-null    object 
 5   Self_Employed      582 non-null    object 
 6   ApplicantIncome    614 non-null    int64  
 7   CoapplicantIncome  614 non-null    float64
 8   LoanAmount         592 non-null    float64
 9   Loan_Amount_Term   600 non-null    float64
 10  Credit_History     564 non-null    float64
 11  Property_Area      614 non-null    object 
 12  Loan_Status        614 non-null    object 
dtypes: float64(4), int64(1), object(8)
memory usage: 62.5+ KB


In [5]:
#Vamos agora observar o balanceamento dos aprovados e negados (Y - Aprovado, N - Negado)
dataframe.Loan_Status.value_counts()

Loan_Status
Y    422
N    192
Name: count, dtype: int64

In [6]:
#Para equilibrar a amostra vamos reduzir o valor dos aprovados para 200
dataframe2 = dataframe[dataframe.Loan_Status == 'Y'].sample(200)
dataframe = pd.concat([dataframe2, dataframe[dataframe.Loan_Status == 'N'].sample(192)], ignore_index=True)


In [7]:
#Verificando o equilibrio das classes novamente
dataframe.Loan_Status.value_counts()

Loan_Status
Y    200
N    192
Name: count, dtype: int64

In [8]:
# Checando Valores Nulos
dataframe.isnull().sum()

Loan_ID               0
Gender               10
Married               1
Dependents           12
Education             0
Self_Employed        17
ApplicantIncome       0
CoapplicantIncome     0
LoanAmount           17
Loan_Amount_Term     11
Credit_History       29
Property_Area         0
Loan_Status           0
dtype: int64

Algumas colunas tem valores nulos, como por exemplo: Gender, Married, Dependents, Credit_History e etc.
Iremos precisar aplicar algumas técnicas para limpar nosso conjunto de dados, nesse projeto iremos aplicar duas técnicas: Valor Majoritário e Valor Médio

In [10]:
# Contagem de tipos de Generos
dataframe.Gender.value_counts()

Gender
Male      304
Female     78
Name: count, dtype: int64

In [11]:
#Preenchendo os valores nulls da coluna Gender
dataframe['Gender'] = dataframe['Gender'].fillna('Male')

In [12]:
#Preenchendo os valores nulls da coluna Married
dataframe['Married'] = dataframe['Married'].fillna('No')

In [13]:
#Preenchendo os valores nulls da coluna Dependents
dataframe['Dependents'] = dataframe['Dependents'].fillna('0')

In [14]:
#Preenchendo os valores nulls da coluna Self_Employed
dataframe['Self_Employed'] = dataframe['Self_Employed'].fillna('No')

In [15]:
#Preenchendo os valores nulls da coluna LoanAmount
dataframe['LoanAmount'] = dataframe['LoanAmount'].fillna(dataframe['LoanAmount'].mean())

In [16]:
#Preenchendo os valores nulls da coluna Credit_History
dataframe['Credit_History'] = dataframe['Credit_History'].fillna(1.0)

In [17]:
#Preenchendo os valores nulls da coluna Loan_Amount_Term
dataframe['Loan_Amount_Term'] = dataframe['Loan_Amount_Term'].fillna(dataframe['Loan_Amount_Term'].mean())

In [18]:
#Verificando novamente se há valores Null
dataframe.isnull().sum()

Loan_ID              0
Gender               0
Married              0
Dependents           0
Education            0
Self_Employed        0
ApplicantIncome      0
CoapplicantIncome    0
LoanAmount           0
Loan_Amount_Term     0
Credit_History       0
Property_Area        0
Loan_Status          0
dtype: int64

Agora iremos transformar os dados para valores categóricos

In [19]:
gender_values = {'Female' : 0, 'Male' : 1} 
married_values = {'No' : 0, 'Yes' : 1}
education_values = {'Graduate' : 0, 'Not Graduate' : 1}
employed_values = {'No' : 0, 'Yes' : 1}
dependent_values = {'3+': 3, '0': 0, '2': 2, '1': 1}
loan_values = {'Y':1,'N':0}
dataframe.replace({'Gender': gender_values,
                 'Married': married_values, 
                 'Education': education_values,
                 'Self_Employed': employed_values, 
                 'Dependents': dependent_values,
                 'Loan_Status': loan_values
                }, inplace=True)

Seleção de Features

In [20]:
#Removendo as colunas Loan_ID,CoapplicantIncome,Loan_Amount_Term,Credit_History,Property_Area esses atributos não agregam muito para a criação do modelo.
dataframe.drop(['Loan_ID','CoapplicantIncome','Loan_Amount_Term','Credit_History','Property_Area'],axis=1,inplace=True)
dataframe.head(5)

Unnamed: 0,Gender,Married,Dependents,Education,Self_Employed,ApplicantIncome,LoanAmount,Loan_Status
0,1,0,0,0,0,5417,168.0,1
1,0,0,0,1,0,1963,53.0,1
2,1,1,3,0,0,3029,99.0,1
3,0,1,0,0,0,2423,130.0,1
4,1,0,0,1,0,3833,110.0,1


# 3 - Criando o Modelo de Machine Learning

In [23]:
#Carregando as bibliotecas
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [24]:
#Instanciando o classificador Random Forest
clf_rf = RandomForestClassifier(n_estimators=100,min_samples_split=2)

In [26]:
#Dividindo o conjunto de dados
X = dataframe.drop('Loan_Status',axis=1)
y = dataframe['Loan_Status']

In [27]:
#Agora, vamos dividir o conjunto em Treinamento e Teste
X_treino, X_teste, y_treino, y_teste = train_test_split(X, y,test_size=0.20,random_state=42)

In [28]:
#Treinando o Modelo
clf_rf.fit(X_treino,y_treino)

In [29]:
#Métricas de Validação
#Nessa fase iremos fazer as validações para ver se nosso modelo está preciso
from sklearn import metrics
print (pd.crosstab(y_teste, clf_rf.predict(X_teste), rownames=['Real'], colnames=['Predito'], margins=True), '')


Predito   0   1  All
Real                
0        19   9   28
1        30  21   51
All      49  30   79 


In [30]:
#Gerando relatório de classificação
print (metrics.classification_report(y_teste,clf_rf.predict(X_teste)))

              precision    recall  f1-score   support

           0       0.39      0.68      0.49        28
           1       0.70      0.41      0.52        51

    accuracy                           0.51        79
   macro avg       0.54      0.55      0.51        79
weighted avg       0.59      0.51      0.51        79



A partir desses dados desse  relatório de classificação, podemos fazer as seguintes conclusões:

Precisão (Precision):
Para a classe 0, a precisão é de 0.39, o que indica que, das instâncias classificadas como pertencentes à classe 0, apenas 39% realmente são da classe 0.
Para a classe 1, a precisão é de 0.70, o que significa que 70% das instâncias classificadas como pertencentes à classe 1 realmente são da classe 1.
Em termos gerais, a precisão ponderada (weighted avg) é de 0.59.
Revocação (Recall):
Para a classe 0, a revocação é de 0.68, o que sugere que 68% das instâncias da classe 0 foram corretamente identificadas pelo modelo.
Para a classe 1, a revocação é de 0.41, indicando que apenas 41% das instâncias da classe 1 foram corretamente identificadas pelo modelo.
A revocação ponderada (weighted avg) é de 0.51.
F1-Score:
O F1-Score combina precisão e revocação em uma única métrica. Para a classe 0, o F1-Score é de 0.49, e para a classe 1 é de 0.52.
O F1-Score ponderado (weighted avg) é de 0.51.
Acurácia (Accuracy):
A acurácia geral do modelo é de 51%, o que significa que aproximadamente metade das predições do modelo estão corretas.
Macro e Média Ponderada (Macro and Weighted Avg):
A média das métricas para todas as classes (macro avg) é calculada.
A média ponderada (weighted avg) das métricas, ponderada pelo suporte de cada cla
sOu sejaculada.
Em resumo, o modelo tem um desempenho modesto, com precisão e revocação variando entre as classes. A precisão ponderada e a revocação ponderada fornecem uma visão geral do desempenho do modelo em todas as classes, levando em consideração o desequilíbrio de classe.