In [1]:
# Importação das bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix
from sklearn.ensemble import RandomForestClassifier

# importação do dataset
dataset = pd.read_csv('../Data/credit-approval.csv')
dataset

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15,class
0,b,30.83,0.000,u,g,w,v,1.25,t,t,1,f,g,202.0,0,+
1,a,58.67,4.460,u,g,q,h,3.04,t,t,6,f,g,43.0,560,+
2,a,24.50,0.500,u,g,q,h,1.50,t,f,0,f,g,280.0,824,+
3,b,27.83,1.540,u,g,w,v,3.75,t,t,5,t,g,100.0,3,+
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120.0,0,+
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
685,b,21.08,10.085,y,p,e,h,1.25,f,f,0,f,g,260.0,0,-
686,a,22.67,0.750,u,g,c,v,2.00,f,t,2,t,g,200.0,394,-
687,a,25.25,13.500,y,p,ff,ff,2.00,f,t,1,t,g,200.0,1,-
688,b,17.92,0.205,u,g,aa,v,0.04,f,f,0,f,g,280.0,750,-


In [2]:
dataset.isnull().sum()

A1       12
A2       12
A3        0
A4        6
A5        6
A6        9
A7        9
A8        0
A9        0
A10       0
A11       0
A12       0
A13       0
A14      13
A15       0
class     0
dtype: int64

In [3]:
# Apagando linhas com NaN
dataset = dataset.dropna()
dataset.isnull().sum()

A1       0
A2       0
A3       0
A4       0
A5       0
A6       0
A7       0
A8       0
A9       0
A10      0
A11      0
A12      0
A13      0
A14      0
A15      0
class    0
dtype: int64

In [5]:
# Criação dos previsores e da classe
previsores = dataset.iloc[:,0:15].values
classe = dataset.iloc[:,15].values

In [6]:
# Transformação dos atributos categóricos em atributos numéricos, passando o índice de cada atributo categórico
labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,3] = labelencoder.fit_transform(previsores[:,3])
previsores[:, 4] = labelencoder.fit_transform(previsores[:, 4])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 12] = labelencoder.fit_transform(previsores[:, 12])

# Transformação da classe em atributo numérico
classe = labelencoder.fit_transform(classe)

In [7]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

In [8]:
# Criação do modelo e treinamento
# n_estimators = número de árvores que serão criadas
# Funciona por meio de votação, ou seja, a classe que tiver mais votos é a classe que o modelo vai escolher
floresta = RandomForestClassifier(n_estimators = 100)
floresta.fit(X_treinamento, y_treinamento)

# Previsão

In [9]:
previsoes = floresta.predict(X_teste)
previsoes

array([0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1,
       1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1,
       1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 1,
       1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0,
       1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0])

In [10]:
# Os valores percentuais da previsão
# predict_proba retorna a probabilidade de cada classe, o primeiro valor é a probabilidade de ser 0 e o segundo de ser 1
previsoes_percent = floresta.predict_proba(X_teste)
# As probabilidades de 1, usaremos para a função ROC
previsoes_percent = previsoes_percent[:,1]
previsoes_percent

array([0.22, 0.23, 0.07, 0.76, 0.51, 0.06, 0.91, 0.23, 0.87, 0.18, 0.1 ,
       0.9 , 0.96, 0.01, 0.49, 0.88, 0.02, 0.43, 0.93, 0.2 , 0.99, 1.  ,
       0.97, 0.92, 0.82, 0.86, 0.94, 0.54, 0.53, 0.81, 0.76, 0.39, 0.88,
       0.91, 0.16, 0.86, 0.93, 0.99, 0.82, 0.92, 0.2 , 0.44, 0.8 , 0.96,
       0.85, 0.85, 0.52, 0.97, 0.78, 0.07, 0.07, 0.75, 0.19, 0.62, 0.46,
       0.01, 0.95, 0.36, 0.05, 0.26, 0.95, 0.49, 0.86, 0.1 , 0.78, 0.29,
       0.85, 0.41, 0.68, 0.98, 0.71, 0.48, 0.91, 0.06, 0.53, 0.91, 0.97,
       0.12, 0.19, 0.87, 0.38, 0.15, 0.9 , 0.06, 0.93, 0.93, 0.86, 0.93,
       0.77, 0.1 , 0.1 , 0.65, 0.12, 0.06, 0.98, 0.42, 0.98, 0.03, 0.92,
       0.27, 0.02, 0.87, 0.99, 0.1 , 0.3 , 0.84, 0.04, 0.04, 1.  , 0.04,
       0.14, 0.94, 0.64, 0.17, 0.72, 0.81, 0.01, 0.68, 0.55, 0.96, 0.96,
       0.86, 1.  , 0.91, 0.04, 0.77, 0.12, 0.28, 0.13, 0.05, 0.48, 0.88,
       0.98, 0.11, 0.88, 0.21, 0.11, 0.56, 0.81, 0.84, 0.21, 0.11, 0.88,
       0.74, 0.21, 0.87, 0.33, 0.47, 0.49, 0.81, 0.

# Avaliando o modelo

In [11]:
# Matriz de confusão
matriz_confusao = confusion_matrix(y_teste, previsoes)
matriz_confusao

array([[79,  8],
       [10, 99]], dtype=int64)

In [12]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, roc_auc_score, confusion_matrix

# Acurácia
accuracy = accuracy_score(y_teste, previsoes)
print("Acurácia:", accuracy)

# Precisão
precision = precision_score(y_teste, previsoes)
print("Precisão:", precision)

# Recall
recall = recall_score(y_teste, previsoes)
print("Recall:", recall)

# Especificidade (calculada a partir da matriz de confusão)
tn, fp, fn, tp = confusion_matrix(y_teste, previsoes).ravel()
specificity = tn / (tn + fp)
print("Especificidade:", specificity)

# F1 Score
f1 = f1_score(y_teste, previsoes)
print("F1 Score:", f1)

# ROC AUC Score (necessita das probabilidades de classe em vez de previsões)
# os valores de y_prob são as probabilidades de ser 0 ou 1, então para calcular a ROC AUC é necessário passar a probabilidade de ser 1
roc_auc = roc_auc_score(y_teste, previsoes_percent)
print("ROC AUC Score:", roc_auc)

Acurácia: 0.9081632653061225
Precisão: 0.9252336448598131
Recall: 0.908256880733945
Especificidade: 0.9080459770114943
F1 Score: 0.9166666666666666
ROC AUC Score: 0.9570810924812823
