# Exemplo de classificação supervisionada com Random Forest
- Neste exemplo será aplicado o RF para classificação supervisionada em uma análise de risco de empréstimo

## Importação das bibliotecas e da base de dados





In [4]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_predict
from sklearn.metrics import confusion_matrix

In [1]:
from google.colab import files
files.upload()

Saving emprestimo_alto_baixo.csv to emprestimo_alto_baixo.csv


{'emprestimo_alto_baixo.csv': b'renda_mensal,divida_total,idade,risco\r\n5000,20000,1,ALTO\r\n3500,21000,2,ALTO\r\n5500,6000,3,BAIXO\r\n3000,30000,1,ALTO\r\n1500,8000,2,ALTO\r\n800,6000,2,ALTO\r\n4500,3000,2,BAIXO\r\n8000,7500,2,BAIXO\r\n9000,12000,3,ALTO\r\n10500,20000,1,BAIXO\r\n21000,35000,3,ALTO\r\n8700,11000,1,BAIXO\r\n11500,30000,1,ALTO\r\n10400,15000,1,BAIXO\r\n2000,6000,2,ALTO\r\n3000,15000,2,ALTO\r\n5500,12000,3,ALTO\r\n3000,4000,1,ALTO\r\n12000,20000,2,BAIXO\r\n1100,15000,1,ALTO\r\n4500,3000,3,BAIXO\r\n12000,8000,2,BAIXO\r\n9000,14000,3,ALTO\r\n10500,8500,2,BAIXO\r\n8500,11000,3,ALTO\r\n8700,25000,3,ALTO\r\n11500,15000,3,ALTO\r\n10400,16000,2,BAIXO\r\n9500,8300,2,BAIXO\r\n11300,14000,3,ALTO\r\n21000,25000,3,ALTO\r\n11500,15000,3,ALTO\r\n10800,6000,2,BAIXO\r\n14200,9000,1,BAIXO\r\n11800,17000,2,ALTO\r\n12000,14000,1,ALTO\r\n2700,1300,2,ALTO\r\n17000,8000,2,BAIXO\r\n3300,800,1,ALTO\r\n18900,11000,2,BAIXO'}

In [2]:
import pandas as pd
dados= pd.read_csv('emprestimo_alto_baixo.csv', sep=',')

### Atributos e dados 
- É possível visualizar os atributos e tipos de dados de cada um.
- A idade foi dividida em 3 categorias


In [3]:
dados

Unnamed: 0,renda_mensal,divida_total,idade,risco
0,5000,20000,1,ALTO
1,3500,21000,2,ALTO
2,5500,6000,3,BAIXO
3,3000,30000,1,ALTO
4,1500,8000,2,ALTO
5,800,6000,2,ALTO
6,4500,3000,2,BAIXO
7,8000,7500,2,BAIXO
8,9000,12000,3,ALTO
9,10500,20000,1,BAIXO


## Definição dos atributos para treinamento e classe
- São definidos os parâmetros do classificador RF
- O módulo ou rotina train_test_split permite dividir o conjunto de dados em treinamento e validação, além de definir atributos e a classe.
- Funciona como um método para amostragem estatística.


In [5]:
from sklearn.model_selection import train_test_split
classificador_forest = RandomForestClassifier(n_estimators=100)
numatributos = len(dados.columns) - 1
atributos = list(dados.columns[0:numatributos]) 

X = dados[atributos]
y = dados['risco'] 

# Vai definir 70% dos dados para treinamento e 30% para validação (parâmetro test_size)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

print(X_train)
print(X_test)


    renda_mensal  divida_total  idade
38          3300           800      1
34         11800         17000      2
18         12000         20000      2
39         18900         11000      2
5            800          6000      2
4           1500          8000      2
11          8700         11000      1
0           5000         20000      1
6           4500          3000      2
29         11300         14000      3
19          1100         15000      1
23         10500          8500      2
26         11500         15000      3
25          8700         25000      3
17          3000          4000      1
15          3000         15000      2
31         11500         15000      3
9          10500         20000      1
28          9500          8300      2
3           3000         30000      1
22          9000         14000      3
30         21000         25000      3
14          2000          6000      2
32         10800          6000      2
36          2700          1300      2
27         1

### Processo de aprendizado
-  Efetua o aprendizado e posteriormente uma validação cruzada usando K-fold de 10.
- Mostra a matriz de confusão

In [6]:
resultado = classificador_forest.fit(X_train, y_train)

predicted = cross_val_predict(classificador_forest, X_train, y_train, cv=10)

expected = y_train.values

print(confusion_matrix(expected, predicted))


print("Esperado:\n")
print(expected)
print("Previsto:\n")
print(predicted)

from sklearn.metrics import accuracy_score
print(classification_report(expected, predicted))
print(accuracy_score(expected, predicted))

[[17  1]
 [ 3  7]]
Esperado:

['ALTO' 'ALTO' 'BAIXO' 'BAIXO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO' 'BAIXO' 'ALTO'
 'ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'BAIXO' 'ALTO'
 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO' 'BAIXO' 'ALTO' 'BAIXO']
Previsto:

['ALTO' 'BAIXO' 'BAIXO' 'BAIXO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO'
 'ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO'
 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO']
              precision    recall  f1-score   support

        ALTO       0.85      0.94      0.89        18
       BAIXO       0.88      0.70      0.78        10

    accuracy                           0.86        28
   macro avg       0.86      0.82      0.84        28
weighted avg       0.86      0.86      0.85        28

0.8571428571428571


### Análise dos principais atributos (features)

In [8]:
# Visualizar as features mais importantes
print(classificador_forest.feature_importances_)
for feature,importancia in zip(dados.columns,classificador_forest.feature_importances_):
    print("{}:{}".format(feature, importancia))

[0.50183593 0.28530601 0.21285806]
renda_mensal:0.5018359258032489
divida_total:0.2853060093625285
idade:0.2128580648342227


#### Validação no conjunto de dados que foi definido como validação
- X_test é o dataframe que recebeu os dados para validação
- Utiliza posteriormente o método de predição para aplicar o aprendizado no conjunto de teste/validação

In [9]:
predicted = classificador_forest.predict(X_test)
expected = y_test.values

print(confusion_matrix(expected, predicted))

print("\nEsperado:\n")
print(expected)
print("Previsto:\n")
print(predicted)

print(classification_report(expected, predicted))
print(accuracy_score(expected, predicted))

[[5 1]
 [2 4]]

Esperado:

['ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'BAIXO' 'BAIXO' 'ALTO'
 'BAIXO' 'ALTO' 'BAIXO']
Previsto:

['BAIXO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO' 'ALTO' 'ALTO' 'ALTO' 'BAIXO'
 'ALTO' 'BAIXO']
              precision    recall  f1-score   support

        ALTO       0.71      0.83      0.77         6
       BAIXO       0.80      0.67      0.73         6

    accuracy                           0.75        12
   macro avg       0.76      0.75      0.75        12
weighted avg       0.76      0.75      0.75        12

0.75
