# Floresta Aleatória

## Introdução

Neste notebook vamos abordar a floresta aleatória, que é uma espécie de várias árvores de decisões. Como dados iniciais, usaremos a tabela de concessão de crédito. Como já o usamos desde o modelo de Naive Bayes, então ela ficará mais enxuta a fim de focarmos mais na implementação do modelo.

## Dados Iniciais

In [1]:
# IMPORTAÇÃO DAS BIBLIOTECAS

from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score

# -----------------------------------------------------------------------
# LEITURA DOS DADOS

credito = read_csv('Credit.csv')

previsores = credito.iloc[:,0:20].values
classe = credito.iloc[:,20].values

#--------------------------------------------------------------------------
# TRANSFORMANDO COLUNAS DE STRINGS EM COLUNAS DE NÚMEROS

labelencoder = LabelEncoder()
previsores[:,0] = labelencoder.fit_transform(previsores[:,0])
previsores[:,2] = labelencoder.fit_transform(previsores[:,2])
previsores[:, 3] = labelencoder.fit_transform(previsores[:, 3])
previsores[:, 5] = labelencoder.fit_transform(previsores[:, 5])
previsores[:, 6] = labelencoder.fit_transform(previsores[:, 6])
previsores[:, 8] = labelencoder.fit_transform(previsores[:, 8])
previsores[:, 9] = labelencoder.fit_transform(previsores[:, 9])
previsores[:, 11] = labelencoder.fit_transform(previsores[:, 11])
previsores[:, 13] = labelencoder.fit_transform(previsores[:, 13])
previsores[:, 14] = labelencoder.fit_transform(previsores[:, 14])
previsores[:, 16] = labelencoder.fit_transform(previsores[:, 16])
previsores[:, 18] = labelencoder.fit_transform(previsores[:, 18])
previsores[:, 19] = labelencoder.fit_transform(previsores[:, 19])

#---------------------------------------------------------------------------
# PARTICIONAMENTO DOS DADOS

X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(previsores,
                                                                  classe,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

## ```RandomForestClassifier```

Aqui entra o modelo propriamente dito. Para usarmos a floresta aleatória, digitamos

In [2]:
from sklearn.ensemble import RandomForestClassifier

Assim, basta criar uma instância da classe ```RandomForestClassifier```. A diferença com os outros modelos é que temos um parâmetro que devemos editar, que é o ```n_estimators```, que representa o número de árvores que o modelo vai criar. Por convenção, vamos criar uma floresta com 100 árvores.

In [3]:
floresta = RandomForestClassifier(n_estimators = 100)

A partir daí as linhas de código são as mesmas do que nos modelos anteriores, pois agora treinamos nossa floresta com o método ```fit``` (que precisa dos parâmetros X de características e y de resultados) e geramos previsões com o método ```predict``` (que precisa só de um parâmetro X de características).

In [4]:
floresta.fit(X_treinamento, y_treinamento)

previsoes = floresta.predict(X_teste)

## Precisão do modelo

Procedendo da maneira usual, vamos agora calcular a acurácia do modelo com a matriz de confusão e a taxa de acertos.

In [5]:
confusao = confusion_matrix(y_teste, previsoes)

confusao

array([[ 40,  46],
       [ 15, 199]])

In [6]:
taxa_acerto = accuracy_score(y_teste, previsoes)
taxa_acerto

0.7966666666666666