#### Floresta Aleatória

É um algoritmo de aprendizado supervisionado. É um dos algoritmos mais utilizados por ser simples, flexível e preciso. É chamado de floresta pois é um conjunto de diversas árvore de decisão. Os dados de cada ávore são mesclados para gerar previsões mais precisas. Cada árvore é construída a partir de uma amostra extraída com substituição do conjunto de treinamento.

As árvores de decisão individuais normalmente exibem alta variância e tendem a se ajustar demais. A aleatoriedade injetada nas florestas produz árvores de decisão com erros de previsão um tanto desacoplados. Ao fazer uma média dessas previsões, alguns erros podem ser cancelados. Florestas aleatórias atingem uma variação reduzida combinando diversas árvores, às vezes ao custo de um leve aumento no viés.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.ensemble import RandomForestClassifier

Iniciando com o carregamento dos dados do dataset Credit.csv

In [2]:
dataset = pd.read_csv("data/Credit.csv")
previsores = dataset.iloc[:, 0:20].values
classe = dataset.iloc[:, 20].values

é necessário transformar os atributos categóricos em atributos numéricos, para isso será utilizado a técnica de label encoder. O primeiro passo é transformar cada atributo em um objeto da classe `LabelEncoder` que é uma classe da biblioteca `sklearn.preprocessing` o segundo passo é executar o processo de encoding para o treino.

In [3]:
le = []
for i in range(20):
    label = LabelEncoder()
    previsores[:, i] = label.fit_transform(previsores[:, i])
    le.append(label)

Para utilizar o método de aprendizagem de máquina utilizando o Naive Bayes, será necessário dividir os dados em treino e teste, não é bom utilizar os mesmos dados para realizar o teste pois poderá gerar `overfitting` do modelo.

Isso é evitado utilizando o método `train_test_split` da biblioteca `sklearn`. Esse método gera 4 variáveis que são os dados de treino para X (variáveis independentes) e dados de Teste para Y (variável dependente). O método leva como parâmetro os atributos que serão os previsores, o atributo que será o previsto e o tamanho da amostra.

In [4]:
x_train, x_test, y_train, y_test = train_test_split(
    previsores,
    classe,
    test_size=0.3,
    random_state=0
)

Foram separados 30% dos dados para teste.

O modelo é criado utilizando o Naive Bayes Gaussiano, da classe `RandomForstClassifier` da biblioteca `sklearn`. Essa classe possui o método `fit` que utiliza os dados de treino das variáveis independentes e das variáveis dependentes para gerar o modelo.

In [5]:
modelo = RandomForestClassifier(n_estimators=100)
modelo.fit(x_train, y_train)

Com o modelo criado é possível testá-lo utilizando o método `predict` que passando um valor ou um array de valores, ele resulta na previsão dos dados.

Esse resultado é o resultado da classe, dizendo se o cliente é um bom ou mau pagador. Porém esses dados são históricos, é possível saber qual foi o real resultado, se dado cliente é ou não um bom pagador. Uma outra forma de visualizar essa relação, é utilizando uma matriz de confusão, utilizando o método `confusion_matrix` da biblioteca `sklearn`.

In [7]:
previsoes = modelo.predict(x_test)
confusion_matrix(y_test, previsoes)

array([[ 39,  47],
       [ 18, 196]], dtype=int64)

Há um número significativo de acerto.

Pode-se também utilizar o método `accuracy_score` para ver a porcentagem de acerto do modelo.

In [8]:
accuracy_score(y_test, previsoes)

0.7833333333333333

Com uma taxa de acero de 78.3% estima-se que uando esse modelo em produção, ele retornaria aproximadamente essa taxa de acerto. Além disso, essa taxa de acerto é maior que a encontrada pelo método da árvore de decisão.