# Random Forest

[Random Forest]("https://en.wikipedia.org/wiki/Random_forest") é um tipo de algoritimo de classificação ou regreção, ou seja seu objetivo é predizer a classe a que um dado pertençe. E como o nome pode intuir ele usa uma floresta, no caso uma floresta de arvores de decisão, que já foram esplicadas anteriormente. Essas arvores são usadas para chegar ao resultado final do conjunto.

Essa random forest é uma tecnica de [conjunto]("https://en.wikipedia.org/wiki/Ensemble_learning"), ou seja ela usa multiplos modelos preditivos menores, no caso arvores de decisão e a partir de suas multiplas predições a floresta estabelece a sua predição final.

E com essa formação, podemos ter uma predição mais precisa pois assim os erros de uma arvore podem ser corrigidos pelo resto da floresta.


![Árvores Aleatórias](RF.png)

Para criarmos uma [Random Forest]("https://medium.com/machina-sapiens/o-algoritmo-da-floresta-aleat%C3%B3ria-3545f6babdf8") temos que treinar cada arvore individualmente para enfim fazermos a floresta funcionar, que é o objetivo do algoritimo, ter varios votos com viezes diferentes para juntos termos o melhor resultado. 

Para treinarmos cada uma das arvores, precisamos realizar o [Bagging]("https://en.wikipedia.org/wiki/Bootstrap_aggregating"), ou Bootstrap, que um processo de seleção de casos de treinamento, que são usados para para treinar cada arvore individualmente.

O resultado dado pela floresta pode ser a predição mais predita entre as arvores ou a media das predições:

$\hat{f} = \frac{1}{B}\sum_{b=1}^{B} f_b (x')$

Podemos tambem estimar a incerteza da predição apartir da formula:

$\sigma = \sqrt{\frac{\sum_{b=1}^{B}(f_b(x')-f)^2}{B-1}}$

Abaixo temos um exemplo de um pseudoalgoritimo de uma random forest, em que n é menor que o total de exemplos, X são os atributos, Y sãos rotulos e f sãos as arvores a serem criadas. A primeirla linha estabelece os cojundos de dados. A segunda linha cria um laço de repetição que iráá criar as arvores da floresta, criando um bag, e apartir dele treinando uma arvore f nele. Depois estabelece o resultado final a partir da floresta toda. 

![Algoritmo](Algo.png)

# Implementação

## Parâmetros

A seguir será mostrado como utilizar o código do skitlearn ela recebe diversos parâmetros para o algoritmo de predição vamos começar mostrando os principais parâmetros.


### n_estimators
Esse parâmetro indica a quantidade de arvores a ser efetuadas pelo programa caso não coloque esse parâmetro ele utiliza 100 arvores.

### criterion 
Esse parâmetro é uma string com o nome do critério utilizado para calcular a impureza. Seus comandos possíveis são “gini” e “entropy” que representam um índice de desigualdade e a entropia.

### max_depth
Define a profundidade máxima da arvore, facilitando diminuir a complexidade e custo de utilizar a arvore, além de reduzir o superajustamento.

### max_leaf_nodes
Define a quantidade máxima de nós na arvore, ou seja, limita a quantidade de divisões que a arvore pode fazer, sendo uma maneira mais precisa de impedir superajustamento que a max_depht e tambem de diminiur o custo operacional.

### min_impurity_decrease
Essa variável define o valor mínimo de impureza que a transformação de uma folha em nó deve reduzir para ocorrer a divisão.

### bootstrap
Essa variável define se ocorre o bagging ou não se ela for false todas as arvores são treinadas com o conjunto de treino inteiro.

### oob_score
Essa variável define se o programa deve, antes de fazer o bagging, separar o conjunto de teste para avaliar o modelo do conjunto utilizado para criar as arvores.

### random_state
Permite a repetibilidade do processo pois quando em NONE ele vai gerar um valor aleatório que será utilizado de semente para a execução dos fatores aleatórios do programa, mas se um número for colocado e for utilizado o mesmo data set e possível repetir o resultado desde que se saiba o número.

### max_samples
Define o número máximo de exemplos a ser lido por cada estimador se o bootstrap for igual true, ou seja, o número máximo de exemplos em cada “bag”.

## Métodos

Agora que já vimos os parâmetros vamos agora mostrar como utilizar a random forest do skitlearn


### apply(X)
Essa função permite receber separadamente para cada elemento de X as predições de cada uma das arvores na floresta em um formato de matriz (quantidade de elementos em X, quantidade de arvores)
### fit(X, y)
Essa e a função de treinamento do algoritmo que recebe os atributos preditivos e os rótulos do conjunto de treinamento.
### predict(X)
Essa e a função de utilizar o classificador para predizer a classe de cada termo da entrada e retorna um vetor com cada predição de rotulo.

### predict_proba(X)
Parecida com a predict a predict_proba utiliza o estimador para predizer o rotulo de cada termo da entrada, porem diferentemente do predict que retorna um vetor com cada rotulo ele retorna uma matriz com a probabilidade de ser cada classe.

### score(X, y)
Essa e a função fornecida pela random forest do skitlearn que permite uma auto avaliação do programa e retorna a acurácia media do processo de predição.


# Aplicação

O hospital Albert Einstein, em São Paulo, disponibilizou uma [base de dados](https://www.kaggle.com/einsteindata4u/covid19) de pacientes anônimos que fizeram o teste para o COVID-19, a base possui diversos dados clínicos dos pacientes junto ao resultado dos testes feitos.

Para demonstrar o uso do algoritmo de classificação Random Forest em um problema real, a base do COVID-19 foi utilizada para treinar um classificador utilizando a implementação do algoritmo disponível na biblioteca sklearn. O classificador possui o intuito de prever a condição de pacientes com a doença utilizando seus dados clínicos como sinais, sintomas, entre outras informações.

In [1]:
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics

In [2]:
# Importando o dataset do Covid-19
data = pd.read_excel('dataset.xlsx')

Separamos o rótulo e os atributos preditivos a serem considerados pelo classificador.

In [3]:
# Dados clínicos selecionados
X = data[['Patient age quantile',
          'Patient addmited to regular ward (1=yes, 0=no)',
          'Patient addmited to semi-intensive unit (1=yes, 0=no)',
          'Patient addmited to intensive care unit (1=yes, 0=no)']]

# Resultado do Exame
y = data['SARS-Cov-2 exam result']

Para treinar e testar o classificador, dividimos a base de dados em duas, uma com 70% dos pacientes para treinamento, e outra com 30% dos pacientes para testar a acurácia do modelo.

In [4]:
# 70% para treinamento e 30% para teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

Para gerar o classificador utilizamos o `RandomForestClassifier` da biblioteca sklearn, e alguns parâmetros descritos abaixo:

* n_estimators = 100;
* Adicionar outros

In [5]:
classificador = RandomForestClassifier(n_estimators=100)

Com o método `fit` treinamos o classificador com os elementos de treino, e utilizamos o método `predict` para predizer os resultados dos elementos de teste, utilizando do classificador treinado:

In [6]:
classificador.fit(X_train, y_train)

y_pred = classificador.predict(X_test)

# Resultados obtidos pelo classificador
print(y_pred)

['negative' 'negative' 'negative' ... 'positive' 'negative' 'negative']


É possível visualizar a predição de cada uma dar árvores utilizando a função `apply`:

In [7]:
classificador.apply(X_test)

array([[33, 41, 22, ..., 25, 25, 38],
       [63, 50, 37, ..., 39, 39, 48],
       [63, 50, 37, ..., 39, 39, 48],
       ...,
       [93, 89, 45, ..., 54, 59, 63],
       [62, 49, 36, ..., 37, 38, 47],
       [46, 42, 26, ..., 30, 29, 40]])

Comparando os resultados obtidos com os de teste, podemos calcular a acurácia do classificador utilizando a função `score`:

In [8]:
acuracia = classificador.score(X_test, y_test)*100

print("Acurácia do classificador: {0:.2f}%".format(acuracia))

Acurácia do classificador: 89.79%
