### O que é Random Forest

Você já ouviu falar em árvore de decisão? Vamos explicar o conceito a fundo mais para frente neste artigo, mas a versão resumida é que, em programação, uma árvore de decisão é uma estrutura de dados que representa uma sequência de decisões e suas consequências.

O Random Forest é um algoritmo de machine learning que usa vários subconjuntos de dados de treinamento para construir uma série de árvores de decisão. A ideia é treinar o sistema para que ele consiga, com base nesse aprendizado, prever o que acontece quando novos dados entram.

Depois de criadas, as árvores são utilizadas pelo sistema para fazer previsões sobre novas amostras de dados. As previsões das várias árvores (que compõe a “floresta” que dá nome ao algoritmo) são analisadas em conjunto para afinar a precisão dos resultados obtidos.

Como dissemos, o sistema pode ser utilizado para classificações e regressões, nas linguagens R e Python. A classificação é uma análise que atribui uma categoria a uma variável: por exemplo, se usada em algum banco, ela pode classificar um cliente como potencial bom ou mau pagador. Já a regressão atribui um valor numérico à variável de saída, como preço, custo, altura.

### Para que se utiliza o Random Forest

O Random Forest pode ser usado por cientistas de dados que trabalham para empresas de diversas áreas, como o setor financeiro, de saúde ou de e-commerce, para fazer previsões que podem ajudar na tomada de decisões estratégicas.

Por exemplo, no setor bancário, o Random Forest ajuda a descobrir quais clientes estão mais propensos a serem bons pagadores ou usar os serviços do banco com mais frequência.

No e-commerce, eles podem ser utilizados para prever a demanda em determinado segmento. Na saúde, o algoritmo pode utilizar o histórico do paciente para analisar a chance de desenvolver determinada doença.

Esses, claro, são apenas alguns exemplos simples. Existem muitos outros setores e situações em que o algoritmo pode nos ajudar a fazer previsões e entender possíveis cenários.

### Como funciona o algoritmo Random Forest

A versão extremamente resumida do funcionamento do Random Forest é a seguinte:

    Ele seleciona variáveis de forma aleatória;
    Constrói uma árvore de decisão utilizando subconjuntos de dados;
    Repete o processo por diversas vezes.

Vamos entrar agora numa descrição um pouco mais aprofundada, delineando cada elemento e etapa do processo.


   ``` Explicando as Árvores de Decisão ```

Como a gente já definiu, o Random Forest é um modelo de machine learning que aprende a prever resultados, a partir da criação de uma série de árvores de decisão, que compõem uma “floresta”. O que é, então, essa árvore de decisão?

É um método estatístico de aprendizagem supervisionada, que pode ser utilizado em problemas de classificação e na realização de previsões. Em termos muito simples, é como se fosse um fluxograma que mostra o caminho de uma variável até uma classificação ou resultado.

Para dar um exemplo, vamos pensar numa árvore que começa com uma pergunta muito simples, como “devo sair de casa hoje?”. Esse é um exemplo de problema de classificação, em que os rótulos da árvore de decisão vão ser “sair de casa” ou “ficar em casa”.

Partindo da pergunta, você pode pensar em variáveis que vão ajudá-lo a chegar numa resposta: a temperatura lá fora, a chance de chuva etc. Essas variáveis funcionam como as ramificações da árvore, que vão dividir os dados. As respostas a essas perguntas vão levar a diferentes decisões finais. Algumas observações vão levar à decisão “sim” e aquelas que não se enquadram no critério, levarão a um resultado diferente.


   ### Selecionando as amostras

Na hora de montar as árvores de decisão, o primeiro passo do algoritmo é selecionar amostras aleatórias dos dados de treinamento, ao invés de trabalhar com a amostra toda. Nessa etapa, é utilizado um método conhecido como bootstrap, no qual as amostras selecionadas podem ser repetidas.


 ### Definindo os nós

Depois de definida a raiz da árvore de decisão, ou seja, a primeira condição a ser verificada, vão sendo criados os ramos. Como dissemos, o algoritmo seleciona aleatoriamente as variáveis. Depois, ele realiza cálculos utilizando as amostras escolhidas para definir qual variável será a raiz.

Depois, ele passa para o próximo nó, onde vai colocar duas ou mais variáveis, sempre excluindo das opções as variáveis que foram utilizadas no nó anterior. Esse processo ocorre sucessivamente, até o último nó. A quantidade de variáveis costuma ser definida no momento de criação do modelo. Feita a primeira árvore, o algoritmo passa para as próximas.


    ### Criando as próximas árvores

Para criar as demais árvores, o algoritmo segue esse mesmo processo descrito nos itens anteriores. Como a seleção acontece de forma aleatória, é bem provável que a nova árvore vá ser diferente da primeira. O modelo pode trabalhar com quantas árvores você quiser criar, mas é importante lembrar que mais árvores não necessariamente significam resultados mais precisos.

Existe um ponto em que a eficácia do modelo é otimizada, o que pode ser feito por meio de técnicas como validação cruzada e curvas de aprendizado. Outro lembrete importante é que quanto mais árvores você quiser, mais tempo vai levar para criar o modelo.

  ```Prevendo novos valores```

Ao final, cada árvore da sua floresta terá um resultado, permitindo ao modelo fazer uma previsão. Em regressões, ele costuma apresentar como resultado final a média dos valores previstos pelas árvores. Já para classificações, o resultado final é o que apareceu com mais frequência.

### Random Forest: vantagens e desvantagens

O Random Forest é um algoritmo muito utilizado por bons motivos. Os principais são a precisão e eficiência do modelo, além do fato de que ele é relativamente fácil de usar. Em uma base de dados grande, o Random Forest se mostra muito mais preciso do que usar uma única árvore de decisão.

Pela forma como é desenvolvido, o Random Forest consegue se desenvolver rápido e com poucos parâmetros, sendo relativamente mais simples de resolver, se comparado a outros algoritmos como a rede neural.

O método, porém, também tem suas desvantagens. Um dos mais óbvios é que, apesar de ser mais preciso que uma única árvore de decisão, ele é também mais demorado. Outra questão é que cada árvore da floresta é armazenada de forma individual na memória do dispositivo, o que significa que esse algoritmo é mais lento que certas alternativas.

Outro problema é que o método da árvore de decisão pode sofrer com o problema de sobreajuste (overfitting), que é quando o modelo se ajusta excessivamente aos dados de treinamento, capturando padrões específicos que não são generalizáveis para outros grupos de dados. Como o Random Forest seleciona os dados de forma aleatória, esse problema costuma ser evitado, mas nem sempre.

### Aplicação do Random Forest

Como a nossa explicação até aqui envolveu termos técnicos e conceitos abstratos, vamos ver como o Random Forest pode ser aplicado numa situação da vida real.

Digamos que você gerencia uma cadeia de hotéis e precisa prever e diminuir o número de cancelamentos de reservas. O Random Forest pode ajudá-lo a prever quais reservas têm maior probabilidade de serem canceladas. Como? Vamos ao passo a passo:

    Coletar dados:

O primeiro passo é reunir dados históricos de reservas, como datas, tipo de quarto, preço, métodos de pagamento, e se a reserva foi cancelada ou não.

    Preparar os dados:

Depois, precisamos fazer a limpeza e transformação dos dados, criar variáveis indicadoras, como antecedência da reserva, período do ano e taxas de cancelamento passadas.

    Treinar o modelo:

Chegou o momento de utilizar o Random Forest para treinar seu modelo. Como variáveis de entrada você tem as características de reserva citadas no passo 1. Seu resultado (a variável de saída) é o indicador de cancelamento.

    Validar o modelo:

Aqui, você avalia a precisão do modelo, usando um conjunto de dados de reserva não utilizado durante o treinamento.


    Implementação:

O modelo finalmente é integrado ao seu sistema de gerenciamento de reservas, para prever a probabilidade de uma reserva ser cancelada. Assim, o hotel pode pensar em estratégias para prevenir esse cancelamento.

Temos, assim, um caso claro de como o Random Forest pode ser utilizado como uma ferramenta que ajuda na tomada de decisões estratégicas e na elaboração de planos de contingência em uma empresa.

***

Em resumo, o Random Forest pode ser uma ferramenta extremamente útil para quem quer ajudar empresas na transformação de conjuntos de dados em decisões estratégicas. Esse tipo de desafio é algo que o move? Então, talvez você tenha interesse em se aprofundar em ciência de dados.

Aqui na EBAC, no curso Profissão: Cientista de Dados, você vai conhecer esse e muitos outros conceitos, além de colocá-los em prática, com tarefas e cases reais. Você ainda aprende com professores atuantes no mercado, todos com passagem por grandes empresas. Quer se jogar nesse universo? Vem conhecer nosso curso!

Para mais conteúdos gratuitos de Programação & Data, participe dos eventos online! Eles acontecem semanalmente e são uma ótima oportunidade para ficar por dentro do que está acontecendo na área. Acesse a agenda e inscreva-se!




O ```Random Forest``` é um algoritmo de ```Machine Learning``` baseado em conjuntos de árvores de decisão. Ele funciona criando múltiplas árvores de decisão a partir de diferentes subconjuntos de dados de treinamento, combinando os resultados para gerar previsões mais precisas e robustas.

A ideia principal é treinar o modelo para que ele possa prever resultados com base em novos dados, tornando-se útil para diversas aplicações, como no setor financeiro, de saúde e e-commerce. Esse algoritmo auxilia na tomada de decisões estratégicas ao fornecer insights mais confiáveis.

### Como o Random Forest funciona?

    Seleção aleatória de variáveis: Em cada divisão de uma árvore, o algoritmo escolhe aleatoriamente um subconjunto de variáveis para análise, reduzindo a chance de viés.
    Criação de múltiplas árvores de decisão: Utilizando diferentes subconjuntos de dados, o modelo constrói várias árvores de decisão independentemente.
    Votação ou média dos resultados: No caso de classificação, cada árvore "vota" na classe mais provável, e a maioria decide o resultado final. Para problemas de regressão, calcula-se a média das previsões das árvores.

Esse processo melhora a precisão e reduz o risco de overfitting (quando um modelo se ajusta demais aos dados de treinamento e perde capacidade de generalização).

O Random Forest é amplamente utilizado por cientistas de dados devido à sua eficiência, estabilidade e versatilidade em diferentes cenários de análise preditiva.

### 1. Bagging (Bootstrap Aggregating)

É um método genérico de aprendizado de máquina baseado na ideia de criar múltiplos modelos a partir de subconjuntos aleatórios dos dados de treinamento. Ele segue os seguintes passos:

    Gera amostras aleatórias com reposição (técnica de Bootstrap).
    Treina múltiplos modelos independentes (geralmente do mesmo tipo, como árvores de decisão).
    Faz a média das previsões (para regressão) ou aplica um voto majoritário (para classificação).

 Objetivo: Reduzir a variância do modelo, tornando-o mais robusto e menos sensível a outliers.


### 2. Random Forest

O Random Forest é uma extensão do Bagging, mas com um aprimoramento específico para árvores de decisão:

    Além de selecionar subconjuntos aleatórios de dados (Bagging), ele também seleciona aleatoriamente um subconjunto de variáveis em cada nó da árvore.
    Isso impede que as árvores fiquem muito parecidas entre si, aumentando a diversidade do conjunto de modelos.

 Objetivo: Melhorar a precisão e evitar correlações fortes entre as árvores, tornando o modelo mais eficiente.

In [69]:
import patsy
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from datetime import datetime

from scipy.stats import ks_2samp
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.model_selection import train_test_split

from sklearn.ensemble import RandomForestClassifier

In [72]:
credit = pd.read_csv('credit_scoring.csv', parse_dates = ['data_ref'])

credit['tempo_emprego'].fillna(-1, inplace=True)
df.head()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  credit['tempo_emprego'].fillna(-1, inplace=True)


Unnamed: 0,data_ref,id_cliente,sexo,posse_de_veiculo,posse_de_imovel,qtd_filhos,tipo_renda,educacao,estado_civil,tipo_residencia,idade,tempo_emprego,qt_pessoas_residencia,renda,mau
0,2015-01-01,1,F,True,True,0,Assalariado,Secundário,Casado,Casa,49,8.605479,2.0,1916.54,0
1,2015-01-01,2,M,True,False,0,Empresário,Secundário,União,Casa,60,6.953425,2.0,2967.25,0
2,2015-01-01,3,F,True,False,0,Empresário,Secundário,Casado,Casa,28,0.682192,2.0,340.96,0
3,2015-01-01,4,F,False,True,0,Assalariado,Superior completo,Casado,Casa,60,1.879452,2.0,4903.16,0
4,2015-01-01,5,F,False,False,0,Empresário,Secundário,Casado,Casa,47,8.438356,2.0,3012.6,0


In [73]:
# Selecionar meses de 2016 para validação
df_val = credit[credit['data_ref'] >= datetime(2016,1,1)].copy()

# Selecionar meses de 2015 para treinamento e teste
credit = credit[credit['data_ref'] < datetime(2016,1,1)]

df_train, df_test = train_test_split(df, test_size=0.3, random_state=12)

df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)
df_val = df_val.reset_index(drop=True)

print('Quantidade de linhas no treino:    ',df_train.shape[0])
print('Quantidade de linhas no teste:     ',df_test.shape[0])
print('Quantidade de linhas na validação: ',df_val.shape[0])

Quantidade de linhas no treino:     52500
Quantidade de linhas no teste:      22500
Quantidade de linhas na validação:  15000


In [74]:
equacao = '''mau ~ sexo + posse_de_veiculo + posse_de_imovel + qtd_filhos + tipo_renda + educacao
            + estado_civil + tipo_residencia + idade + qt_pessoas_residencia'''

y_train, X_train = patsy.dmatrices(equacao, data=df_train)
y_test, X_test = patsy.dmatrices(equacao, data=df_test)
y_val, X_val = patsy.dmatrices(equacao, data=df_val)

In [75]:
# Calcular o Gini
def calcula_gini(RESP, PD):
    #AUC
    auc = roc_auc_score(RESP, PD)

    #Gini
    gini = 2*auc -1
    return gini


def print_metricas(dados,
                   PD = 'PD',
                   CLASSE_PRED = 'classe_predita',
                   RESP = 'mau'):

    #Acuracia
    acc = accuracy_score(dados[RESP], dados[CLASSE_PRED])

    #AUC
    auc = roc_auc_score(dados[RESP], dados[PD])

    #Gini
    gini = 2*auc-1

    #KS
    ks = ks_2samp(dados.loc[dados[RESP] == 1, PD],
                  dados.loc[dados[RESP] != 1, PD]).statistic

    print('KS:       {0:.2f}%'.format(ks*100))
    print('AUC:      {0:.2f}%'.format(auc*100))
    print('GINI:     {0:.2f}%'.format(gini*100))
    print('Acurácia: {0:.2f}%\n'.format(acc*100))

    return None

In [76]:
%%time

clf = RandomForestClassifier(n_estimators=600,
                             max_depth=13,
                             min_samples_leaf=41)

clf.fit(X_train,y_train.ravel())

df_train['classe_predita'] = clf.predict(X_train)
df_train['PD'] = clf.predict_proba(X_train)[:,1]

df_test['classe_predita'] = clf.predict(X_test)
df_test['PD'] = clf.predict_proba(X_test)[:,1]

df_val['classe_predita'] = clf.predict(X_val)
df_val['PD'] = clf.predict_proba(X_val)[:,1]

print_metricas(dados = df_train)
print_metricas(dados = df_test)
print_metricas(dados = df_val)

KS:       22.19%
AUC:      65.76%
GINI:     31.52%
Acurácia: 93.02%

KS:       15.58%
AUC:      59.96%
GINI:     19.93%
Acurácia: 93.05%

KS:       20.60%
AUC:      64.29%
GINI:     28.57%
Acurácia: 92.88%

CPU times: user 9.36 s, sys: 504 μs, total: 9.36 s
Wall time: 9.37 s
