<img src="logoINPE.png">

# Random Forest

**Definição:**
Random Forest é uma técnica de aprendizado de máquina baseada em ensemble, desenvolvida por Leo Breiman e Adele Cutler. Ela combina múltiplas árvores de decisão para formar um modelo mais robusto e preciso. Cada árvore na floresta é construída a partir de uma amostra aleatória do conjunto de dados e realiza previsões independentes. A previsão final do modelo é determinada pela agregação das previsões individuais das árvores, geralmente por meio de votação (para classificação) ou média (para regressão).

### Estrutura e Funcionamento

**Árvores de Decisão:**
Árvores de decisão são a unidade básica do Random Forest. Elas são modelos não paramétricos que dividem os dados em subconjuntos baseados em características de entrada para fazer previsões.

**Componentes Principais do Random Forest:**

1. **Bootstrapping:**
   - Cada árvore na floresta é treinada em uma amostra aleatória (com reposição) do conjunto de dados original. Este processo é conhecido como bootstrap sampling.

2. **Seleção Aleatória de Características:**
   - Para cada divisão em uma árvore, um subconjunto aleatório de características é considerado. Isso adiciona uma camada de aleatoriedade e diversidade, ajudando a reduzir a correlação entre as árvores.

3. **Crescimento das Árvores:**
   - As árvores são crescidas até sua máxima extensão sem poda (pruning), resultando em árvores profundas e altamente variáveis. A falta de poda permite capturar interações complexas nos dados.

### Processo de Treinamento:

1. **Criação do Conjunto de Treinamento:**
   - Para cada árvore, uma amostra bootstrap do conjunto de dados é criada.

2. **Construção da Árvore:**
   - A árvore é construída a partir da amostra bootstrap, utilizando um subconjunto aleatório de características em cada divisão.

3. **Repetição:**
   - O processo é repetido para todas as árvores na floresta.

4. **Agregação das Previsões:**
   - Para classificação, a previsão final é determinada pela votação majoritária das árvores. Para regressão, é calculada a média das previsões das árvores.

### Vantagens do Random Forest

1. **Redução do Sobreajuste:**
   - A aleatoriedade introduzida pelo bootstrap sampling e pela seleção aleatória de características reduz o risco de sobreajuste, que é comum em árvores de decisão individuais.

2. **Precisão e Robustez:**
   - Combinar múltiplas árvores de decisão melhora a precisão preditiva e a robustez do modelo.

3. **Flexibilidade:**
   - Aplicável tanto para problemas de classificação quanto de regressão.

4. **Importância das Características:**
   - Random Forest fornece uma medida de importância das características, que pode ser útil para a interpretação do modelo e a seleção de características.

5. **Resistência a Dados Faltantes:**
   - O algoritmo pode lidar com dados faltantes de maneira eficaz, estimando valores ausentes com base em critérios de proximidade.

6. **Paralelismo:**
   - A construção de cada árvore é independente, permitindo a implementação paralela e distribuída.

### Desvantagens do Random Forest

1. **Complexidade Computacional:**
   - Treinar um grande número de árvores pode ser computacionalmente intensivo e exigir muito tempo.

2. **Interpretação:**
   - Embora forneça medidas de importância das características, a complexidade do modelo torna difícil a interpretação completa das previsões individuais.

### Aplicações do Random Forest

Random Forest é amplamente utilizado em várias áreas devido à sua flexibilidade e precisão, incluindo:
- **Finanças:** Análise de risco de crédito, detecção de fraude.
- **Saúde:** Diagnóstico de doenças, análise de dados genômicos.
- **Marketing:** Previsão de churn de clientes, segmentação de mercado.
- **Ecologia:** Classificação de espécies, previsão de mudanças ambientais.
- **Indústria:** Manutenção preditiva, controle de qualidade.

### Conclusão

Random Forest é uma poderosa técnica de aprendizado de máquina que combina a simplicidade e a interpretabilidade das árvores de decisão com a robustez e a precisão dos métodos de ensemble. Sua capacidade de lidar com dados complexos e fornecer previsões precisas e confiáveis a torna uma escolha popular para uma ampla variedade de aplicações. Com o contínuo avanço das tecnologias de computação e algoritmos, Random Forest permanece uma ferramenta valiosa no arsenal dos cientistas de dados e engenheiros de machine learning.

# Parâmetros do `RandomForestClassifier` do scikit-learn:

1. `n_estimators`: O número de árvores na floresta.

2. `criterion`: A função para medir a qualidade de uma divisão. Pode ser "gini" para o índice de Gini ou "entropy" para o ganho de informação.

3. `max_depth`: A profundidade máxima de cada árvore na floresta.

4. `min_samples_split`: O número mínimo de amostras necessárias para dividir um nó interno.

5. `min_samples_leaf`: O número mínimo de amostras necessárias para estar em um nó folha.

6. `min_weight_fraction_leaf`: A fração mínima ponderada do total de pesos das amostras de entrada necessárias para estar em um nó folha.

7. `max_features`: O número de features a serem consideradas ao procurar a melhor divisão. Pode ser um inteiro, "sqrt", "log2" ou uma fração do total de features.

8. `max_leaf_nodes`: O número máximo de folhas permitidas em cada árvore.

9. `min_impurity_decrease`: Um nó será dividido se essa divisão induzir uma diminuição da impureza maior ou igual a esse valor.

10. `bootstrap`: Se deve amostrar com reposição ao construir árvores.

11. `oob_score`: Se deve usar out-of-bag amostras para estimar o erro de generalização.

12. `n_jobs`: O número de jobs a serem executados em paralelo para ajustar árvores.

13. `random_state`: Determina a semente usada pelo gerador de números aleatórios para garantir que os resultados sejam reproduzíveis.

14. `verbose`: Controla a verbosidade da saída durante o ajuste.

15. `warm_start`: Se definido como True, reutiliza a solução da chamada anterior para ajustar e adiciona mais árvores à floresta existente.

16. `class_weight`: Peso associado a cada classe. Pode ser "balanced" para ajustar automaticamente os pesos das classes inversamente proporcionais às frequências das classes.

# Parâmetros do `RandomForestRegressor` do scikit-learn:

1. `n_estimators`: O número de árvores na floresta.

2. `criterion`: A função para medir a qualidade de uma divisão. Pode ser "mse" para o erro médio quadrático ou "mae" para o erro absoluto médio.

3. `max_depth`: A profundidade máxima de cada árvore na floresta.

4. `min_samples_split`: O número mínimo de amostras necessárias para dividir um nó interno.

5. `min_samples_leaf`: O número mínimo de amostras necessárias para estar em um nó folha.

6. `min_weight_fraction_leaf`: A fração mínima ponderada do total de pesos das amostras de entrada necessárias para estar em um nó folha.

7. `max_features`: O número de features a serem consideradas ao procurar a melhor divisão. Pode ser um inteiro, "sqrt", "log2" ou uma fração do total de features.

8. `max_leaf_nodes`: O número máximo de folhas permitidas em cada árvore.

9. `min_impurity_decrease`: Um nó será dividido se essa divisão induzir uma diminuição da impureza maior ou igual a esse valor.

10. `bootstrap`: Se deve amostrar com reposição ao construir árvores.

11. `oob_score`: Se deve usar out-of-bag amostras para estimar o erro de generalização.

12. `n_jobs`: O número de jobs a serem executados em paralelo para ajustar árvores.

13. `random_state`: Determina a semente usada pelo gerador de números aleatórios para garantir que os resultados sejam reproduzíveis.

14. `verbose`: Controla a verbosidade da saída durante o ajuste.

15. `warm_start`: Se definido como True, reutiliza a solução da chamada anterior para ajustar e adiciona mais árvores à floresta existente.

16. `ccp_alpha`: Parâmetro de complexidade de custo mínimo para poda de custo-complexidade.