<img src="logoINPE.png">

# Floresta Aleatória (Random Forest)

A classificação por floresta aleatória é uma técnica de aprendizado de máquina que combina o poder da aleatoriedade com o poder da média para construir um modelo robusto de classificação. Ela opera criando múltiplas árvores de decisão durante o treinamento e fazendo previsões com base na maioria das previsões das árvores individuais.

## Principais Características:
- **Árvores de Decisão:** Cada árvore na floresta é construída a partir de uma amostra aleatória do conjunto de dados de treinamento. Isso ajuda a reduzir a correlação entre as árvores individuais, tornando o modelo mais robusto.

- **Amostragem Aleatória de Características:** Durante a construção de cada árvore, apenas um subconjunto aleatório das características é considerado para dividir em cada nó da árvore. Isso introduz mais diversidade nas árvores e reduz a probabilidade de overfitting.

- **Votação por Maioria:** Ao fazer previsões, cada árvore na floresta contribui com uma votação para determinar a classe final de um exemplo. A classe mais frequente entre todas as árvores é escolhida como a previsão final.

## Vantagens:
- **Robustez:** Averiguando várias árvores de decisão, o modelo é menos propenso a overfitting e tem uma melhor capacidade de generalização em dados de teste.

- **Manuseio de Dados Não Lineares e de Alta Dimensão:** Pode lidar eficazmente com conjuntos de dados com muitas características e interações complexas entre elas.

- **Fácil de Usar:** Requer pouca ou nenhuma sintonia de parâmetros e lida bem com dados ausentes.

## Limitações:
- **Interpretabilidade:** Às vezes, a floresta aleatória pode ser difícil de interpretar em comparação com modelos lineares simples.

- **Desempenho em Dados Escaláveis:** Para conjuntos de dados muito grandes, o treinamento de uma floresta aleatória pode se tornar computacionalmente caro.

## Aplicações:
- **Classificação:** Prever a classe de um exemplo com base em suas características.

A implementação da classificação por floresta aleatória no scikit-learn, utilizando RandomForestClassifier, oferece uma interface simples e poderosa para treinar e fazer previsões com este modelo.

# Parâmetros do `RandomForestClassifier` do scikit-learn:

1. `n_estimators`: O número de árvores na floresta.

2. `criterion`: A função para medir a qualidade de uma divisão. Pode ser "gini" para o índice de Gini ou "entropy" para o ganho de informação.

3. `max_depth`: A profundidade máxima de cada árvore na floresta.

4. `min_samples_split`: O número mínimo de amostras necessárias para dividir um nó interno.

5. `min_samples_leaf`: O número mínimo de amostras necessárias para estar em um nó folha.

6. `min_weight_fraction_leaf`: A fração mínima ponderada do total de pesos das amostras de entrada necessárias para estar em um nó folha.

7. `max_features`: O número de features a serem consideradas ao procurar a melhor divisão. Pode ser um inteiro, "sqrt", "log2" ou uma fração do total de features.

8. `max_leaf_nodes`: O número máximo de folhas permitidas em cada árvore.

9. `min_impurity_decrease`: Um nó será dividido se essa divisão induzir uma diminuição da impureza maior ou igual a esse valor.

10. `bootstrap`: Se deve amostrar com reposição ao construir árvores.

11. `oob_score`: Se deve usar out-of-bag amostras para estimar o erro de generalização.

12. `n_jobs`: O número de jobs a serem executados em paralelo para ajustar árvores.

13. `random_state`: Determina a semente usada pelo gerador de números aleatórios para garantir que os resultados sejam reproduzíveis.

14. `verbose`: Controla a verbosidade da saída durante o ajuste.

15. `warm_start`: Se definido como True, reutiliza a solução da chamada anterior para ajustar e adiciona mais árvores à floresta existente.

16. `class_weight`: Peso associado a cada classe. Pode ser "balanced" para ajustar automaticamente os pesos das classes inversamente proporcionais às frequências das classes.

# Parâmetros do `RandomForestRegressor` do scikit-learn:

1. `n_estimators`: O número de árvores na floresta.

2. `criterion`: A função para medir a qualidade de uma divisão. Pode ser "mse" para o erro médio quadrático ou "mae" para o erro absoluto médio.

3. `max_depth`: A profundidade máxima de cada árvore na floresta.

4. `min_samples_split`: O número mínimo de amostras necessárias para dividir um nó interno.

5. `min_samples_leaf`: O número mínimo de amostras necessárias para estar em um nó folha.

6. `min_weight_fraction_leaf`: A fração mínima ponderada do total de pesos das amostras de entrada necessárias para estar em um nó folha.

7. `max_features`: O número de features a serem consideradas ao procurar a melhor divisão. Pode ser um inteiro, "sqrt", "log2" ou uma fração do total de features.

8. `max_leaf_nodes`: O número máximo de folhas permitidas em cada árvore.

9. `min_impurity_decrease`: Um nó será dividido se essa divisão induzir uma diminuição da impureza maior ou igual a esse valor.

10. `bootstrap`: Se deve amostrar com reposição ao construir árvores.

11. `oob_score`: Se deve usar out-of-bag amostras para estimar o erro de generalização.

12. `n_jobs`: O número de jobs a serem executados em paralelo para ajustar árvores.

13. `random_state`: Determina a semente usada pelo gerador de números aleatórios para garantir que os resultados sejam reproduzíveis.

14. `verbose`: Controla a verbosidade da saída durante o ajuste.

15. `warm_start`: Se definido como True, reutiliza a solução da chamada anterior para ajustar e adiciona mais árvores à floresta existente.

16. `ccp_alpha`: Parâmetro de complexidade de custo mínimo para poda de custo-complexidade.