# Tópico 1 - Quais são os hiperparâmetros do Random Forest?

O Random Forest possui vários hiperparâmetros que podem ser ajustados para controlar o comportamento e o desempenho do modelo. Aqui estão alguns dos principais hiperparâmetros do Random Forest:

**n_estimators**<br>
Especifica o número de árvores no conjunto do Random Forest. Um número maior de árvores geralmente leva a um modelo mais robusto, mas também aumenta o tempo de treinamento. O número de árvores geralmente é definido entre 100 e 1000, dependendo do tamanho do conjunto de dados.

**criterion**<br>
Define a medida de qualidade da divisão em cada nó da árvore. Os valores comuns são "gini" para o índice de Gini e "entropy" para a entropia.

**max_depth**<br>
Define a profundidade máxima das árvores de decisão. Controla a complexidade das árvores e evita o overfitting. Se definido como None, os nós serão expandidos até que todas as folhas sejam puras ou até que todas as folhas contenham menos de min_samples_split amostras.

**min_samples_split**<br>
Define o número mínimo de amostras necessárias para realizar uma divisão em um nó interno. Se uma determinada divisão levar a um número de amostras inferior a esse valor, a divisão não será realizada.

**min_samples_leaf**<br>
Define o número mínimo de amostras necessárias em um nó folha. Garante que cada folha tenha um número mínimo de amostras e controla a regularização do modelo. O 'min_samples_split' e o 'min_samples_leaf' podem ser ajustados para controlar a complexidade do modelo e evitar o overfitting. Valores comuns são 2, 5 ou 10, mas podem variar dependendo do tamanho do conjunto de dados.

**max_features**<br>
Controla o número de recursos considerados em cada divisão. Pode ser um valor inteiro, um float ou uma string. Alguns valores comuns são "sqrt" (raiz quadrada do número total de recursos), "log2" (logaritmo de base 2 do número total de recursos) ou "auto" (equivalente a "sqrt").

**bootstrap**<br>
Especifica se amostragem com reposição deve ser usada ao construir árvores individuais. Se definido como True, cada árvore é treinada em um subconjunto aleatório dos dados de treinamento. Se definido como False, cada árvore é treinada no conjunto de treinamento completo.

Esses são apenas alguns dos principais hiperparâmetros do Random Forest. Existem outros hiperparâmetros disponíveis, como max_leaf_nodes, min_impurity_decrease, entre outros, que podem ser ajustados conforme necessário, dependendo do problema e dos dados. A escolha adequada dos hiperparâmetros pode afetar significativamente o desempenho e a generalização do modelo Random Forest.

#### Exemplo de código demonstrando a aplicação de alguns hiperparâmetros:

In [3]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Gerando um conjunto de dados de exemplo
X, y = make_classification(n_samples=1000, n_features=20, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definindo os hiperparâmetros do Random Forest
n_estimators = 100
max_features = 'sqrt'
max_depth = 10
min_samples_split = 5

# Criando o modelo Random Forest
random_forest = RandomForestClassifier(n_estimators=n_estimators, 
                                       max_features=max_features, 
                                       max_depth=max_depth, 
                                       min_samples_split=min_samples_split)


random_forest.fit(X_train, y_train)
y_pred = random_forest.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)

Accuracy: 0.88


Neste exemplo, definimos o número de árvores (n_estimators) como 100, a seleção de atributos (max_features) como "sqrt" (raiz quadrada do número total de atributos), a profundidade máxima das árvores (max_depth) como 10 e o número mínimo de amostras para realizar uma divisão em um nó (min_samples_split) como 5.