# Exercicio 2 módulo 23 - **Combinação de Modelos I**

### 1- Monte um passo a passo para o **Random Forest**

**Passo 1**

* **Preparação dos dados**
1. Carregue os dados, para o **Random Forest** você terá amostras com características *( ou features )* e rótulos de classes *( targets ).*
2. Certifique-se de que os dados já estejam *normalizados e padronizados*
3. Os divida em treino e teste

**Passo 2**

* **Gerar subconjuntos dos dados ( *Bootstrap* )**
1. A partir do conjunto de treino **original** gere multiplos subconjuntos de dados.
2. Para cada subconjunto use a técnica **Amostra com Reposição**, ou seja, escolha amostras *aleatórias* e permita *repetições*.

**Passo 3**

* **Treinar um modelo para cada *subconjunto* gerado**
1. Para cada **subconjunto**, treine uma *árvore de decisãos*.
    1. A cada divisão (ou nó), a árvore escolhe apenas uma seleção aleatória de características em vez de considerar todas as disponíveis.
    2. Esse processo ajuda cada árvore a aprender de forma ligeiramente diferente e *reduz a correlação entre as árvores*, tornando o **ensemble** mais **robusto**.

**Passo 4**
* **Fazer previsões**
1. Após todos os *subconjuntos* serem treinados, utilize eles para fazer **previsões** sobre os dados de testes ou novos dados.
     1. Para cada amostra, cada *árvore de decisão* fornece uma **previsão** *( ou “voto” )*.
     2. Cada árvore *“ vota ”* em uma **classe** *( no caso de classificação )* ou faz uma **estimativa** *( no caso de regressão )*.

**Passo 5**
* **Agregar as previsões**
1. Combine a **previsão dos subconjuntos** para chegar a uma **previsão final**
   1. Para problemas de **classificação** se utiliza a *votação majoritária*
   2. Para problemas de **regressão**, se utiliza a *média das previsões*
   

### 2- Explique em suas palavras o **Random Forest**

* Analogia com uma **Sala de aula**

1. Você possui uma **sala de aula** *( dataframe )*

2. Em sua sala de aula você possui diversos **alunos** *( amostras )* e cada aluno por sua vez tera características como **notas**,**tamanho**,**frequência** entre outras *( features )* e terão como seu objetivo alcançar ou ficar acima da  **média** *( target )*

3. Você, por sua vez vai escolher um número X de alunos *( subconjuntos )* no qual irá fazer 1 de Y perguntas que você havia preparado, logo após isso pedirá para que voltem ao seu lugar, fazendo com que possam ser escolhidos novamente e caso sejam escolhidos, possivelmente acabem respondendo uma pergunta diferente.

4. Após **repetir esse processo enumeras vezes**, você percebe que anotou as repostas diversas vezes, você percebeu que alguns alunos repetiram com perguntas diferentes, alguns pouquíssimos acabaram repetindo com a mesma pergunta e em quase todos os casos, grupos diferentes que responderam

5. No fim, você pode ver qual pergunta resposta para cada tipo de aluno, ou qual *característica* possui maior relevância para estar acima da **média** estabelecida *( Target )*

---

* Explicação mais técnica para o método: **Random Forest**

O método **Random Forest** é uma técnica poderosa e robusta que combina a força de várias árvores de decisão treinadas em *subconjuntos aleatórios* dos *dados e das características*, resultando em um modelo mais **preciso e confiável**.

# 3 (opcional) - Implementar em **Python** o **Random Forest**
* **Contendo**:
    1. Bootstrap
    2. Feature Selection
    3. Modelagem com Decision Trees
    4. Agregação

In [1]:
import pandas                as     pd
import numpy                 as     np


from sklearn.ensemble        import RandomForestClassifier
from sklearn.datasets        import load_iris
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics         import accuracy_score, confusion_matrix, classification_report

In [2]:
# Passo 1.1: iremos criar nosso dataframe
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names) # O conjunto de dados das flores seriam como a sala de aula
df['target'] = iris.target                                    # Nosso target seria como as médias que devem ser alcançadas

In [3]:
#Passo 1.2 (opcional): Visualização do dataframe para melhor comrpeensão do que a nossa sala de aula se trata

class_mapping = {0: 'setosa', 1: 'versicolor', 2: 'virginica'}
df['class'] = df['target'].map(class_mapping)

df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,class
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [4]:
# Passo 2: Iremos treinar nosso banco de dados com uma parcela (25%) dos alunos de sala de aula

X = df[iris.feature_names]
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=27)

In [5]:
# Passo 3: Configurar e treinar o modelo Random Forest, com 100 arvores de decisão diferentes, que seriam 100 subconjuntos diferentes dos alunos
random_forest_model = RandomForestClassifier(n_estimators=100, random_state=27)
random_forest_model.fit(X_train, y_train)

# Passo 4: Agora faremos as previsões, que seriam conferir se as respostas batem com as médias esperadas para cada aluno
y_pred = random_forest_model.predict(X_test)

In [6]:
# Passo 5.1) Avaliar o modelo

# Acuracia
accuracy = accuracy_score(y_test, y_pred)
print(f"\nAcurácia: {accuracy * 100:.2f}%")


Acurácia: 92.11%


* Um bom desempenho geral do sistema

In [7]:
# Passo 5.2) Avaliar o modelo

# Matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print("\nMatriz de Confusão:")
print(conf_matrix)


Matriz de Confusão:
[[ 9  0  0]
 [ 0 13  1]
 [ 0  2 13]]


1. **Classe Setosa:**

* 9 previsões corretas (no canto superior esquerdo)
* nenhum erro.

2. **Classe Versicolor:**

* 13 previsões corretas (na diagonal)
* 1 erro (uma amostra foi classificada incorretamente como virginica).

3. **Classe Virginica:**

* 13 previsões corretas (na diagonal)
* 2 erros (foram classificadas como versicolor).

In [8]:
# Passo 5.3) Avaliar o modelo

# Relatório de classificação
report = classification_report(y_test, y_pred, target_names=iris.target_names)
print("\nRelatório de Classificação:")
print(report)


Relatório de Classificação:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00         9
  versicolor       0.87      0.93      0.90        14
   virginica       0.93      0.87      0.90        15

    accuracy                           0.92        38
   macro avg       0.93      0.93      0.93        38
weighted avg       0.92      0.92      0.92        38



* **Precisão**:

1. **Setosa**: Perfeita precisão, todas as previsões para **setosa** estavam corretas.
2. **Versicolor**: 87% das previsões feitas para **versicolor** estavam corretas.
3. **Virginica**: 93% das previsões feitas para **virginica** estavam corretas.

* **Revocação** 

1. **Setosa**: O modelo identificou 100% das amostras **setosa** corretamente.
2. **Versicolor**: O modelo identificou 93% das amostras **versicolor** corretamente.
3. **Virginica**: O modelo identificou 87% das amostras **virginica** corretamente.

* **F1-Score**:

1. **Setosa**: Perfeito equilíbrio entre **precisão** e **Revocação**.
2. **Versicolor**: 0.90, Bom equilíbrio entre **precisão** e **Revocação**.
3. **Virginica**: 0.90, Bom equilíbrio também.

In [9]:
# Passo 5.4) Avaliar o modelo

# Acuracia validação cruzada
val_acuracia = cross_val_score(random_forest_model, X_train, y_train, cv=5)  # 5-fold cross-validation

# Exibindo a acurácia de cada fold
print(f"Acurácias da validação cruzada para cada fold: {val_acuracia}")
print(f"Média da acurácia na validação cruzada: {np.mean(val_acuracia)}")

Acurácias da validação cruzada para cada fold: [0.95652174 1.         1.         0.95454545 0.90909091]
Média da acurácia na validação cruzada: 0.9640316205533596


* As acurácias dos *5 folds* variam entre **90.91%** e **100%**, com uma média de **96.4%**.
    1. Indicando que o modelo é consistente e robusto.
    2. Mesmo nas divisões mais difíceis (com acurácia de **90.91%**), ele ainda apresenta bom desempenho.
