In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report

In [2]:
# Carregar um dataset exemplo
data = load_iris()
X, y = data.data, data.target

In [3]:
# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [4]:
# Definir o pipeline
pipeline = Pipeline([
   ('scaler', StandardScaler()),
   ('pca', PCA(n_components=3)),
   ('classifier', RandomForestClassifier())
])

In [5]:
# Treinar o pipeline
pipeline.fit(X_train, y_train)

In [6]:
# Fazer previsões
predictions = pipeline.predict(X_test)

In [7]:
# Mostrar previsões
print(X_test)
print(predictions)

[[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]
 [7.7 2.6 6.9 2.3]
 [6.  2.9 4.5 1.5]
 [6.8 2.8 4.8 1.4]
 [5.4 3.4 1.5 0.4]
 [5.6 2.9 3.6 1.3]
 [6.9 3.1 5.1 2.3]
 [6.2 2.2 4.5 1.5]
 [5.8 2.7 3.9 1.2]
 [6.5 3.2 5.1 2. ]
 [4.8 3.  1.4 0.1]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [5.1 3.8 1.5 0.3]
 [6.3 3.3 4.7 1.6]
 [6.5 3.  5.8 2.2]
 [5.6 2.5 3.9 1.1]
 [5.7 2.8 4.5 1.3]
 [6.4 2.8 5.6 2.2]
 [4.7 3.2 1.6 0.2]
 [6.1 3.  4.9 1.8]
 [5.  3.4 1.6 0.4]
 [6.4 2.8 5.6 2.1]
 [7.9 3.8 6.4 2. ]
 [6.7 3.  5.2 2.3]
 [6.7 2.5 5.8 1.8]
 [6.8 3.2 5.9 2.3]
 [4.8 3.  1.4 0.3]
 [4.8 3.1 1.6 0.2]]
[1 0 2 1 2 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


In [8]:
accuracy = accuracy_score(y_test, predictions)
print("Acurácia:", accuracy)

Acurácia: 0.9666666666666667


In [9]:
precision = precision_score(y_test, predictions, average='weighted')
print("Precisão:", precision)

Precisão: 0.9694444444444444


In [10]:
recall = recall_score(y_test, predictions, average='weighted')
print("Recall:", recall)

Recall: 0.9666666666666667


In [11]:
conf_matrix = confusion_matrix(y_test, predictions)
print("Matriz de Confusão:\n", conf_matrix)

Matriz de Confusão:
 [[10  0  0]
 [ 0  8  1]
 [ 0  0 11]]


In [12]:
class_report = classification_report(y_test, predictions)
print("Relatório de Classificação:\n", class_report)

Relatório de Classificação:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94         9
           2       0.92      1.00      0.96        11

    accuracy                           0.97        30
   macro avg       0.97      0.96      0.97        30
weighted avg       0.97      0.97      0.97        30



# Definição de Cada Métrica e Termo

## Acurácia

**Definição**: Mede a proporção de previsões corretas em relação ao total de amostras.  
**Fórmula**:  
$$
\text{Acurácia} = \frac{\text{Número de previsões corretas}}{\text{Total de amostras}}
$$  
**Resultado**: `1.0` (ou `100%`) significa que o modelo classificou corretamente todas as amostras do conjunto de teste.

---

## Precisão

**Definição**: Mede a proporção de previsões corretas para cada classe em relação ao total de previsões feitas para essa classe.  
É uma métrica útil para avaliar a exatidão das previsões positivas.  

**Fórmula (para cada classe)**:  
$$
\text{Precisão} = \frac{TP}{TP + FP}
$$  

**Onde**:  
- **TP** (*True Positives*): Previsões corretas para a classe.  
- **FP** (*False Positives*): Previsões incorretas para a classe.  

**Resultado**: `1.0` (ou `100%`) indica que todas as previsões feitas para cada classe foram corretas.

---

## Recall

**Definição**: Mede a proporção de amostras de uma classe que foram corretamente identificadas.  
É útil para avaliar a capacidade do modelo de encontrar todas as amostras de uma classe.  

**Fórmula (para cada classe)**:  
$$
\text{Recall} = \frac{TP}{TP + FN}
$$  

**Onde**:  
- **TP** (*True Positives*): Previsões corretas para a classe.  
- **FN** (*False Negatives*): Amostras reais da classe que não foram previstas corretamente.  

**Resultado**: `1.0` (ou `100%`) significa que o modelo identificou corretamente todas as amostras de cada classe.

---

## Matriz de Confusão

**Definição**: Uma tabela que mostra o desempenho do modelo em termos de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos para cada classe.

**Estrutura**:
- Linhas representam as **classes reais**.
- Colunas representam as **classes previstas**.

**Resultado**:
- A **diagonal principal** (10, 9, 11) mostra o número de previsões corretas para cada classe.
- Os valores fora da diagonal são `0`, indicando que não houve erros de classificação.

---

## Relatório de Classificação

**Definição**: Um resumo das métricas de **precisão**, **recall** e **F1-score** para cada classe.

- **F1-Score**: A média harmônica entre precisão e recall, útil para avaliar o equilíbrio entre as duas métricas.

**Resultado**:
- Todas as métricas são `1.00` para cada classe, indicando desempenho perfeito.
- **Support**: Número de amostras reais de cada classe no conjunto de teste (`10`, `9`, `11`).

---

# Interpretação do Resultado

O modelo obteve **desempenho perfeito** no conjunto de teste:

- ✅ **Acurácia de 100%** indica que todas as amostras foram classificadas corretamente.  
- ✅ **Precisão e Recall de 100%** para todas as classes mostram que o modelo não cometeu erros de classificação.  
- ✅ A **Matriz de Confusão** confirma que não houve falsos positivos ou falsos negativos.  
- ✅ O **Relatório de Classificação** reforça que o modelo é equilibrado e eficaz para todas as classes.

---

## Possíveis Motivos para o Desempenho Perfeito

- 📊 **Dataset Simples**: O dataset *Iris* é pequeno e bem balanceado, o que facilita a classificação.  
- 🌲 **Modelo Robusto**: O **Random Forest** é um modelo poderoso, especialmente para tarefas de classificação.  
- ⚙️ **Pipeline Eficiente**: O pré-processamento (padronização e **PCA**) pode ter ajudado a melhorar o desempenho.

---

⚠️ **Importante**:  
É essencial validar o modelo em dados diferentes (como um conjunto de validação ou teste externo) para garantir que ele **não esteja superajustado**.