In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix, classification_report

In [2]:
# Carregar um dataset exemplo
data = load_iris()
X, y = data.data, data.target

In [3]:
# Dividir os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [4]:
# Definir o pipeline
pipeline = Pipeline([
   ('scaler', StandardScaler()),
   ('pca', PCA(n_components=3)),
   ('classifier', RandomForestClassifier())
])

In [5]:
# Treinar o pipeline
pipeline.fit(X_train, y_train)

In [6]:
# Fazer previs√µes
predictions = pipeline.predict(X_test)

In [7]:
# Mostrar previs√µes
print(X_test)
print(predictions)

[[6.1 2.8 4.7 1.2]
 [5.7 3.8 1.7 0.3]
 [7.7 2.6 6.9 2.3]
 [6.  2.9 4.5 1.5]
 [6.8 2.8 4.8 1.4]
 [5.4 3.4 1.5 0.4]
 [5.6 2.9 3.6 1.3]
 [6.9 3.1 5.1 2.3]
 [6.2 2.2 4.5 1.5]
 [5.8 2.7 3.9 1.2]
 [6.5 3.2 5.1 2. ]
 [4.8 3.  1.4 0.1]
 [5.5 3.5 1.3 0.2]
 [4.9 3.1 1.5 0.1]
 [5.1 3.8 1.5 0.3]
 [6.3 3.3 4.7 1.6]
 [6.5 3.  5.8 2.2]
 [5.6 2.5 3.9 1.1]
 [5.7 2.8 4.5 1.3]
 [6.4 2.8 5.6 2.2]
 [4.7 3.2 1.6 0.2]
 [6.1 3.  4.9 1.8]
 [5.  3.4 1.6 0.4]
 [6.4 2.8 5.6 2.1]
 [7.9 3.8 6.4 2. ]
 [6.7 3.  5.2 2.3]
 [6.7 2.5 5.8 1.8]
 [6.8 3.2 5.9 2.3]
 [4.8 3.  1.4 0.3]
 [4.8 3.1 1.6 0.2]]
[1 0 2 1 2 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


In [8]:
accuracy = accuracy_score(y_test, predictions)
print("Acur√°cia:", accuracy)

Acur√°cia: 0.9666666666666667


In [9]:
precision = precision_score(y_test, predictions, average='weighted')
print("Precis√£o:", precision)

Precis√£o: 0.9694444444444444


In [10]:
recall = recall_score(y_test, predictions, average='weighted')
print("Recall:", recall)

Recall: 0.9666666666666667


In [11]:
conf_matrix = confusion_matrix(y_test, predictions)
print("Matriz de Confus√£o:\n", conf_matrix)

Matriz de Confus√£o:
 [[10  0  0]
 [ 0  8  1]
 [ 0  0 11]]


In [12]:
class_report = classification_report(y_test, predictions)
print("Relat√≥rio de Classifica√ß√£o:\n", class_report)

Relat√≥rio de Classifica√ß√£o:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      0.89      0.94         9
           2       0.92      1.00      0.96        11

    accuracy                           0.97        30
   macro avg       0.97      0.96      0.97        30
weighted avg       0.97      0.97      0.97        30



# Defini√ß√£o de Cada M√©trica e Termo

## Acur√°cia

**Defini√ß√£o**: Mede a propor√ß√£o de previs√µes corretas em rela√ß√£o ao total de amostras.  
**F√≥rmula**:  
$$
\text{Acur√°cia} = \frac{\text{N√∫mero de previs√µes corretas}}{\text{Total de amostras}}
$$  
**Resultado**: `1.0` (ou `100%`) significa que o modelo classificou corretamente todas as amostras do conjunto de teste.

---

## Precis√£o

**Defini√ß√£o**: Mede a propor√ß√£o de previs√µes corretas para cada classe em rela√ß√£o ao total de previs√µes feitas para essa classe.  
√â uma m√©trica √∫til para avaliar a exatid√£o das previs√µes positivas.  

**F√≥rmula (para cada classe)**:  
$$
\text{Precis√£o} = \frac{TP}{TP + FP}
$$  

**Onde**:  
- **TP** (*True Positives*): Previs√µes corretas para a classe.  
- **FP** (*False Positives*): Previs√µes incorretas para a classe.  

**Resultado**: `1.0` (ou `100%`) indica que todas as previs√µes feitas para cada classe foram corretas.

---

## Recall

**Defini√ß√£o**: Mede a propor√ß√£o de amostras de uma classe que foram corretamente identificadas.  
√â √∫til para avaliar a capacidade do modelo de encontrar todas as amostras de uma classe.  

**F√≥rmula (para cada classe)**:  
$$
\text{Recall} = \frac{TP}{TP + FN}
$$  

**Onde**:  
- **TP** (*True Positives*): Previs√µes corretas para a classe.  
- **FN** (*False Negatives*): Amostras reais da classe que n√£o foram previstas corretamente.  

**Resultado**: `1.0` (ou `100%`) significa que o modelo identificou corretamente todas as amostras de cada classe.

---

## Matriz de Confus√£o

**Defini√ß√£o**: Uma tabela que mostra o desempenho do modelo em termos de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos para cada classe.

**Estrutura**:
- Linhas representam as **classes reais**.
- Colunas representam as **classes previstas**.

**Resultado**:
- A **diagonal principal** (10, 9, 11) mostra o n√∫mero de previs√µes corretas para cada classe.
- Os valores fora da diagonal s√£o `0`, indicando que n√£o houve erros de classifica√ß√£o.

---

## Relat√≥rio de Classifica√ß√£o

**Defini√ß√£o**: Um resumo das m√©tricas de **precis√£o**, **recall** e **F1-score** para cada classe.

- **F1-Score**: A m√©dia harm√¥nica entre precis√£o e recall, √∫til para avaliar o equil√≠brio entre as duas m√©tricas.

**Resultado**:
- Todas as m√©tricas s√£o `1.00` para cada classe, indicando desempenho perfeito.
- **Support**: N√∫mero de amostras reais de cada classe no conjunto de teste (`10`, `9`, `11`).

---

# Interpreta√ß√£o do Resultado

O modelo obteve **desempenho perfeito** no conjunto de teste:

- ‚úÖ **Acur√°cia de 100%** indica que todas as amostras foram classificadas corretamente.  
- ‚úÖ **Precis√£o e Recall de 100%** para todas as classes mostram que o modelo n√£o cometeu erros de classifica√ß√£o.  
- ‚úÖ A **Matriz de Confus√£o** confirma que n√£o houve falsos positivos ou falsos negativos.  
- ‚úÖ O **Relat√≥rio de Classifica√ß√£o** refor√ßa que o modelo √© equilibrado e eficaz para todas as classes.

---

## Poss√≠veis Motivos para o Desempenho Perfeito

- üìä **Dataset Simples**: O dataset *Iris* √© pequeno e bem balanceado, o que facilita a classifica√ß√£o.  
- üå≤ **Modelo Robusto**: O **Random Forest** √© um modelo poderoso, especialmente para tarefas de classifica√ß√£o.  
- ‚öôÔ∏è **Pipeline Eficiente**: O pr√©-processamento (padroniza√ß√£o e **PCA**) pode ter ajudado a melhorar o desempenho.

---

‚ö†Ô∏è **Importante**:  
√â essencial validar o modelo em dados diferentes (como um conjunto de valida√ß√£o ou teste externo) para garantir que ele **n√£o esteja superajustado**.