# Importação dos pacotes

In [2]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score,confusion_matrix, classification_report

In [3]:
# ignorar avisos
import warnings
warnings.filterwarnings("ignore")

# Modelos

In [4]:
# Modelos
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

# Carregamento e Separação da Base de Dados

In [5]:
df = pd.read_csv("mushrooms.csv")

# Separar o rótulo da classe
y = df['class']
X = df.drop('class', axis=1)

## Mantendo variáveis fracas (baixa correlação)

In [6]:
# Removendo variáveis altamente correlacionada com a classe
weak_features = ['population', 'habitat', 'cap-shape']
X = X[weak_features]

X.head()

Unnamed: 0,population,habitat,cap-shape
0,s,u,x
1,n,g,x
2,n,m,b
3,s,u,x
4,a,g,x


## Aplicando ruído ao alvo

In [7]:
# Adicionar ruído ao Alvo (Classe)
y_noisy = y.copy()
# Inverter a classe de uma porcentagem pequena dos exemplos (ex: 20%).
flip_idx = np.random.choice(len(y), size=int(0.2 * len(y)), replace=False)
y_noisy.iloc[flip_idx] = y_noisy.iloc[flip_idx].map({'e': 'p', 'p': 'e'})

#  Random Forest com Label Encoding


---


Aplicar Label Encoding em todas as colunas

In [8]:
X_rf = X.copy()
le_rf = LabelEncoder()

for col in X_rf.columns:
    X_rf[col] = le_rf.fit_transform(X_rf[col])

y_noisy = LabelEncoder().fit_transform(y)

# Treino/teste
X_train_rf, X_test_rf, y_train_rf, y_test_rf = train_test_split(X_rf, y_noisy, test_size=0.3, random_state=42)

# Modelo Random Forest
rf_model = RandomForestClassifier(max_depth=1, n_estimators=5)
rf_model.fit(X_train_rf, y_train_rf)
rf_preds = rf_model.predict(X_test_rf)

# Avaliação
acc_rf = accuracy_score(y_test_rf, rf_preds)
conf_matrix = confusion_matrix(y_test_rf, rf_preds)
report = classification_report(y_test_rf, rf_preds)

print(f"\nAcurácia - Random Forest (Label Encoding): {acc_rf:.4f}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação (Precisão, Recall, F1-Score):")
print(report)


Acurácia - Random Forest (Label Encoding): 0.6366

Matriz de Confusão:
[[982 275]
 [611 570]]

Relatório de Classificação (Precisão, Recall, F1-Score):
              precision    recall  f1-score   support

           0       0.62      0.78      0.69      1257
           1       0.67      0.48      0.56      1181

    accuracy                           0.64      2438
   macro avg       0.65      0.63      0.63      2438
weighted avg       0.64      0.64      0.63      2438



#  KNN com One-Hot Encoding
---
Aplicar One-Hot Encoding

In [12]:
X_knn = pd.get_dummies(X)

# Codificar rótulos (se quiser usar o rótulo com ruído, altere aqui)
y_noisy = LabelEncoder().fit_transform(y)

# Treino/teste
X_train_knn, X_test_knn, y_train_knn, y_test_knn = train_test_split(X_knn, y_noisy, test_size=0.1, random_state=42)

# Modelo KNN
knn_model = KNeighborsClassifier()
knn_model.fit(X_train_knn, y_train_knn)
knn_preds = knn_model.predict(X_test_knn)

# Avaliação
acc_knn = accuracy_score(y_test_knn, knn_preds)
conf_matrix = confusion_matrix(y_test_knn, knn_preds)
report = classification_report(y_test_knn, knn_preds)

print(f"\nAcurácia - KNN (One-Hot Encoding): {acc_knn:.4f}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação (Precisão, Recall, F1-Score):")
print(report)


Acurácia - KNN (One-Hot Encoding): 0.7995

Matriz de Confusão:
[[397  36]
 [127 253]]

Relatório de Classificação (Precisão, Recall, F1-Score):
              precision    recall  f1-score   support

           0       0.76      0.92      0.83       433
           1       0.88      0.67      0.76       380

    accuracy                           0.80       813
   macro avg       0.82      0.79      0.79       813
weighted avg       0.81      0.80      0.80       813

