# Importação dos pacotes

In [9]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score,confusion_matrix, classification_report

In [10]:
# ignorar avisos
import warnings
warnings.filterwarnings("ignore")

# Modelos

In [11]:
# Modelos
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier

# Carregamento e Separação da Base de Dados

In [12]:
df = pd.read_csv("mushrooms.csv")

# Separar o rótulo da classe
y = df['class']
X = df.drop('class', axis=1)

## Remoção das variáveis com alta correlação com a classe

In [13]:
# Removendo variáveis altamente correlacionada com a classe
X = X.drop(['odor', 'gill-color'], axis=1)

X.head()

Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,gill-attachment,gill-spacing,gill-size,stalk-shape,stalk-root,stalk-surface-above-ring,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,x,s,n,t,f,c,n,e,e,s,s,w,w,p,w,o,p,k,s,u
1,x,s,y,t,f,c,b,e,c,s,s,w,w,p,w,o,p,n,n,g
2,b,s,w,t,f,c,b,e,c,s,s,w,w,p,w,o,p,n,n,m
3,x,y,w,t,f,c,n,e,e,s,s,w,w,p,w,o,p,k,s,u
4,x,s,g,f,f,w,b,t,e,s,s,w,w,p,w,o,e,n,a,g


## Adicionando ruído à classe

In [14]:
# Adicionar ruído ao Alvo (Classe)
y_noisy = y.copy()
# Inverter a classe de uma porcentagem pequena dos exemplos (ex: 10%).
flip_idx = np.random.choice(len(y), size=int(0.1 * len(y)), replace=False)
y_noisy.iloc[flip_idx] = y_noisy.iloc[flip_idx].map({'e': 'p', 'p': 'e'})

##Random Forest com Label Encoding

Aplicar Label Encoding em todas as colunas

In [15]:

X_rf = X.copy()
le_rf = LabelEncoder()

for col in X_rf.columns:
    X_rf[col] = le_rf.fit_transform(X_rf[col])

y_noisy = LabelEncoder().fit_transform(y)

# Treino/teste
X_train_rf, X_test_rf, y_train_rf, y_test_rf = train_test_split(X_rf, y_noisy, test_size=0.3, random_state=42)

# Modelo Random Forest
rf_model = RandomForestClassifier(max_depth=1, n_estimators=5)
rf_model.fit(X_train_rf, y_train_rf)
rf_preds = rf_model.predict(X_test_rf)

# Avaliação
acc_rf = accuracy_score(y_test_rf, rf_preds)
conf_matrix = confusion_matrix(y_test_rf, rf_preds)
report = classification_report(y_test_rf, rf_preds)


print(f"\nAcurácia - Random Forest (Label Encoding): {acc_rf:.4f}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação (Precisão, Recall, F1-Score):")
print(report)


Acurácia - Random Forest (Label Encoding): 0.8716

Matriz de Confusão:
[[1130  127]
 [ 186  995]]

Relatório de Classificação (Precisão, Recall, F1-Score):
              precision    recall  f1-score   support

           0       0.86      0.90      0.88      1257
           1       0.89      0.84      0.86      1181

    accuracy                           0.87      2438
   macro avg       0.87      0.87      0.87      2438
weighted avg       0.87      0.87      0.87      2438



#  KNN com One-Hot Encoding
---
Aplicar One-Hot Encoding

In [16]:
X_knn = pd.get_dummies(X)

# Codificar rótulos (se quiser usar o rótulo com ruído, altere aqui)
y_noisy = LabelEncoder().fit_transform(y)

# Treino/teste
X_train_knn, X_test_knn, y_train_knn, y_test_knn = train_test_split(X_knn, y_noisy, test_size=0.1, random_state=42)

# Modelo KNN
knn_model = KNeighborsClassifier()
knn_model.fit(X_train_knn, y_train_knn)
knn_preds = knn_model.predict(X_test_knn)

# Avaliação
acc_knn = accuracy_score(y_test_knn, knn_preds)
conf_matrix = confusion_matrix(y_test_knn, knn_preds)
report = classification_report(y_test_knn, knn_preds)

print(f"\nAcurácia - KNN (One-Hot Encoding): {acc_knn:.4f}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação (Precisão, Recall, F1-Score):")
print(report)



Acurácia - KNN (One-Hot Encoding): 1.0000

Matriz de Confusão:
[[433   0]
 [  0 380]]

Relatório de Classificação (Precisão, Recall, F1-Score):
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       433
           1       1.00      1.00      1.00       380

    accuracy                           1.00       813
   macro avg       1.00      1.00      1.00       813
weighted avg       1.00      1.00      1.00       813

