# Tarefa 2: Implementação e Comparação de Algoritmos de Classificação

## Passo 1: Separação dos dados em conjuntos de treinamento e teste

In [None]:

# Importando bibliotecas necessárias
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Carregando os dados
columns = [
    "Area", "Perimeter", "Compactness", 
    "Kernel Length", "Kernel Width", 
    "Asymmetry Coefficient", "Kernel Groove Length", "Class"
]
data_path = "seeds_dataset.txt"
data = pd.read_csv(data_path, delim_whitespace=True, header=None, names=columns)

# Separando as características e o alvo
X = data.drop(columns="Class")
y = data["Class"]

# Padronizando os dados
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Dividindo os dados (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3, random_state=42, stratify=y)

# Verificando as dimensões
X_train.shape, X_test.shape, y_train.shape, y_test.shape


## Passo 2: Implementação de algoritmos de classificação

In [None]:

# Importando classificadores
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression

# Inicializando os modelos
models = {
    "KNN": KNeighborsClassifier(n_neighbors=5),
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(kernel='linear', random_state=42),
    "Naive Bayes": GaussianNB(),
    "Logistic Regression": LogisticRegression(max_iter=200, random_state=42)
}


## Passo 3: Treinamento e avaliação dos modelos

In [None]:

from sklearn.metrics import classification_report, confusion_matrix
import pandas as pd

# Treinando e avaliando os modelos
results = {}
for model_name, model in models.items():
    # Treinar o modelo
    model.fit(X_train, y_train)
    # Predizer no conjunto de teste
    y_pred = model.predict(X_test)
    # Avaliar desempenho
    report = classification_report(y_test, y_pred, output_dict=True)
    results[model_name] = report

# Comparando as métricas de desempenho
results_df = pd.DataFrame({model: results[model]['accuracy'] for model in results}, index=["Accuracy"])
results_df.T


## Passo 4: Matrizes de confusão

In [None]:

import matplotlib.pyplot as plt
import seaborn as sns

# Plotando matrizes de confusão
for model_name, model in models.items():
    y_pred = model.predict(X_test)
    cm = confusion_matrix(y_test, y_pred)
    
    plt.figure(figsize=(5, 4))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=[1, 2, 3], yticklabels=[1, 2, 3])
    plt.title(f"Matriz de Confusão: {model_name}")
    plt.xlabel("Predito")
    plt.ylabel("Real")
    plt.show()


## Passo 5: Comparação de desempenho

In [None]:

# Comparando métricas como precisão, recall e F1-score
metrics_df = pd.DataFrame({
    model: {
        "Precision": results[model]["weighted avg"]["precision"],
        "Recall": results[model]["weighted avg"]["recall"],
        "F1-score": results[model]["weighted avg"]["f1-score"]
    }
    for model in results
}).T

metrics_df
