In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats

from sklearn.model_selection import RepeatedStratifiedKFold, cross_val_score
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
from sklearn.tree import DecisionTreeClassifier
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

df = pd.read_csv('C:\\Users\\joaov\\UFRJ\\2025.1\\IML\\Trabalho Final\\Trabalho-Final---IML\\Dry_Bean.csv')

In [None]:
X = df.drop('Class', axis=1)
y = df['Class']

label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

cv_strategy = RepeatedStratifiedKFold(n_splits=10, n_repeats=30, random_state=42)

pipeline = {
    'DecisionTree': Pipeline([
        ('scaler', StandardScaler()),  # pelo o que eu vi é opcional para árvore de decisã.
        ('tree', DecisionTreeClassifier(criterion='gini', random_state=42))
    ])
}

results = {}
print("Iniciando as avaliações do modelo de Árvore de Decisão...\n")
for name, pipe in pipeline.items():
    print(f"-> Avaliando o modelo: {name}")
    scores = cross_val_score(pipe, X, y_encoded, cv=cv_strategy, scoring='accuracy', n_jobs=-1)
    results[name] = scores
    mean_accuracy = np.mean(scores)
    std_accuracy = np.std(scores)
    confidence_interval = stats.t.interval(0.95, len(scores)-1, loc=mean_accuracy, scale=stats.sem(scores))
    print(f"{name} | Média: {mean_accuracy:.4f} | Desvio: {std_accuracy:.4f} | IC 95%: ({confidence_interval[0]:.4f}, {confidence_interval[1]:.4f})\n")

Iniciando as avaliações do modelo de SVM...

-> Avaliando o modelo: DecisionTree
DecisionTree | Média: 0.8945 | Desvio: 0.0079 | IC 95%: (0.8936, 0.8954)



In [None]:
X = df.drop('Class', axis=1)
y = df['Class']

label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

cv_strategy = RepeatedStratifiedKFold(n_splits=10, n_repeats=30, random_state=42)

pipeline = {
    'DecisionTree': Pipeline([
        ('scaler', StandardScaler()),  # opcional para árvore, mas pode deixar por consistência
        ('tree', DecisionTreeClassifier(criterion='gini', random_state=42))
    ])
}

results = {}         # Para guardar os arrays de acurácia de cada modelo
csv_data = []        # Para guardar os dados linha a linha e exportar para CSV

print("Iniciando as avaliações do modelo de Árvores de Decisão...\n")

for name, pipe in pipeline.items():
    print(f"-> Avaliando o modelo: {name}")
    
    # Executa validação cruzada
    scores = cross_val_score(pipe, X, y_encoded, cv=cv_strategy, scoring='accuracy', n_jobs=-1)
    results[name] = scores  # salva no dicionário
    
    # Prepara os dados para exportar em CSV
    for i, score in enumerate(scores):
        csv_data.append({
            'Modelo': name,
            'Execucao': i + 1,
            'Acuracia': score
        })
    
    # Estatísticas
    mean_accuracy = np.mean(scores)
    std_accuracy = np.std(scores)
    confidence_interval = stats.t.interval(0.95, len(scores)-1, loc=mean_accuracy, scale=stats.sem(scores))
    
    print(f"{name} | Média: {mean_accuracy:.4f} | Desvio: {std_accuracy:.4f} | IC 95%: ({confidence_interval[0]:.4f}, {confidence_interval[1]:.4f})\n")

# Salva o CSV com todas as execuções
df_csv = pd.DataFrame(csv_data)
df_csv.to_csv('resultados_cross_val_decisionTree.csv', index=False)
print("Resultados salvos em 'resultados_cross_val.csv'")

Iniciando as avaliações do modelo de Redes Neurais...

-> Avaliando o modelo: DecisionTree
DecisionTree | Média: 0.8945 | Desvio: 0.0079 | IC 95%: (0.8936, 0.8954)

Resultados salvos em 'resultados_cross_val.csv'
