In [1]:
# 1. CARREGAMENTO DOS MODELOS TREINADOS
from utils import *
import tensorflow as tf
from tensorflow.keras.models import load_model
from tensorflow.keras.preprocessing import image
import numpy as np
import pandas as pd
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import os
import pickle
from collections import defaultdict
import matplotlib.pyplot as plt
import seaborn as sns

# Configura√ß√µes
config = carregar_configuracoes()
print("=== CARREGANDO MODELOS TREINADOS ===")

# Carregar modelo de classifica√ß√£o de esp√©cies
print("üìÇ Carregando modelo de esp√©cies...")
modelo_especies = load_model('modelos_salvos/melhor_modelo_especies_final_otimizado.h5')
with open('datasets_processados/label_encoder_especies_modelo.pkl', 'rb') as f:
    encoder_especies = pickle.load(f)

print(f"   ‚úÖ Modelo de esp√©cies: {encoder_especies.classes_}")

# Carregar modelos de classifica√ß√£o de sa√∫de
print("üìÇ Carregando modelos especialistas...")
modelos_especialistas = {}
especies_disponiveis = []

for especie in ['tomato', 'potato', 'pepper']:
    modelo_path = f'modelos_salvos/especialistas/especialista_{especie}_binario_final.h5'
    if os.path.exists(modelo_path):
        modelos_especialistas[especie] = load_model(modelo_path)
        especies_disponiveis.append(especie)
        print(f"   ‚úÖ Modelo {especie}: carregado")
    else:
        print(f"   ‚ö†Ô∏è Modelo {especie}: n√£o encontrado")


2025-07-06 23:18:14.565796: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1751854694.630642  264921 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1751854694.652611  264921 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1751854694.757982  264921 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1751854694.758021  264921 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking the same target more than once.
W0000 00:00:1751854694.758023  264921 computation_placer.cc:177] computation placer alr

=== CARREGANDO MODELOS TREINADOS ===
üìÇ Carregando modelo de esp√©cies...


I0000 00:00:1751854699.325984  264921 gpu_device.cc:2019] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 4047 MB memory:  -> device: 0, name: NVIDIA GeForce RTX 2060, pci bus id: 0000:01:00.0, compute capability: 7.5
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


   ‚úÖ Modelo de esp√©cies: ['Pepper_bell' 'Potato' 'Tomato']
üìÇ Carregando modelos especialistas...




   ‚úÖ Modelo tomato: carregado




   ‚úÖ Modelo potato: carregado




   ‚úÖ Modelo pepper: carregado


In [2]:
# 2. IMPLEMENTA√á√ÉO DO PIPELINE HIER√ÅRQUICO
def preprocessar_imagem(caminho_imagem, target_size=(224, 224)):
    """Preprocessa imagem para os modelos"""
    img = image.load_img(caminho_imagem, target_size=target_size)
    img_array = image.img_to_array(img)
    img_array = img_array / 255.0
    img_array = np.expand_dims(img_array, axis=0)
    return img_array

def pipeline_hierarquico(caminho_imagem, modelo_especies, encoder_especies, modelos_especialistas, threshold_confianca=0.5):
    """
    Pipeline completo: Passo 3 (esp√©cie) ‚Üí Passo 4 (sa√∫de)
    
    Returns:
        dict: {
            'especie_predita': str,
            'confianca_especie': float,
            'saude_predita': str,
            'confianca_saude': float,
            'resultado_final': str,
            'confianca_final': float,
            'etapas': dict
        }
    """
    # Preprocessar imagem
    img_preprocessada = preprocessar_imagem(caminho_imagem)
    
    #Classificar esp√©cie
    pred_especies = modelo_especies.predict(img_preprocessada, verbose=0)
    indice_especie = np.argmax(pred_especies)
    especie_predita = encoder_especies.inverse_transform([indice_especie])[0]
    confianca_especie = np.max(pred_especies)
    
    # Mapear nome da esp√©cie para o modelo especialista
    mapeamento_especies = {
        'Tomato': 'tomato',
        'Potato': 'potato', 
        'Pepper_bell': 'pepper'
    }
    
    especie_modelo = mapeamento_especies.get(especie_predita)
    
    #Classificar sa√∫de
    if especie_modelo and especie_modelo in modelos_especialistas:
        modelo_especialista = modelos_especialistas[especie_modelo]
        pred_saude = modelo_especialista.predict(img_preprocessada, verbose=0)[0][0]
        
        # Convers√£o bin√°ria: >0.5 = unhealthy, <=0.5 = healthy
        if pred_saude > 0.5:
            saude_predita = 'unhealthy'
            confianca_saude = pred_saude
        else:
            saude_predita = 'healthy'
            confianca_saude = 1 - pred_saude
            
        # Resultado final combinado
        resultado_final = f"{especie_predita}_{saude_predita}"
        confianca_final = confianca_especie * confianca_saude  # Propaga√ß√£o de incerteza
        
        sucesso_pipeline = True
        
    else:
        # Modelo especialista n√£o dispon√≠vel
        saude_predita = 'unknown'
        confianca_saude = 0.0
        resultado_final = f"{especie_predita}_unknown"
        confianca_final = confianca_especie
        sucesso_pipeline = False
    
    return {
        'especie_predita': especie_predita,
        'confianca_especie': float(confianca_especie),
        'saude_predita': saude_predita,
        'confianca_saude': float(confianca_saude),
        'resultado_final': resultado_final,
        'confianca_final': float(confianca_final),
        'sucesso_pipeline': sucesso_pipeline,
        'etapas': {
            'passo3_especies': {'pred': especie_predita, 'conf': float(confianca_especie)},
            'passo4_saude': {'pred': saude_predita, 'conf': float(confianca_saude)}
        }
    }

print("‚úÖ Pipeline hier√°rquico implementado!")


# Encontrar uma imagem de teste
test_image = None
for especie in ['Tomato', 'Potato', 'Pepper_bell']:
    for classe in config['especialistas'][especie]['classes']:
        pasta_classe = os.path.join(config['base_path'], classe)
        if os.path.exists(pasta_classe):
            images = [f for f in os.listdir(pasta_classe) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
            if images:
                test_image = os.path.join(pasta_classe, images[0])
                test_class = classe
                break
    if test_image:
        break

if test_image:
    print(f"\nüß™ Testando com: {test_class}")
    resultado = pipeline_hierarquico(test_image, modelo_especies, encoder_especies, modelos_especialistas)
    print(f"   Esp√©cie: {resultado['especie_predita']} (conf: {resultado['confianca_especie']:.3f})")
    print(f"   Sa√∫de: {resultado['saude_predita']} (conf: {resultado['confianca_saude']:.3f})")
    print(f"   Final: {resultado['resultado_final']} (conf: {resultado['confianca_final']:.3f})")
else:
    print("‚ö†Ô∏è Nenhuma imagem de teste encontrada")


‚úÖ Pipeline hier√°rquico implementado!

üß™ Testando com: Tomato_Bacterial_spot


I0000 00:00:1751854742.309154  265008 service.cc:152] XLA service 0x7513c80029d0 initialized for platform CUDA (this does not guarantee that XLA will be used). Devices:
I0000 00:00:1751854742.311132  265008 service.cc:160]   StreamExecutor device (0): NVIDIA GeForce RTX 2060, Compute Capability 7.5
2025-07-06 23:19:03.302621: I tensorflow/compiler/mlir/tensorflow/utils/dump_mlir_util.cc:269] disabling MLIR crash reproducer, set env var `MLIR_CRASH_REPRODUCER_DIRECTORY` to enable.
I0000 00:00:1751854744.992196  265008 cuda_dnn.cc:529] Loaded cuDNN version 90300
2025-07-06 23:19:10.227061: I external/local_xla/xla/service/gpu/autotuning/conv_algorithm_picker.cc:549] Omitted potentially buggy algorithm eng14{k25=0} for conv %cudnn-conv-bias-activation.172 = (f32[1,128,28,28]{3,2,1,0}, u8[0]{0}) custom-call(f32[1,128,28,28]{3,2,1,0} %bitcast.5016, f32[128,128,3,3]{3,2,1,0} %bitcast.5023, f32[128]{0} %bitcast.5025), window={size=3x3 pad=1_1x1_1}, dim_labels=bf01_oi01->bf01, custom_call_targ

   Esp√©cie: Tomato (conf: 0.665)
   Sa√∫de: unhealthy (conf: 1.000)
   Final: Tomato_unhealthy (conf: 0.665)


In [3]:
# 3. CRIA√á√ÉO DO CONJUNTO DE TESTE HIER√ÅRQUICO
def criar_conjunto_teste_hierarquico(config, n_samples_per_class=50):
    """
    Cria conjunto de teste balanceado para avalia√ß√£o hier√°rquica
    """
    
    conjunto_teste = []
    
    for especie, info in config['especialistas'].items():
        print(f"üìÇ Processando {especie}...")
        
        for classe in info['classes']:
            pasta_classe = os.path.join(config['base_path'], classe)
            
            if not os.path.exists(pasta_classe):
                print(f"   ‚ö†Ô∏è Pasta n√£o encontrada: {classe}")
                continue
                
            # Obter imagens da classe
            images = [f for f in os.listdir(pasta_classe) if f.lower().endswith(('.jpg', '.jpeg', '.png'))]
            
            if len(images) == 0:
                print(f"   ‚ö†Ô∏è Nenhuma imagem em: {classe}")
                continue
                
            # Selecionar amostra aleat√≥ria
            np.random.seed(42)
            n_select = min(n_samples_per_class, len(images))
            selected_images = np.random.choice(images, n_select, replace=False)
            
            # Determinar r√≥tulos
            especie_label = especie
            saude_label = 'healthy' if 'healthy' in classe.lower() else 'unhealthy'
            combined_label = f"{especie}_{saude_label}"
            
            # Adicionar ao conjunto
            for img_name in selected_images:
                caminho_completo = os.path.join(pasta_classe, img_name)
                conjunto_teste.append({
                    'caminho': caminho_completo,
                    'classe_original': classe,
                    'especie_real': especie_label,
                    'saude_real': saude_label,
                    'combined_real': combined_label
                })
            
            print(f"   ‚úÖ {classe}: {n_select} imagens selecionadas")
    
    # Converter para DataFrame
    df_teste = pd.DataFrame(conjunto_teste)
    
    print(f"\nüìä CONJUNTO DE TESTE CRIADO:")
    print(f"   Total de imagens: {len(df_teste)}")
    print(f"   Esp√©cies: {df_teste['especie_real'].value_counts().to_dict()}")
    print(f"   Sa√∫de: {df_teste['saude_real'].value_counts().to_dict()}")
    
    return df_teste

# Criar conjunto de teste
df_teste_hierarquico = criar_conjunto_teste_hierarquico(config, n_samples_per_class=30)

# Salvar para reutiliza√ß√£o
df_teste_hierarquico.to_csv('datasets_processados/conjunto_teste_hierarquico.csv', index=False)
print("\nüíæ Conjunto de teste salvo em: datasets_processados/conjunto_teste_hierarquico.csv")


üìÇ Processando Tomato...
   ‚úÖ Tomato_Bacterial_spot: 30 imagens selecionadas
   ‚úÖ Tomato_Early_blight: 30 imagens selecionadas
   ‚úÖ Tomato_Late_blight: 30 imagens selecionadas
   ‚úÖ Tomato_Leaf_Mold: 30 imagens selecionadas
   ‚úÖ Tomato_Septoria_leaf_spot: 30 imagens selecionadas
   ‚úÖ Tomato_Spider_mites_Two_spotted_spider_mite: 30 imagens selecionadas
   ‚úÖ Tomato__Target_Spot: 30 imagens selecionadas
   ‚úÖ Tomato__Tomato_YellowLeaf__Curl_Virus: 30 imagens selecionadas
   ‚úÖ Tomato__Tomato_mosaic_virus: 30 imagens selecionadas
   ‚úÖ Tomato_healthy: 30 imagens selecionadas
üìÇ Processando Potato...
   ‚úÖ Potato___Early_blight: 30 imagens selecionadas
   ‚úÖ Potato___Late_blight: 30 imagens selecionadas
   ‚úÖ Potato___healthy: 30 imagens selecionadas
üìÇ Processando Pepper_bell...
   ‚úÖ Pepper__bell___Bacterial_spot: 30 imagens selecionadas
   ‚úÖ Pepper__bell___healthy: 30 imagens selecionadas

üìä CONJUNTO DE TESTE CRIADO:
   Total de imagens: 450
   Esp√©cies: {

In [4]:
# 4. AVALIA√á√ÉO COMPLETA DO PIPELINE HIER√ÅRQUICO
def avaliar_pipeline_hierarquico(df_teste, modelo_especies, encoder_especies, modelos_especialistas):
    """
    Avalia o pipeline hier√°rquico completo
    """
    
    resultados = []
    
    # Processar cada imagem
    for idx, row in df_teste.iterrows():
        if idx % 50 == 0:
            print(f"   Processando {idx+1}/{len(df_teste)}...")
            
        # Aplicar pipeline hier√°rquico
        resultado = pipeline_hierarquico(
            row['caminho'], 
            modelo_especies, 
            encoder_especies, 
            modelos_especialistas
        )
        
        # Adicionar dados reais
        resultado['especie_real'] = row['especie_real']
        resultado['saude_real'] = row['saude_real']
        resultado['combined_real'] = row['combined_real']
        resultado['classe_original'] = row['classe_original']
        
        # Calcular acertos
        resultado['acerto_especie'] = resultado['especie_predita'] == resultado['especie_real']
        resultado['acerto_saude'] = resultado['saude_predita'] == resultado['saude_real']
        resultado['acerto_combined'] = resultado['resultado_final'] == resultado['combined_real']
        
        resultados.append(resultado)
    
    # Converter para DataFrame
    df_resultados = pd.DataFrame(resultados)
    
    return df_resultados

# Executar avalia√ß√£o
print("üöÄ Iniciando avalia√ß√£o completa...")
df_resultados = avaliar_pipeline_hierarquico(
    df_teste_hierarquico, 
    modelo_especies, 
    encoder_especies, 
    modelos_especialistas
)

# Salvar resultados
df_resultados.to_csv('datasets_processados/resultados_pipeline_hierarquico.csv', index=False)
print("\nüíæ Resultados salvos em: datasets_processados/resultados_pipeline_hierarquico.csv")

print(f"\n‚úÖ Avalia√ß√£o conclu√≠da: {len(df_resultados)} predi√ß√µes realizadas")


üöÄ Iniciando avalia√ß√£o completa...
   Processando 1/450...
   Processando 51/450...
   Processando 101/450...
   Processando 151/450...
   Processando 201/450...
   Processando 251/450...
   Processando 301/450...
   Processando 351/450...
   Processando 401/450...

üíæ Resultados salvos em: datasets_processados/resultados_pipeline_hierarquico.csv

‚úÖ Avalia√ß√£o conclu√≠da: 450 predi√ß√µes realizadas


In [5]:
# 5. AN√ÅLISE DE PROPAGA√á√ÉO DE ERROS E M√âTRICAS
def analisar_propagacao_erros(df_resultados):
    """
    Analisa como erros se propagam no pipeline hier√°rquico
    """
    
    # M√©tricas por etapa
    acc_especie = df_resultados['acerto_especie'].mean()
    acc_saude = df_resultados['acerto_saude'].mean()
    acc_combined = df_resultados['acerto_combined'].mean()
    
    print("üìä ACUR√ÅCIAS POR ETAPA:")
    print(f"Classifica√ß√£o de esp√©cie: {acc_especie:.4f} ({acc_especie*100:.1f}%)")
    print(f"Classifica√ß√£o de sa√∫de: {acc_saude:.4f} ({acc_saude*100:.1f}%)")
    print(f"Pipeline completo: {acc_combined:.4f} ({acc_combined*100:.1f}%)")
    
    # An√°lise de propaga√ß√£o de erros
    print(f"\nüîç AN√ÅLISE DE PROPAGA√á√ÉO:")
    
    # Casos onde esp√©cie est√° correta
    correto_especie = df_resultados[df_resultados['acerto_especie'] == True]
    if len(correto_especie) > 0:
        acc_saude_dado_especie_correta = correto_especie['acerto_saude'].mean()
        print(f"   Acur√°cia de sa√∫de QUANDO esp√©cie est√° correta: {acc_saude_dado_especie_correta:.4f} ({acc_saude_dado_especie_correta*100:.1f}%)")
    
    # Casos onde esp√©cie est√° incorreta
    incorreto_especie = df_resultados[df_resultados['acerto_especie'] == False]
    if len(incorreto_especie) > 0:
        acc_saude_dado_especie_incorreta = incorreto_especie['acerto_saude'].mean()
        print(f"   Acur√°cia de sa√∫de QUANDO esp√©cie est√° incorreta: {acc_saude_dado_especie_incorreta:.4f} ({acc_saude_dado_especie_incorreta*100:.1f}%)")
    
    # Impacto da propaga√ß√£o
    acc_teorica = acc_especie * acc_saude_dado_especie_correta if len(correto_especie) > 0 else 0
    impacto_propagacao = acc_combined - acc_teorica
    
    print(f"\n‚öñÔ∏è IMPACTO DA PROPAGA√á√ÉO:")
    print(f"   Acur√°cia te√≥rica (independente): {acc_teorica:.4f}")
    print(f"   Acur√°cia real (hier√°rquica): {acc_combined:.4f}")
    print(f"   Impacto da propaga√ß√£o: {impacto_propagacao:+.4f}")
    
    # Matriz de confus√£o por etapa
    print(f"\nüìà MATRIZES DE CONFUS√ÉO:")
    
    # Esp√©cie
    print(f"\nüå± CLASSIFICA√á√ÉO DE ESP√âCIE:")
    especies_reais = df_resultados['especie_real'].values
    especies_pred = df_resultados['especie_predita'].values
    print(classification_report(especies_reais, especies_pred, zero_division=0))
    
    # Sa√∫de
    print(f"\nüè• CLASSIFICA√á√ÉO DE SA√öDE:")
    saude_reais = df_resultados['saude_real'].values
    saude_pred = df_resultados['saude_predita'].values
    print(classification_report(saude_reais, saude_pred, zero_division=0))
    
    # An√°lise por esp√©cie
    print(f"\nüî¨ AN√ÅLISE POR ESP√âCIE:")
    for especie in df_resultados['especie_real'].unique():
        subset = df_resultados[df_resultados['especie_real'] == especie]
        acc_esp = subset['acerto_especie'].mean()
        acc_sau = subset['acerto_saude'].mean()
        acc_comb = subset['acerto_combined'].mean()
        
        print(f"   {especie}:")
        print(f"     Esp√©cie: {acc_esp:.3f} | Sa√∫de: {acc_sau:.3f} | Completo: {acc_comb:.3f}")
    
    # Confian√ßa m√©dia
    print(f"\nüéØ AN√ÅLISE DE CONFIAN√áA:")
    conf_especie_media = df_resultados['confianca_especie'].mean()
    conf_saude_media = df_resultados['confianca_saude'].mean()
    conf_final_media = df_resultados['confianca_final'].mean()
    
    print(f"   Confian√ßa m√©dia - Esp√©cie: {conf_especie_media:.3f}")
    print(f"   Confian√ßa m√©dia - Sa√∫de: {conf_saude_media:.3f}")
    print(f"   Confian√ßa m√©dia - Final: {conf_final_media:.3f}")
    
    return {
        'acc_especie': acc_especie,
        'acc_saude': acc_saude,
        'acc_combined': acc_combined,
        'acc_teorica': acc_teorica,
        'impacto_propagacao': impacto_propagacao,
        'conf_especie_media': conf_especie_media,
        'conf_saude_media': conf_saude_media,
        'conf_final_media': conf_final_media
    }

# Executar an√°lise
metricas = analisar_propagacao_erros(df_resultados)


üìä ACUR√ÅCIAS POR ETAPA:
Classifica√ß√£o de esp√©cie: 0.8867 (88.7%)
Classifica√ß√£o de sa√∫de: 0.8667 (86.7%)
Pipeline completo: 0.7689 (76.9%)

üîç AN√ÅLISE DE PROPAGA√á√ÉO:
   Acur√°cia de sa√∫de QUANDO esp√©cie est√° correta: 0.8672 (86.7%)
   Acur√°cia de sa√∫de QUANDO esp√©cie est√° incorreta: 0.8627 (86.3%)

‚öñÔ∏è IMPACTO DA PROPAGA√á√ÉO:
   Acur√°cia te√≥rica (independente): 0.7689
   Acur√°cia real (hier√°rquica): 0.7689
   Impacto da propaga√ß√£o: +0.0000

üìà MATRIZES DE CONFUS√ÉO:

üå± CLASSIFICA√á√ÉO DE ESP√âCIE:
              precision    recall  f1-score   support

 Pepper_bell       0.81      0.92      0.86        60
      Potato       0.71      0.93      0.80        90
      Tomato       0.99      0.87      0.92       300

    accuracy                           0.89       450
   macro avg       0.83      0.91      0.86       450
weighted avg       0.91      0.89      0.89       450


üè• CLASSIFICA√á√ÉO DE SA√öDE:
              precision    recall  f1-score   su

In [6]:
# 6. IMPLEMENTA√á√ÉO DE BASELINE PARA COMPARA√á√ÉO
def calcular_baseline_direto(df_resultados):
    """
    Calcula acur√°cia baseline mais realista simulando um classificador direto
    que usa apenas as predi√ß√µes de esp√©cie (sem hierarquia)
    """
    
    # BASELINE REALISTA: Usar apenas as predi√ß√µes de esp√©cie + assumir sa√∫de majorit√°ria
    # Isso simula um classificador que s√≥ identifica esp√©cie e "chuta" a sa√∫de
    
    print("üìä BASELINE DIRETO (Classifica√ß√£o baseada apenas em esp√©cie):")
    print("   M√©todo: Predi√ß√£o de esp√©cie + classifica√ß√£o majorit√°ria de sa√∫de")
    
    # Calcular a classe majorit√°ria de sa√∫de por esp√©cie no conjunto de dados
    classes_majoritarias = {}
    for especie in df_resultados['especie_real'].unique():
        subset = df_resultados[df_resultados['especie_real'] == especie]
        classe_majoritaria = subset['saude_real'].mode()[0]  # Classe mais comum
        classes_majoritarias[especie] = classe_majoritaria
        
        print(f"   {especie}: classe majorit√°ria = {classe_majoritaria}")
    
    # Simular baseline: usar predi√ß√£o de esp√©cie + classe majorit√°ria de sa√∫de
    acertos_baseline = 0
    total_amostras = len(df_resultados)
    
    for idx, row in df_resultados.iterrows():
        # Usar a predi√ß√£o de esp√©cie do pipeline hier√°rquico
        especie_pred = row['especie_predita']
        
        # Usar classe majorit√°ria de sa√∫de para essa esp√©cie
        saude_baseline = classes_majoritarias.get(especie_pred, 'unhealthy')
        
        # Construir resultado baseline
        resultado_baseline = f"{especie_pred}_{saude_baseline}"
        
        # Verificar se acertou
        if resultado_baseline == row['combined_real']:
            acertos_baseline += 1
    
    acc_baseline = acertos_baseline / total_amostras
    
    print(f"   Acertos baseline: {acertos_baseline}/{total_amostras}")
    print(f"   Acur√°cia baseline: {acc_baseline:.4f} ({acc_baseline*100:.1f}%)")
    
    return acc_baseline

def calcular_baseline_teorico(df_resultados):
    """
    Calcula o baseline te√≥rico baseado na multiplica√ß√£o das acur√°cias independentes
    """
    
    acc_especie = df_resultados['acerto_especie'].mean()
    acc_saude = df_resultados['acerto_saude'].mean()
    acc_teorico = acc_especie * acc_saude
    
    print(f"\nüìä BASELINE TE√ìRICO (Multiplica√ß√£o de acur√°cias independentes):")
    print(f"   Acur√°cia esp√©cie: {acc_especie:.4f} ({acc_especie*100:.1f}%)")
    print(f"   Acur√°cia sa√∫de: {acc_saude:.4f} ({acc_saude*100:.1f}%)")
    print(f"   Acur√°cia te√≥rica: {acc_teorico:.4f} ({acc_teorico*100:.1f}%)")
    
    return acc_teorico

# Calcular baselines
print("üîç Calculando baselines para compara√ß√£o...")
acc_baseline_direto = calcular_baseline_direto(df_resultados)
acc_baseline_teorico = calcular_baseline_teorico(df_resultados)

# 7. COMPARA√á√ÉO FINAL E CONCLUS√ïES
def comparacao_final(metricas, acc_baseline_direto, acc_baseline_teorico):
    """
    Compara pipeline hier√°rquico com diferentes baselines
    """
    
    acc_hierarquico = metricas['acc_combined']
    diferenca_direto = acc_hierarquico - acc_baseline_direto
    diferenca_teorico = acc_hierarquico - acc_baseline_teorico
    
    print("\nüìä RESULTADOS FINAIS:")
    print(f"   üîó Pipeline Hier√°rquico: {acc_hierarquico:.4f} ({acc_hierarquico*100:.1f}%)")
    print(f"   üìç Baseline Direto: {acc_baseline_direto:.4f} ({acc_baseline_direto*100:.1f}%)")
    print(f"   üìê Baseline Te√≥rico: {acc_baseline_teorico:.4f} ({acc_baseline_teorico*100:.1f}%)")
    
    print(f"\nüìà COMPARA√á√ïES:")
    print(f"   vs Baseline Direto: {diferenca_direto:+.4f} ({diferenca_direto*100:+.1f}%)")
    print(f"   vs Baseline Te√≥rico: {diferenca_teorico:+.4f} ({diferenca_teorico*100:+.1f}%)")
    
    # An√°lise adicional
    print(f"\nüî¨ AN√ÅLISE DETALHADA:")
    print(f"   ‚Ä¢ Acur√°cia por etapa:")
    print(f"     - Esp√©cie: {metricas['acc_especie']:.4f} ({metricas['acc_especie']*100:.1f}%)")
    print(f"     - Sa√∫de: {metricas['acc_saude']:.4f} ({metricas['acc_saude']*100:.1f}%)")
    print(f"     - Completo: {metricas['acc_combined']:.4f} ({metricas['acc_combined']*100:.1f}%)")
    
    print(f"   ‚Ä¢ Confian√ßa m√©dia:")
    print(f"     - Esp√©cie: {metricas['conf_especie_media']:.3f}")
    print(f"     - Sa√∫de: {metricas['conf_saude_media']:.3f}")
    print(f"     - Final: {metricas['conf_final_media']:.3f}")
    
    print(f"\nüéØ CONCLUS√ïES:")
    if diferenca_direto > 0:
        print(f"   ‚úÖ Pipeline hier√°rquico superou o baseline direto em {abs(diferenca_direto)*100:.1f}%")
    else:
        print(f"   ‚ùå Pipeline hier√°rquico ficou {abs(diferenca_direto)*100:.1f}% abaixo do baseline direto")
    
    if abs(diferenca_teorico) < 0.01:
        print(f"   ‚öñÔ∏è Pipeline hier√°rquico est√° muito pr√≥ximo do baseline te√≥rico (diferen√ßa: {diferenca_teorico*100:.1f}%)")
    elif diferenca_teorico > 0:
        print(f"   ‚úÖ Pipeline hier√°rquico superou o baseline te√≥rico em {abs(diferenca_teorico)*100:.1f}%")
    else:
        print(f"   ‚ùå Pipeline hier√°rquico ficou {abs(diferenca_teorico)*100:.1f}% abaixo do baseline te√≥rico")
    
    return {
        'acc_hierarquico': acc_hierarquico,
        'acc_baseline_direto': acc_baseline_direto,
        'acc_baseline_teorico': acc_baseline_teorico,
        'diferenca_direto': diferenca_direto,
        'diferenca_teorico': diferenca_teorico,
    }

# Executar compara√ß√£o final
comparacao = comparacao_final(metricas, acc_baseline_direto, acc_baseline_teorico)



üîç Calculando baselines para compara√ß√£o...
üìä BASELINE DIRETO (Classifica√ß√£o baseada apenas em esp√©cie):
   M√©todo: Predi√ß√£o de esp√©cie + classifica√ß√£o majorit√°ria de sa√∫de
   Tomato: classe majorit√°ria = unhealthy
   Potato: classe majorit√°ria = unhealthy
   Pepper_bell: classe majorit√°ria = healthy
   Acertos baseline: 316/450
   Acur√°cia baseline: 0.7022 (70.2%)

üìä BASELINE TE√ìRICO (Multiplica√ß√£o de acur√°cias independentes):
   Acur√°cia esp√©cie: 0.8867 (88.7%)
   Acur√°cia sa√∫de: 0.8667 (86.7%)
   Acur√°cia te√≥rica: 0.7684 (76.8%)

üìä RESULTADOS FINAIS:
   üîó Pipeline Hier√°rquico: 0.7689 (76.9%)
   üìç Baseline Direto: 0.7022 (70.2%)
   üìê Baseline Te√≥rico: 0.7684 (76.8%)

üìà COMPARA√á√ïES:
   vs Baseline Direto: +0.0667 (+6.7%)
   vs Baseline Te√≥rico: +0.0004 (+0.0%)

üî¨ AN√ÅLISE DETALHADA:
   ‚Ä¢ Acur√°cia por etapa:
     - Esp√©cie: 0.8867 (88.7%)
     - Sa√∫de: 0.8667 (86.7%)
     - Completo: 0.7689 (76.9%)
   ‚Ä¢ Confian√ßa m√©dia:


In [7]:
# 8. AN√ÅLISE ADICIONAL E INTERPRETA√á√ÉO DOS RESULTADOS

print("üìö INTERPRETA√á√ÉO DOS BASELINES:")
print("=" * 60)

print("\n1Ô∏è‚É£ BASELINE DIRETO (Esp√©cie + Classe Majorit√°ria):")
print("   ‚Ä¢ Usa a mesma predi√ß√£o de esp√©cie do pipeline hier√°rquico")
print("   ‚Ä¢ Para sa√∫de, sempre escolhe a classe majorit√°ria (mais comum)")
print("   ‚Ä¢ Representa um classificador simples que 'chuta' a sa√∫de")
print("   ‚Ä¢ Mais realista para compara√ß√£o com pipeline hier√°rquico")

print("\n2Ô∏è‚É£ BASELINE TE√ìRICO (Multiplica√ß√£o de Acur√°cias):")
print("   ‚Ä¢ Multiplica: Acur√°cia_Esp√©cie √ó Acur√°cia_Sa√∫de")
print("   ‚Ä¢ Assume que os erros s√£o independentes")
print("   ‚Ä¢ Representa o limite te√≥rico se n√£o houvesse correla√ß√£o")
print("   ‚Ä¢ √ötil para detectar se hierarquia ajuda ou atrapalha")

print("\nüîç AN√ÅLISE DA DISTRIBUI√á√ÉO DE CLASSES:")
print("   Distribui√ß√£o de sa√∫de por esp√©cie (dados reais):")

for especie in df_resultados['especie_real'].unique():
    subset = df_resultados[df_resultados['especie_real'] == especie]
    healthy_count = len(subset[subset['saude_real'] == 'healthy'])
    unhealthy_count = len(subset[subset['saude_real'] == 'unhealthy'])
    total = len(subset)
    
    print(f"   ‚Ä¢ {especie}: {healthy_count} healthy, {unhealthy_count} unhealthy")
    print(f"     Propor√ß√£o unhealthy: {unhealthy_count/total:.1%}")

print("\nüí° INTERPRETA√á√ÉO DOS RESULTADOS:")
print("   ‚Ä¢ Se Pipeline ‚âà Baseline Te√≥rico ‚Üí Hierarquia n√£o interfere")
print("   ‚Ä¢ Se Pipeline > Baseline Te√≥rico ‚Üí Hierarquia est√° ajudando")
print("   ‚Ä¢ Se Pipeline < Baseline Te√≥rico ‚Üí Hierarquia est√° atrapalhando")
print("   ‚Ä¢ Se Pipeline > Baseline Direto ‚Üí Classifica√ß√£o de sa√∫de √© √∫til")

# An√°lise de erros por combina√ß√£o
print(f"\nüî¨ AN√ÅLISE DE ERROS POR COMBINA√á√ÉO:")
erros_combinacao = df_resultados[df_resultados['acerto_combined'] == False]
print(f"   Total de erros: {len(erros_combinacao)}")

print("\n   Tipos de erro:")
erro_apenas_especie = len(erros_combinacao[erros_combinacao['acerto_especie'] == False])
erro_apenas_saude = len(erros_combinacao[
    (erros_combinacao['acerto_especie'] == True) & 
    (erros_combinacao['acerto_saude'] == False)
])
erro_ambos = len(erros_combinacao[
    (erros_combinacao['acerto_especie'] == False) & 
    (erros_combinacao['acerto_saude'] == False)
])

print(f"   ‚Ä¢ Erro apenas na esp√©cie: {erro_apenas_especie}")
print(f"   ‚Ä¢ Erro apenas na sa√∫de: {erro_apenas_saude}")
print(f"   ‚Ä¢ Erro em ambos: {erro_ambos}")

print(f"\nüéØ EFICI√äNCIA DO PIPELINE:")
acc_hierarquico = comparacao['acc_hierarquico']
acc_teorico = comparacao['acc_baseline_teorico']
acc_direto = comparacao['acc_baseline_direto']

eficiencia_teorica = (acc_hierarquico / acc_teorico) * 100
eficiencia_direta = (acc_hierarquico / acc_direto) * 100

print(f"   ‚Ä¢ Efici√™ncia vs Te√≥rico: {eficiencia_teorica:.1f}%")
print(f"   ‚Ä¢ Efici√™ncia vs Direto: {eficiencia_direta:.1f}%")

if eficiencia_teorica > 95:
    print("   ‚úÖ Pipeline hier√°rquico est√° funcionando muito bem!")
elif eficiencia_teorica > 85:
    print("   ‚úÖ Pipeline hier√°rquico est√° funcionando bem")
else:
    print("   ‚ö†Ô∏è Pipeline hier√°rquico pode ser melhorado")


üìö INTERPRETA√á√ÉO DOS BASELINES:

1Ô∏è‚É£ BASELINE DIRETO (Esp√©cie + Classe Majorit√°ria):
   ‚Ä¢ Usa a mesma predi√ß√£o de esp√©cie do pipeline hier√°rquico
   ‚Ä¢ Para sa√∫de, sempre escolhe a classe majorit√°ria (mais comum)
   ‚Ä¢ Representa um classificador simples que 'chuta' a sa√∫de
   ‚Ä¢ Mais realista para compara√ß√£o com pipeline hier√°rquico

2Ô∏è‚É£ BASELINE TE√ìRICO (Multiplica√ß√£o de Acur√°cias):
   ‚Ä¢ Multiplica: Acur√°cia_Esp√©cie √ó Acur√°cia_Sa√∫de
   ‚Ä¢ Assume que os erros s√£o independentes
   ‚Ä¢ Representa o limite te√≥rico se n√£o houvesse correla√ß√£o
   ‚Ä¢ √ötil para detectar se hierarquia ajuda ou atrapalha

üîç AN√ÅLISE DA DISTRIBUI√á√ÉO DE CLASSES:
   Distribui√ß√£o de sa√∫de por esp√©cie (dados reais):
   ‚Ä¢ Tomato: 30 healthy, 270 unhealthy
     Propor√ß√£o unhealthy: 90.0%
   ‚Ä¢ Potato: 30 healthy, 60 unhealthy
     Propor√ß√£o unhealthy: 66.7%
   ‚Ä¢ Pepper_bell: 30 healthy, 30 unhealthy
     Propor√ß√£o unhealthy: 50.0%

üí° INTERPRETA√á√É

In [8]:
# 9. SALVAMENTO DO RELAT√ìRIO FINAL

import json
from datetime import datetime

# Preparar dados para salvamento
relatorio_final = {
    'timestamp': datetime.now().isoformat(),
    'metricas_pipeline': {
        'acuracia_especie': float(metricas['acc_especie']),
        'acuracia_saude': float(metricas['acc_saude']),
        'acuracia_completa': float(metricas['acc_combined']),
        'confianca_especie': float(metricas['conf_especie_media']),
        'confianca_saude': float(metricas['conf_saude_media']),
        'confianca_final': float(metricas['conf_final_media'])
    },
    'baselines': {
        'direto': float(comparacao['acc_baseline_direto']),
        'teorico': float(comparacao['acc_baseline_teorico'])
    },
    'comparacoes': {
        'diferenca_vs_direto': float(comparacao['diferenca_direto']),
        'diferenca_vs_teorico': float(comparacao['diferenca_teorico']),
        'eficiencia_teorica': float(eficiencia_teorica),
        'eficiencia_direta': float(eficiencia_direta)
    },
    'analise_erros': {
        'total_erros': int(len(erros_combinacao)),
        'erro_apenas_especie': int(erro_apenas_especie),
        'erro_apenas_saude': int(erro_apenas_saude),
        'erro_ambos': int(erro_ambos)
    },
    'total_amostras': int(len(df_resultados))
}

# Salvar relat√≥rio
with open('datasets_processados/relatorio_pipeline_hierarquico.json', 'w') as f:
    json.dump(relatorio_final, f, indent=2)

print("üìù RELAT√ìRIO FINAL SALVO:")
print("   ‚Ä¢ Arquivo: datasets_processados/relatorio_pipeline_hierarquico.json")
print("   ‚Ä¢ Resultados detalhados: datasets_processados/resultados_pipeline_hierarquico.csv")
print("   ‚Ä¢ Conjunto de teste: datasets_processados/conjunto_teste_hierarquico.csv")

print(f"\nüéØ RESUMO EXECUTIVO:")
print(f"   ‚Ä¢ Pipeline Hier√°rquico: {metricas['acc_combined']:.1%}")
print(f"   ‚Ä¢ Baseline Direto: {comparacao['acc_baseline_direto']:.1%}")
print(f"   ‚Ä¢ Baseline Te√≥rico: {comparacao['acc_baseline_teorico']:.1%}")
print(f"   ‚Ä¢ Efici√™ncia: {eficiencia_teorica:.1f}%")

print(f"\n‚úÖ AN√ÅLISE COMPLETA DO PIPELINE HIER√ÅRQUICO CONCLU√çDA!")
print("   Todos os resultados foram salvos para an√°lise posterior.")


üìù RELAT√ìRIO FINAL SALVO:
   ‚Ä¢ Arquivo: datasets_processados/relatorio_pipeline_hierarquico.json
   ‚Ä¢ Resultados detalhados: datasets_processados/resultados_pipeline_hierarquico.csv
   ‚Ä¢ Conjunto de teste: datasets_processados/conjunto_teste_hierarquico.csv

üéØ RESUMO EXECUTIVO:
   ‚Ä¢ Pipeline Hier√°rquico: 76.9%
   ‚Ä¢ Baseline Direto: 70.2%
   ‚Ä¢ Baseline Te√≥rico: 76.8%
   ‚Ä¢ Efici√™ncia: 100.1%

‚úÖ AN√ÅLISE COMPLETA DO PIPELINE HIER√ÅRQUICO CONCLU√çDA!
   Todos os resultados foram salvos para an√°lise posterior.
