ü§ñ Desenvolvimento de Modelos Preditivos

üîç Importa√ß√£o de bibliotecas especializadas para an√°lise de dados agr√≠colas

Nesta c√©lula, s√£o importadas bibliotecas essenciais para an√°lise de dados e pr√©-processamento e modelagem (sklearn). Essas ferramentas fornecem funcionalidades fundamentais para manipula√ß√£o de datasets, transforma√ß√£o de vari√°veis e constru√ß√£o de modelos preditivos eficientes.

In [None]:
# üîç Importa√ß√£o de bibliotecas especializadas para an√°lise de dados agr√≠colas

# ------------------------------
# üìä Manipula√ß√£o e Visualiza√ß√£o
# ------------------------------
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import joblib

# ------------------------------
# üîÑ Pr√©-processamento
# ------------------------------
from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder, MinMaxScaler
from sklearn.model_selection import train_test_split, StratifiedKFold

# ------------------------------
# ü§ñ Modelagem (Classificadores)
# ------------------------------
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import (
    RandomForestClassifier,
    GradientBoostingClassifier,
    AdaBoostClassifier,
    BaggingClassifier,
    ExtraTreesClassifier
)
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.neural_network import MLPClassifier
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis, QuadraticDiscriminantAnalysis
from sklearn.calibration import CalibratedClassifierCV

# ------------------------------
# üß™ Avalia√ß√£o de Desempenho
# ------------------------------
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    classification_report,
    roc_auc_score
)

# ------------------------------
# ‚öôÔ∏è Utilit√°rios
# ------------------------------
import random
import time
import os

üìÇ Defini√ß√£o do caminho de acesso aos dados da lavoura

Aqui, o caminho do arquivo .csv contendo os dados agr√≠colas √© definido em uma vari√°vel. Essa pr√°tica torna o c√≥digo mais organizado e permite reutilizar facilmente o caminho do arquivo ao longo do notebook, facilitando ajustes e reaproveitamento do script.

In [None]:
#üìÇ Defini√ß√£o do caminho de acesso aos dados da lavoura

csv_path = "Atividade_Cap_14_produtos_agricolas.csv"

üì• Carregamento do dataset para estrutura tabular do pandas

Esta etapa carrega os dados do arquivo CSV para um DataFrame, a estrutura de dados mais comum do pandas. Isso permite o uso de diversas ferramentas para explora√ß√£o, limpeza e an√°lise estat√≠stica dos dados referentes a culturas agr√≠colas como milho e cana-de-a√ß√∫car.

In [None]:
#üì• Carregamento do dataset para estrutura tabular do pandas

df = pd.read_csv(csv_path)

üîé Inspe√ß√£o inicial do dataset para compreens√£o de vari√°veis e formato

Visualizar as primeiras linhas do DataFrame com df.head() serve como um ponto de partida para compreender a estrutura do dataset, verificar nomes de colunas, tipos de vari√°veis (como nitrog√™nio, pH, umidade etc.) e identificar poss√≠veis anomalias logo no in√≠cio. 

In [None]:
#üîé Inspe√ß√£o inicial do dataset para compreens√£o de vari√°veis e formato

# 4.1) Exibir primeiras linhas do dataset
df.head(20)

üßæ Diagn√≥stico estrutural do DataFrame e tipagem dos dados com df.info()

Utiliza-se o m√©todo df.info() para obter um resumo t√©cnico da estrutura do dataset. Essa fun√ß√£o retorna:

- N√∫mero total de entradas (linhas);
- N√∫mero e o nome das colunas;
- N√∫mero de valores n√£o nulos em cada coluna;
- Tipo de dado de cada coluna (int64, float64, object, etc.);
- Uso aproximado de mem√≥ria.

Essa an√°lise √© essencial para validar se:

Todas as colunas foram corretamente interpretadas pelo pandas (ex: float ao inv√©s de object), se existem colunas com valores ausentes (non-null < total) e se h√° necessidade de otimizar tipos de dados para uso eficiente de mem√≥ria, principalmente em grandes volumes de dados. Essa inspe√ß√£o ajuda a antecipar problemas e tomar decis√µes sobre pr√©-processamento antes da an√°lise ou modelagem.

üîç Complementos √∫teis (comentados):
Al√©m do df.info(), o c√≥digo menciona outras fun√ß√µes que aprofundam a compreens√£o sobre a estrutura do conjunto de dados.

Essas informa√ß√µes ajudam a entender melhor como os dados est√£o organizados e se h√° problemas que precisam ser corrigidos, como colunas com dados ausentes ou tipos de dados incorretos. Por exemplo, √© importante garantir que colunas com n√∫meros estejam em tipos num√©ricos adequados (int ou float), e que colunas com nomes de culturas estejam como object (texto). Com esse diagn√≥stico inicial, podemos planejar os pr√≥ximos passos da an√°lise com mais seguran√ßa.

In [None]:
#üßæ Diagn√≥stico estrutural do DataFrame e tipagem dos dados com df.info() e Complementos √∫teis (comentados):

df.info()

#df.shape ‚Üí Retorna (2200, 8), indicando que o dataset possui 2200 amostras (linhas) e 8 atributos (colunas).

#df.columns ‚Üí Lista os nomes das colunas, revelando que os atributos medem nutrientes (N, P, K), vari√°veis ambientais (temperatura, umidade, pH, precipita√ß√£o) e a vari√°vel alvo 
# label (tipo de cultura agr√≠cola).

#df.dtypes ‚Üí Retorna os tipos de dados:
#int64 para nutrientes (N, P, K)
#float64 para vari√°veis cont√≠nuas (temperature, humidity, ph, rainfall)
#object para a label, pois √© uma vari√°vel categ√≥rica (string)

üö® Detec√ß√£o de dados faltantes para avalia√ß√£o da necessidade de imputa√ß√£o

Esta etapa verifica a presen√ßa de valores nulos no dataset utilizando df.isnull().sum(). Embora a fun√ß√£o df.info() tamb√©m identifique dados faltantes, sua visualiza√ß√£o pode ser menos intuitiva. A exist√™ncia de valores ausentes pode prejudicar tanto a an√°lise explorat√≥ria quanto o desempenho dos modelos preditivos. Por isso, √© fundamental decidir uma estrat√©gia adequada, como imputa√ß√£o, exclus√£o de linhas ou colunas, ou o uso de modelos que suportem dados nulos.

In [None]:
#üö® Detec√ß√£o de dados faltantes para avaliar necessidade de imputa√ß√£o

print(df.isnull().sum()) # nao existe nenhum nulo

üîÅ Detec√ß√£o de entradas redundantes no dataset

Esta c√©lula tem como objetivo identificar registros duplicados, ou seja, linhas que aparecem mais de uma vez com os mesmos valores em todas as colunas. Isso √© feito por meio do m√©todo df.duplicated(), que retorna uma s√©rie booleana indicando True para as linhas duplicadas.

In [None]:
#üîÅ Detec√ß√£o de entradas redundantes no dataset
duplicates= df.duplicated().sum()
print(f"Total de duplicados: {duplicates}")

üßπ Limpeza de dados redundantes

O m√©todo drop_duplicates() remove todas as entradas repetidas, mantendo apenas a primeira ocorr√™ncia. O argumento inplace=True faz com que a modifica√ß√£o seja feita diretamente no DataFrame original (df), sem a necessidade de reatribui√ß√£o, remover duplicatas √© uma etapa importante na prepara√ß√£o dos dados, pois ajuda a garantir a qualidade, consist√™ncia e confiabilidade das an√°lises e dos modelos de aprendizado de m√°quina.

In [None]:
#üßπ Limpeza de dados redundantes (exemplo)
#df.drop_duplicates(inplace=True)

üìä Detec√ß√£o e tratamento de valores extremos com IQR 

Esta c√©lula tem o objetivo de identificar e tratar outliers (valores fora do padr√£o esperado) na coluna 'temperature', utilizando o m√©todo do Intervalo Interquartil (IQR), tratar outliers √© essencial para evitar distor√ß√µes em modelos de regress√£o, classificadores e estat√≠sticas descritivas, especialmente em modelos sens√≠veis a valores extremos, como KNN e regress√£o linear.

In [None]:
#üìä Detec√ß√£o e tratamento de valores extremos com IQR (exemplo)

## Identificando os outliers usando o m√©todo do Intervalo Interquartil (IQR)
#Q1 = df['temperature'].quantile(0.25)  # Primeiro quartil
#Q3 = df['temperature'].quantile(0.75)  # Terceiro quartil
#IQR = Q3 - Q1  # Intervalo interquartil

## Definir limites para outliers
#outlier_lower = Q1 - 1.5 * IQR  # Limite inferior
#outlier_upper = Q3 + 1.5 * IQR  # Limite superior

## Calcular a mediana da temperatura
#median_temperature = df['temperature'].median()

## Substituir os outliers pela mediana
#df['temperature'] = df['temperature'].apply(lambda x: median_temperature if x < outlier_lower or x > outlier_upper else x)

üìä Estat√≠sticas descritivas para an√°lise quantitativa preliminar

Com df.describe(), obtemos medidas estat√≠sticas como m√©dia, mediana, desvio padr√£o e quartis para vari√°veis num√©ricas. Isso fornece uma no√ß√£o do comportamento e da dispers√£o dos dados, ajudando a identificar outliers e padr√µes.

In [None]:
#üìä Estat√≠sticas descritivas para an√°lise quantitativa preliminar

df.describe()

üéØ Quantifica√ß√£o das classes da vari√°vel alvo

A fun√ß√£o df['label'].value_counts() permite entender quantas amostras existem para cada cultura agr√≠cola no dataset. Isso ajuda a verificar se as classes est√£o balanceadas ou se h√° desbalanceamento, o que afeta diretamente o desempenho de modelos classificadores.

In [None]:
#üéØ Quantifica√ß√£o das classes da vari√°vel alvo

df['label'].value_counts()

üéØ Separando os dados em vari√°veis preditoras e vari√°vel target 

Nesta etapa, fazemos a divis√£o dos dados em:

X: vari√°veis preditoras (features), que cont√™m as informa√ß√µes do solo e clima ‚Äî como nitrog√™nio (N), f√≥sforo (P), pot√°ssio (K), temperatura, umidade, pH e precipita√ß√£o. Essas ser√£o as entradas para os modelos.
y: vari√°vel target (r√≥tulo), que indica o tipo de cultura agr√≠cola (label) que queremos prever.

Essa separa√ß√£o √© fundamental para o treinamento dos modelos de machine learning, pois permite que eles aprendam a rela√ß√£o entre as condi√ß√µes do ambiente (X) e o tipo de cultura ideal (y). Assim, podemos avaliar a capacidade preditiva dos algoritmos para recomendar o produto agr√≠cola adequado √†s condi√ß√µes fornecidas.

In [None]:
#üéØ Separando os dados em vari√°veis preditoras e vari√°vel target 

X = df.drop(columns=['label'])
y = df['label']

üéØ Convers√£o da vari√°vel alvo categ√≥rica para formato num√©rico

Algoritmos de machine learning geralmente exigem que a vari√°vel alvo (label) esteja em formato num√©rico. Esta etapa utiliza o LabelEncoder, e em casos mais complexos o One-Hot Enconding (como exemplificado abaixo),  para transformar categorias textuais (como o tipo de cultura) em n√∫meros, preservando a associa√ß√£o entre as classes e preparando os dados para o treinamento supervisionado.

In [None]:
#üéØ Convers√£o da vari√°vel alvo categ√≥rica para formato num√©rico

le = LabelEncoder()
y_enc = le.fit_transform(y)

#Lista de colunas categ√≥ricas e aplica√ß√£o de One-Hot Encoding caso fosse necess√°rio
categorical_cols = []

#Exemplo de aplica√ß√£o de One-Hot Encoding
if categorical_cols:
    ohe = OneHotEncoder(handle_unknown='ignore')
    X_encoded = pd.DataFrame(
        ohe.fit_transform(X[categorical_cols]).toarray(),
        index=X.index
    )
    X_encoded = X_encoded.add_prefix('OHE_')

    #Remover colunas categ√≥ricas do DataFrame original (exemplo)
    X = X.drop(categorical_cols, axis=1)

    #Concatenar o DataFrame original com o DataFrame codificado (exemplo)
    X  = pd.concat([X, X_encoded], axis=1)

‚úÇÔ∏è Separa√ß√£o dos dados em conjuntos de treino e teste com estratifica√ß√£o

Aqui os dados s√£o divididos em conjuntos de treinamento e teste com base em uma propor√ß√£o definida (80/20). O par√¢metro stratify=y garante que a distribui√ß√£o das classes da vari√°vel alvo seja preservada em ambas as amostras, o que √© fundamental para garantir avalia√ß√µes mais realistas e imparciais dos modelos.

In [None]:
#‚úÇÔ∏è Separa√ß√£o dos dados em conjuntos de treino e teste com estratifica√ß√£o

X_train, X_test, y_train, y_test = train_test_split(
    X, y_enc, test_size=0.2, random_state=42, stratify=y_enc
)

üìè Escalonamento das vari√°veis num√©ricas para melhorar desempenho dos modelos

A normaliza√ß√£o dos dados, feita com MinMaxScaler, ajusta as vari√°veis para uma mesma escala (geralmente de 0 a 1). Isso √© crucial para algoritmos que s√£o sens√≠veis √† magnitude dos dados, como KNN e SVM, garantindo que nenhuma vari√°vel domine a modelagem apenas por ter valores maiores.

In [None]:
#üìè Escalonamento das vari√°veis num√©ricas para melhorar desempenho dos modelos

scaler = MinMaxScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

üîÑ Configurar valida√ß√£o cruzada estratificada com StratifiedKFold 

Aqui, utilizamos o StratifiedKFold para criar 5 divis√µes (folds) dos dados que preservam a propor√ß√£o original das classes em cada parte. Configuramos o embaralhamento dos dados (shuffle=True) para garantir aleatoriedade na divis√£o e definimos uma semente fixa (random_state=42) para resultados reproduz√≠veis, essa configura√ß√£o assegura que o modelo seja avaliado de forma equilibrada e consistente em diferentes subconjuntos do conjunto de dados.

In [None]:
#üîÑ Configurar valida√ß√£o cruzada estratificada com StratifiedKFold 

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

‚öôÔ∏è Instancia√ß√£o de modelos de aprendizado supervisionado para classifica√ß√£o

Nesta c√©lula, criamos uma lista de 20 modelos de machine learning para classifica√ß√£o, com diferentes algoritmos e hiperpar√¢metros aleat√≥rios. Os modelos incluem Regress√£o Log√≠stica, √Årvore de Decis√£o, Random Forest, Gradient Boosting, SVM, KNN e Naive Bayes.

Para garantir diversidade, cada modelo recebe um nome √∫nico baseado em seus hiperpar√¢metros, evitando duplicatas. Essa variedade permite testar diferentes configura√ß√µes e comparar seu desempenho na tarefa de prever a cultura agr√≠cola a partir de caracter√≠sticas do solo e clima.

In [None]:
#‚öôÔ∏è Instancia√ß√£o de modelos de aprendizado supervisionado para classifica√ß√£o

# Fun√ß√µes auxiliares para gerar varia√ß√µes aleat√≥rias
random_state = lambda: random.randint(1, 100)
n_estimators = lambda: random.choice([50, 100, 150, 200])
k_neighbors = lambda: random.choice([3, 5, 7, 10, 15])
max_depth = lambda: random.choice([None, 3, 5, 10])
kernels = ['linear', 'poly', 'rbf', 'sigmoid']
hidden_layer_sizes = lambda: random.choice([(50,), (100,), (50, 50), (100, 50)])

modelos = []
nomes_gerados = set()

while len(modelos) < 20:
    modelo_tipo = random.choice([
        'lr', 'dt', 'rf', 'gb', 'svm', 'knn', 'nb',
        'et', 'ada', 'lda', 'qda', 'mlp', 'bag', 'cal'
    ])
    
    if modelo_tipo == 'lr':
        nome = f'LogReg {random_state()}'
        if nome not in nomes_gerados:
            modelo = LogisticRegression(max_iter=1000, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)
    
    elif modelo_tipo == 'dt':
        depth = max_depth()
        nome = f'DecTree d{depth}'
        if nome not in nomes_gerados:
            modelo = DecisionTreeClassifier(max_depth=depth, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)
    
    elif modelo_tipo == 'rf':
        n = n_estimators()
        nome = f'RandForest {n}'
        if nome not in nomes_gerados:
            modelo = RandomForestClassifier(n_estimators=n, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)
    
    elif modelo_tipo == 'gb':
        n = n_estimators()
        nome = f'GradBoost {n}'
        if nome not in nomes_gerados:
            modelo = GradientBoostingClassifier(n_estimators=n, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'et':
        n = n_estimators()
        nome = f'ExtraTrees {n}'
        if nome not in nomes_gerados:
            modelo = ExtraTreesClassifier(n_estimators=n, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'ada':
        n = n_estimators()
        nome = f'AdaBoost {n}'
        if nome not in nomes_gerados:
            modelo = AdaBoostClassifier(n_estimators=n, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)
    
    elif modelo_tipo == 'svm':
        kernel = random.choice(kernels)
        nome = f'SVM {kernel}'
        if nome not in nomes_gerados:
            modelo = SVC(kernel=kernel, probability=True, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'knn':
        k = k_neighbors()
        nome = f'KNN {k}'
        if nome not in nomes_gerados:
            modelo = KNeighborsClassifier(n_neighbors=k)
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'nb':
        nome = f'Naive Bayes {random_state()}'
        if nome not in nomes_gerados:
            modelo = GaussianNB()
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'lda':
        nome = 'LDA'
        if nome not in nomes_gerados:
            modelo = LinearDiscriminantAnalysis()
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'qda':
        nome = 'QDA'
        if nome not in nomes_gerados:
            modelo = QuadraticDiscriminantAnalysis()
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'mlp':
        hls = hidden_layer_sizes()
        nome = f'MLP {hls}'
        if nome not in nomes_gerados:
            modelo = MLPClassifier(hidden_layer_sizes=hls, max_iter=1000, random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'bag':
        base_depth = max_depth()
        nome = f'Bagging DT d{base_depth}'
        if nome not in nomes_gerados:
            base_est = DecisionTreeClassifier(max_depth=base_depth, random_state=random_state())
            modelo = BaggingClassifier(estimator=base_est, n_estimators=n_estimators(), random_state=random_state())
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

    elif modelo_tipo == 'cal':
        # CalibratedClassifierCV precisa de base, usar SVM linear
        nome = 'Calibrated SVM linear'
        if nome not in nomes_gerados:
            base_svm = SVC(kernel='linear', probability=False, random_state=random_state())
            modelo = CalibratedClassifierCV(base_svm)
            modelos.append((nome, modelo))
            nomes_gerados.add(nome)

üìä Treinamento dos modelos, valida√ß√£o cruzada e avalia√ß√£o preditiva

Nesta c√©lula, executa-se o ciclo completo de aprendizado de m√°quina para cada modelo instanciado: 

- ‚è±Ô∏è *Treinamento* com os dados de treino (`X_train`, `y_train`);
- üîÅ *Predi√ß√£o* e avalia√ß√£o no conjunto de teste (`X_test`, `y_test`);
- üìà *Coleta de m√©tricas preditivas* como Acur√°cia, Precis√£o, Recall, F1-Score e ROC AUC;
- ‚è≥ *Registro do tempo de treinamento* de cada modelo;
- üì¶ Armazenamento dos modelos treinados e de suas predi√ß√µes para uso posterior.

Essa abordagem permite comparar o desempenho e a efici√™ncia de m√∫ltiplos algoritmos sob as mesmas condi√ß√µes experimentais.

In [None]:
#üìä Treinamento dos modelos, valida√ß√£o cruzada e avalia√ß√£o preditiva


# Avalia√ß√£o dos modelos
resultados = []
tempos = []
parametros = []
modelos_treinados = {}
y_preds = {}
resultados = []

for nome, modelo in modelos:
    print(f"Treinando: {nome}")
    inicio = time.time()

    modelo.fit(X_train, y_train)
    y_pred = modelo.predict(X_test)

    fim = time.time()
    duracao = fim - inicio

    try:
        y_proba = modelo.predict_proba(X_test)
        if len(set(y)) == 2:
            auc = roc_auc_score(y_test, y_proba[:, 1])
        else:
            auc = roc_auc_score(y_test, y_proba, multi_class='ovr')
    except:
        auc = None

    resultados.append({
        'Modelo': nome,
        'Accuracy': accuracy_score(y_test, y_pred),
        'Precision': precision_score(y_test, y_pred, average='weighted', zero_division=0),
        'Recall': recall_score(y_test, y_pred, average='weighted'),
        'F1 Score': f1_score(y_test, y_pred, average='weighted'),
        'ROC AUC': auc
    })

    modelos_treinados[nome] = modelo
    y_preds[nome] = y_pred
    tempos.append({'Modelo': nome, 'Tempo Treinamento (s)': round(duracao, 3)})

üìà Organiza√ß√£o e exibi√ß√£o dos resultados de desempenho dos modelos

Esta c√©lula organiza os resultados obtidos durante a avalia√ß√£o dos modelos em um DataFrame, ordenando-os pela m√©trica F1 Score para destacar os modelos com melhor desempenho geral. Al√©m disso, registra o tempo de treinamento de cada modelo em um segundo DataFrame.

In [None]:
#üìà Organiza√ß√£o e exibi√ß√£o dos resultados de desempenho dos modelos

atual_resultados = pd.DataFrame(resultados).sort_values(by='F1 Score', ascending=False)
df_resultados = atual_resultados
df_tempos = pd.DataFrame(tempos)

#üìã Compara√ß√£o visual entre modelos com base em m√©tricas de classifica√ß√£o

Esta c√©lula define e executa a fun√ß√£o `exibir_metricas`, respons√°vel por gerar visualiza√ß√µes comparativas entre os modelos de machine learning avaliados. As visualiza√ß√µes incluem:

- *Gr√°fico de barras do F1 Score*: mostra quais modelos obtiveram melhor desempenho equilibrado entre precis√£o e recall.
- *Mapa de calor das m√©tricas*: apresenta uma vis√£o geral das principais m√©tricas (Accuracy, Precision, Recall, F1 Score e ROC AUC) para todos os modelos.
- *Gr√°fico de tempo de treinamento*: compara a efici√™ncia temporal de cada modelo, indicando o tempo necess√°rio para treinar cada um deles.

Essas visualiza√ß√µes ajudam a identificar os modelos mais eficazes e eficientes para o conjunto de dados agr√≠cola analisado.

In [None]:
#üìã Compara√ß√£o visual entre modelos com base em m√©tricas de classifica√ß√£o

def exibir_metricas(df_resultados, df_tempos):
    # Barplot - F1 Score
    plt.figure(figsize=(12, max(6, len(df_resultados) * 0.4)))
    sns.barplot(data=df_resultados, x='F1 Score', y='Modelo', hue='Modelo', palette='viridis', legend=False)
    plt.title('F1 Score por Modelo (Todos)')
    plt.tight_layout()
    plt.show()

    # Heatmap - Todas as m√©tricas
    plt.figure(figsize=(14, max(6, len(df_resultados) * 0.4)))
    heatmap_data = df_resultados.drop(columns='Modelo').set_index(df_resultados['Modelo']).astype(float)
    sns.heatmap(heatmap_data, annot=True, cmap='YlGnBu', fmt='.2f')
    plt.title('üìä Heatmap Desempenho dos Modelos (Todos)')
    plt.rcParams['font.family'] = 'Segoe UI Emoji'
    plt.tight_layout()
    plt.show()

    # Tempo de treinamento
    plt.figure(figsize=(12, max(6, len(df_tempos) * 0.4)))
    sns.barplot(data=df_tempos, x='Tempo Treinamento (s)', y='Modelo', hue='Modelo', palette='magma', legend=False)
    plt.title('‚è±Ô∏è Tempo de Treinamento por Modelo (Todos)')
    plt.rcParams['font.family'] = 'Segoe UI Emoji'
    plt.tight_layout()
    plt.show()

exibir_metricas(df_resultados, df_tempos)

üèÜ Verifica√ß√£o e atualiza√ß√£o dos 5 melhores modelos

Esta c√©lula mant√©m um hist√≥rico dos 5 modelos com melhor desempenho com base na m√©trica F1 Score. Se j√° existir um arquivo melhores_modelos.csv, ele √© carregado e combinado com os resultados atuais. A lista combinada √© ent√£o ordenada, duplicatas s√£o removidas e os 5 melhores modelos √∫nicos s√£o selecionados. Por fim, a nova lista √© salva no mesmo arquivo CSV e os dados de tempo de treinamento s√£o cruzados para esses modelos selecionados, preparando os resultados para visualiza√ß√£o futura.

In [None]:
# üèÜ Verifica√ß√£o e atualiza√ß√£o dos 5 melhores modelos

caminho_csv = 'melhores_modelos.csv'
if os.path.exists(caminho_csv):
    melhores_anteriores = pd.read_csv(caminho_csv)
    combinados = pd.concat([melhores_anteriores, atual_resultados], ignore_index=True)
    combinados = combinados.sort_values(by='F1 Score', ascending=False).drop_duplicates('Modelo').head(5)
else:
    combinados = atual_resultados.head(5)

# Salvar top 5 atualizados
combinados.to_csv(caminho_csv, index=False)

# 3. Cria a pasta para salvar os modelos (se n√£o existir)
os.makedirs("modelos_salvos", exist_ok=True)

# 4. Salva somente os modelos que est√£o no top 5
modelos_treinados = {}
y_preds = {}
tempos = []

# Cria um set com os nomes dos top 5 para facilitar a verifica√ß√£o
top5_modelos = set(combinados['Modelo'])

for nome, modelo in modelos:
    if nome in top5_modelos:
        nome_arquivo = f"modelos_salvos/{nome.replace(' ', '_')}.pkl"
        joblib.dump(modelo, nome_arquivo)
        print(f"Modelo salvo em: {nome_arquivo}")

        modelos_treinados[nome] = modelo
        y_preds[nome] = y_pred  # Supondo que y_pred esteja atualizado para esse modelo
        tempos.append({'Modelo': nome, 'Tempo Treinamento (s)': round(duracao, 3)})

# Gerar top 5 resultados e tempos atualizados
top5_resultados = combinados 
top5_tempos = df_tempos.merge(top5_resultados[['Modelo']], on='Modelo')
top5_tempos['Modelo'] = pd.Categorical(top5_tempos['Modelo'], categories=top5_resultados['Modelo'], ordered=True)

üìä Visualiza√ß√£o dos 5 melhores modelos

Esta c√©lula gera gr√°ficos para comparar visualmente o desempenho dos 5 melhores modelos selecionados. S√£o exibidos:

- Um gr√°fico de barras do F1 Score para os top 5 modelos, facilitando a compara√ß√£o direta de desempenho.
- Um heatmap com todas as m√©tricas de avalia√ß√£o para esses modelos, mostrando detalhes de performance de forma clara.
- Um gr√°fico de barras com o tempo de treinamento de cada modelo, para analisar o custo computacional associado a cada um.

In [None]:
#üìä Visualiza√ß√£o dos 5 melhores modelos

# F1 Score dos top 5 modelos
plt.figure(figsize=(12, 6))
sns.barplot(data=top5_resultados, x='F1 Score', y='Modelo', hue='Modelo', palette='viridis', legend=False)
plt.title('F1 Score - Top 5 Modelos')
plt.tight_layout()
plt.show()

# Heatmap dos top 5 modelos
plt.figure(figsize=(12, 6))
sns.heatmap(top5_resultados.drop(columns='Modelo').set_index(top5_resultados['Modelo']).astype(float),annot=True,cmap='YlGnBu',fmt='.2f')
plt.title('üìä Heatmap - Top 5 Modelos')
plt.tight_layout()
plt.show()

# Gr√°fico de tempo dos top 5 modelos
plt.figure(figsize=(12, 6))
sns.barplot(data=top5_tempos, x='Tempo Treinamento (s)', y='Modelo', hue='Modelo', palette='magma', legend=False)
plt.title('‚è±Ô∏è Tempo de Treinamento - Top 5 Modelos')
plt.tight_layout()
plt.show()

üìë Apresenta√ß√£o detalhada de m√©tricas preditivas para cada algoritmo

Esta c√©lula imprime, para cada modelo testado:

- A acur√°cia m√©dia da valida√ß√£o cruzada, que fornece uma estimativa mais robusta do desempenho geral, suavizando varia√ß√µes entre divis√µes dos dados;
- O relat√≥rio de classifica√ß√£o (classification_report), que mostra m√©tricas espec√≠ficas por classe (precis√£o, recall, f1-score), possibilitando uma avalia√ß√£o mais granular da performance;
- A matriz de confus√£o, que evidencia os acertos e erros de classifica√ß√£o por categoria, sendo crucial para entender onde os modelos est√£o confundindo as culturas agr√≠colas.

Essa an√°lise detalhada √© essencial para identificar n√£o apenas qual modelo tem melhor desempenho geral, mas tamb√©m quais est√£o mais equilibrados entre as classes e quais podem estar cometendo erros sistem√°ticos.

In [None]:
#üìë Apresenta√ß√£o detalhada de m√©tricas preditivas para cada algoritmo

for nome in top5_resultados['Modelo']:
    print(f"\nüîç Avaliando modelo: {nome}")

    # Tenta obter o modelo: da mem√≥ria ou do disco
    if nome in modelos_treinados:
        modelo = modelos_treinados[nome]
    else:
        try:
            caminho_modelo = f"modelos_salvos/{nome}.pkl"
            modelo = joblib.load(caminho_modelo)
            print(f"üìÇ Modelo '{nome}' carregado do disco com sucesso.")
        except FileNotFoundError:
            print(f"‚ùå Modelo '{nome}' n√£o foi treinado nesta execu√ß√£o e tamb√©m n√£o foi encontrado em disco.")
            continue  # neste caso, n√£o tem como avaliar

    # Tenta obter as previs√µes
    if nome in y_preds:
        y_pred = y_preds[nome]
    else:
        y_pred = modelo.predict(X_test)
        y_preds[nome] = y_pred  # salva para reutiliza√ß√£o, se necess√°rio
        
        
    # Avalia√ß√£o
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred, average='weighted', zero_division=0)
    rec = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')

    print(f"‚úÖ Acur√°cia: {acc:.4f}")
    print(f"‚úÖ Precis√£o: {prec:.4f}")
    print(f"‚úÖ Revoca√ß√£o: {rec:.4f}")
    print(f"‚úÖ F1-Score: {f1:.4f}")

    # Relat√≥rio de classifica√ß√£o
    print("\nüìÑ Relat√≥rio de Classifica√ß√£o:")
    print(classification_report(y_test, y_pred, target_names=le.classes_, zero_division=0))

    # Matriz de confus√£o
    cm = confusion_matrix(y_test, y_pred)
    plt.figure(figsize=(6, 4))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=le.classes_, yticklabels=le.classes_)
    plt.title(f"Matriz de Confus√£o - {nome}")
    plt.xlabel("Previsto")
    plt.ylabel("Real")
    plt.tight_layout()
    plt.show()

üìà Visualiza√ß√£o da distribui√ß√£o das classes no conjunto de teste

Por fim, esta c√©lula gera um gr√°fico de barras mostrando a quantidade de amostras por classe no conjunto de teste. Essa an√°lise ajuda a verificar o balanceamento das classes, fundamental para interpretar corretamente as m√©tricas dos modelos e evitar vi√©s em classifica√ß√µes desbalanceadas.

In [None]:
#üìà Visualiza√ß√£o da distribui√ß√£o das classes no conjunto de teste

pd.DataFrame(le.inverse_transform(y_test)) \
    .value_counts() \
    .reset_index(name='count') \
    .rename(columns={'index': 'label'}) \
    .sort_values(by='count', ascending=False)