In [6]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import seaborn as sns

# Carregar previsões e resultados
resultados = pd.read_csv("../data/processed/resultados_modelo.csv")

# Verifica se as colunas de verdadeiros e previstos existem
if "y_true" in resultados.columns and "y_pred" in resultados.columns:
    # Matriz de confusão
    cm = confusion_matrix(resultados["y_true"], resultados["y_pred"])
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt="d", cmap="Blues", xticklabels=["Classe 0", "Classe 1"], yticklabels=["Classe 0", "Classe 1"])
    plt.title("Matriz de Confusão")
    plt.xlabel("Previsão")
    plt.ylabel("Real")
    plt.show()

    # Análise de erros
    erros = resultados[resultados["y_true"] != resultados["y_pred"]]
    print("Exemplos de erros:\n", erros.head())
else:
    print("As colunas 'y_true' e 'y_pred' não estão presentes em 'resultados'. Colunas disponíveis:", resultados.columns.tolist())

# Otimização de hiperparâmetros (exemplo com GridSearchCV)
from sklearn.model_selection import GridSearchCV

import os

# Caminho para o dataset
dataset_path = "../data/processed/dataset.csv"

if os.path.exists(dataset_path):
    # Carregar dados de treino (ajuste o caminho e o nome das colunas conforme seu dataset)
    df = pd.read_csv(dataset_path)  # Substitua pelo caminho correto do seu dataset
    X = df.drop(columns=["target"])  # Substitua "target" pelo nome da coluna alvo
    y = df["target"]                 # Substitua "target" pelo nome da coluna alvo

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    parametros = {
        "n_estimators": [50, 100, 200],
        "max_depth": [None, 10, 20],
        "min_samples_split": [2, 5, 10]
    }

    grid_search = GridSearchCV(RandomForestClassifier(random_state=42), parametros, cv=5, scoring="accuracy")
    grid_search.fit(X_train, y_train)

    print("Melhores hiperparâmetros:", grid_search.best_params_)
    print("Melhor acurácia:", grid_search.best_score_)
else:
    print(f"Arquivo não encontrado: {dataset_path}. Verifique o caminho do arquivo e tente novamente.")

As colunas 'y_true' e 'y_pred' não estão presentes em 'resultados'. Colunas disponíveis: ['bairro', 'ocorrencia', 'rua', 'imagem']
Arquivo não encontrado: ../data/processed/dataset.csv. Verifique o caminho do arquivo e tente novamente.
