In [1]:
# CELDA 1: Imports
import pandas as pd
import numpy as np
import pickle
import os 
# No necesitas imports de sklearn.model_selection, SVC, StandardScaler aquí 
# porque el pipeline guardado ya los contiene.

In [2]:
# CELDA 2: Cargar Modelo y Variables de Contexto

# Nombres de los archivos guardados durante el entrenamiento
nombre_archivo_columnas_X = 'columnas_X_entrenamiento_final.pkl'
nombre_archivo_columnas_categoricas = 'columnas_categoricas_originales.pkl'
nombre_archivo_modelo_entrenado = 'modelo_svm_situacion_basico_entrenado.pkl' # El que guardaste en el notebook de entrenamiento

# Variables que se cargarán
columnas_X_entrenamiento_final = []
columnas_categoricas_originales_para_dummies = []
modelo_cargado = None
dificultad_map_inverso = {0: 'BAJA', 1: 'MEDIA', 2: 'ALTA'} # Mapeo inverso

print("--- Cargando Modelo y Variables de Contexto del Entrenamiento ---")
try:
    with open(nombre_archivo_columnas_X, 'rb') as f:
        columnas_X_entrenamiento_final = pickle.load(f)
    print(f"'{nombre_archivo_columnas_X}' cargada. Número de columnas de features esperadas: {len(columnas_X_entrenamiento_final)}")

    with open(nombre_archivo_columnas_categoricas, 'rb') as f:
        columnas_categoricas_originales_para_dummies = pickle.load(f)
    print(f"'{nombre_archivo_columnas_categoricas}' cargada. Columnas categóricas originales: {columnas_categoricas_originales_para_dummies}")

    with open(nombre_archivo_modelo_entrenado, 'rb') as f:
        modelo_cargado = pickle.load(f)
    print(f"Modelo '{nombre_archivo_modelo_entrenado}' cargado.")
    print(f"Modelo: {modelo_cargado}")

except FileNotFoundError as fnf_error:
    print(f"ERROR CRÍTICO al cargar archivos .pkl: {fnf_error}")
    print("Asegúrate de que los archivos .pkl del entrenamiento estén en la misma carpeta o corrige las rutas.")
except Exception as e:
    print(f"Ocurrió un error general al cargar archivos .pkl: {e}")

--- Cargando Modelo y Variables de Contexto del Entrenamiento ---
'columnas_X_entrenamiento_final.pkl' cargada. Número de columnas de features esperadas: 36
'columnas_categoricas_originales.pkl' cargada. Columnas categóricas originales: ['Situacion', 'Responsables', 'Contacto', 'AccionContacto', 'Situacion_evaluacion', 'Responsable_evaluacion']
Modelo 'modelo_svm_situacion_basico_entrenado.pkl' cargado.
Modelo: Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc', SVC(probability=True, random_state=42))])


In [3]:
# CELDA 3: Cargar el Nuevo CSV
df_nuevos_casos_original = pd.DataFrame()

if modelo_cargado and columnas_X_entrenamiento_final and columnas_categoricas_originales_para_dummies:
    # Ejemplo de ruta, puedes cambiarlo a un input() si prefieres
    ruta_csv_nuevos = input("Introduce la ruta a tu archivo CSV con los nuevos casos (ej. ejercicio_101.csv): ")
    # ruta_csv_nuevos = 'ejercicio_101.csv' # O pon la ruta directamente si es fija

    try:
        df_nuevos_casos_original = pd.read_csv(ruta_csv_nuevos)
        print(f"\nCSV '{ruta_csv_nuevos}' cargado con {len(df_nuevos_casos_original)} situaciones.")
        print("Primeras filas de los nuevos casos (originales):")
        display(df_nuevos_casos_original.head())
    except FileNotFoundError:
        print(f"Error: El archivo CSV '{ruta_csv_nuevos}' no fue encontrado.")
    except Exception as e:
        print(f"Ocurrió un error al leer el CSV de nuevos casos: {e}")
else:
    print("Faltan el modelo entrenado o las listas de columnas del entrenamiento. No se puede proceder a cargar nuevos casos.")

Introduce la ruta a tu archivo CSV con los nuevos casos (ej. ejercicio_101.csv): C:\Users\dalon\SynologyDrive\Uni\2024-2025\HaCoBu\HaCoBu\navegacion_maritima\datos_no_etiquetados\ejercicio_101.csv

CSV 'C:\Users\dalon\SynologyDrive\Uni\2024-2025\HaCoBu\HaCoBu\navegacion_maritima\datos_no_etiquetados\ejercicio_101.csv' cargado con 10 situaciones.
Primeras filas de los nuevos casos (originales):


Unnamed: 0,Ejercicio,Situacion_n,DistanciaInicioRiiesgo,DCPA_yds,Situacion,VelNudos,VelNudosContacto,Responsables,Contacto,AccionContacto,TCPA,Situacion_evaluacion,Responsable_evaluacion
0,101,1,5663.04,961.43,Cruce_br_br,18.01,1.97,Niguno,Velero,N/C,8.359799,Cruce_br_br,Niguno
1,101,2,2808.58,1378.56,Cruce_er_er,13.68,15.39,Niguno,Motor,N/C,2.555063,Cruce_er_er,Niguno
2,101,3,2437.53,258.26,Vuelta_encontrada,12.14,25.6,Ambos,Motor,N/C,1.904367,Vuelta_encontrada,Ambos
3,101,4,7692.47,1575.49,Cruce_br_br,19.41,5.27,Niguno,Velero,N/C,9.078419,Cruce_br_br,Niguno
4,101,5,2847.95,1760.09,Cruce_er_er,15.67,0.03,Niguno,Velero,N/C,4.225911,Cruce_er_er,Niguno


In [4]:
# CELDA 4: Función de Preprocesamiento
def preprocesar_nuevos_datos_prediccion(df_nuevos, cols_categoricas_originales, cols_X_entrenamiento_plantilla):
    """Preprocesa los nuevos datos para que coincidan con el formato de entrenamiento."""
    if df_nuevos.empty:
        return pd.DataFrame(columns=cols_X_entrenamiento_plantilla)

    df_preproc = df_nuevos.copy()

    for col in cols_categoricas_originales:
        if col in df_preproc.columns:
            df_preproc[col] = df_preproc[col].replace('N/C', 'NC_Valor')
            # Imputación simple (debe ser consistente con el entrenamiento)
            # Si durante el entrenamiento imputaste con la moda, necesitarías esas modas aquí.
            # Por ahora, usamos 'Desconocido' como un placeholder si la moda no se guardó.
            # O si tu entrenamiento ya usaba 'Desconocido' para NaNs, esto es consistente.
            df_preproc[col] = df_preproc[col].fillna('Desconocido') 
        else:
            print(f"Advertencia: Columna categórica original '{col}' no encontrada en los nuevos datos. Se creará con 'Desconocido'.")
            df_preproc[col] = 'Desconocido'
            
    df_dummies = pd.get_dummies(df_preproc, 
                                columns=cols_categoricas_originales, 
                                prefix=cols_categoricas_originales, 
                                dummy_na=False)
    
    df_alineado = df_dummies.reindex(columns=cols_X_entrenamiento_plantilla, fill_value=0)
    
    print(f"Shape después de get_dummies (antes de reindex): {df_dummies.shape}")
    print(f"Shape después de reindex (alineado con entrenamiento): {df_alineado.shape}")
        
    return df_alineado

In [5]:
# CELDA 5: Aplicar Preprocesamiento y Predecir
X_nuevos_preprocesados_df = pd.DataFrame()
predicciones_etiquetas_final = []

if modelo_cargado and not df_nuevos_casos_original.empty and \
   columnas_X_entrenamiento_final and columnas_categoricas_originales_para_dummies:
    
    print("\nPreprocesando nuevos casos para predicción...")
    X_nuevos_preprocesados_df = preprocesar_nuevos_datos_prediccion(
        df_nuevos_casos_original,
        columnas_categoricas_originales_para_dummies, # Cargada en Celda 2
        columnas_X_entrenamiento_final # Cargada en Celda 2
    )
    
    if not X_nuevos_preprocesados_df.empty and X_nuevos_preprocesados_df.shape[1] == len(columnas_X_entrenamiento_final):
        print(f"Nuevos casos preprocesados. Shape para predicción: {X_nuevos_preprocesados_df.shape}")
        X_nuevos_listo_numpy = X_nuevos_preprocesados_df.values
        
        print("\nRealizando predicciones...")
        try:
            predicciones_numericas = modelo_cargado.predict(X_nuevos_listo_numpy)
            predicciones_etiquetas_final = [dificultad_map_inverso.get(pred, "ErrorMapeo") for pred in predicciones_numericas]
            print(f"Predicciones de DificultadSituacion obtenidas (primeras 10): {predicciones_etiquetas_final[:10]}")
        except ValueError as ve:
            print(f"ValueError durante la predicción: {ve}")
            print("Esto usualmente significa que el número de features no coincide con lo que el modelo espera.")
            print(f"Shape de datos pasados al modelo: {X_nuevos_listo_numpy.shape}")
            print(f"El modelo espera {modelo_cargado.named_steps['svc'].n_features_in_ if 'svc' in modelo_cargado.named_steps else 'N/A'} features (si es pipeline SVM).")
        except Exception as e:
            print(f"Error durante la predicción: {e}")
    else:
        if X_nuevos_preprocesados_df.empty:
             print("El preprocesamiento de nuevos datos resultó en un DataFrame vacío.")
        else:
            print(f"Error de Shape: El preprocesamiento resultó en {X_nuevos_preprocesados_df.shape[1]} columnas, pero se esperaban {len(columnas_X_entrenamiento_final)}.")
else:
    print("\nNo se puede proceder: falta el modelo, los datos nuevos o las listas de columnas del entrenamiento.")


Preprocesando nuevos casos para predicción...
Shape después de get_dummies (antes de reindex): (10, 36)
Shape después de reindex (alineado con entrenamiento): (10, 36)
Nuevos casos preprocesados. Shape para predicción: (10, 36)

Realizando predicciones...
Predicciones de DificultadSituacion obtenidas (primeras 10): ['MEDIA', 'MEDIA', 'ALTA', 'BAJA', 'MEDIA', 'MEDIA', 'MEDIA', 'MEDIA', 'MEDIA', 'MEDIA']


In [8]:
# CELDA 6: Mostrar Resultados de Predicción de Situaciones y Calcular una Dificultad de Ejercicio Global (Moda)

if not df_nuevos_casos_original.empty and predicciones_etiquetas_final: # predicciones_etiquetas_final viene de la Celda 5
    df_resultados_prediccion = df_nuevos_casos_original.copy()
    
    # Añadimos la columna con las predicciones de DificultadSituacion (strings: 'BAJA', 'MEDIA', 'ALTA')
    df_resultados_prediccion['DificultadSituacion'] = predicciones_etiquetas_final
    
    # --- Lógica para determinar una DificultadEjercicio GLOBAL para todo el archivo CSV ---
    # Esto se basa en la moda de las DificultadSituacion_Predicha en el archivo.
    
    # 1. Contar las frecuencias de cada tipo de dificultad de situación predicha
    conteos_dificultad = {'BAJA': 0, 'MEDIA': 0, 'ALTA': 0}
    for prediccion_sit in predicciones_etiquetas_final:
        if prediccion_sit == 'BAJA':
            conteos_dificultad['BAJA'] += 1
        elif prediccion_sit == 'MEDIA':
            conteos_dificultad['MEDIA'] += 1
        elif prediccion_sit == 'ALTA':
            conteos_dificultad['ALTA'] += 1
            
    print(f"\nConteos de DificultadSituacion_Predicha en el archivo CSV actual:")
    print(conteos_dificultad)
    
    # 2. Encontrar la dificultad de situación más frecuente (la moda)
    # Si hay empates, max() con un key sobre los items del diccionario devolverá una de ellas.
    # O podrías usar from collections import Counter; Counter(predicciones_etiquetas_final).most_common(1)[0][0]
    
    dificultad_ejercicio_global_moda = "INDEFINIDA" # Valor por defecto
    if predicciones_etiquetas_final: # Solo si hay predicciones
        # Convertimos el diccionario de conteos a una lista de tuplas (conteo, etiqueta) para facilitar la búsqueda del máximo
        lista_conteos_tuplas = [
            (conteos_dificultad['BAJA'], 'BAJA'),
            (conteos_dificultad['MEDIA'], 'MEDIA'),
            (conteos_dificultad['ALTA'], 'ALTA')
        ]
        
        # Encontrar la tupla con el mayor conteo (el primer elemento de la tupla)
        tupla_max_conteo = max(lista_conteos_tuplas, key=lambda item: item[0])
        dificultad_ejercicio_global_moda = tupla_max_conteo[1] # El segundo elemento es la etiqueta ('BAJA', 'MEDIA', 'ALTA')
        print(f"La DificultadSituacion más frecuente (moda) en este archivo es: {dificultad_ejercicio_global_moda}")
    else:
        print("No hay predicciones de situación para calcular la moda.")

    # 3. Añadir esta dificultad (que es la moda de las situaciones de todo el archivo)
    # como una nueva columna 'DificultadEjercicio_Predicha_ModaGlobal'.
    # TODAS las filas tendrán este mismo valor.
    df_resultados_prediccion['DificultadEjercicio'] = dificultad_ejercicio_global_moda
    
    print("\n--- Resultados de la Predicción (con DificultadSituacion_Predicha y DificultadEjercicio_Predicha_ModaGlobal) ---")
    # Mostramos las columnas originales, la predicción de situación y la "predicción" de ejercicio global (moda)
    columnas_a_mostrar = df_nuevos_casos_original.columns.tolist() + ['DificultadSituacion', 'DificultadEjercicio']
    display(df_resultados_prediccion[columnas_a_mostrar].head())

    # Opcional: Guardar estos resultados
    # nombre_archivo_salida_con_predicciones = 'predicciones_detalladas_nuevos_casos.csv'
    # df_resultados_prediccion.to_csv(nombre_archivo_salida_con_predicciones, index=False)
    # print(f"\nResultados con predicciones detalladas guardados en '{nombre_archivo_salida_con_predicciones}'")

elif df_nuevos_casos_original.empty:
    print("\nNo se cargaron datos del CSV, no hay resultados que mostrar.")
elif not predicciones_etiquetas_final: # Asegúrate que predicciones_etiquetas_final esté definida incluso si está vacía
    print("\nNo se generaron predicciones de situación, no hay resultados que mostrar.")


Conteos de DificultadSituacion_Predicha en el archivo CSV actual:
{'BAJA': 1, 'MEDIA': 8, 'ALTA': 1}
La DificultadSituacion más frecuente (moda) en este archivo es: MEDIA

--- Resultados de la Predicción (con DificultadSituacion_Predicha y DificultadEjercicio_Predicha_ModaGlobal) ---


Unnamed: 0,Ejercicio,Situacion_n,DistanciaInicioRiiesgo,DCPA_yds,Situacion,VelNudos,VelNudosContacto,Responsables,Contacto,AccionContacto,TCPA,Situacion_evaluacion,Responsable_evaluacion,DificultadSituacion,DificultadEjercicio
0,101,1,5663.04,961.43,Cruce_br_br,18.01,1.97,Niguno,Velero,N/C,8.359799,Cruce_br_br,Niguno,MEDIA,MEDIA
1,101,2,2808.58,1378.56,Cruce_er_er,13.68,15.39,Niguno,Motor,N/C,2.555063,Cruce_er_er,Niguno,MEDIA,MEDIA
2,101,3,2437.53,258.26,Vuelta_encontrada,12.14,25.6,Ambos,Motor,N/C,1.904367,Vuelta_encontrada,Ambos,ALTA,MEDIA
3,101,4,7692.47,1575.49,Cruce_br_br,19.41,5.27,Niguno,Velero,N/C,9.078419,Cruce_br_br,Niguno,BAJA,MEDIA
4,101,5,2847.95,1760.09,Cruce_er_er,15.67,0.03,Niguno,Velero,N/C,4.225911,Cruce_er_er,Niguno,MEDIA,MEDIA
