In [1]:
'''
Imports para el proyecto
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os
import pickle # Añade pickle si no está, para guardar modelos

from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA  # Añadido para el análisis PCA

from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC

from sklearn.model_selection import cross_val_score, cross_val_predict, GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split

In [2]:
path = r"C:\Users\dalon\SynologyDrive\Uni\2024-2025\HaCoBu\HaCoBu\navegacion_maritima\datos_etiquetados"

lista_df=[]
archivos_carpeta=[]

try:
    archivos_carpeta = os.listdir(path)
    if not archivos_carpeta:
        print(f"Advertencia: No se encontraron archivos")
    else:
        print(f"Archivos encontrados: '{archivos_carpeta}'")
except FileNotFoundError:
    print(f"Error: No se encontró la carpeta")
    exit()
except Exception as e:
    print(f"Ocurrió un error al acceder a la carpeta {e}")
    exit()
    
contador_cargados = 0

for archivo in archivos_carpeta:
    if archivo.lower().endswith('.csv'):
        ruta_archivo = os.path.join(path, archivo)
        try:
            df_temporal = pd.read_csv(ruta_archivo)
            lista_df.append(df_temporal)
            print(f"Cargado archivo '{archivo}'")
            contador_cargados += 1
        except Exception as e:
            print (f"Error al cargar'{archivo}'")
            
if lista_df:
    df_datos = pd.concat(lista_df, ignore_index=True)
    print(f"Archivos cargados")
else:
    print(f"No se cargó ningún dato")
    df_datos=pd.DataFrame()

Archivos encontrados: '['ejercicio_1.csv', 'ejercicio_10.csv', 'ejercicio_100.csv', 'ejercicio_11.csv', 'ejercicio_12.csv', 'ejercicio_13.csv', 'ejercicio_14.csv', 'ejercicio_15.csv', 'ejercicio_16.csv', 'ejercicio_17.csv', 'ejercicio_18.csv', 'ejercicio_19.csv', 'ejercicio_2.csv', 'ejercicio_20.csv', 'ejercicio_21.csv', 'ejercicio_22.csv', 'ejercicio_23.csv', 'ejercicio_24.csv', 'ejercicio_25.csv', 'ejercicio_26.csv', 'ejercicio_27.csv', 'ejercicio_28.csv', 'ejercicio_29.csv', 'ejercicio_3.csv', 'ejercicio_30.csv', 'ejercicio_31.csv', 'ejercicio_32.csv', 'ejercicio_33.csv', 'ejercicio_34.csv', 'ejercicio_35.csv', 'ejercicio_36.csv', 'ejercicio_37.csv', 'ejercicio_38.csv', 'ejercicio_39.csv', 'ejercicio_4.csv', 'ejercicio_40.csv', 'ejercicio_41.csv', 'ejercicio_42.csv', 'ejercicio_43.csv', 'ejercicio_44.csv', 'ejercicio_45.csv', 'ejercicio_46.csv', 'ejercicio_47.csv', 'ejercicio_48.csv', 'ejercicio_49.csv', 'ejercicio_5.csv', 'ejercicio_50.csv', 'ejercicio_51.csv', 'ejercicio_52.csv', 

In [3]:
display(df_datos)

Unnamed: 0,Ejercicio,Situacion_n,DistanciaInicioRiiesgo,DCPA_yds,Situacion,VelNudos,VelNudosContacto,Responsables,Contacto,AccionContacto,TCPA,Situacion_evaluacion,Responsable_evaluacion,DificultadSituacion,DificultadEjercicio
0,1,1,6803.80,1254.56,Alcanzando,10.97,8.99,Barco,Motor,N/C,97.930981,Alcanzando,Barco,BAJA,MEDIA
1,1,2,705.50,677.60,Alcanzando,16.01,11.39,Barco,Pesquero,N/C,1.254746,Alcanzando,Barco,MEDIA,MEDIA
2,1,3,753.02,535.10,Alcanzado,1.00,5.40,Contacto,Velero,No,3.564255,Alcanzado si no accion cto,Contacto que no toma accion,ALTA,MEDIA
3,1,4,2078.33,1589.32,Alcanzando,23.31,13.51,Barco,Pesquero,N/C,4.031899,Alcanzando,Barco,MEDIA,MEDIA
4,1,5,1223.62,220.18,Alcanzando,14.88,12.13,Barco,Motor,N/C,12.153389,Alcanzando,Barco,MEDIA,MEDIA
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1145,99,6,2248.24,966.82,Cruce_br_br,17.35,13.80,Niguno,Motor,N/C,1.962463,Cruce_br_br,Niguno,MEDIA,MEDIA
1146,99,7,1307.10,866.22,Cruce_er_er,17.21,6.35,Niguno,Velero,N/C,1.238246,Cruce_er_er,Niguno,ALTA,MEDIA
1147,99,8,1002.14,983.31,Cruce_er_er,14.22,22.56,Niguno,Motor,N/C,0.157568,Cruce_er_er,Niguno,MEDIA,MEDIA
1148,99,9,500.29,43.57,Cruce_br,10.66,12.84,Contacto,Motor,No,0.879743,Cruce_br si no accion cto,Contacto que no toma accion,ALTA,MEDIA


In [4]:
# Nueva Celda A (Esta celda va DESPUÉS de tu display(df_datos) y ANTES de donde defines X e y)
print("--- Iniciando Preprocesamiento de Características y Etiquetas ---")

df_preprocesado = df_datos.copy() 

col_dificultad_situacion = 'DificultadSituacion'
col_dificultad_ejercicio = 'DificultadEjercicio'

dificultad_map = {'BAJA': 0, 'MEDIA': 1, 'ALTA': 2}
if col_dificultad_situacion in df_preprocesado.columns:
    df_preprocesado[col_dificultad_situacion] = df_preprocesado[col_dificultad_situacion].map(dificultad_map)
    print(f"\nColumna '{col_dificultad_situacion}' mapeada.")
if col_dificultad_ejercicio in df_preprocesado.columns:
    df_preprocesado[col_dificultad_ejercicio] = df_preprocesado[col_dificultad_ejercicio].map(dificultad_map)
    print(f"Columna '{col_dificultad_ejercicio}' mapeada.")

columnas_a_excluir_de_features_inicial = ['Ejercicio', 'Situacion_n', col_dificultad_situacion, col_dificultad_ejercicio]
columnas_features_potenciales = [col for col in df_preprocesado.columns if col not in columnas_a_excluir_de_features_inicial]

columnas_categoricas_para_dummies = []
for col in columnas_features_potenciales:
    if df_preprocesado[col].dtype == 'object':
        columnas_categoricas_para_dummies.append(col)

print(f"\nColumnas categóricas para One-Hot Encoding: {columnas_categoricas_para_dummies}")

for col in columnas_categoricas_para_dummies:
    df_preprocesado[col] = df_preprocesado[col].replace('N/C', 'NC_Valor') 
    df_preprocesado[col] = df_preprocesado[col].fillna(df_preprocesado[col].mode()[0] if not df_preprocesado[col].mode().empty else 'Desconocido')

df_listo_para_X = pd.get_dummies(df_preprocesado, columns=columnas_categoricas_para_dummies, prefix=columnas_categoricas_para_dummies, dummy_na=False)
print(f"\nDimensiones del DataFrame después de get_dummies: {df_listo_para_X.shape}")

columnas_no_features = ['Ejercicio', 'Situacion_n', col_dificultad_situacion, col_dificultad_ejercicio]
# Esta es la lista global de nombres de columnas de características que usaremos
# Se define aquí para que esté disponible en la siguiente celda
global columnas_X_finales 
columnas_X_finales = [col for col in df_listo_para_X.columns if col not in columnas_no_features]

X_datos_temp_check = df_listo_para_X[columnas_X_finales]
if X_datos_temp_check.select_dtypes(exclude=np.number).shape[1] == 0:
    print("Confirmado: Todas las columnas en 'columnas_X_finales' son numéricas en 'df_listo_para_X'.")
else:
    print("¡ADVERTENCIA! Algunas columnas en 'columnas_X_finales' no son numéricas en 'df_listo_para_X'. Revisa.")
    print(X_datos_temp_check.select_dtypes(exclude=np.number).columns)

print(f"Número de características finales para X: {len(columnas_X_finales)}")
print("--- Preprocesamiento Listo ---")

--- Iniciando Preprocesamiento de Características y Etiquetas ---

Columna 'DificultadSituacion' mapeada.
Columna 'DificultadEjercicio' mapeada.

Columnas categóricas para One-Hot Encoding: ['Situacion', 'Responsables', 'Contacto', 'AccionContacto', 'Situacion_evaluacion', 'Responsable_evaluacion']

Dimensiones del DataFrame después de get_dummies: (1150, 40)
Confirmado: Todas las columnas en 'columnas_X_finales' son numéricas en 'df_listo_para_X'.
Número de características finales para X: 36
--- Preprocesamiento Listo ---


In [5]:
# CELDA 6 MODIFICADA (antes era tu Celda 6, ahora sigue a la nueva Celda 5)
print("\n--- Definiendo X (features) e y (target) para el modelo ---")

# Elige tu target. Para el Modelo 1 (predecir dificultad de situación):
target_col_actual = col_dificultad_situacion # 'DificultadSituacion' (ya mapeada)

# Si quisieras usar DificultadEjercicio como target con estos features de situación:
# target_col_actual = col_dificultad_ejercicio # 'DificultadEjercicio' (ya mapeada)

if target_col_actual in df_listo_para_X.columns:
    y_actual = df_listo_para_X[target_col_actual].values
    print(f"Shape de y_actual ('{target_col_actual}'): {y_actual.shape}")
else:
    print(f"Error: La columna objetivo '{target_col_actual}' no se encontró en df_listo_para_X.")
    y_actual = np.array([]) 

# Características (X): Usamos las columnas_X_finales que definimos en la CELDA 5
# y el DataFrame df_listo_para_X que ya contiene las columnas dummy.
# Renombro X_situacion a X_features para claridad.
try:
    X_features = df_listo_para_X[columnas_X_finales].values # <<-- ¡Usa df_listo_para_X aquí!
    print(f"Shape de X_features: {X_features.shape}")
except KeyError as e:
    print(f"KeyError al crear X_features: {e}")
    print("Asegúrate de que 'columnas_X_finales' se haya definido correctamente en la celda anterior")
    print("y que contenga nombres de columnas que existen en 'df_listo_para_X'.")
    X_features = np.array([[]]) # Evitar error si falla
except NameError:
    print("Error: 'df_listo_para_X' o 'columnas_X_finales' no están definidas. Ejecuta la celda de preprocesamiento.")
    X_features = np.array([[]])

# Para las siguientes celdas de tu notebook que usan X_situacion y target,
# deberás usar X_features e y_actual respectivamente.
# Por ejemplo, tu celda 8 sería:
# datasets = [(X_features, y_actual)]
# dataset_names = ["DataAll_SituacionTarget"] # O el nombre que corresponda


--- Definiendo X (features) e y (target) para el modelo ---
Shape de y_actual ('DificultadSituacion'): (1150,)
Shape de X_features: (1150, 36)


In [6]:
y_situacion = df_listo_para_X['DificultadSituacion'].values
print(f"Shape de y_situacion: {y_situacion.shape}")

X_features_situacion = df_listo_para_X[columnas_X_finales].values
print(f"Shape de X_features_situacion: {X_features_situacion.shape}")
y_ejercicio = df_listo_para_X['DificultadEjercicio'].values

Shape de y_situacion: (1150,)
Shape de X_features_situacion: (1150, 36)


In [7]:
print(X_features_situacion.shape)

(1150, 36)


In [8]:
datasets_situacion = [(X_features_situacion, y_situacion)]
dataset_names_situacion = ["DataSituacionAll"] # Nombre descriptivo

datasets = [(X_features_situacion, y_ejercicio)] # y_ejercicio ya está mapeado
dataset_names = ["DataAll_EjercicioTarget"]

print(f"Usando X con shape {X_features_situacion.shape} y target con shape {y_ejercicio.shape}")

Usando X con shape (1150, 36) y target con shape (1150,)


In [9]:
# Define parameter grid for SVM
C_range = np.logspace(-5, 5, 15)
gamma_range = np.logspace(-5, 5, 15)
param_grid_svm = dict(gamma=gamma_range, C=C_range)
nested_cv = 5

# Create grid search for SVM
grid_svm = GridSearchCV(SVC(kernel='rbf'), 
                       param_grid=param_grid_svm,
                       cv=nested_cv)

C_range, gamma_range

(array([1.00000000e-05, 5.17947468e-05, 2.68269580e-04, 1.38949549e-03,
        7.19685673e-03, 3.72759372e-02, 1.93069773e-01, 1.00000000e+00,
        5.17947468e+00, 2.68269580e+01, 1.38949549e+02, 7.19685673e+02,
        3.72759372e+03, 1.93069773e+04, 1.00000000e+05]),
 array([1.00000000e-05, 5.17947468e-05, 2.68269580e-04, 1.38949549e-03,
        7.19685673e-03, 3.72759372e-02, 1.93069773e-01, 1.00000000e+00,
        5.17947468e+00, 2.68269580e+01, 1.38949549e+02, 7.19685673e+02,
        3.72759372e+03, 1.93069773e+04, 1.00000000e+05]))

In [10]:
svm_pipeline_basico = make_pipeline(
    StandardScaler(),
    SVC(kernel='rbf', C=1.0, gamma='scale', random_state=42, probability=True) 
)

print(f"Clasificadores básicos seleccionados: {svm_pipeline_basico}")

Clasificadores básicos seleccionados: Pipeline(steps=[('standardscaler', StandardScaler()),
                ('svc', SVC(probability=True, random_state=42))])


In [11]:
# Method that runs the classifiers and returns the labels give for the test set

from sklearn.model_selection import train_test_split

def predictions(model,X_train,y_train,X_test,y_test):    
    
    model.fit(X_train,y_train)
    y_pred = model.predict(X_test)
    
    return y_test, y_pred

In [12]:
def predictions_model(X_train,y_train,X_test, y_test,model):
        '''
        Predictions with a model and a dataset (X and y), to later obtain the measurements 
        you want
        
        Parameters
        ----------
        X: numpy.array
            Dataset (features)
        Y: numpy.array
            Dataset (Target)
        model: scikit_model
            model to be trained
        num_folds: int
            number of folds in the cross validation
        
        Return
        -------
        array 
            array of prediccions obtained using cross_validation
        '''
        print('\t'+str(model)[:20], end=' - ')
        y_test,preds = predictions(model,X_train,y_train,X_test,y_test)
        print('OK')
        
        return y_test,preds

In [13]:
'''
All the predictions are going to be saved in a Python dictionary for 
further analysis.
'''

filename = 'predicciones.obj'

In [14]:
def perform_pca_analysis(x_test):
    # 1. Estandarizar los datos
    scaler = StandardScaler()
    x_test_scaled = scaler.fit_transform(x_test)
    
    # 2. Aplicar PCA
    pca = PCA()
    x_test_pca = pca.fit_transform(x_test_scaled)
    
    # 3. Calcular varianza explicada y ratio acumulado
    explained_variance_ratio = pca.explained_variance_ratio_
    cumulative_variance_ratio = np.cumsum(explained_variance_ratio)
    
    # 4. Crear DataFrame con componentes principales
    columns = [f'PC{i+1}' for i in range(x_test_pca.shape[1])]
    pca_df = pd.DataFrame(data=x_test_pca, columns=columns)
    
    # 5. Crear DataFrame con varianza explicada
    variance_df = pd.DataFrame({
        'Componente': columns,
        'Varianza_Explicada': explained_variance_ratio,
        'Varianza_Acumulada': cumulative_variance_ratio
    })
    
    # 6. Ordenar por varianza explicada
    variance_df = variance_df.sort_values('Varianza_Explicada', ascending=False)
    
    return pca_df, variance_df, pca

def run_all_save(filename, X_datos, y_datos, clasificadores_a_usar, nombres_clasificadores):
    '''
    Perform cross validation with all models and datasets.
    ''' 
    all_preds = {}
    
    
    print(f"Dataset Name: DataAll_Basico (Shape X: {X_datos.shape}, Shape y: {y_datos.shape})")
            
    # División de datos
    # Asegúrate que y_datos sea numérico aquí para stratify
    if y_datos is not None and len(y_datos) > 0:
        X_train, X_test, y_train, y_test = train_test_split(X_datos, y_datos, test_size=0.3, random_state=42, stratify=y_datos)
    else:
        print("Error: y_datos está vacío o no definido para train_test_split.")
        return {}, {}
    
    for model_obj, cls_name_str in zip(clasificadores_a_usar, nombres_clasificadores):
        print(f"\nProcesando modelo: {cls_name_str}")
        y_test_pred, preds = predictions_model(X_train, y_train, X_test, y_test, model_obj)
        all_preds[("DataAll_Basico", cls_name_str)] = (y_test_pred, preds)

    all_preds["cls_names"] = nombres_clasificadores
    all_preds["dataset_names"] = ["DataAll_Basico"] # Solo un dataset aquí

    # Guardar predicciones
    
    with open(filename, 'wb') as fp: # Usamos el filename pasado
         pickle.dump(all_preds, fp)
         
    return all_preds #, pca_results (comentado)

In [15]:
# Run the experiments
mis_clasificadores_basicos = [svm_pipeline_basico]
mis_nombres_clasificadores_basicos = ["SVM_Basico_Pipeline"]

# filename_basico = 'predicciones_basicas.obj' # Para no sobrescribir el otro

# Ejecutar para el target que definiste en la celda 8 (datasets = [...])
# que actualmente es y_ejercicio
if 'X_features_situacion' in locals() and 'y_ejercicio' in locals() and y_ejercicio is not None:
    resultados_basicos = run_all_save(
        filename, # Puedes usar el mismo filename o uno nuevo
        X_features_situacion, 
        y_ejercicio, # O y_situacion si cambiaste el target en la celda 8
        mis_clasificadores_basicos, 
        mis_nombres_clasificadores_basicos
    )
    print("\nEjecución de modelos básicos completada.")
    # print(resultados_basicos)
else:
    print("Error: X_final o y_ejercicio (o el target correspondiente) no están definidos para ejecutar run_all_save_basico.")


Dataset Name: DataAll_Basico (Shape X: (1150, 36), Shape y: (1150,))

Procesando modelo: SVM_Basico_Pipeline
	Pipeline(steps=[('st - OK

Ejecución de modelos básicos completada.
