In [1]:
# CELDA 1: Imports (Modificada para Google Cloud)
# Todo lo necesario
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os # Aunque su uso disminuirá para rutas de archivos
import pickle # Lo mantenemos por si quieres usarlo para objetos simples
import joblib # Recomendado para guardar modelos y objetos grandes de scikit-learn

# Para interactuar con Google Cloud Storage
from google.cloud import storage
import fsspec
import gcsfs # Permite a pandas y otras libs usar "gs://"

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Opcional: Instalar gcsfs y joblib si no están presentes en el entorno de Vertex AI
# (generalmente sí lo están). Descomenta la siguiente línea si es necesario.
# !pip install gcsfs joblib --quiet --user

print("Celda 1: Librerías importadas y listas para Google Cloud.")

Celda 1: Librerías importadas y listas para Google Cloud.


In [2]:
# CELDA 2: Carga de Datos de Entrenamiento (Modificada para GCS)

# ------------- POR FAVOR, CONFIGURA ESTAS VARIABLES -------------
bucket_name = "TU_BUCKET_GCS"  # Reemplaza con el nombre de tu bucket
prefix_path_csv = "RUTA_A_TUS_CSV/" # Reemplaza con la ruta a tus CSVs dentro del bucket
# Ejemplo: bucket_name = "mi-bucket-maritimo"
# Ejemplo: prefix_path_csv = "datos_etiquetados_csv/"
# ----------------------------------------------------------------

lista_df = []
df_datos = pd.DataFrame() # Inicializar por si no se cargan archivos

print(f"Intentando listar archivos CSV desde: gs://{bucket_name}/{prefix_path_csv}")

# Inicializar cliente de GCS
try:
    storage_client = storage.Client() # No necesitas pasar el proyecto si el entorno está bien configurado (ej. en Vertex AI)
    blobs = storage_client.list_blobs(bucket_name, prefix=prefix_path_csv)
    
    archivos_csv_encontrados = []
    for blob in blobs:
        if blob.name.lower().endswith('.csv') and not blob.name.endswith('/'): # Evitar "carpetas" vacías
            archivos_csv_encontrados.append(blob.name)
    
    if not archivos_csv_encontrados:
        print(f"Advertencia: No se encontraron archivos CSV en 'gs://{bucket_name}/{prefix_path_csv}'")
    else:
        print(f"Archivos CSV encontrados en 'gs://{bucket_name}/{prefix_path_csv}': {len(archivos_csv_encontrados)} items.")

except Exception as e:
    print(f"Ocurrió un error al acceder al bucket de GCS o listar archivos: {e}")
    print("Asegúrate de que el nombre del bucket y el prefijo son correctos y que tienes permisos.")
    archivos_csv_encontrados = []

contador_cargados = 0
if archivos_csv_encontrados:
    print(f"\nIniciando carga de {len(archivos_csv_encontrados)} archivos CSV...")
    for i, blob_name in enumerate(archivos_csv_encontrados):
        gs_path = f"gs://{bucket_name}/{blob_name}"
        try:
            df_temporal = pd.read_csv(gs_path)
            lista_df.append(df_temporal)
            contador_cargados += 1
            if (i + 1) % 10 == 0 or (i + 1) == len(archivos_csv_encontrados): # Imprimir progreso
                 print(f"Cargados {contador_cargados}/{len(archivos_csv_encontrados)} archivos... (Último: {blob_name})")
        except Exception as e:
            print(f"Error al cargar el archivo '{blob_name}' desde GCS: {e}")
            
if lista_df:
    df_datos = pd.concat(lista_df, ignore_index=True)
    print(f"\nSe combinaron {contador_cargados} archivos CSV de entrenamiento desde GCS.")
    print(f"df_datos (entrenamiento) cargado con {df_datos.shape[0]} filas y {df_datos.shape[1]} columnas.")
else:
    if archivos_csv_encontrados:
        print(f"\nNo se pudo cargar ningún archivo CSV de la ruta 'gs://{bucket_name}/{prefix_path_csv}' a pesar de encontrarlos.")
    else:
        print(f"\nNo se encontraron archivos CSV en la ruta especificada, o hubo un error previo.")
    print("El DataFrame df_datos está vacío.")

print("\nCelda 2: Carga de datos desde GCS completada (o intentada).")

Intentando listar archivos CSV desde: gs://TU_BUCKET_GCS/RUTA_A_TUS_CSV/
Ocurrió un error al acceder al bucket de GCS o listar archivos: Your default credentials were not found. To set up Application Default Credentials, see https://cloud.google.com/docs/authentication/external/set-up-adc for more information.
Asegúrate de que el nombre del bucket y el prefijo son correctos y que tienes permisos.

No se encontraron archivos CSV en la ruta especificada, o hubo un error previo.
El DataFrame df_datos está vacío.

Celda 2: Carga de datos desde GCS completada (o intentada).


In [3]:
# CELDA 3: Visualización Opcional (Entrenamiento)
if not df_datos.empty:
    print("\nPrimeras filas de df_datos (entrenamiento original cargado desde GCS):")
    display(df_datos.head())
else:
    print("\nEl DataFrame df_datos (entrenamiento) está vacío. No se pueden mostrar las primeras filas.")

print("\nCelda 3: Visualización opcional completada.")


El DataFrame df_datos (entrenamiento) está vacío. No se pueden mostrar las primeras filas.

Celda 3: Visualización opcional completada.


In [4]:
# CELDA 4: Preprocesamiento de Datos de Entrenamiento y Definición de X, y (Modificada para GCS)

# ------------- POR FAVOR, CONFIGURA ESTAS VARIABLES (si no lo hiciste en Celda 2) -------------
# bucket_name = "TU_BUCKET_GCS" # Ya debería estar definido en Celda 2
prefix_path_artefactos = "RUTA_PARA_ARTEFACTOS/" # Reemplaza con la ruta para guardar artefactos
# Ejemplo: prefix_path_artefactos = "artefactos_entrenamiento/"
# --------------------------------------------------------------------------------------------

# Variables globales que se guardarán para usar en la predicción
columnas_categoricas_originales_para_dummies = []
columnas_X_finales = []
dificultad_map = {'BAJA': 0, 'MEDIA': 1, 'ALTA': 2} # Definición global

X_features = np.array([[]]) # Inicializar para evitar NameError
y_objetivo_modelo1 = np.array([]) # Inicializar

if df_datos.empty:
    print("El DataFrame df_datos (entrenamiento) está vacío. Saltando preprocesamiento.")
else:
    print("\n--- Iniciando Preprocesamiento de Datos de Entrenamiento ---")
    df_procesado = df_datos.copy()

    col_dificultad_situacion = 'DificultadSituacion'
    col_dificultad_ejercicio = 'DificultadEjercicio'

    for col_target in [col_dificultad_situacion, col_dificultad_ejercicio]:
        if col_target in df_procesado.columns:
            df_procesado[col_target] = df_procesado[col_target].map(dificultad_map)
    print(f"Columnas de dificultad mapeadas a números.")

    columnas_ids_y_etiquetas = ['Ejercicio', 'Situacion_n', col_dificultad_situacion, col_dificultad_ejercicio]
    columnas_features_potenciales = [col for col in df_procesado.columns if col not in columnas_ids_y_etiquetas]
    
    columnas_categoricas_originales_para_dummies = [
        col for col in columnas_features_potenciales if df_procesado[col].dtype == 'object'
    ]
    print(f"Columnas categóricas originales (entrenamiento) para dummies: {columnas_categoricas_originales_para_dummies}")

    for col_cat in columnas_categoricas_originales_para_dummies:
        df_procesado[col_cat] = df_procesado[col_cat].replace('N/C', 'NC_Valor') # Reemplazar 'N/C'
        moda_col = df_procesado[col_cat].mode()
        # Asegurarse que la moda no esté vacía y usar 'Desconocido' como último recurso
        df_procesado[col_cat] = df_procesado[col_cat].fillna(moda_col[0] if not moda_col.empty else 'Desconocido')
    
    df_listo_para_xy = pd.get_dummies(df_procesado, 
                                      columns=columnas_categoricas_originales_para_dummies, 
                                      prefix=columnas_categoricas_originales_para_dummies, 
                                      dummy_na=False) # dummy_na=False es generalmente preferido
    print(f"Dimensiones (entrenamiento) después de get_dummies: {df_listo_para_xy.shape}")

    if col_dificultad_situacion in df_listo_para_xy.columns and not df_listo_para_xy[col_dificultad_situacion].isnull().all():
        y_objetivo_modelo1 = df_listo_para_xy[col_dificultad_situacion].values
    else:
        print(f"ERROR o ADVERTENCIA: La columna objetivo '{col_dificultad_situacion}' no es procesable o está ausente/vacía en df_listo_para_xy.")
        y_objetivo_modelo1 = None 

    # Redefinimos aquí para asegurarnos que es del scope correcto
    columnas_X_finales = [col for col in df_listo_para_xy.columns if col not in columnas_ids_y_etiquetas]
    X_features = df_listo_para_xy[columnas_X_finales].values
    
    print(f"Matriz 'X_features' (entrenamiento) definida. Shape: {X_features.shape}")
    if y_objetivo_modelo1 is not None:
        print(f"Target 'y_objetivo_modelo1' ({col_dificultad_situacion}) definido. Shape: {y_objetivo_modelo1.shape}")

    # Guardar listas de columnas en GCS usando joblib o pandas.to_pickle
    gcs_path_cols_x = f"gs://{bucket_name}/{prefix_path_artefactos}columnas_X_entrenamiento_final.pkl"
    gcs_path_cols_cat = f"gs://{bucket_name}/{prefix_path_artefactos}columnas_categoricas_originales.pkl"

    try:
        # Usando pandas.to_pickle que funciona bien con rutas gs:// (si gcsfs está instalado)
        pd.Series(columnas_X_finales).to_pickle(gcs_path_cols_x)
        print(f"Lista 'columnas_X_finales' guardada en: {gcs_path_cols_x}")
        
        pd.Series(columnas_categoricas_originales_para_dummies).to_pickle(gcs_path_cols_cat)
        print(f"Lista 'columnas_categoricas_originales_para_dummies' guardada en: {gcs_path_cols_cat}")
    except Exception as e:
        print(f"Error guardando listas de columnas en GCS: {e}")
        print("Asegúrate de que fsspec y gcsfs están instalados y que la ruta del bucket es correcta.")
        
    print("--- Preprocesamiento de Entrenamiento Completado ---")

print("\nCelda 4: Preprocesamiento y guardado de artefactos en GCS completado (o intentado).")

El DataFrame df_datos (entrenamiento) está vacío. Saltando preprocesamiento.

Celda 4: Preprocesamiento y guardado de artefactos en GCS completado (o intentado).


In [5]:
# CELDA 5: División de Datos de Entrenamiento
print("\n--- Dividiendo Datos de Entrenamiento ---")
X_train, X_test, y_train, y_test = (np.array([]), np.array([]), np.array([]), np.array([])) # Inicialización

# Comprobaciones robustas antes de dividir
if X_features is not None and X_features.size > 0 and \
   y_objetivo_modelo1 is not None and y_objetivo_modelo1.size > 0 and \
   X_features.shape[0] == y_objetivo_modelo1.shape[0] and \
   not pd.isna(y_objetivo_modelo1).all():
    
    # Comprobar si hay suficientes muestras en cada clase para estratificar
    unique_classes, counts = np.unique(y_objetivo_modelo1, return_counts=True)
    if all(counts >= 2): # O un valor mayor si cv en GridSearchCV es >2 y test_size es pequeño
        stratify_param = y_objetivo_modelo1
    else:
        print("Advertencia: No hay suficientes muestras en al menos una clase para estratificar. "
              "Se procederá sin estratificación. Revisa la distribución de tu variable objetivo.")
        stratify_param = None
        
    X_train, X_test, y_train, y_test = train_test_split(
        X_features, y_objetivo_modelo1, 
        test_size=0.25, 
        random_state=42, 
        stratify=stratify_param # Usar el parámetro de estratificación definido
    )
    print(f"Datos de entrenamiento divididos. X_train: {X_train.shape}, X_test: {X_test.shape}")
else:
    print("Error: X_features o y_objetivo_modelo1 no están listos para la división en el script de entrenamiento, "
          "o no tienen las mismas dimensiones, o y_objetivo_modelo1 es todo NaN.")

print("\nCelda 5: División de datos completada (o intentada).")


--- Dividiendo Datos de Entrenamiento ---
Error: X_features o y_objetivo_modelo1 no están listos para la división en el script de entrenamiento, o no tienen las mismas dimensiones, o y_objetivo_modelo1 es todo NaN.

Celda 5: División de datos completada (o intentada).


In [6]:
# CELDA 6: Modelo SVM con GridSearchCV para DificultadSituacion (Entrenamiento) (Modificada para GCS)

# ------------- POR FAVOR, CONFIGURA ESTAS VARIABLES (si no lo hiciste antes) -------------
# bucket_name = "TU_BUCKET_GCS" # Ya debería estar definido
# prefix_path_artefactos = "RUTA_PARA_ARTEFACTOS/" # Ya debería estar definido
# ---------------------------------------------------------------------------------------

print("\n--- Modelo SVM con GridSearchCV para DificultadSituacion (Entrenamiento) ---")

# Asegurarse de que y_train no esté vacío o todo NaN antes de proceder
if X_train.size > 0 and y_train.size > 0 and not pd.isna(y_train).all():
    # Definimos GridSearchCV sobre un pipeline SVM
    # Usando el kernel polinómico y el param_grid de tu notebook
    svm_pipeline_basico = GridSearchCV(
        estimator=make_pipeline(
            StandardScaler(),
            SVC(kernel='poly', random_state=42, probability=True) # probability=True puede ser costoso
        ),
        param_grid={
            'svc__C':       [1e-3, 1e-2, 1e-1, 1, 10, 100, 1e3],
            'svc__degree':  [2, 3, 4, 5],
            'svc__gamma':   ['scale', 'auto'],
            'svc__coef0':   [0.0, 0.1, 1.0, 10.0]
        },
        scoring='accuracy',
        cv=5, # StratifiedKFold se usa por defecto si el estimador es un clasificador y y es binario/multiclase
        n_jobs=-1, # Usar todos los procesadores disponibles
        verbose=2
    )
    print(f"Pipeline SVM + GridSearchCV definido.")

    print("\nEntrenando svm_pipeline_basico (GridSearchCV)...")
    try:
        svm_pipeline_basico.fit(X_train, y_train)
        print("✅ GridSearchCV completado.")
        print("Mejores parámetros encontrados:", svm_pipeline_basico.best_params_)
        print("Mejor puntuación (accuracy) en CV:", svm_pipeline_basico.best_score_)

        # Usar el mejor estimador encontrado por GridSearchCV para predicciones
        best_svm_model = svm_pipeline_basico.best_estimator_

        print("\nEvaluando en conjunto de prueba (entrenamiento)...")
        y_pred_test = best_svm_model.predict(X_test)
        accuracy_test = accuracy_score(y_test, y_pred_test)
        print(f"Accuracy en el conjunto de prueba: {accuracy_test:.4f}")
        
        # dificultad_map ya está definido globalmente en Celda 4
        dificultad_map_inverso = {v: k for k, v in dificultad_map.items()}
        
        # Asegurarse que y_test no esté vacío y clases_unicas_ordenadas se pueda generar
        if y_test.size > 0 and not pd.isna(y_test).all():
            # Para target_names, usamos y_test para reflejar las clases presentes en el conjunto de prueba
            # o y_objetivo_modelo1 para todas las clases originales
            clases_originales = sorted([key for key in dificultad_map.values()]) # 0, 1, 2
            clases_presentes_y_test = sorted(np.unique(y_test[~pd.isna(y_test)]).astype(int))

            # Usar las clases originales para el reporte para consistencia, si y_test no las tiene todas, se marcarán con 0.
            target_names_report = [dificultad_map_inverso.get(i, str(i)) for i in clases_originales]
            
            print("\nReporte de Clasificación (Conjunto de Prueba del Entrenamiento):")
            print(classification_report(y_test, y_pred_test, target_names=target_names_report, labels=clases_originales, zero_division=0))

            cm = confusion_matrix(y_test, y_pred_test, labels=clases_originales)
            plt.figure(figsize=(6,4))
            sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                        xticklabels=target_names_report, yticklabels=target_names_report)
            plt.xlabel('Predicción')
            plt.ylabel('Real')
            plt.title('Matriz de Confusión - SVM (GridSearchCV) (Entrenamiento)')
            plt.show()
        else:
            print("No se pudo generar el reporte de clasificación (y_test vacío o con NaNs).")

        # Guardar el MEJOR modelo entrenado (el pipeline completo con el mejor estimador) en GCS
        nombre_modelo_gcs = f"gs://{bucket_name}/{prefix_path_artefactos}modelo_svm_gs_entrenado.joblib"
        try:
            with fsspec.open(nombre_modelo_gcs, 'wb') as f:
                 joblib.dump(best_svm_model, f)
            print(f"\nMejor modelo (GridSearchCV) entrenado guardado en: {nombre_modelo_gcs}")
        except Exception as e:
            print(f"Error al guardar el modelo en GCS: {e}")
            print("Asegúrate de que fsspec y gcsfs están instalados y que la ruta del bucket es correcta.")
            
    except ValueError as ve:
        print(f"Error durante GridSearchCV o el entrenamiento: {ve}")
        print("Esto puede ocurrir si 'cv' es mayor que el número de muestras en la clase más pequeña "
              "durante la estratificación, o si y_train tiene un formato inesperado.")
    except Exception as e:
        print(f"Un error inesperado ocurrió durante el entrenamiento o evaluación: {e}")
else:
    print("No se puede proceder con el entrenamiento del modelo, X_train o y_train están vacíos o son inválidos.")

print("\nCelda 6: Entrenamiento del modelo y guardado en GCS completado (o intentado).")


--- Modelo SVM con GridSearchCV para DificultadSituacion (Entrenamiento) ---
No se puede proceder con el entrenamiento del modelo, X_train o y_train están vacíos o son inválidos.

Celda 6: Entrenamiento del modelo y guardado en GCS completado (o intentado).
