In [1]:
import os
import joblib

# Verificar qué archivos existen
print("Archivos en el directorio actual:")
for root, dirs, files in os.walk('.'):
    for file in files:
        if file.endswith('.joblib') or file.endswith('.pkl'):
            print(f"Encontrado: {os.path.join(root, file)}")

# Verificar específicamente la carpeta models
if os.path.exists('./models'):
    print("\nArchivos en ./models:")
    print(os.listdir('./models'))
else:
    print("La carpeta ./models no existe")

# Verificar ruta desde config
import sys
sys.path.append('..')  # Para acceder a config desde notebooks
from config.paths import PATHS

print(f"\nRuta esperada del modelo: {PATHS['model_joblib']}")
print(f"¿Existe? {os.path.exists(PATHS['model_joblib'])}")

Archivos en el directorio actual:
La carpeta ./models no existe

Ruta esperada del modelo: c:\Users\destr\Downloads\ML_FINAL\employ-kmeans\models/kmeans_model.joblib
¿Existe? True


In [8]:
# En tu notebook
import sys
sys.path.append('..')  # Para acceder a config desde notebooks
from config.paths import PATHS
import joblib

# Cargar modelo con la ruta correcta
#model = joblib.load(PATHS['model_joblib'])
model = joblib.load('../models/kmeans_model__oldc.joblib')

# Ver las columnas que espera
print("Columnas esperadas por el modelo:")
try:
    print(model.feature_names_in_)
except AttributeError:
    print("El modelo no tiene feature_names_in_")

# Ver los pasos del pipeline
print("\nPasos del pipeline:")
for step_name, step in model.named_steps.items():
    print(f"- {step_name}: {type(step).__name__}")

Columnas esperadas por el modelo:
['SEXO' 'EDAD' 'NIVEL_EDUCATIVO' 'TUVO_TRABAJO' 'BUSCA_OTRO_TRABAJO'
 'TAMANO_EMPRESA' 'QUIERE_MAS_HORAS' 'INGRESO_PRINCIPAL' 'SEGURO_SALUD'
 'DIAS_AUSENTE' 'DISCAPACIDAD' 'ETNIA_2' 'ETNIA_3' 'ETNIA_4' 'ETNIA_5'
 'ETNIA_6' 'ETNIA_7' 'ETNIA_8' 'ETNIA_9' 'TIPO_TRABAJADOR_2.0'
 'TIPO_TRABAJADOR_3.0' 'TIPO_TRABAJADOR_4.0' 'TIPO_TRABAJADOR_6.0'
 'TIPO_TRABAJADOR_7.0' 'TIPO_TRABAJADOR_8.0' 'TIPO_TRABAJADOR_9.0'
 'NIVEL_OCUPACION_2' 'NIVEL_OCUPACION_3' 'NIVEL_OCUPACION_4'
 'REGISTRO_SUNAT_2.0' 'REGISTRO_SUNAT_3.0' 'LIBROS_CONTABLES_2.0'
 'FRECUENCIA_PAGO_2.0' 'FRECUENCIA_PAGO_3.0' 'FRECUENCIA_PAGO_4.0'
 'FRECUENCIA_PAGO_5.0']

Pasos del pipeline:
- imputer: SimpleImputer
- scaler: StandardScaler
- pca: PCA
- kmeans: KMeans


In [None]:
# En tu notebook
import sys
sys.path.append('..')
from config.paths import PATHS
import joblib
import pandas as pd

# Cargar modelo
model = joblib.load(PATHS['model_joblib'])

# Datos COMPLETOS con todas las columnas requeridas
nuevos_datos = pd.DataFrame({
    # Variables binarias (1 o 2, el pipeline convierte 2→0)
    'SEXO': [1, 2, 1],  # 1=Hombre, 2=Mujer
    'TUVO_TRABAJO': [1, 2, 1],  # 1=Sí, 2=No
    'BUSCA_OTRO_TRABAJO': [None, 2, 1],
    'QUIERE_MAS_HORAS': [1, 2, 1],
    'SEGURO_SALUD': [1, 2, 1],
    'LIMIT_MOVIMIENTO': [1, None, 1],
    'LIMIT_VISION': [1, 2, 1],
    'LIMIT_COMUNICACION': [1, 2, 1],
    'LIMIT_AUDICION': [1, 2, 1],
    'LIMIT_APRENDIZAJE': [1, 2, 1],
    'LIMIT_RELACION': [1, 2, 1],
    
    # Variables numéricas (valores reales)
    'EDAD': [25, 45, 35],
    'INGRESO_PRINCIPAL': [1500.0, 2500.0, 1800.0],
    'DIAS_AUSENTE': [0, 2, 1],
    
    # ⚠️ COLUMNAS QUE FALTABAN ⚠️
    'NIVEL_EDUCATIVO': [10, 8, 6],  # Valores numéricos
    'TAMANO_EMPRESA': [3.0, 2.0, 1.0],  # Valores numéricos
    
    # Variables categóricas (valores como strings)
    'ETNIA': ['Mestizo', 'Indígena', 'Blanco'],
    'TIPO_TRABAJADOR': [None, 'Obrero', 'Independiente'],
    'NIVEL_OCUPACION': ['Profesional', 'Técnico', 'Operario'],
    'REGISTRO_SUNAT': [None, 'No', 'Sí'],
    'LIBROS_CONTABLES': ['Sí', 'No', 'Sí'],
    'FRECUENCIA_PAGO': ['Mensual', 'Semanal', 'Quincenal']
})

print("Columnas en los datos:")
print(list(nuevos_datos.columns))

# Predecir
try:
    clusters = model.predict(nuevos_datos)
    print(f"¡Éxito! Clusters asignados: {clusters}")
except Exception as e:
    print(f"Error: {e}")

Columnas en los datos:
['SEXO', 'TUVO_TRABAJO', 'BUSCA_OTRO_TRABAJO', 'QUIERE_MAS_HORAS', 'SEGURO_SALUD', 'LIMIT_MOVIMIENTO', 'LIMIT_VISION', 'LIMIT_COMUNICACION', 'LIMIT_AUDICION', 'LIMIT_APRENDIZAJE', 'LIMIT_RELACION', 'EDAD', 'INGRESO_PRINCIPAL', 'DIAS_AUSENTE', 'NIVEL_EDUCATIVO', 'TAMANO_EMPRESA', 'ETNIA', 'TIPO_TRABAJADOR', 'NIVEL_OCUPACION', 'REGISTRO_SUNAT', 'LIBROS_CONTABLES', 'FRECUENCIA_PAGO']
¡Éxito! Clusters asignados: [2 2 0]




In [17]:
# Cargar desde tu archivo de ejemplo
nuevos_datos = pd.read_csv('new_data_sample.csv')

nuevos_datos = nuevos_datos.replace([''], None)

# También puedes reemplazar valores faltantes generados por dobles comas (,,) al leer el CSV
nuevos_datos = nuevos_datos.where(pd.notnull(nuevos_datos), None)

# Predecir
try:
    clusters = model.predict(nuevos_datos)
    print(f"¡Éxito! Clusters asignados: {clusters}")
except Exception as e:
    print(f"Error: {e}")

¡Éxito! Clusters asignados: [3 2 3 3 1 3 1 1 2 2 3 3 2 0 0 3 0 3 1 2 0 1 0 0 1]
