In [5]:
import pandas as pd
import numpy as np
import joblib
from sqlalchemy import create_engine
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

# Conexión a la base de datos
engine = create_engine("postgresql+psycopg2://pierola:pierola@148.251.179.86:5432/medsoft")

# Obtener el historial real
query_historial = """
    SELECT 
        EXTRACT(YEAR FROM fecha_apertura_po) AS año,
        EXTRACT(WEEK FROM fecha_apertura_po) AS semana,
        e.ruc_empresa,
        COUNT(*) AS cantidad_examenes
    FROM n_orden_ocupacional o
    JOIN empresas e ON o.razon_empresa = e.razon_empresa
    WHERE fecha_apertura_po IS NOT NULL
    GROUP BY año, semana, e.ruc_empresa
"""
df_hist = pd.read_sql_query(query_historial, engine)
df_hist['ruc_empresa'] = df_hist['ruc_empresa'].astype(str).str.replace(r'\D', '', regex=True).str.lstrip('0')

# Obtener todos los RUCs posibles (aunque no tengan historial)
query_rucs = "SELECT DISTINCT ruc_empresa FROM empresas WHERE ruc_empresa IS NOT NULL"
df_rucs = pd.read_sql_query(query_rucs, engine)
df_rucs['ruc_empresa'] = df_rucs['ruc_empresa'].astype(str).str.replace(r'\D', '', regex=True).str.lstrip('0')

# Entrenar LabelEncoder con TODOS los RUCs
le_ruc = LabelEncoder()
le_ruc.fit(df_rucs['ruc_empresa'])

# Aplicar codificación solo a los que tienen historial
df_hist['ruc_cod'] = le_ruc.transform(df_hist['ruc_empresa'])
df_hist['log_examenes'] = np.log1p(df_hist['cantidad_examenes'])

# Entrenamiento
X = df_hist[['ruc_cod', 'año', 'semana']]
y_log = df_hist['log_examenes']
y_original = df_hist['cantidad_examenes']

X_train, X_test, y_train_log, y_test_log, y_train_original, y_test_original = train_test_split(
    X, y_log, y_original, test_size=0.2, random_state=42
)

modelo = RandomForestRegressor(n_estimators=200, max_depth=10, random_state=42)
modelo.fit(X_train, y_train_log)

# Evaluar
y_pred_log = modelo.predict(X_test)
y_pred = np.expm1(np.clip(y_pred_log, 0, 15))

mae = mean_absolute_error(y_test_original, y_pred)
mape = mean_absolute_percentage_error(y_test_original, y_pred)

print(f"✅ MAE: {mae:.2f}")
print(f"✅ MAPE: {mape*100:.2f}%")

# Guardar
joblib.dump(modelo, "modelo_rf.pkl")
joblib.dump(le_ruc, "label_encoder_ruc.pkl")
print("✅ modelo_rf.pkl y label_encoder_ruc.pkl actualizados con todos los RUCs reales.")


✅ MAE: 6.73
✅ MAPE: 73.13%
✅ modelo_rf.pkl y label_encoder_ruc.pkl actualizados con todos los RUCs reales.


In [3]:
ruc = "20132367800"  # Usa uno real de tu base
print(ruc in le_ruc.classes_)

True


In [7]:
import pandas as pd
import numpy as np
import joblib
from sqlalchemy import create_engine
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_absolute_percentage_error

# 1. Conectar a PostgreSQL
engine = create_engine("postgresql+psycopg2://pierola:pierola@148.251.179.86:5432/medsoft")

# 2. Obtener datos históricos de exámenes
query_historial = """
    SELECT 
        EXTRACT(YEAR FROM fecha_apertura_po) AS año,
        EXTRACT(WEEK FROM fecha_apertura_po) AS semana,
        e.ruc_empresa,
        COUNT(*) AS cantidad_examenes
    FROM n_orden_ocupacional o
    JOIN empresas e ON o.razon_empresa = e.razon_empresa
    WHERE fecha_apertura_po IS NOT NULL
    GROUP BY año, semana, e.ruc_empresa
"""
df_hist = pd.read_sql_query(query_historial, engine)
df_hist['ruc_empresa'] = df_hist['ruc_empresa'].astype(str).str.replace(r'\D', '', regex=True).str.lstrip('0')

# 3. Obtener TODOS los RUCs posibles de la tabla empresas
query_rucs = "SELECT DISTINCT ruc_empresa FROM empresas WHERE ruc_empresa IS NOT NULL"
df_rucs = pd.read_sql_query(query_rucs, engine)
df_rucs['ruc_empresa'] = df_rucs['ruc_empresa'].astype(str).str.replace(r'\D', '', regex=True).str.lstrip('0')

# 4. Ajustar LabelEncoder con todos los RUCs (entrenamiento robusto)
le_ruc = LabelEncoder()
le_ruc.fit(df_rucs['ruc_empresa'])

# 5. Aplicar encoding solo sobre los datos históricos
df_hist = df_hist[df_hist['ruc_empresa'].isin(le_ruc.classes_)]  # por seguridad
df_hist['ruc_cod'] = le_ruc.transform(df_hist['ruc_empresa'])

# 6. Crear variable objetivo logarítmica
df_hist['log_examenes'] = np.log1p(df_hist['cantidad_examenes'])

# 7. Entrenar modelo
X = df_hist[['ruc_cod', 'año', 'semana']]
y_log = df_hist['log_examenes']
y_original = df_hist['cantidad_examenes']

X_train, X_test, y_train_log, y_test_log, y_train_original, y_test_original = train_test_split(
    X, y_log, y_original, test_size=0.2, random_state=42
)

modelo = RandomForestRegressor(n_estimators=200, max_depth=10, random_state=42)
modelo.fit(X_train, y_train_log)

# 8. Evaluación
y_pred_log = modelo.predict(X_test)
y_pred = np.expm1(np.clip(y_pred_log, 0, 15))

mae = mean_absolute_error(y_test_original, y_pred)
mape = mean_absolute_percentage_error(y_test_original, y_pred)

print(f"✅ MAE: {mae:.2f}")
print(f"✅ MAPE: {mape*100:.2f}%")

# 9. Guardar modelo y codificador
joblib.dump(modelo, "modelo_rf.pkl")
joblib.dump(le_ruc, "label_encoder_ruc.pkl")
print("✅ Archivos modelo_rf.pkl y label_encoder_ruc.pkl guardados correctamente.")


✅ MAE: 6.73
✅ MAPE: 73.13%
✅ Archivos modelo_rf.pkl y label_encoder_ruc.pkl guardados correctamente.


In [11]:
import pandas as pd
import numpy as np
import joblib

# Cargar modelo y LabelEncoder
modelo = joblib.load("modelo_rf.pkl")
le_ruc = joblib.load("label_encoder_ruc.pkl")

# Parámetros de entrada
ruc_prueba = "20137025354"
anio = 2025
semana = 27  # Puedes cambiar la semana si lo deseas

# Preprocesar RUC igual que en entrenamiento
ruc_limpio = ruc_prueba.strip().replace(".", "").replace("-", "").lstrip("0")

# Intentar transformar y predecir
try:
    ruc_cod = le_ruc.transform([ruc_limpio])[0]
    X = pd.DataFrame([[ruc_cod, anio, semana]], columns=['ruc_cod', 'año', 'semana'])

    pred_log = modelo.predict(X)[0]
    pred_real = np.expm1(np.clip(pred_log, 0, 15))  # Transformar de log a valor real
    pred_final = round(pred_real)

    print(f"✅ Predicción para RUC {ruc_prueba} (Año {anio}, Semana {semana}): {pred_final} exámenes")
except ValueError as e:
    print(f"❌ Error: {e}")


✅ Predicción para RUC 20137025354 (Año 2025, Semana 27): 33 exámenes


In [2]:
from sqlalchemy import create_engine
import pandas as pd

# Conexión
engine = create_engine("postgresql+psycopg2://pierola:pierola@148.251.179.86:5432/medsoft")

# Cargar sin convertir automáticamente las fechas
query = """
    SELECT o.fecha_apertura_po::text AS fecha_apertura_po, e.razon_empresa
    FROM n_orden_ocupacional o
    JOIN empresas e ON o.razon_empresa = e.razon_empresa
    WHERE o.fecha_apertura_po IS NOT NULL
"""

df = pd.read_sql_query(query, engine)

# Convertir manualmente las fechas, ignorando errores
df['razon_empresa'] = df['razon_empresa'].str.strip().str.upper()
df['fecha'] = pd.to_datetime(df['fecha_apertura_po'], errors='coerce')

# Diagnóstico
print("Fechas inválidas (NaT):", df['fecha'].isnull().sum())
print("Fechas válidas:", df['fecha'].notnull().sum())
print("Rango de fechas válidas:", df['fecha'].min(), "→", df['fecha'].max())

print("\nEjemplos de fechas inválidas:")
print(df[df['fecha'].isnull()].head(5))


Fechas inválidas (NaT): 16
Fechas válidas: 112251
Rango de fechas válidas: 2012-10-12 00:00:00 → 2025-10-05 00:00:00

Ejemplos de fechas inválidas:
      fecha_apertura_po                      razon_empresa fecha
11992     0001-01-01 BC  COMPAÑIA MINERA MINASPAMPA S.A.C.   NaT
11997     0001-01-01 BC  COMPAÑIA MINERA MINASPAMPA S.A.C.   NaT
12000     0001-01-01 BC                 PERFOR GKA E.I.R.L   NaT
12002     0001-01-01 BC  COMPAÑIA MINERA MINASPAMPA S.A.C.   NaT
12027     0001-01-01 BC  COMPAÑIA MINERA MINASPAMPA S.A.C.   NaT
