In [68]:
##%%
import pandas as pd
import joblib, json
import numpy as np

In [69]:
##%%
##################################################################################################
Train = pd.read_csv("../../01_preprocessing/preprocessing/T_train_final_objetivo.csv")
Test = pd.read_csv("../../01_preprocessing/preprocessing/T_test_final_objetivo.csv")
##################################################################################################

In [70]:
X_train = Train.iloc[:, :-1]
y_train = Train.iloc[:, -1].to_numpy(dtype=float)

X_test = Test.iloc[:, :-1]
y_test = Test.iloc[:, -1].to_numpy(dtype=float)

In [71]:
modelo = joblib.load("../../02_lineal_regression_results/regression_lineal/modelo_reg_lineal.pkl")
 

In [72]:
intercepto = modelo.named_steps["linreg"].intercept_
feature_names = modelo.named_steps["dropper"].get_feature_names_out(X_train.columns)
coefs = modelo.named_steps["linreg"].coef_

In [73]:
print(f"intercepto:{intercepto}")
print(f"feature_names:{feature_names}")
print(f"coefs:{coefs}")

intercepto:0.5768039164542421
feature_names:['PC1' 'PC2' 'PC3' 'PC4' 'PC5' 'PC6' 'PC7' 'PC8']
coefs:[ 0.14825394  0.06777929  0.04157573 -0.0108012  -0.355067   -0.2641214
 -0.32222019 -0.24335835]


In [74]:
# === Betas en espacio post-`pre` (antes del StandardScaler de la PCA) ===

# 1) Cargar el pipeline numérico usado en PCA_full
########################################################################################
pca_pipe = joblib.load("../../01_preprocessing/preprocessing/pca_pipe_num.joblib")
########################################################################################
pre = pca_pipe.named_steps["pre"]  # ColumnTransformer (pre)
pre

0,1,2
,transformers,"[('num_mean_min', ...), ('num_mean_std', ...)]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,False
,force_int_remainder_cols,'deprecated'

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,feature_range,"(0, ...)"
,copy,True
,clip,False

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [75]:
scaler = pca_pipe.named_steps["std_for_pca"]  # StandardScaler
scaler

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [76]:
pca = pca_pipe.named_steps["pca"]  # PCA(n_components=k)
pca

0,1,2
,n_components,8
,copy,True
,whiten,False
,svd_solver,'full'
,tol,0.0
,iterated_power,'auto'
,n_oversamples,10
,power_iteration_normalizer,'auto'
,random_state,0


In [77]:
# 2) Extraer objetos necesarios
pre_feature_names = pre.get_feature_names_out()  # nombres de las p numéricas post-`pre`
pre_feature_names

array(['class', 'alpha', 'delta', 'u', 'g', 'r', 'i', 'z'], dtype=object)

In [78]:
mu = scaler.mean_  # medias de las p numéricas pre-`pre`
mu

array([ 3.12047619e-01, -1.93267624e-16, -8.12048841e-18,  3.73813150e-16,
        2.77450021e-16,  3.00187388e-16,  1.94837585e-15,  1.08489725e-15])

In [79]:
print(sorted(mu, reverse=True))  # medias ordenadas de mayor a menor

[np.float64(0.3120476190476191), np.float64(1.9483758521909336e-15), np.float64(1.0848972514005644e-15), np.float64(3.7381314974655174e-16), np.float64(3.0018738817445757e-16), np.float64(2.7745002063013435e-16), np.float64(-8.12048840868686e-18), np.float64(-1.9326762412674724e-16)]


In [80]:
sig = scaler.scale_  # desviaciones estándar de las p numéricas pre-`pre`
sig

array([0.40858944, 1.        , 1.        , 1.        , 1.        ,
       1.        , 1.        , 1.        ])

In [81]:
print(sorted(sig))

[np.float64(0.40858944071740233), np.float64(0.9999999999999999), np.float64(0.9999999999999999), np.float64(1.0), np.float64(1.0), np.float64(1.0), np.float64(1.0), np.float64(1.0)]


In [82]:
C = pca.components_
C  # componentes principales (autovectores) de la PCA

array([[-6.50629109e-02, -8.15922430e-03, -3.90796131e-03,
         3.88451619e-01,  4.61885761e-01,  4.75706212e-01,
         4.60200563e-01,  4.39739580e-01],
       [ 8.43324089e-01, -2.55149354e-01, -1.04609829e-01,
        -2.95563606e-01, -1.40375212e-01,  6.83718674e-02,
         1.90150762e-01,  2.54686084e-01],
       [ 2.21624960e-01,  6.61941362e-01,  7.05655427e-01,
        -7.73570844e-02, -2.76256802e-02,  2.23918638e-02,
         5.45078153e-02,  6.74287365e-02],
       [ 1.12597173e-01,  7.04259378e-01, -7.00168998e-01,
         1.04234047e-04, -1.76859938e-02,  2.65023459e-03,
         1.44801785e-02,  2.39682227e-02],
       [ 4.64304679e-01, -2.54897079e-02,  2.51103201e-02,
         7.17580501e-01,  1.96317041e-01, -9.30425483e-02,
        -2.81021491e-01, -3.76893568e-01],
       [ 8.19375819e-02,  5.85526832e-03, -1.47780605e-02,
        -4.81464598e-01,  6.52667744e-01,  3.11616574e-01,
        -1.03518472e-01, -4.76895430e-01],
       [ 2.08381597e-02,  1.380783

In [83]:
B = pca.explained_variance_
B  # valores propios (autovalores) de la PCA

array([4.29347108, 1.15429914, 1.13219919, 0.86335876, 0.43489261,
       0.08807791, 0.02151465, 0.01233904])

In [84]:
##%%
# 3) Aislar betas de Componentes Principales del modelo (según prefijo)
pc_prefix = "PC"
# Creación de la máscara para componentes principales
pc_mask = np.array([c.startswith(pc_prefix) for c in feature_names], dtype=bool)
'''
¿Qué hace?
 
Crea un array booleano que identifica qué características son componentes principales
 
feature_names contiene: ['PC1', 'PC2', 'PC3', 'PC4', 'PC5', 'PC6', 'PC7', 'sex___2']
 
pc_mask resulta en: [True, True, True, True, True, True, True, False]
 
¿Por qué? El modelo fue entrenado con PCs + variables categóricas, necesitamos separar solo los coeficientes de los PCs.
'''
# Extraccion de coeficientes de componentes principales
beta_PC = coefs[pc_mask]  # (k,)
'''
[ 24.43264545 -24.54137741   5.55415126 -14.59504345  -8.02408632
   7.95602894 -10.24189118]
'''
'''
¿Qué hace?
 
Extrae solo los coeficientes correspondientes a los 7 componentes principales
 
beta_PC tiene forma (7,) con los valores: [24.43, -24.54, 5.55, -14.60, -8.02, 7.96, -10.24]
'''
 
# 4) Transformacion inversa: PCs -> post-`pre` (Variables Estandarizadas
gamma = C.T @ beta_PC
'''[ -6.93778367 -10.74039297  27.18934939   6.48784124  -1.5529309
   3.21976253  20.9767666   -2.10800547  16.54053732]
'''
'''
Matemáticamente:
 
C es la matriz de componentes (7×9)
 
C.T es su transpuesta (9×7)
 
beta_PC es el vector de coeficientes (7×1)
 
gamma resulta en un vector (9×1)
 
¿Qué representa?
 
Convierte los coeficientes del espacio de componentes principales de vuelta al espacio de variables estandarizadas
 
Fórmula: γ = C^T × β_PC
'''
 
# Transformación: Variables estandarizadas → Variables originales
alpha_pre = gamma / sig  # betas por cada variable numérica post-`pre` (p,)
'''
¿Qué hace?
 
Convierte coeficientes de variables estandarizadas a variables en escala original
 
sig contiene las desviaciones estándar usadas en la estandarización
 
Fórmula: α = γ / σ
'''
#Ajuste del Intercepto
beta0_pre = intercepto - np.sum(gamma * (mu / sig))  # intercepto en el mismo espacio
 
'''
¿Por qué es necesario?
 
El intercepto original fue calculado con variables estandarizadas
 
Necesitamos ajustarlo para variables en escala original
 
Fórmula: β₀_nuevo = β₀_original - Σ(γᵢ × μᵢ/σᵢ)
'''
'''
Flujo completo de la transformación:
Variables Originales → Estandarizadas → PCA → Modelo → Coeficientes PCs
                                                            ↓
Variables Originales ← Estandarizadas ← PCA ← Transformación Inversa
'''
 
# 5) Empaquetar resultados
# Betas despues del Post Procesamiento
betas_post_pre_df = pd.DataFrame({
    "feature_post_pre": pre_feature_names,
    "beta_post_pre": alpha_pre
})
########################################################################################################
with open("../../01_preprocessing/preprocessing/pca_metadata.json", "r", encoding="utf-8") as f:
#######################################################################################################
    meta = json.load(f)
 
orden_original_num = meta["cols_num"]  # orden original de columnas numéricas
presentes = set(betas_post_pre_df["feature_post_pre"].tolist())
orden_final = [c for c in orden_original_num if c in presentes]
 
betas_post_pre_df = (
    betas_post_pre_df
    .set_index("feature_post_pre")
    .loc[orden_final]
    .reset_index()
)
 
print("\nIntercepto (post `pre`):", beta0_pre)
print("\nBetas numéricas (post `pre`, en orden original):")
print(betas_post_pre_df)


Intercepto (post `pre`): 0.6806731408962144

Betas numéricas (post `pre`, en orden original):
  feature_post_pre  beta_post_pre
0            alpha       0.008686
1            delta       0.023952
2                u      -0.066969
3                g      -0.279531
4                r       0.012437
5                i       0.522861
6                z       0.109514
7            class      -0.332863


In [85]:
##%%
# === Predicción en TEST ===
yhat_test = modelo.predict(X_test)

 

# Métricas básicas en test
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
import math

 

r2_test   = r2_score(y_test, yhat_test)
rmse_test = math.sqrt(mean_squared_error(y_test, yhat_test))
mae_test  = mean_absolute_error(y_test, yhat_test)

 

print({"R2_test": r2_test, "RMSE_test": rmse_test, "MAE_test": mae_test})

 

# También en train, para comparar generalización
yhat_train = modelo.predict(X_train)
r2_train   = r2_score(y_train, yhat_train)
rmse_train = math.sqrt(mean_squared_error(y_train, yhat_train))
mae_train  = mean_absolute_error(y_train, yhat_train)
print({"R2_train": r2_train, "RMSE_train": rmse_train, "MAE_train": mae_train})



{'R2_test': 0.30227535720048515, 'RMSE_test': 0.617958380345526, 'MAE_test': 0.3629814719100491}
{'R2_train': 0.3102828684301444, 'RMSE_train': 0.6068306813978636, 'MAE_train': 0.3585086847683358}


In [86]:
##%%
# Veredicto
 
# NRMSE y mejora vs media en TEST
std_y_test = float(np.std(y_test, ddof=0))
nrmse_test = rmse_test / (std_y_test + 1e-12)
mejora_pct = 100.0 * (1.0 - nrmse_test)  # % mejor que predecir la media
 
# Semáforo (sin CV), "aquí dentro"
verde   = (r2_test >= 0.70) and (nrmse_test <= 0.50)
amarilo = (0.40 <= r2_test < 0.70) or (0.50 < nrmse_test <= 0.80)
if verde:
    veredicto = "VERDE"
    significado = "confiable para predecir aquí dentro."
elif amarilo:
    veredicto = "AMARILLO"
    significado = "usable con cautela (depende del caso de uso)"
else:
    veredicto = "ROJO"
    significado = "no confiable para predicción aquí dentro"
 
# Generar explicación humanizada automáticamente
def generar_explicacion(r2_test, nrmse_test, mejora_pct, rmse_test, mae_test, veredicto):
    explicacion = []
 
    # Explicación basada en R²
    if r2_test >= 0.8:
        explicacion.append(f"• El modelo explica un {r2_test:.1%} de la variabilidad en los datos, lo que indica un excelente ajuste.")
        explicacion.append("  🎯 **Analogía**: Como un pronóstico del tiempo que acierta 8 de cada 10 días - muy confiable.")
    elif r2_test >= 0.6:
        explicacion.append(f"• El modelo captura un {r2_test:.1%} de la variabilidad, mostrando una buena capacidad predictiva.")
        explicacion.append("  🎯 **Analogía**: Similar a un forecast económico que identifica correctamente las tendencias principales.")
    elif r2_test >= 0.4:
        explicacion.append(f"• Con un R² del {r2_test:.1%}, el modelo tiene capacidad predictiva moderada.")
        explicacion.append("  🎯 **Analogía**: Como un detector de lluvia que funciona bien para saber si lloverá, pero no cuánto.")
    else:
        explicacion.append(f"• El R² de {r2_test:.1%} sugiere que el modelo tiene capacidad predictiva limitada.")
        explicacion.append("  🎯 **Analogía**: Parecido a adivinar el clima lanzando una moneda - mejor que nada, pero poco confiable.")
 
    # Explicación basada en NRMSE
    if nrmse_test <= 0.3:
        explicacion.append(f"• Los errores de predicción son muy bajos ({nrmse_test:.1%} de la variabilidad total).")
        explicacion.append("  📏 **Analogía**: Como medir con una regla milimetrada - alta precisión en las estimaciones.")
    elif nrmse_test <= 0.5:
        explicacion.append(f"• Los errores son moderados ({nrmse_test:.1%} de la variabilidad total).")
        explicacion.append("  📏 **Analogía**: Similar a usar una cinta métrica - útil para la mayoría de propósitos prácticos.")
    elif nrmse_test <= 0.7:
        explicacion.append(f"• Los errores son considerables ({nrmse_test:.1%} de la variabilidad total).")
        explicacion.append("  📏 **Analogía**: Como estimar distancias a ojo - sirve para aproximaciones gruesas.")
    else:
        explicacion.append(f"• Los errores son muy altos ({nrmse_test:.1%} de la variabilidad total).")
        explicacion.append("  📏 **Analogía**: Parecido a adivinar el tamaño de algo desde lejos - muy impreciso.")
 
    # Explicación basada en mejora vs media
    if mejora_pct > 50:
        explicacion.append(f"• Es un {mejora_pct:.0f}% mejor que simplemente predecir el promedio, una mejora sustancial.")
        explicacion.append("  🚀 **Analogía**: Como usar GPS vs. solo un mapa de carreteras - mucho más eficiente.")
    elif mejora_pct > 20:
        explicacion.append(f"• Mejora en un {mejora_pct:.0f}% respecto a predecir la media.")
        explicacion.append("  🚀 **Analogía**: Similar a tener indicaciones de tráfico en tiempo real - claramente mejor que sin ellas.")
    elif mejora_pct > 0:
        explicacion.append(f"• Solo un {mejora_pct:.0f}% mejor que predecir el promedio, mejora marginal.")
        explicacion.append("  🚀 **Analogía**: Como tener una brújula en lugar de solo el norte - ayuda, pero no demasiado.")
    else:
        explicacion.append("• No mejora respecto a predecir el valor promedio.")
        explicacion.append("  🚀 **Analogía**: Como intentar navegar sin brújula ni mapa - no aporta ventaja.")
 
    # Comparación entre train y test (si estuvieran disponibles ambos)
    if 'r2_train' in locals():
        sobreajuste = r2_train - r2_test
        if sobreajuste > 0.2:
            explicacion.append(f"• Hay indicios de sobreajuste (R² train: {r2_train:.3f} vs test: {r2_test:.3f}).")
            explicacion.append("  ⚠️ **Analogía**: Como un estudiante que memoriza las respuestas pero no entiende el concepto.")
        elif sobreajuste < 0.05:
            explicacion.append("• El modelo generaliza bien, sin signos evidentes de sobreajuste.")
            explicacion.append("  ✅ **Analogía**: Similar a un atleta que entrena y compite igual de bien - consistente.")
 
    # Interpretación del veredicto con analogías finales
    if veredicto == "VERDE":
        explicacion.append("\n✅ **Conclusión**: El modelo es confiable para hacer predicciones en contextos similares a los datos de prueba.")
        explicacion.append("🎯 **Analogía final**: Como un piloto automático confiable - puedes usarlo para navegar con seguridad.")
    elif veredicto == "AMARILLO":
        explicacion.append("\n⚠️ **Conclusión**: Úsalo con precaución - puede ser útil para identificar tendencias pero no para predicciones precisas.")
        explicacion.append("🎯 **Analogía final**: Como el forecast de fin de semana - útil para planear, pero lleva paraguas por si acaso.")
    else:
        explicacion.append("\n❌ **Conclusión**: Se recomienda revisar las variables o considerar modelos alternativos.")
        explicacion.append("🎯 **Analogía final**: Como un mapa muy antiguo - mejor conseguir uno actualizado o usar otros métodos.")
 
    return "\n".join(explicacion)
 
# Generar la explicación
explicacion_humanizada = generar_explicacion(
    r2_test, nrmse_test, mejora_pct, rmse_test, mae_test, veredicto
)
 
resumen = {
    "R2_test": r2_test,
    "MAE_test": mae_test,
    "RMSE_test": rmse_test,
    "std(y_test)": std_y_test,
    "NRMSE_test": nrmse_test,
    "Mejora_vs_media_%": mejora_pct,
    "Veredicto": veredicto,
    "significado": significado
}
 
df_resumen = pd.DataFrame(resumen, index=[0]).T
df_resumen.columns = ["Valor"]
df_resumen.index.name = "Métrica"
 
print(df_resumen)
print("\n" + "="*60)
print("EXPLICACIÓN DEL VEREDICTO:")
print("="*60)
print(explicacion_humanizada)
 
def explicacion_breve(r2_test, nrmse_test, mejora_pct, veredicto):
    base = f"Con un R² de {r2_test:.3f} y un error relativo (NRMSE) de {nrmse_test:.3f}, "
 
    # Añadir analogías a la versión breve también
    if veredicto == "VERDE":
        analogia = "Como un GPS confiable - puedes seguir sus indicaciones con seguridad."
        return base + f"el modelo es robusto y explica bien los patrones en los datos, siendo {mejora_pct:.0f}% mejor que usar promedios simples. {analogia}"
    elif veredicto == "AMARILLO":
        analogia = "Similar a un pronóstico de lluvia - útil para planear, pero lleva sombrilla por si acaso."
        return base + f"el modelo tiene capacidad predictiva limitada ({mejora_pct:.0f}% mejor que promedios), adecuado para análisis exploratorios pero no para decisiones críticas. {analogia}"
    else:
        analogia = "Como un mapa desactualizado - mejor buscar herramientas más precisas."
        return base + f"el modelo no supera significativamente las predicciones básicas ({mejora_pct:.0f}% mejora), recomendando revisar el enfoque. {analogia}"
 
print("\n" + "🔍 RESUMEN INTERPRETATIVO:")
print("="*40)
print(explicacion_breve(r2_test, nrmse_test, mejora_pct, veredicto))

                                                      Valor
Métrica                                                    
R2_test                                            0.302275
MAE_test                                           0.362981
RMSE_test                                          0.617958
std(y_test)                                        0.739805
NRMSE_test                                         0.835299
Mejora_vs_media_%                                 16.470087
Veredicto                                              ROJO
significado        no confiable para predicción aquí dentro

EXPLICACIÓN DEL VEREDICTO:
• El R² de 30.2% sugiere que el modelo tiene capacidad predictiva limitada.
  🎯 **Analogía**: Parecido a adivinar el clima lanzando una moneda - mejor que nada, pero poco confiable.
• Los errores son muy altos (83.5% de la variabilidad total).
  📏 **Analogía**: Parecido a adivinar el tamaño de algo desde lejos - muy impreciso.
• Solo un 16% mejor que predecir el promedi

In [87]:
##%%
import os, zipfile, glob
 
# Carpeta destino en tu PC
dst_dir = r"mi_regresion_lineal"
os.makedirs(dst_dir, exist_ok=True)
zip_path = os.path.join(dst_dir, "mi_reg_lin_artifacts_bundle.zip")
 
# Archivos que quieres incluir (ajusta si te falta alguno)
candidates = [
    "modelo_reg_lineal.pkl",
    "expected_columns.json",
]
 
present = [f for f in candidates if os.path.exists(f)]
# Si quieres incluir una carpeta (p. ej., 'sample_data'), descomenta:
# for root, _, files in os.walk("sample_data"):
#     for f in files:
#         present.append(os.path.join(root, f))
 
with zipfile.ZipFile(zip_path, "w", compression=zipfile.ZIP_DEFLATED) as zf:
    for f in present:
        zf.write(f, arcname=os.path.basename(f))  # guarda sin subcarpetas
 
print("ZIP creado en:", zip_path)
print("Incluidos:", present)

ZIP creado en: mi_regresion_lineal\mi_reg_lin_artifacts_bundle.zip
Incluidos: []
