In [1]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

## Formulas para los coeficientes de regresion

In [None]:
X = X_train
Y = Y_train

In [None]:
# calcular las transpuestas, la inversa de la matriz y la Beta
XT_X = np.matmul(np.matrix.transpose(X), X)
XT_Y = np.matmul(np.matrix.transpose(X), Y)
XT_X_inv = np.linalg.inv(XT_X)
betas = np.matmul(XT_X_inv, XT_Y)

In [None]:
# calculo de la suma de cuadrados total (TSS)
TSS = np.matmul(np.matrix.transpose(Y), Y) - len(Y) * (Y.mean() **2)
TSS

# calcular la suma de cuadrados explicada (ESS)
ESS = np.matmul(np.matrix.transpose(Y - np.matmul(X, betas)), (Y - np.matmul(X, betas)))
ESS

# Calculo de la Residual Sum of Squares (RSS)
RSS= TSS - ESS
RSS 

# calculo de R2
R2 = 1 - (RSS / TSS)
R2

# Calculo de R2 ajustado
R2_AJ = 1 - (RSS / (len(Y) - X.shape[1])) / (TSS / (X.shape[0] - 1))
R2_AJ

## Formulas para la hipotesis de coeficientes de regresion

In [None]:
# calculo de la varianza del error de la regresion
var_error = RSS / (len(Y) - X.shape[1])
var_error

#valor del i-iesimo columna de la matriz X
i = 1

# calcular el error estandar del i-iesimo coeficiente
error_estandar = np.sqrt(var_error * XT_X_inv[i, i])
error_estandar


In [None]:
# COMPARACI√ìN DIRECTA: SIN NORMALIZAR vs NORMALIZADO
print("="*70)
print("             COMPARACI√ìN DE RESULTADOS")
print("="*70)
print(f"{'M√©trica':<25} {'Sin Normalizar':<20} {'Normalizado':<15} {'Correcto':<10}")
print("-"*70)
print(f"{'R¬≤':<25} {-34.56:<20.6f} {R_squared_norm:<15.6f} {'‚úÖ' if R_squared_norm > 0 else '‚ùå'}")
print(f"{'R¬≤ Ajustado':<25} {'N/A':<20} {R_squared_adj_norm:<15.6f} {'‚úÖ'}")
print(f"{'RSS':<25} {RSS:<20.2e} {RSS_norm:<15.6f} {'‚úÖ'}")
print(f"{'TSS':<25} {TSS:<20.2e} {TSS_norm:<15.6f} {'‚úÖ'}")
print(f"{'Predicciones v√°lidas':<25} {'NO (negativas)':<20} {'S√ç':<15} {'‚úÖ'}")
print("="*70)

print("\nüéØ CONCLUSI√ìN:")
print("La normalizaci√≥n fue ESENCIAL para obtener resultados v√°lidos.")
print("Sin normalizaci√≥n: Modelo completamente inv√°lido")
print("Con normalizaci√≥n: R¬≤ = 64.7% (muy bueno para este tipo de datos)")

In [None]:
print("="*55)
print("                    TABLA RESUMEN DE SIGNIFICANCIA")
print("="*55)

# Evaluar cada criterio
resultados = []
for i in range(X_final.shape[1]):
    # Criterio 1: Comparaci√≥n con valor cr√≠tico de t
    criterio1 = "S√ç" if abs(valores_t[i]) > t_critico else "NO"
    # Criterio 2: Comparaci√≥n con valor p
    criterio2 = "S√ç" if valores_p[i] < 0.05 else "NO"
    # Criterio 3: Intervalo de confianza no contiene 0
    inf = IC_inferior[i]
    sup = IC_superior[i]
    criterio3 = "S√ç" if inf * sup > 0 else "NO"
    
    # Consenso: S√ç si al menos 2 de 3 criterios dicen S√ç
    consenso_count = [criterio1, criterio2, criterio3].count("S√ç")
    consenso = "S√ç" if consenso_count >= 2 else "NO"
    
    resultados.append({
        'Beta': f"Œ≤{i}",
        'Criterio 1 (|t|>t_crit)': criterio1,
        'Criterio 2 (p<0.05)': criterio2,
        'Criterio 3 (IC no‚äÉ0)': criterio3,
        'Significativo': consenso
    })

# Crear DataFrame
df_significancia = pd.DataFrame(resultados)

# Mostrar la tabla
print(f"{'Beta':<4} {'Crit1':<6} {'Crit2':<6} {'Crit3':<6} {'Significativo':<10}")
print("-" * 55)

for _, row in df_significancia.iterrows():
    print(f"{row['Beta']:<4} {row['Criterio 1 (|t|>t_crit)']:<6} {row['Criterio 2 (p<0.05)']:<6} {row['Criterio 3 (IC no‚äÉ0)']:<6} {row['Significativo']:<8}")

print("="*55)