In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error
from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings('ignore')

# Instalar pysindy si no está disponible
try:
    import pysindy as ps
except ImportError:
    print("Instalando pysindy...")
    import subprocess
    subprocess.check_call(["pip", "install", "pysindy"])
    import pysindy as ps

# Cargar los datos
df = pd.read_csv('Sales-CSV970-1093.csv', delimiter=';')

print("=" * 80)
print("ANÁLISIS DE SISTEMA DINÁMICO NO LINEAL USANDO SINDy")
print("=" * 80)

print("\nDimensiones del dataset:", df.shape)
print("Columnas disponibles:")
print(df.columns.tolist())

# Selección de características clave para el sistema dinámico
# Vamos a usar las variables más correlacionadas con TotalVentaNeta
selected_features = [
    'TotalVentaNeta', 
    'Pico_0_B_M_A_TOP', 
    'Pico_B_M_A', 
    'EsFinSemana',
    'EsFechaNomina',
    'TotalDsctos',
    'UnidadesKit',
    'Gramos'
]

print(f"\nCaracterísticas seleccionadas para el sistema dinámico:")
for feature in selected_features:
    print(f"  - {feature}")

# Preparar datos para SINDy
data = df[selected_features].values
t = np.arange(len(data))  # Tiempo discreto

print(f"\nDatos preparados:")
print(f"  - Dimensiones: {data.shape}")
print(f"  - Período de tiempo: {t[0]} a {t[-1]}")

# Dividir datos (90% entrenamiento, 10% validación)
train_size = int(0.9 * len(data))
X_train = data[:train_size]
X_test = data[train_size:]
t_train = t[:train_size]
t_test = t[train_size:]

print(f"\nDivisión de datos:")
print(f"  - Entrenamiento: {X_train.shape[0]} muestras ({90}%)")
print(f"  - Validación: {X_test.shape[0]} muestras ({10}%)")

# Configurar el modelo SINDy
print("\n" + "=" * 80)
print("CONFIGURACIÓN DEL MODELO SINDy")
print("=" * 80)

# Biblioteca de funciones candidatas (polinomios hasta grado 2)
feature_names = selected_features

# Crear el diferenciador para calcular derivadas
differentiation_method = ps.FiniteDifference(order=2)

# Crear la biblioteca de características
feature_library = ps.PolynomialLibrary(degree=2, include_bias=True)

# Optimizador de umbral secuencial
optimizer = ps.STLSQ(threshold=0.1, alpha=0.05)

# Crear el modelo SINDy
model = ps.SindyModel(
    differentiation_method=differentiation_method,
    feature_library=feature_library,
    optimizer=optimizer,
    feature_names=feature_names
)

print("Configuración del modelo:")
print(f"  - Diferenciación: Diferencias finitas (orden 2)")
print(f"  - Biblioteca: Polinomios hasta grado 2")
print(f"  - Optimizador: STLSQ (threshold=0.1)")
print(f"  - Características: {len(feature_names)} variables")

# Entrenar el modelo
print("\n" + "=" * 80)
print("ENTRENAMIENTO DEL MODELO SINDy")
print("=" * 80)

print("Entrenando modelo...")
model.fit(X_train, t=t_train)

print("✓ Modelo entrenado exitosamente")

# Mostrar las ecuaciones identificadas
print("\n" + "=" * 80)
print("ECUACIONES DIFERENCIALES IDENTIFICADAS")
print("=" * 80)

model.print()

# Obtener los coeficientes en formato más legible
print("\n" + "=" * 80)
print("COEFICIENTES DETALLADOS DEL MODELO")
print("=" * 80)

coefficients = model.coefficients()
feature_names = model.get_feature_names()

print("\nSistema de ecuaciones diferenciales:")
print("dX/dt = F(X), donde X = [TotalVentaNeta, Pico_0_B_M_A_TOP, ...]")
print("\nCoeficientes para cada ecuación:")

for i, var_name in enumerate(feature_names):
    print(f"\nEcuación para d({var_name})/dt:")
    coefs = coefficients[i]
    non_zero_indices = np.where(np.abs(coefs) > 1e-10)[0]
    
    if len(non_zero_indices) == 0:
        print("  - Ecuación identificada como constante")
    else:
        equation = ""
        for idx in non_zero_indices:
            coef = coefs[idx]
            feature = feature_names[idx]
            if len(equation) > 0 and coef >= 0:
                equation += " + "
            elif coef < 0:
                equation += " - "
            equation += f"{abs(coef):.6f}·{feature}"
        print(f"  {equation}")

# PREDICCIÓN Y VALIDACIÓN
print("\n" + "=" * 80)
print("PREDICCIÓN Y VALIDACIÓN CON DATOS DE TEST")
print("=" * 80)

# Simular el sistema hacia adelante
print("Simulando el sistema dinámico...")
X_test_sim = model.simulate(X_test[0], t_test, integrator="odeint")

# Calcular métricas para la variable principal (TotalVentaNeta)
target_idx = 0  # Índice de TotalVentaNeta
y_true = X_test[:, target_idx]
y_pred = X_test_sim[:, target_idx]

# Métricas
r2 = r2_score(y_true, y_pred)
mse = mean_squared_error(y_true, y_pred)
mae = mean_absolute_error(y_true, y_pred)
rmse = np.sqrt(mse)

print(f"\nMÉTRICAS DE PREDICCIÓN - TotalVentaNeta:")
print(f"  R² (Coeficiente de determinación): {r2:.4f}")
print(f"  MSE (Error Cuadrático Medio): {mse:,.2f}")
print(f"  MAE (Error Absoluto Medio): {mae:,.2f}")
print(f"  RMSE (Raíz del Error Cuadrático Medio): {rmse:,.2f}")

# Error relativo porcentual
relative_error = np.mean(np.abs((y_true - y_pred) / y_true)) * 100
print(f"  Error Relativo Promedio: {relative_error:.2f}%")

# GRÁFICAS
print("\n" + "=" * 80)
print("GRÁFICAS DE RESULTADOS")
print("=" * 80)

# Crear gráficas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# Gráfica 1: Comparación TotalVentaNeta real vs predicha
axes[0, 0].plot(t_test, y_true, 'k-', linewidth=2, label='Real', alpha=0.8)
axes[0, 0].plot(t_test, y_pred, 'r--', linewidth=2, label='SINDy Predicho', alpha=0.8)
axes[0, 0].set_xlabel('Tiempo (muestras)')
axes[0, 0].set_ylabel('Total Venta Neta')
axes[0, 0].set_title(f'Predicción SINDy - TotalVentaNeta\nR² = {r2:.4f}')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Gráfica 2: Dispersión de predicciones
axes[0, 1].scatter(y_true, y_pred, alpha=0.6, color='blue')
min_val = min(y_true.min(), y_pred.min())
max_val = max(y_true.max(), y_pred.max())
axes[0, 1].plot([min_val, max_val], [min_val, max_val], 'r--', linewidth=2)
axes[0,  ][0, 1].set_xlabel('Valores Reales')
axes[0, 1].set_ylabel('Valores Predichos')
axes[0, 1].set_title('Dispersión: Real vs Predicho')
axes[0, 1].grid(True, alpha=0.3)

# Gráfica 3: Evolución temporal de todas las variables (primeras 4)
n_vars_to_plot = min(4, len(selected_features))
for i in range(n_vars_to_plot):
    axes[1, 0].plot(t_test, X_test[:, i], label=f'Real {selected_features[i]}', alpha=0.7)
    axes[1, 0].plot(t_test, X_test_sim[:, i], '--', 
                   label=f'Pred {selected_features[i]}', alpha=0.7)
axes[1, 0].set_xlabel('Tiempo (muestras)')
axes[1, 0].set_ylabel('Valores')
axes[1, 0].set_title('Evolución Temporal - Múltiples Variables')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Gráfica 4: Error de predicción
error = y_true - y_pred
axes[1, 1].plot(t_test, error, 'g-', alpha=0.7)
axes[1, 1].axhline(y=0, color='r', linestyle='--', alpha=0.5)
axes[1, 1].set_xlabel('Tiempo (muestras)')
axes[1, 1].set_ylabel('Error de Predicción')
axes[1, 1].set_title('Error de Predicción a lo largo del tiempo')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ANÁLISIS DETALLADO DE COEFICIENTES
print("\n" + "=" * 80)
print("ANÁLISIS DETALLADO DE COEFICIENTES IDENTIFICADOS")
print("=" * 80)

# Crear matriz de coeficientes legible
coef_df = pd.DataFrame(
    coefficients.T,
    columns=[f"d({name})/dt" for name in feature_names],
    index=model.get_feature_names()
)

# Mostrar solo coeficientes no cero
print("\nMatriz de coeficientes (solo valores diferentes de cero):")
non_zero_coefs = coef_df.loc[(coef_df.abs() > 1e-10).any(axis=1)]
print(non_zero_coefs)

# Análisis de términos más importantes
print(f"\nTérminos más importantes en el sistema:")
for i, var_name in enumerate(feature_names):
    coefs = coefficients[i]
    important_terms = []
    for j, coef in enumerate(coefs):
        if abs(coef) > 0.01:  # Umbral para considerar "importante"
            important_terms.append((feature_names[j], coef))
    
    if important_terms:
        important_terms.sort(key=lambda x: abs(x[1]), reverse=True)
        print(f"\nVariable {var_name}:")
        for term, coef_val in important_terms[:3]:  # Top 3 términos
            print(f"  - {term}: {coef_val:.6f}")

# VALIDACIÓN ADICIONAL: Predicción a más largo plazo
print("\n" + "=" * 80)
print("VALIDACIÓN ADICIONAL: PREDICCIÓN A LARGO PLAZO")
print("=" * 80)

# Simular desde el inicio de los datos de entrenamiento
print("Realizando simulación a largo plazo...")
t_long = np.arange(len(data))
X_long_sim = model.simulate(data[0], t_long, integrator="odeint")

# Calcular métricas para toda la serie
y_true_long = data[:, target_idx]
y_pred_long = X_long_sim[:, target_idx]

r2_long = r2_score(y_true_long, y_pred_long)
mse_long = mean_squared_error(y_true_long, y_pred_long)

print(f"Métricas para simulación completa:")
print(f"  R²: {r2_long:.4f}")
print(f"  MSE: {mse_long:,.2f}")

# Gráfica de simulación completa
plt.figure(figsize=(15, 6))
plt.plot(t_long, y_true_long, 'k-', linewidth=2, label='Real', alpha=0.7)
plt.plot(t_long, y_pred_long, 'r--', linewidth=1, label='SINDy Simulado', alpha=0.8)
plt.axvline(x=t_train[-1], color='g', linestyle=':', label='Fin entrenamiento')
plt.xlabel('Tiempo (muestras)')
plt.ylabel('Total Venta Neta')
plt.title(f'Simulación SINDy - Serie Completa\nR² = {r2_long:.4f}')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# RESUMEN FINAL
print("\n" + "=" * 80)
print("RESUMEN FINAL - MODELO SINDy")
print("=" * 80)

print(f"\nSISTEMA DINÁMICO IDENTIFICADO:")
print(f"  - Dimensiones: {len(feature_names)} variables")
print(f"  - Ecuaciones: {coefficients.shape[0]} ecuaciones diferenciales")
print(f"  - Términos no cero: {(np.abs(coefficients) > 1e-10).sum()} coeficientes")

print(f"\nRENDIMIENTO PREDICTIVO:")
print(f"  - Validación (10% datos): R² = {r2:.4f}")
print(f"  - Simulación completa: R² = {r2_long:.4f}")

print(f"\nINTERPRETACIÓN FÍSICA/MATEMÁTICA:")
print("El modelo SINDy ha identificado un sistema de ecuaciones diferenciales")
print("que describe la evolución temporal de las ventas. Las ecuaciones muestran")
print("cómo interactúan las diferentes variables del sistema.")

print(f"\nECUACIÓN PRINCIPAL (TotalVentaNeta):")
# Reconstruir la ecuación principal
coefs_main = coefficients[0]
non_zero_main = np.where(np.abs(coefs_main) > 1e-10)[0]

if len(non_zero_main) > 0:
    equation_main = "d(TotalVentaNeta)/dt = "
    terms = []
    for idx in non_zero_main:
        coef = coefs_main[idx]
        feature = feature_names[idx]
        sign = "+" if coef >= 0 else "-"
        terms.append(f"{sign} {abs(coef):.4f}·{feature}")
    equation_main += " ".join(terms)
    print(f"  {equation_main}")
else:
    print("  La derivada de TotalVentaNeta es aproximadamente cero")

print(f"\nCONCLUSIÓN:")
if r2 > 0.7:
    print("✓ El modelo SINDy captura efectivamente la dinámica no lineal del sistema")
elif r2 > 0.5:
    print("○ El modelo identifica patrones principales pero puede mejorarse")
else:
    print("△ La dinámica identificada es limitada, considere ajustar parámetros")

print(f"\nRECOMENDACIONES:")
print("1. Los coeficientes muestran las interacciones clave entre variables")
print("2. Los términos polinomiales capturan no linealidades en el sistema")
print("3. El modelo puede usarse para simulaciones y predicciones futuras")

ANÁLISIS DE SISTEMA DINÁMICO NO LINEAL USANDO SINDy

Dimensiones del dataset: (1092, 20)
Columnas disponibles:
['FechaDocumento', 'Pico_0_B_M_A_TOP', 'Pico_B_M_A', 'EsFechaNomina', 'EsMayor2M', 'EsFinSemana', 'TotalVentaNeta', 'VentaContado', 'VentaCredito', 'UnidadesKit', 'TotalDsctos', 'Gramos', 'VentasNORTE', 'VentasOCCIDENTE', 'VentasCENTROORIENTE', 'Dolar', 'IPC', 'EsPicoAumetado', 'ESPicoBinary', 'EsFechaEspecial']

Características seleccionadas para el sistema dinámico:
  - TotalVentaNeta
  - Pico_0_B_M_A_TOP
  - Pico_B_M_A
  - EsFinSemana
  - EsFechaNomina
  - TotalDsctos
  - UnidadesKit
  - Gramos

Datos preparados:
  - Dimensiones: (1092, 8)
  - Período de tiempo: 0 a 1091

División de datos:
  - Entrenamiento: 982 muestras (90%)
  - Validación: 110 muestras (10%)

CONFIGURACIÓN DEL MODELO SINDy


AttributeError: module 'pysindy' has no attribute 'SindyModel'