In [1]:
import sys
sys.path.append("..")
from utilities import *

warnings.filterwarnings("ignore")

raw_data = pd.read_excel("../data/Datos_Market_copy.xlsx")

sa = SalesAnalysis(raw_data)



In [2]:
%run 1_preprocessing_data.ipynb

In [3]:
(
    data,
    filter_data, 
    train_data,
    test_data,
    y_train_boxcox,
    y_test_boxcox,
    boxcox_transformation_info,
) = run_preprocessing(ARIMA_model=False)


In [4]:
print(train_data.dtypes)

date            datetime64[ns]
volume.sales           float64
unit.sales               int64
value.sales            float64
supermarket             object
variant                 object
pack.size               object
brand                   object
price                  float64
dtype: object


ARIMAX

Realizamos un modelo ARIMA + ex√≥genas global

1. Modelo de regresi√≥n para sacar las variables ex√≥genas junto a sus coeficientes

In [5]:
model, selected_var, deleted_var = sa.regression_with_backward_elimination(train_data, verbose=True)
print(model.summary())


F√≥rmula del modelo:
volume_sales ~ price + C(supermarket) + C(variant) + C(pack_size) + C(brand) + (price + C(brand)) ** 2
Iteraci√≥n 1: Eliminando 'C(pack_size)[T.450 - 600GR]' (p-valor = 0.8764)
Iteraci√≥n 2: Eliminando 'price' (p-valor = 0.5457)
Iteraci√≥n 3: Eliminando 'C(supermarket)[T.supermarket-C]' (p-valor = 0.0649)
Iteraci√≥n 4: Eliminando 'price:C(brand)[T.brand-15]' (p-valor = 0.0688)
Iteraci√≥n 5: Todas las variables restantes son significativas (p-valor ‚â§ 0.05)

Resumen:
  Variables iniciales: 18
  Variables seleccionadas: 14
  Variables eliminadas: 4
  R¬≤ ajustado: 0.3850
                            OLS Regression Results                            
Dep. Variable:           volume_sales   R-squared:                       0.387
Model:                            OLS   Adj. R-squared:                  0.385
Method:                 Least Squares   F-statistic:                     167.6
Date:                Tue, 27 Jan 2026   Prob (F-statistic):               0.00
Time:  

In [None]:
# ==========================================
# Funci√≥n para crear variables dummy de intervenci√≥n
# ==========================================

def add_intervention_dummy(
    train_data,
    x_train_exogs,
    intervention_date,
    dummy_name,
    brand=None,
    supermarkets=None,
    variants=None,
    pack_sizes=None,
    test_data=None,
    verbose=True
):
    """
    Crea y a√±ade una variable dummy de intervenci√≥n a x_train_exogs.
    
    Parameters:
    -----------
    train_data : pd.DataFrame
        DataFrame de entrenamiento con columnas: date, brand, supermarket, variant, pack.size
    x_train_exogs : pd.DataFrame
        DataFrame de variables ex√≥genas al que se a√±adir√° la dummy
    intervention_date : str or pd.Timestamp
        Fecha de intervenci√≥n (formato 'YYYY-MM-DD' o Timestamp)
    dummy_name : str
        Nombre de la variable dummy (ej: 'intervention_2023_03')
    brand : str or list, optional
        Marca(s) a filtrar. Si None, no filtra por brand
    supermarkets : str or list, optional
        Supermercado(s) a filtrar. Si None, no filtra por supermarket
    variants : str or list, optional
        Variante(s) a filtrar. Si None, no filtra por variant
    pack_sizes : str or list, optional
        Tama√±o(s) de pack a filtrar. Si None, no filtra por pack.size
    test_data : pd.DataFrame, optional
        DataFrame de test para crear tambi√©n la dummy en test
    verbose : bool, default=True
        Si True, imprime informaci√≥n sobre la dummy creada
    
    Returns:
    --------
    x_train_exogs : pd.DataFrame
        DataFrame de variables ex√≥genas con la dummy a√±adida
    intervention_dummy_series : pd.Series
        Serie con la dummy para train_data
    intervention_dummy_test_series : pd.Series or None
        Serie con la dummy para test_data (si se proporcion√≥ test_data)
    """
    # Convertir fecha a datetime
    if isinstance(intervention_date, str):
        intervention_date = pd.to_datetime(intervention_date)
    
    # Asegurar que train_data['date'] es datetime
    train_data = train_data.copy()
    train_data['date'] = pd.to_datetime(train_data['date'])
    
    # Crear condiciones de filtrado
    conditions = train_data['date'] >= intervention_date
    
    if brand is not None:
        if isinstance(brand, str):
            conditions = conditions & (train_data['brand'] == brand)
        else:
            conditions = conditions & (train_data['brand'].isin(brand))
    
    if supermarkets is not None:
        if isinstance(supermarkets, str):
            conditions = conditions & (train_data['supermarket'] == supermarkets)
        else:
            conditions = conditions & (train_data['supermarket'].isin(supermarkets))
    
    if variants is not None:
        if isinstance(variants, str):
            conditions = conditions & (train_data['variant'] == variants)
        else:
            conditions = conditions & (train_data['variant'].isin(variants))
    
    if pack_sizes is not None:
        if isinstance(pack_sizes, str):
            conditions = conditions & (train_data['pack.size'] == pack_sizes)
        else:
            conditions = conditions & (train_data['pack.size'].isin(pack_sizes))
    
    # Crear la dummy para train_data
    intervention_dummy = conditions.astype(int)
    intervention_dummy_series = pd.Series(
        intervention_dummy.values,
        index=train_data.index,
        name=dummy_name
    )
    
    # Alinear con x_train_exogs
    intervention_dummy_aligned = intervention_dummy_series.reindex(x_train_exogs.index, fill_value=0)
    
    # A√±adir a x_train_exogs
    x_train_exogs = pd.concat([x_train_exogs, intervention_dummy_aligned], axis=1)
    
    if verbose:
        print(f"\n‚úÖ Dummy '{dummy_name}' a√±adida")
        print(f"   - N√∫mero de 1s: {intervention_dummy_aligned.sum()}")
        print(f"   - Porcentaje de 1s: {intervention_dummy_aligned.mean()*100:.2f}%")
        print(f"   - Shape actualizado de X_train_exogs: {x_train_exogs.shape}")
    
    # Crear tambi√©n para test_data si se proporciona
    intervention_dummy_test_series = None
    if test_data is not None:
        test_data = test_data.copy()
        test_data['date'] = pd.to_datetime(test_data['date'])
        
        # Crear condiciones para test
        conditions_test = test_data['date'] >= intervention_date
        
        if brand is not None:
            if isinstance(brand, str):
                conditions_test = conditions_test & (test_data['brand'] == brand)
            else:
                conditions_test = conditions_test & (test_data['brand'].isin(brand))
        
        if supermarkets is not None:
            if isinstance(supermarkets, str):
                conditions_test = conditions_test & (test_data['supermarket'] == supermarkets)
            else:
                conditions_test = conditions_test & (test_data['supermarket'].isin(supermarkets))
        
        if variants is not None:
            if isinstance(variants, str):
                conditions_test = conditions_test & (test_data['variant'] == variants)
            else:
                conditions_test = conditions_test & (test_data['variant'].isin(variants))
        
        if pack_sizes is not None:
            if isinstance(pack_sizes, str):
                conditions_test = conditions_test & (test_data['pack.size'] == pack_sizes)
            else:
                conditions_test = conditions_test & (test_data['pack.size'].isin(pack_sizes))
        
        intervention_dummy_test = conditions_test.astype(int)
        intervention_dummy_test_series = pd.Series(
            intervention_dummy_test.values,
            index=test_data.index,
            name=dummy_name
        )
        
        if verbose:
            print(f"   - Test data: {intervention_dummy_test_series.sum()} observaciones con 1")
    
    return x_train_exogs, intervention_dummy_series, intervention_dummy_test_series


In [None]:
# Celda eliminada - la llamada a add_intervention_dummy()
# debe ir DESPU√âS de crear x_train_exogs


In [6]:
x_train_exogs = sa.x_train_exog_custom(train_data, selected_var, model)
print(f"\nShape de X_train_exox: {x_train_exogs.shape}")
print("Columnas:")
for col in x_train_exogs.columns:
    print(col)

‚úÖ YES - All features match perfectly!

Shape de X_train_exox: (3460, 13)
Columnas:
C(supermarket)[T.supermarket-B]
C(supermarket)[T.supermarket-D]
C(variant)[T.light]
C(variant)[T.standard]
C(variant)[T.vegan]
C(pack_size)[T.351 - 500 GR]
C(pack_size)[T.501 - 700 GR]
C(pack_size)[T.701 - 1000 GR]
C(brand)[T.brand-15]
C(brand)[T.brand-35]
C(brand)[T.other]
price:C(brand)[T.brand-35]
price:C(brand)[T.other]


In [None]:
# ==========================================
# Crear variables dummy de intervenci√≥n usando la funci√≥n
# ==========================================

# Dummy 1: Marzo 2023
x_train_exogs, dummy_03_train, dummy_03_test = add_intervention_dummy(
    train_data=train_data,
    x_train_exogs=x_train_exogs,
    intervention_date='2023-03-31',
    dummy_name='intervention_2023_03',
    brand='brand-15',
    supermarkets=['supermarket-B', 'supermarket-C', 'supermarket-D'],
    variants=['vegan', 'light'],
    pack_sizes=['351 - 500 GR', '501 - 700 GR'],
    test_data=test_data if 'test_data' in globals() else None,
    verbose=True
)

# Dummy 2: Junio 2023
x_train_exogs, dummy_06_train, dummy_06_test = add_intervention_dummy(
    train_data=train_data,
    x_train_exogs=x_train_exogs,
    intervention_date='2023-06-30',
    dummy_name='intervention_2023_06',
    brand='brand-15',
    supermarkets=['supermarket-B', 'supermarket-C', 'supermarket-D'],
    variants=['vegan', 'light'],
    pack_sizes=['351 - 500 GR', '501 - 700 GR'],
    test_data=test_data if 'test_data' in globals() else None,
    verbose=True
)

print(f"\nüìä Resumen final:")
print(f"   - Shape de X_train_exogs: {x_train_exogs.shape}")
print(f"   - Columnas de intervenci√≥n: {[col for col in x_train_exogs.columns if 'intervention' in col]}")



‚úÖ Variable dummy de intervenci√≥n a√±adida
   - Nombre: intervention_2023_03
   - Valores √∫nicos: [0 1]
   - N√∫mero de 1s (intervenci√≥n activa): 23
   - Porcentaje de 1s: 0.66%

Shape actualizado de X_train_exogs: (3460, 15)
Columnas: ['C(supermarket)[T.supermarket-B]', 'C(supermarket)[T.supermarket-D]', 'C(variant)[T.light]', 'C(variant)[T.standard]', 'C(variant)[T.vegan]', 'C(pack_size)[T.351 - 500 GR]', 'C(pack_size)[T.501 - 700 GR]', 'C(pack_size)[T.701 - 1000 GR]', 'C(brand)[T.brand-15]', 'C(brand)[T.brand-35]', 'C(brand)[T.other]', 'price:C(brand)[T.brand-35]', 'price:C(brand)[T.other]', 'intervention_2023_03_brand15_BC_vegan', 'intervention_2023_03']

‚úÖ Variable dummy de intervenci√≥n tambi√©n creada para test_data
   - N√∫mero de 1s en test_data: 28


In [8]:
# Verificaci√≥n simple: la dummy est√° en x_train_exogs
print("Verificaci√≥n de variables ex√≥genas:")
print(f"  - x_train_exogs tiene {x_train_exogs.shape[1]} columnas")
print(f"  - √öltima columna a√±adida: {x_train_exogs.columns[-1]}")


Verificaci√≥n de variables ex√≥genas:
  - x_train_exogs tiene 14 columnas
  - √öltima columna a√±adida: intervention_2023_03_brand15_BC_vegan


2. Diagn√≥stico de las variables ex√≥genas 

In [9]:
# ==========================================
# Diagn√≥stico de variables ex√≥genas (ARIMAX)
# Objetivo: evaluar si las ex√≥genas aportan se√±al √∫til y si son ‚Äúseguras‚Äù (sin
# problemas graves de colinealidad / no estacionariedad / mala calidad).
# ==========================================

import numpy as np
import pandas as pd

from statsmodels.stats.outliers_influence import variance_inflation_factor
from statsmodels.tsa.stattools import adfuller, kpss, grangercausalitytests

# --- Selecci√≥n de y (alineada con X) ---
# Intentamos usar la serie transformada (Box-Cox) si existe; si no, usamos la y original.
if "y_train_boxcox" in globals() and y_train_boxcox is not None:
    y_diag = pd.Series(y_train_boxcox, index=train_data.index, name="y_train_boxcox")
else:
    y_diag = pd.Series(train_data["volume_sales"], index=train_data.index, name="volume_sales")

# Alineaci√≥n estricta X/y (mismo √≠ndice, sin NaNs)
X_diag = x_train_exogs.copy()
df_diag = pd.concat([y_diag, X_diag], axis=1).replace([np.inf, -np.inf], np.nan).dropna(axis=0)

y_diag = df_diag.iloc[:, 0]
X_diag = df_diag.iloc[:, 1:]

print("\n### Diagn√≥stico ex√≥genas")
print(f"- Observaciones (tras dropna): {len(df_diag)}")
print(f"- N√∫mero de ex√≥genas: {X_diag.shape[1]}")

# --- 1) Calidad b√°sica: missing, constantes, varianza ---
print("\n## 1) Calidad b√°sica")
missing = x_train_exogs.isna().mean().sort_values(ascending=False)
print("- Missing rate (top 10):")
print(missing.head(10))

nunique = X_diag.nunique(dropna=True).sort_values()
const_like = nunique[nunique <= 1]
if len(const_like) > 0:
    print("\n- Variables constantes/casi constantes (nunique<=1):")
    print(const_like)
else:
    print("\n- OK: no hay variables constantes (nunique<=1)")

stds = X_diag.std(numeric_only=True).sort_values()
print("\n- Std (min 10):")
print(stds.head(10))

# --- 2) Multicolinealidad (VIF) ---
print("\n## 2) Multicolinealidad (VIF)")
# VIF requiere matriz num√©rica; a√±adimos constante para estabilidad
X_vif = X_diag.astype(float)
X_vif_const = np.column_stack([np.ones(len(X_vif)), X_vif.values])

vif_vals = []
cols = ["const"] + list(X_vif.columns)
for i in range(len(cols)):
    try:
        vif_vals.append(variance_inflation_factor(X_vif_const, i))
    except Exception:
        vif_vals.append(np.nan)

vif = pd.Series(vif_vals, index=cols).drop("const", errors="ignore").sort_values(ascending=False)
print(vif)
print("\n- Regla r√°pida: VIF>10 suele indicar colinealidad fuerte (revisar/regularizar).")

# --- 3) Correlaci√≥n contempor√°nea con y (se√±al lineal) ---
print("\n## 3) Correlaci√≥n contempor√°nea con y")
# Pearson sobre variables num√©ricas (aqu√≠ son dummies e interacciones num√©ricas)
cor_y = X_diag.apply(lambda s: s.corr(y_diag), axis=0).sort_values(key=lambda s: s.abs(), ascending=False)
print("- Corr(X, y) ordenadas por |corr| (top 15):")
print(cor_y.head(15))

# --- 4) Correlaci√≥n cruzada con rezagos (si las ex√≥genas ‚Äúanticipan‚Äù a y) ---
print("\n## 4) Correlaci√≥n cruzada con rezagos")
max_lag = 6  # ajusta si trabajas mensual (p.ej. 12)
ccf_rows = []
for col in X_diag.columns:
    for lag in range(0, max_lag + 1):
        # correlaci√≥n de X(t-lag) con y(t): si lag>0, X antecede a y
        c = X_diag[col].shift(lag).corr(y_diag)
        ccf_rows.append((col, lag, c))

ccf = pd.DataFrame(ccf_rows, columns=["variable", "lag", "corr"])
ccf["abs_corr"] = ccf["corr"].abs()
print("- Top 20 (|corr|) de X(t-lag) vs y(t):")
print(ccf.sort_values("abs_corr", ascending=False).head(20).drop(columns=["abs_corr"]))

# --- 5) Estacionariedad (ADF/KPSS) ---
print("\n## 5) Estacionariedad (ADF/KPSS)\n(Nota: en dummies puede no ser muy informativo, pero es √∫til para interacciones/continuas.)")

def _adf(series):
    try:
        res = adfuller(series.values, autolag="AIC")
        return res[1]
    except Exception:
        return np.nan

def _kpss(series):
    try:
        res = kpss(series.values, regression="c", nlags="auto")
        return res[1]
    except Exception:
        return np.nan

st_rows = []
for col in X_diag.columns:
    s = X_diag[col].astype(float)
    st_rows.append((col, _adf(s), _kpss(s)))

stationarity = pd.DataFrame(st_rows, columns=["variable", "p_adf", "p_kpss"]).set_index("variable")
print("- p-valores (ADF: peque√±o => estacionaria; KPSS: grande => estacionaria).")
print(stationarity.sort_values(["p_adf", "p_kpss"]))

# --- 6) Granger (muy r√°pido) ---
print("\n## 6) Granger (screening r√°pido)\n(Ojo: depende de supuestos y de la frecuencia; √∫salo como se√±al, no como verdad absoluta.)")
maxlag_granger = 6
pvals = []

# Para evitar explosi√≥n de tiempo, hacemos Granger solo con las top variables por |corr| contempor√°nea
topk = min(8, X_diag.shape[1])
top_vars = list(cor_y.head(topk).index)

for col in top_vars:
    tmp = pd.concat([y_diag, X_diag[col]], axis=1)
    tmp.columns = ["y", "x"]
    try:
        # test: ¬øx causa a y?
        res = grangercausalitytests(tmp[["y", "x"]], maxlag=maxlag_granger, verbose=False)
        # tomamos el mejor (m√≠nimo) p-valor del test ssr_ftest en todos los lags
        best_p = np.min([res[i+1][0]["ssr_ftest"][1] for i in range(maxlag_granger)])
        pvals.append((col, best_p))
    except Exception:
        pvals.append((col, np.nan))

granger_screen = pd.Series(dict(pvals)).sort_values()
print("- Mejor p-valor (m√≠nimo) por variable entre lags 1..maxlag:")
print(granger_screen)

print("\n### Interpretaci√≥n r√°pida")
print("- Si una variable tiene VIF muy alto, puede desestabilizar el ARIMAX (coeficientes err√°ticos).")
print("- Si una variable no muestra ninguna relaci√≥n (corr ~0 en todos los lags), suele aportar poco.")
print("- Si ADF/KPSS indican no-estacionariedad en continuas, considera diferenciar/transformar esa ex√≥gena.")
print("- Granger con p peque√±o puede sugerir se√±al predictiva (pero revisa siempre con backtesting).")



### Diagn√≥stico ex√≥genas
- Observaciones (tras dropna): 3460
- N√∫mero de ex√≥genas: 14

## 1) Calidad b√°sica
- Missing rate (top 10):
C(supermarket)[T.supermarket-B]    0.0
C(supermarket)[T.supermarket-D]    0.0
C(variant)[T.light]                0.0
C(variant)[T.standard]             0.0
C(variant)[T.vegan]                0.0
C(pack_size)[T.351 - 500 GR]       0.0
C(pack_size)[T.501 - 700 GR]       0.0
C(pack_size)[T.701 - 1000 GR]      0.0
C(brand)[T.brand-15]               0.0
C(brand)[T.brand-35]               0.0
dtype: float64

- OK: no hay variables constantes (nunique<=1)

- Std (min 10):
intervention_2023_03_brand15_BC_vegan    0.056303
C(pack_size)[T.501 - 700 GR]             0.331910
C(variant)[T.vegan]                      0.347516
C(brand)[T.brand-35]                     0.392495
C(brand)[T.other]                        0.410299
C(pack_size)[T.701 - 1000 GR]            0.412496
price:C(brand)[T.brand-35]               0.429781
C(supermarket)[T.supermarket-B]          

‚ÄºÔ∏è Probar a quitar las variables C(brand)[T.brand-35] ~9.14 y price:C(brand)[T.brand-35] ~8.71, para ver si el forecast mejora

Diagn√≥stico:

1) Calidad b√°sica
M√©trica	Tu resultado	Interpretaci√≥n
Missing rate	0.0 en todas	Perfecto: no hay valores faltantes en ninguna ex√≥gena.
Variables constantes	Ninguna	OK: todas var√≠an suficiente (si alguna fuera constante, no aportar√≠a nada al modelo).
Std (desviaci√≥n)	0.33 ‚Äì 0.49	Rango razonable para dummies/interacciones. Valores muy cercanos a 0 ser√≠an sospechosos.
Conclusi√≥n secci√≥n 1: Las ex√≥genas est√°n "limpias" en t√©rminos de calidad de datos.
2) Multicolinealidad (VIF)
Variable	VIF
C(brand)[T.brand-35]	9.14
price:C(brand)[T.brand-35]	8.71
C(brand)[T.other]	6.60
price:C(brand)[T.other]	5.88
Resto	< 3
Regla pr√°ctica:
VIF < 5 ‚Üí sin problema.
5 ‚â§ VIF < 10 ‚Üí colinealidad moderada, vigila.
VIF ‚â• 10 ‚Üí colinealidad fuerte, puede desestabilizar coeficientes.
Tu caso: brand-35 y su interacci√≥n price:brand-35 est√°n justo al l√≠mite (~9). Esto ocurre porque la interacci√≥n price √ó brand-35 est√° muy correlacionada con la dummy brand-35 (cuando brand-35 = 0, la interacci√≥n tambi√©n es 0). No es cr√≠tico, pero podr√≠as:
Probar a quitar una de las dos (como ya anotaste).
O usar regularizaci√≥n (Ridge/Lasso) si entrenas un modelo lineal auxiliar.
3) Correlaci√≥n contempor√°nea con y
Variable	corr(X, y)
pack_size 701-1000 GR	+0.24
price:brand-other	‚àí0.21
pack_size 351-500 GR	+0.21
brand-15	+0.19
brand-other	‚àí0.17
...	...
variant-light	‚àí0.008 (casi 0)
Interpretaci√≥n:
Correlaciones de ¬±0.15‚Äì0.25 son modestas pero √∫tiles en un ARIMAX (la se√±al principal viene del componente AR/MA).
variant-light con corr ‚âà 0 aporta poca se√±al lineal directa; podr√≠as plantearte si vale la pena incluirla.
4) Correlaci√≥n cruzada con rezagos
Muestra corr(X(t‚àílag), y(t)) para detectar si alguna ex√≥gena anticipa a la variable objetivo.
Tu resultado: las correlaciones m√°s altas est√°n en lag = 0 (contempor√°neas). A medida que subes el lag (1, 2, ‚Ä¶, 6), las correlaciones caen mucho (< 0.05).
Interpretaci√≥n: tus ex√≥genas explican ventas en el mismo per√≠odo, pero no tienen poder predictivo adelantado relevante. Esto es normal en datos de panel/cross-section donde las ex√≥genas son caracter√≠sticas del producto en el mismo mes.
5) Estacionariedad (ADF / KPSS)
Test	p-valor peque√±o significa‚Ä¶
ADF	Serie estacionaria (rechazas ra√≠z unitaria).
KPSS	Serie no estacionaria (rechazas estacionariedad).
Tu resultado:
p_adf ‚âà 0 en todas ‚Üí todas pasan ADF (estacionarias).
p_kpss = 0.10 (el m√°ximo que reporta) ‚Üí no rechazas estacionariedad.
Conclusi√≥n: Todas las ex√≥genas se comportan como estacionarias. Esto es esperable en dummies (0/1) e interacciones acotadas. No necesitas diferenciarlas.
6) Granger (screening r√°pido)
Prueba si los rezagos de X ayudan a predecir y m√°s all√° de los propios rezagos de y.
Variable	Mejor p-valor
supermarket-B	0.068
pack_size 701-1000 GR	0.13
Resto	> 0.25
Interpretaci√≥n:
Ninguna alcanza p < 0.05, as√≠ que ninguna muestra causalidad Granger significativa.
Esto confirma lo de la secci√≥n 4: las ex√≥genas son √∫tiles contempor√°neamente, pero sus rezagos no aportan poder predictivo extra.
En un ARIMAX esto no es un problema grave: el modelo usa las ex√≥genas en t para explicar y(t), no necesita que X(t‚àí1) prediga y(t).
Resumen ejecutivo
Aspecto	Veredicto
Calidad datos	‚úÖ Sin missing ni constantes
Colinealidad	‚ö†Ô∏è brand-35 y su interacci√≥n rozan VIF=10. Prueba quitarlas para ver si mejora.
Se√±al lineal	‚úÖ Correlaciones modestas pero razonables (0.1‚Äì0.24)
Se√±al adelantada	‚ùå No hay; ex√≥genas solo informan en t, no anticipan
Estacionariedad	‚úÖ Todas estacionarias
Granger	‚ùå Sin causalidad significativa (esperable en cross-section)
Recomendaci√≥n pr√°ctica: prueba dos versiones del ARIMAX:
Con todas las ex√≥genas actuales.
Quitando C(brand)[T.brand-35] y price:C(brand)[T.brand-35] (las de VIF alto).
Compara m√©tricas de forecast (MAPE, RMSE) en el conjunto de test para decidir cu√°l funciona mejor.

In [10]:
if False:
    # Elimina las columnas 'C(brand)[T.brand-35]' y 'price:C(brand)[T.brand-35]' de x_train_exogs si existen
    x_train_exogs = x_train_exogs.drop(columns=[col for col in ['C(brand)[T.brand-35]', 'price:C(brand)[T.brand-35]'] if col in x_train_exogs.columns])

3. Realizamos el modelo ARIMAX

In [11]:
autoarimax_model = auto_arima(
    y=y_train_boxcox,
    X=x_train_exogs,  
    start_p=0,
    d=0,  
    start_q=0,
    max_p=3,  
    max_q=3,
    start_P=0,
    D=1, #TODO: probar a usar D=0
    sart_Q=0,
    max_P=2, 
    max_Q=2,
    m=12,
    seasonal=True,
    trace=True,
    error_action="warn",
    suppress_warnings=True,
    stepwise=True,  
    n_fits=50,  
    information_criterion='aic', 
)
 
print(autoarimax_model.summary())

Performing stepwise search to minimize aic


KeyboardInterrupt: 

In [None]:

# --- Residuos (en escala Box-Cox) ---
residuals = autoarimax_model.resid()
print("\n----------------- Residuals White Noise Test (Box-Cox) -----------------")
sa.residual_white_noise_test(residuals)
print("-----------------------------------------------------------------------")

# Diagn√≥stico de residuos (Box-Cox)
residuals_boxcox = autoarimax_model.arima_res_.resid
fitted_values_boxcox = autoarimax_model.arima_res_.fittedvalues
sa.analysis_residuals(residuals_boxcox, fitted_values_boxcox)

In [None]:
autoarimax_model_v2 = auto_arima(
    y=y_train_boxcox,
    X=x_train_exogs,  
    start_p=0,
    d=0,  
    start_q=0,
    max_p=3,  
    max_q=3,
    start_P=0,
    D=1, #TODO: probar a usar D=0
    start_Q=0,
    max_P=2, 
    max_Q=2,
    m=12,
    seasonal=True,
    trace=True,
    error_action="warn",
    suppress_warnings=True,
    stepwise=True,  
    n_fits=50,  
    information_criterion='aic', 
)
 
print(autoarimax_model.summary())

In [None]:
# --- Residuos (en escala Box-Cox) ---
residuals = autoarimax_model_v2.resid()
print("\n----------------- Residuals White Noise Test (Box-Cox) -----------------")
sa.residual_white_noise_test(residuals)
print("-----------------------------------------------------------------------")

# Diagn√≥stico de residuos (Box-Cox)
residuals_boxcox = autoarimax_model_v2.arima_res_.resid
fitted_values_boxcox = autoarimax_model_v2.arima_res_.fittedvalues
sa.analysis_residuals(residuals_boxcox, fitted_values_boxcox)