Cómo comarar una descomposición con otra luego de un outliear. Asumiendo que se tiene una descomposición "buena"; DEC2020, podemos ajustar con los dos modelos DEC2024 y DEC2024, y comparar MSE entre ellas, y entre la tasa oficial (no ajustada). Se puede hacer esto para comparar todos los modelos pre y post pandemia, y podemos obtener una base de erores comparando modelos dentro de los mismos periodos.

In [206]:
import os
import pandas as pd
import numpy as np
import plotly.express as px

Será necesario convertir los indices desde tuplas (Año, Trimeste Móvil) a Datetimeindex para indexar.

In [207]:
from sklearn.metrics import mean_squared_error

def compared_series(pre_serie:pd.Series, pos_serie:pd.Series, outlier_start, outlier_end):
    """

    Parametros:
    pre_serie: Serie temporal antes del outliear
    pos_serie: Serie temporal después del outliear

    Las series deben tener el mismo multi indice ej: (Año, Trimestre) y deben estar orderanas de forma descendente. 
    """
    mse = mean_squared_error(pre_serie, pos_serie)
    mse_pre = mean_squared_error(pre_serie.loc[:outlier_start], pos_serie.loc[:outlier_start])
    print("MSE Series {pre}: ", mse)
    print("MSE pre outlier:", mse_pre)
    return mse, mse_pre

def mse_seasonality(pre_serie:pd.Series, pos_serie:pd.Series, outlier_start, outlier_end, pre_serie_comp:pd.Series=None, pos_serie_comp:pd.Series=None):
    """
    Parametros:
    pre_serie: Serie temporal antes del outliear
    pos_serie: Serie temporal después del outliear
    pre_serie_comp: Serie temporal comparativa antes del outliear
    pos_serie_comp: Serie temporal comparativa después del outliear

    Las series deben tener el mismo multi indice ej: (2020, "Abr- Jun"), una sola columna y deben estar orderanas de forma descendente. 

    Returns:
    model_diff: MSE de las series pre y pos pandemia menos el MSE encontrado en dos series pre pandemia
    pre_mse_comp:
    pos_mse_comp:
    """
    if pre_serie_comp is None:
        pre_serie_comp = pre_serie
    if pos_serie_comp is None:
        pos_serie_comp = pos_serie

    pos_serie = pos_serie.fillna(pos_serie_comp) # Se reemplaza solo con la serie similar
    pos_serie_comp = pos_serie_comp.fillna(pos_serie) # Lo mismo para anular la contribución con lo que resta de la serie similar    
    pos_mse_comp = mean_squared_error(pos_serie.loc[outlier_end:], pos_serie_comp.loc[outlier_end:])

    pre_serie = pre_serie.fillna(pre_serie_comp).fillna(pos_serie) # Se reemplaza para con la serie similar luego con la serie a comparar para anular la contribución
    pre_serie_comp = pre_serie_comp.fillna(pre_serie).fillna(pos_serie) # Lo mismo para anular la contribución con lo que resta de la serie similar
    pre_mse_comp = mean_squared_error(pre_serie.loc[:outlier_start], pre_serie_comp.loc[:outlier_start])
    pre_mse = mean_squared_error(pre_serie.loc[:outlier_start], pos_serie.loc[:outlier_start])
    return pre_mse - pre_mse_comp, pre_mse_comp, pos_mse_comp

In [208]:
def date_to_index(data):
    df = data.copy()
    trim_date = dict(zip(df[("Trimestre",np.nan)].unique(), (np.arange(12,0,-1) - 7)%12+1001)) # Ej: {'Dic - Feb': 1001, 'Nov - Feb': 1012}.  
    trim_date = {k:str(v).replace("100","0").replace("101","1") for k,v in trim_date.items()} # Anteriormente se sumo 1000 para anteponer un 0 al número, luego de convertido a string.
    df[("Trimestre",np.nan)] = df[("Trimestre",np.nan)].apply(lambda trim: trim_date[trim])
    df[("Trimestre", np.nan)]
    df["Date"] = df[["Año", "Trimestre"]].agg(lambda row: "-".join(row.astype("string")) + "-01", axis=1)
    df["Date"] = pd.to_datetime(df["Date"], format="%Y-%m-%d")
    df.index = df["Date"]
    df.drop(columns=[("Año",np.nan), ("Trimestre",np.nan), ("Date","")], inplace=True)
    df.sort_index(inplace=True)
    
    return df

data = pd.read_excel(io="../data/ine/ajuste_estacional_historico.xlsx", sheet_name="tasa_as")
data = data.loc[3:172]
data.columns= pd.MultiIndex.from_arrays(data.iloc[0:2].to_numpy())
data = data.loc[6:].reset_index(drop=True)
data = date_to_index(data=data)
data

Unnamed: 0_level_0,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,...,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada,Tasa oficial,Tasa ajustada
Unnamed: 0_level_1,NDE2019,NDE2019,DEF2020,DEF2020,EFM2020,EFM2020,FMA2020,FMA2020,MAM2020,MAM2020,...,EFM2024,EFM2024,FMA2024,FMA2024,MAM2024,MAM2024,AMJ2024,AMJ2024,MJJ2024,MJJ2024
Date,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
2010-08-01,8.1,7.9,8.124569,7.926932,8.124569,7.925845,8.124569,7.925795,8.124569,7.926,...,8.124569,7.928278,8.124569,7.928196,8.124569,7.928154,8.124569,7.928121,8.124569,7.928104
2010-09-01,7.8,7.7,7.814697,7.704444,7.814697,7.704655,7.814697,7.706665,7.814697,7.706946,...,7.814697,7.702712,7.814697,7.701814,7.814697,7.702325,7.814697,7.701711,7.814697,7.696071
2010-10-01,7.2,7.4,7.22505,7.427053,7.22505,7.428384,7.22505,7.426959,7.22505,7.42707,...,7.22505,7.418691,7.22505,7.419761,7.22505,7.418367,7.22505,7.418054,7.22505,7.41353
2010-11-01,7.2,7.5,7.210129,7.531558,7.210129,7.531692,7.210129,7.533507,7.210129,7.533247,...,7.210129,7.528851,7.210129,7.528725,7.210129,7.52886,7.210129,7.528905,7.210129,7.529803
2010-12-01,7.4,7.6,7.441762,7.646923,7.441762,7.647194,7.441762,7.6478,7.441762,7.647753,...,7.441762,7.666947,7.441762,7.666545,7.441762,7.667077,7.441762,7.667357,7.441762,7.67283
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2024-02-01,,,,,,,,,,,...,8.677778,8.455696,8.677778,8.448077,8.677778,8.437456,8.677778,8.443967,8.677778,8.446938
2024-03-01,,,,,,,,,,,...,,,8.523784,8.359039,8.523784,8.34056,8.523784,8.357063,8.523784,8.366389
2024-04-01,,,,,,,,,,,...,,,,,8.31288,8.224611,8.31288,8.217752,8.31288,8.233445
2024-05-01,,,,,,,,,,,...,,,,,,,8.348178,8.335832,8.348178,8.362429


In [209]:
data.loc[:,("Tasa ajustada", "NDE2019")].loc["2023-05-01":"2023-07-01"]

Date
2023-05-01    NaN
2023-06-01    NaN
2023-07-01    NaN
Name: (Tasa ajustada, NDE2019), dtype: object

In [210]:
diff, premse, posmse = mse_seasonality(
    pre_serie=data[("Tasa ajustada", "NDE2019")],
    pos_serie=data[("Tasa ajustada", "MJJ2024")],
    pre_serie_comp=data[("Tasa ajustada", "EFM2020")],
    pos_serie_comp=data[("Tasa ajustada", "MJJ2023")],
    outlier_start="2020-03-01", outlier_end="2022-03-01"
    )

  pos_serie = pos_serie.fillna(pos_serie_comp) # Se reemplaza solo con la serie similar
  pos_serie_comp = pos_serie_comp.fillna(pos_serie) # Lo mismo para anular la contribución con lo que resta de la serie similar
  pre_serie = pre_serie.fillna(pre_serie_comp).fillna(pos_serie) # Se reemplaza para con la serie similar luego con la serie a comparar para anular la contribución
  pre_serie_comp = pre_serie_comp.fillna(pre_serie).fillna(pos_serie) # Lo mismo para anular la contribución con lo que resta de la serie similar


In [211]:
print("diferencia: ", diff)
print("MSE previo al outlier", premse)
print("MSE posterior al outlier", posmse)

diferencia:  0.00019251550376636509
MSE previo al outlier 0.001112485417431904
MSE posterior al outlier 0.0026937396441335027


In [221]:
pdata = data.copy()
pdata.columns = pd.Index(map(str.strip, pdata.columns.get_level_values(0) + " " + pdata.columns.get_level_values(1)))
fig = px.line(pdata, y=["Tasa oficial DEF2020",  "Tasa ajustada DEF2020", "Tasa oficial DEF2024", "Tasa ajustada DEF2024"], 
              title="Tasa de desocupación y sus ajustes estacionales según DEF2020 y DEF2024",
              markers=True)
fig

In [None]:
from statsmodels.tsa.x13 import x13_arima_analysis as x13

x13(endog=data.loc[:,("Tasa oficial", "DEF2024")])


