### Cartera de los K mejores alphas para actuar en corto en SPY 

Se creará una cartera con los K activos mejores alphas (el número K será un metaparámetro), para ello se utilizará la técnica del técnica walk forward optimization (WFO) con ventana expansiva, es decir, la fecha de inicio de entrenamiento es la misma para cada paso. El periodo de entrenamiento servirá para seleccionar los K activos con mejores alpha, y en el periodo de test se evaluarán, guardando dichos activos en un dataframe, para posteriormente construir la estrategia en corto para el SPY.

El WFO Se inicializará con 10 años de entrenamiento mínimo (2008-2018), se testeará la estrategia con el siguiente año y se volverá a entrenar añadiendo el año del test al periodo de entrenamiento, así hasta el año actual (2024).

Para simplificar, el entrenamiento se realizará únicamente con los activos que se unieron al índice antes del 01-01-2008,
(fecha inicial de los periodos de entrenamiento). Para encontrar los activos de cada año de entrenamiento, se cargarán todos los activos del SP500 que están actualmente en el índice y entraron antes del 01-01-2008, luego, se añadirán todos aquelos activos que salieron del índice a partir de 01-01 del año de test en adelante. 


In [1]:
#Importamos las librerias necesarias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import yfinance as yf
import requests

%matplotlib inline
%load_ext autoreload
%autoreload 2
import warnings
warnings.filterwarnings('ignore')



### Cargar datos 

In [2]:
datos = pd.read_csv ("../datos/vixsi10.csv", index_col = 0)
datos.index = pd.to_datetime(datos.index)

### Se seleccionan los activos del SP500 que se unieron al índice antes del 2008, y se incluye SPY

In [167]:

tickers = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[0]
tickers = tickers[tickers["Date added"]<"2008-01-01"]
tickers = tickers.Symbol.to_list()
#tickers.insert(0, 'SPY')

### 

La cartera se optimizará utilizando la técnica walk forward optimizaton (WFO) con ventana expansiva, es decir, la fecha de inicio de entrenamiento es la misma para cada paso. Se inicializará con 10 años de entrenamiento mínimo y se volverá a entrenar cada año, con lo que se necesita saber qué activos se unieron al índice antes del 01-01-2008 (fecha inicial de entrenamiento) y que estaban antes del primer día cada año del WFO (el entrenamiento se realiza el último día del año anterior), estos activos serán los que salieron del índice desde ese primer día del año en adelante.

Una vez se obtengan los activos, se añadirá el SPY y se cargarán sus datos antes de iniciar el entrenamiento con el periodo desde el inicio hasta el final del año del periodo de entrenamiento, Luego se testeará con el siguiente año y se guardará el
resultado en un dataframe de test, para proseguir el entrenamiento añadiendo el año de test dentro del periodo de training, y así sucesivamente hasta el 2024.


In [164]:
años_wfo = str(list(range(2018, 2025)))
años_wfo
data.columns.to_list().append(list(df_cambios[df_cambios.fecha >"2018-01-01"].salida.values))

In [165]:
data.columns[:-2]

Index(['A', 'AAPL', 'ABT', 'ADBE', 'ADI', 'ADM', 'ADP', 'ADSK', 'AEE', 'AEP',
       ...
       'WAT', 'WBA', 'WFC', 'WM', 'WMB', 'WMT', 'WY', 'XEL', 'XOM', 'YUM'],
      dtype='object', length=248)

In [142]:
tickers_mov = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[1]

In [144]:
df_cambios = tickers_mov[[("Date","Date"),("Added","Ticker"),("Removed","Ticker")]]
df_cambios.columns = ["fecha","entrada","salida"]
df_cambios.fecha = pd.to_datetime (df_cambios.fecha)
df_cambios.set_index(df_cambios.fecha, inplace=True)
df_cambios.sort_index(inplace=True)
df_cambios

Unnamed: 0_level_0,fecha,entrada,salida
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1997-06-17,1997-06-17,CCI,USL
1998-12-11,1998-12-11,FSR,AN
1998-12-11,1998-12-11,CPWR,SUN
1998-12-11,1998-12-11,CCL,GRN
1999-06-09,1999-06-09,WLP,HPH
...,...,...,...
2024-09-23,2024-09-23,DELL,ETSY
2024-09-23,2024-09-23,PLTR,AAL
2024-09-30,2024-09-30,AMTM,
2024-10-01,2024-10-01,,BBWI


In [4]:

desde = datos.index[0].strftime("%Y-%m-%d")
hasta = datos.index[-1].strftime("%Y-%m-%d")
data = yf.download(tickers, '2008-01-01', '2024-12-01', auto_adjust=False)['Close']
# Print the first few rows of the fetched data
data.head()

[*********************100%***********************]  250 of 250 completed


1 Failed download:
['BF.B']: Exception('%ticker%: No price data found, symbol may be delisted (1d 2008-01-01 -> 2024-12-01)')





Unnamed: 0_level_0,A,AAPL,ABT,ADBE,ADI,ADM,ADP,ADSK,AEE,AEP,...,WBA,WFC,WM,WMB,WMT,WY,XEL,XOM,YUM,ZBH
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2008-01-02 00:00:00,25.965666,6.958571,26.777637,41.709999,30.370001,45.259998,37.945564,48.240002,53.349998,46.299999,...,37.34,29.1,32.259998,29.167856,15.633333,71.519997,22.17,93.510002,27.232206,64.359222
2008-01-03 00:00:00,25.708155,6.961786,26.614506,41.790001,29.91,45.73,37.664619,47.84,53.310001,46.439999,...,35.060001,28.52,32.259998,29.917839,15.46,72.199997,22.299999,93.830002,26.851187,64.427185
2008-01-04 00:00:00,24.871244,6.430357,26.768042,40.360001,29.129999,45.849998,35.996487,45.700001,52.919998,46.290001,...,34.290001,27.49,31.049999,29.012968,15.24,68.620003,22.049999,92.080002,26.470165,64.56311
2008-01-07 00:00:00,25.278971,6.344286,27.588499,40.240002,28.76,45.860001,36.777874,46.720001,53.610001,47.639999,...,35.07,27.68,31.57,28.866232,15.52,68.129997,22.389999,91.220001,27.088427,66.660194
2008-01-08 00:00:00,25.243204,6.116071,28.312998,39.220001,27.809999,45.02,36.444248,44.82,53.310001,47.610001,...,34.23,26.5,31.73,29.02112,15.323333,66.699997,22.16,90.050003,26.398275,65.29126


### Se incluye la señal "vixsignal" en los datos de los activos

In [5]:
data = data.dropna(axis=1, how="all")
data.index = pd.to_datetime(data.index)
activos = data.columns

data = pd.concat([data, datos[["vixsignal"]]], axis=1).dropna()


In [137]:
señal_corto = np.array ((data.vixsignal.shift(1)-1)/2).reshape(-1,1)
retornos = np.array (data.pct_change())
señal_corto.shape, retornos.shape

((4255, 1), (4255, 250))

In [140]:
estrategia = (retornos * señal_corto)
df_estrategia = pd.DataFrame(estrategia, data.index)
df_estrategia.columns = data.columns


Date
2008-01-07    NaN
2008-01-08   -0.0
2008-01-09    0.0
2008-01-10    0.0
2008-01-11   -0.0
             ... 
2024-11-22    0.0
2024-11-25    0.0
2024-11-26    0.0
2024-11-27   -0.0
2024-11-29    0.0
Name: SPY, Length: 4255, dtype: float64

### Estrategia VIXSI únicamente en el lado corto

Para crear la cartera de acciones que sustituyan al SPY cuando la señal VIXSI sea -1, se crean las estrategias de las acciones únicamente con la señal vixsi a -1.


In [79]:
# cartera residual de un activo

señal_corto = np.array (pd.DataFrame((data.vixsignal - 1)/2).iloc[1:,:])
retornos = np.array (data.pct_change().dropna())
estrategias = señal_corto.T * retornos
df_estrategias = pd.DataFrame(estrategias, index = data.index) 


ValueError: operands could not be broadcast together with shapes (1,4254) (4254,250) 

In [73]:
pd.DataFrame((data.vixsignal - 1)/2)

Unnamed: 0_level_0,vixsignal
Date,Unnamed: 1_level_1
2008-01-07,0.0
2008-01-08,0.0
2008-01-09,0.0
2008-01-10,0.0
2008-01-11,0.0
...,...
2024-11-22,0.0
2024-11-25,0.0
2024-11-26,0.0
2024-11-27,0.0


In [68]:
estrategias = data.pct_change().dropna().copy()

### Se calcula el alpha de los activos por año

In [6]:
def f_alpha(datos, estrategia="estrategia", benchmark="SPY"):
    '''

    '''

    srets = np.log(datos[estrategia]).diff().fillna(0)
    brets = np.log(datos[benchmark]).diff().fillna(0)

    rent_srets = srets.sum()
    rent_brets = brets.sum()
    alpha = rent_srets - rent_brets
    return (alpha)


def f_alpha_activo (datos, activo):
    estrategia = "estr"+activo
    datos[estrategia] = (1 + datos.vixsignal.shift(1) * datos[activo].pct_change()).cumprod()
    años = sorted(datos.index.year.unique())
    alpha = np.zeros(len(años))
    for i in range(len(años)):
        alpha[i] = f_alpha(datos.loc[str(años[i])],estrategia=estrategia, benchmark=activo)

    alpha = pd.DataFrame(alpha, index=años)
    return (alpha)

df_alpha = pd.DataFrame()
for i,activo in enumerate(activos):
    alpha = f_alpha_activo (data, activo)
    alpha.columns = [activo]
    df_alpha = pd.concat([df_alpha, alpha], axis=1)


### Se analizan los alphas de todos los activos

In [1]:

alfasup = df_alpha.columns[(df_alpha.mean() > df_alpha["SPY"].mean())]
print (f"% alpha activos que superan al alpha de SPY: {len(alfasup)/len(df_alpha.columns)*100:.2f}%")
print (f"% alpha promedio anual de todos los alphas que superan al SPY: {df_alpha[alfasup].mean().mean()*100:.2f}%")
print (f"% desviación estandar promedio anual de todos los alphas que superan al SPY: {df_alpha[alfasup].mean().std()*100:.2f}%")

alfainf = df_alpha.columns[(df_alpha.mean() < df_alpha["SPY"].mean())]
print (f"% alpha activos que no superan al alpha de SPY: {len(alfainf)/len(df_alpha.columns)*100:.2f}%")
print (f"% alpha promedio anual de todos los alphas  inferiores al SPY: {df_alpha[alfainf].mean().mean()*100:.2f}%")
print (f"% desviación estandar promedio anual de todos los alphas inferiores al SPY: {df_alpha[alfainf].mean().std()*100:.2f}%")


NameError: name 'df_alpha' is not defined

In [32]:
df_alfasup = df_alpha[alfasup]
med_anual = pd.DataFrame(df_alfasup.mean(axis=1))
df_alfainf = df_alpha[alfainf]
med_anual = pd.concat([med_anual, pd.DataFrame(df_alfainf.mean(axis=1))], axis=1)
med_anual.columns = ["alfasup","alfainf"]
med_anual["alfadiff"] = med_anual.alfasup - med_anual.alfainf
med_anual["mayor0sup"] = (df_alfasup > 0).sum(axis=1)/len(df_alfasup.columns)
med_anual["mayor0inf"] = (df_alfainf > 0).sum(axis=1)/len(df_alfainf.columns)
med_anual["mayor0diff"] = med_anual.mayor0sup - med_anual.mayor0inf
med_anual

Unnamed: 0,alfasup,alfainf,alfadiff,mayor0sup,mayor0inf,mayor0diff
2008,0.474812,0.112791,0.36202,0.888889,0.801527,0.087362
2009,0.296777,0.046472,0.250305,0.897436,0.633588,0.263848
2010,0.078917,0.021003,0.057914,0.794872,0.572519,0.222353
2011,0.312205,0.220923,0.091282,0.965812,0.931298,0.034514
2012,-0.016502,-0.026865,0.010363,0.42735,0.442748,-0.015398
2013,0.004282,-0.040572,0.044854,0.461538,0.335878,0.125661
2014,-0.02949,-0.025994,-0.003495,0.324786,0.312977,0.011809
2015,0.03967,-0.01178,0.051451,0.632479,0.496183,0.136295
2016,0.035202,0.036206,-0.001004,0.623932,0.625954,-0.002023
2017,0.058769,0.045953,0.012816,0.649573,0.694656,-0.045084


In [31]:
(df_alfasup > 0).sum(axis=1)/len(df_alfasup.columns)

2008    0.888889
2009    0.897436
2010    0.794872
2011    0.965812
2012    0.427350
2013    0.461538
2014    0.324786
2015    0.632479
2016    0.623932
2017    0.649573
2018    0.811966
2019    0.726496
2020    1.000000
2021    0.290598
2022    0.752137
2023    0.401709
2024    0.384615
dtype: float64

In [None]:
(df_alfasup > 0).sum(axis=1)/len(df_alfasup.columns)

### Se guardan los alphas anuales de todos los activos para los siguientes notebooks

In [93]:
df_alpha.to_csv ("../datos/vixsi12.csv")