### Creación del dataset de acciones del SP500

Como el histórico de datos va a ser el periodo del cálculo de VIXSI [2008-2024], se cargarán las acciones del SP500 que se añadieron al índice antes del 2008.

Para la gestión de entradas/salidas/bajas de acciones del SP500 desde el 2008, se aplicarán las siguientes reglas que aseguran que haya el máxmimo número de acciones con el máximo histórico de datos con precio que se puedan obtener desde el 2008 en el SP500.

1. Se va a trabajar con todos los activos que se unieron al índice antes del 2008, sin importar que a día de hoy sigan existiendo o no:

    1.1 primero se seleccionan los activos del SP500 que entraron al índice antes del 2008 y siguen estando a día de hoy.
    
    1.2 luego se seleccionan los activos que salieron desde el 2008 en adelante, sin resetear precios desde el día de la fecha de salida hasta el fin de periodo.

2. Se descartan las acciones que no tengan precios en ninguna fecha o estén descatalogadas por yfinance.

3. Las acciones que no tengan precios en alguna fecha, se rellenan con el último valor anterior con datos.


In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import yfinance as yf
import requests

%matplotlib inline
%load_ext autoreload
%autoreload 2
import warnings
warnings.filterwarnings('ignore')



The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


### Se carga el histórico de VIXSI para determinar el periodo histórico de los activos

In [6]:
vixsi_datos = pd.read_csv("../datos/vixsi.csv", index_col=0)
desde = vixsi_datos.index[0]
hasta = vixsi_datos.index[-1]

### Se seleccionan los activos que existían en el índice SP500 antes del 2008 y existen actualmente


In [7]:
tickers = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[0]
tickers = tickers[tickers["Date added"]<="2008-01-01"]
tickers = tickers.Symbol.to_list()


### Se seleccionan los activos que salieron  del índice SP500 a partir del 2008

In [8]:
cambios = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[1]
df_cambios = cambios[[("Date","Date"),("Added","Ticker"),("Removed","Ticker")]]
df_cambios.columns = ["fecha","entrada","salida"]
df_cambios.fecha = pd.to_datetime (df_cambios.fecha)
df_cambios.set_index(df_cambios.fecha, inplace=True)
df_cambios.sort_index(inplace=True)
tickers_mov = (list(df_cambios[df_cambios.fecha >"2008-01-01"].dropna().salida.values))

### Se cargan los dos conjuntos de activos seleccionados anteriormente

Se unen los activos tickers y tickers_mov con el operador de conjuntos "|" para evitar duplicados, si los hubiera.

In [9]:
tickers_all = list(set(tickers) | set(tickers_mov))
tickers_all.insert(0, 'SPY')
data = yf.download(tickers_all, desde, hasta)['Close']

data.head()

[*********************100%***********************]  538 of 538 completed


117 Failed downloads:
['FTR', 'VIAB', 'VAR', 'TWTR', 'RDC', 'MXIM', 'FII', 'MON', 'ATVI', 'APC', 'PBCT', 'SWN', 'RHT', 'ADS', 'TSS', 'ESV', 'CERN', 'BIG', 'YHOO', 'CELG', 'WCG', 'FLIR', 'RRD', 'DF', 'ALXN', 'MNK', 'DISH', 'ARNC', 'ETFC', 'WPX', 'DO', 'KSU', 'LSI', 'DNR', 'XEC', 'DRE', 'LM', 'AVP', 'JCP', 'TIF', 'LIFE', 'AGN', 'XL', 'NLSN', 'PXD', 'XLNX', 'DWDP', 'FBHS', 'QEP', 'FRX', 'AKS', 'WIN', 'DTV', 'CXO', 'FRC', 'CTXS', 'BBBY', 'LLL', 'CHK', 'ABMD']: Exception('%ticker%: No timezone found, symbol may be delisted')
['ARG', 'MIL', 'SIAL', 'LO', 'TE', 'BJS', 'DPS', 'KRFT', 'TYC', 'FNM', 'FDO', 'CAM', 'GMCR', 'PGN', 'FRE', 'SNDK', 'ACAS', 'JOY', 'APOL', 'AMGN', 'RAI', 'JNS', 'CVC', 'CPGX', 'JDSU', 'EK', 'WYN', 'NVLS', 'STJ', 'TWC', 'LEH', 'MWW', 'LVLT', 'LXK', 'SPLS', 'GGP', 'BCR', 'PCS', 'SWY', 'CFN', 'BRCM', 'XTO', 'MJN', 'BXLT', 'Q', 'HSP', 'WFM', 'NOVL', 'BF.B', 'LLTC', 'HCBK', 'CEPH', 'GENZ']: Exception('%ticker%: No price data found, symbol may be delisted (1d 2008-01-02 -> 20




Unnamed: 0_level_0,A,AA,AAL,AAP,AAPL,ABK,ABMD,ABT,ACAS,ACE,...,XEL,XL,XLNX,XOM,XRX,XTO,YHOO,YUM,ZBH,ZION
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2008-01-02 00:00:00,25.965666,86.820389,13.32,37.59,6.958571,1.08878,,26.777637,,,...,22.17,,,93.510002,41.686432,,,27.232206,64.359222,45.290001
2008-01-03 00:00:00,25.708155,86.964569,12.72,37.950001,6.961786,1.02656,,26.614506,,,...,22.299999,,,93.830002,41.370224,,,26.851187,64.427185,44.380001
2008-01-04 00:00:00,24.871244,83.79261,12.41,35.669998,6.430357,1.02656,,26.768042,,,...,22.049999,,,92.080002,39.815548,,,26.470165,64.56311,42.400002
2008-01-07 00:00:00,25.278971,79.563332,12.23,37.279999,6.344286,0.99545,,27.588499,,,...,22.389999,,,91.220001,39.789196,,,27.088427,66.660194,43.279999
2008-01-08 00:00:00,25.243204,74.492996,11.01,35.360001,6.116071,0.99545,,28.312998,,,...,22.16,,,90.050003,39.051384,,,26.398275,65.29126,41.759998


### Se eliminan las acciones que todos sus precios sean nulos, y las que en algún precio no tiene datos, se le asigna el valor anterior con datos.

In [10]:
data = data.dropna(axis=1, how="all")
data.fillna(method="ffill", inplace=True)
data.fillna(method="bfill", inplace=True)

### Se guarda el dataset

In [11]:
data.to_csv ("../datos/sp500.csv")

### Conclusiones

Se ha creado el conjunto de datos del SP500, siguiendo las reglas mencionadas al principio del notebook, para guardarlo en un fichero que el resto de notebooks utilizará.
