### Creación del dataset de acciones del SP500

Como el histórico de datos va a ser el periodo del cálculo de VIXSI [2008-2024], se cargarán las acciones del SP500 que se añadieron al índice antes del 2008.

Para la gestión de entradas/salidas/bajas de acciones del SP500 desde el 2008, se aplicarán las siguientes reglas que aseguran que haya el máxmimo número de acciones con el máximo histórico de datos con precio que se puedan obtener desde el 2008 en el SP500.

1. Se va a trabajar con todos los activos que se unieron al índice antes del 2008, sin importar que a día de hoy sigan existiendo o no:

    1.1 primero se seleccionan los activos del SP500 que entraron al índice antes del 2008 y siguen estando a día de hoy.
    
    1.2 luego se seleccionan los activos que salieron desde el 2008 en adelante, sin resetear precios desde el día de la fecha de salida hasta el fin de periodo.

2. Se descartan las acciones que no tengan precios en ninguna fecha o estén descatalogadas por yfinance.

3. Las acciones que no tengan precios en alguna fecha, se rellenan con el siguiente valor con datos.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import yfinance as yf
import requests

%matplotlib inline
%load_ext autoreload
%autoreload 2
import warnings
warnings.filterwarnings('ignore')



### Se carga el histórico de VIXSI para determinar el periodo histórico de los activos

In [2]:
vixsi_datos = pd.read_csv("../datos/vixsi.csv", index_col=0)
desde = vixsi_datos.index[0]
hasta = vixsi_datos.index[-1]

### Se seleccionan los activos que existían en el índice SP500 antes del 2008 y existen actualmente


In [3]:
tickers = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[0]
tickers = tickers[tickers["Date added"]<="2008-01-01"]
tickers = tickers.Symbol.to_list()


### Se seleccionan los activos que entraron en el SP500 antes del 2008 y salieron del índice después del 2008

In [4]:
cambios = pd.read_html('https://en.wikipedia.org/wiki/List_of_S%26P_500_companies')[1]
df_cambios = cambios[[("Date","Date"),("Added","Ticker"),("Removed","Ticker")]]
df_cambios.columns = ["fecha","entrada","salida"]
df_cambios.fecha = pd.to_datetime (df_cambios.fecha)
df_cambios.set_index(df_cambios.fecha, inplace=True)
df_cambios.sort_index(inplace=True)
tick_entrantes = (list(df_cambios[df_cambios.fecha <"2008-01-01"].dropna().entrada.values))
tick_saldespues = (list(df_cambios[df_cambios.fecha >"2008-01-01"].dropna().salida.values))
tickers_mov = list(set(tick_entrantes) & set(tick_saldespues))

### Se cargan los dos conjuntos de activos seleccionados anteriormente

Se unen los activos tickers y tickers_mov con el operador de conjuntos "|" para evitar duplicados, si los hubiera.

In [5]:
tickers_all = list(set(tickers) | set(tickers_mov))
tickers_all.insert(0, 'SPY')
data = yf.download(tickers_all, desde, hasta)['Close']

data.head()

[*********************100%***********************]  260 of 260 completed


3 Failed downloads:
['BF.B', 'JDSU']: Exception('%ticker%: No price data found, symbol may be delisted (1d 2008-01-02 -> 2024-12-16)')
['YHOO']: Exception('%ticker%: No timezone found, symbol may be delisted')





Unnamed: 0_level_0,A,AAPL,ABK,ABT,ADBE,ADI,ADM,ADP,ADSK,AEE,...,WFC,WM,WMB,WMT,WY,XEL,XOM,YHOO,YUM,ZBH
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2008-01-02 00:00:00,25.965666,6.958571,1.08878,26.777637,41.709999,30.370001,45.259998,37.945564,48.240002,53.349998,...,29.1,32.259998,29.167856,15.633333,71.519997,22.17,93.510002,,27.232206,64.359222
2008-01-03 00:00:00,25.708155,6.961786,1.02656,26.614506,41.790001,29.91,45.73,37.664619,47.84,53.310001,...,28.52,32.259998,29.917839,15.46,72.199997,22.299999,93.830002,,26.851187,64.427185
2008-01-04 00:00:00,24.871244,6.430357,1.02656,26.768042,40.360001,29.129999,45.849998,35.996487,45.700001,52.919998,...,27.49,31.049999,29.012968,15.24,68.620003,22.049999,92.080002,,26.470165,64.56311
2008-01-07 00:00:00,25.278971,6.344286,0.99545,27.588499,40.240002,28.76,45.860001,36.777874,46.720001,53.610001,...,27.68,31.57,28.866232,15.52,68.129997,22.389999,91.220001,,27.088427,66.660194
2008-01-08 00:00:00,25.243204,6.116071,0.99545,28.312998,39.220001,27.809999,45.02,36.444248,44.82,53.310001,...,26.5,31.73,29.02112,15.323333,66.699997,22.16,90.050003,,26.398275,65.29126


### Se eliminan las acciones que todos sus precios sean nulos, y las que en algún precio no tiene datos, se le asigna el valor siguiente con datos. Si los primeros valores son nulos, se les asigna el valor siguiente con datos.

In [6]:
data = data.dropna(axis=1, how="all")
data.fillna(method="ffill", inplace=True)
data.fillna(method="bfill", inplace=True)

### Se guarda el dataset

In [7]:
data.to_csv ("../datos/sp500.csv")

### Conclusiones

Se ha creado el conjunto de datos del SP500, siguiendo las reglas mencionadas al principio del notebook, para guardarlo en un fichero que el resto de notebooks utilizará.
