# EJERCICIO 2: Proceso Análisis Exploratorio
Ejercicio para practicar la introducción al EDA (Exploratory Data Analysis).




# Objetivo: EDA SP500
Eres un inversor privado que está considerando el sp500 como producto. Basándote en el histórico del sp500, resuelve las preguntas que puedes ver a continuación.


Primero, claro, debes importar el dataset del sp500 y las librerías necesarias.

In [None]:
import pandas as pd
import numpy as np

In [None]:
# Generamos un objeto para subir el archivo
from google.colab import files
uploaded = files.upload()

# Convertimos los bytes a formato tabular (como el file row que veíamos para Github)
import io
buffer_io = io.BytesIO(uploaded['sp500.csv'])

# Cargamos en un dataframe
df_sp500 = pd.read_csv(buffer_io)
df_sp500.head(3)

Saving sp500.csv to sp500 (1).csv


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,1927-12-30,17.66,17.66,17.66,17.66,17.66,0
1,1928-01-03,17.76,17.76,17.76,17.76,17.76,0
2,1928-01-04,17.719999,17.719999,17.719999,17.719999,17.719999,0


# Pregunta 1
### Cuánto valdría mi inversión ahora si hubiera metido 1 dollar el primer día (1927-12-30)
Nota: ese dollar es equivalente a unos $15.22 de ahora por la inflacción. Ha superado el sp500 la inflacción?

In [None]:
# Variación respecto a ayer
df_sp500['Variacion'] = df_sp500['Close']/df_sp500['Close'].shift(1)

In [None]:
# Solución 1: Producto de la variación diaria
np.array(df_sp500['Variacion'].dropna()).prod()

194.98527412231164

In [None]:
# Solución 2: Variación entre el primer y el último registro
df_sp500.iloc[-1,5]/df_sp500.iloc[0,5]

194.98527412231027

# Pregunta 2
### Qué porcentaje de días el sp500 ha acabado por encima del día valor de cierre del día anterior

In [None]:
# Filtro que determina qué días se ha crecido
filtro_verde = df_sp500['Variacion'] > 1
filtro_verde[:5]

0    False
1     True
2    False
3    False
4     True
Name: Variacion, dtype: bool

In [None]:
# Porcentaje que supone sobre el total
filtro_verde.sum()/len(df_sp500)
# Ok, pues se gana un 52.3% de los días (se pierde bastantes días)

0.5236890622990181

# Pregunta 3
Considerando un año como los ultímos 365 días, es decir, los últimos 250 días de bolsa (cierra findes y festivos),
### Cuál es la ganancia media anual esperable


In [None]:
# Calculamos primero la variación en los últimos 250 registros para cada registro disponible
df_sp500['Variacion ac ult 250'] = df_sp500['Variacion'].rolling(250).agg(lambda x:x.prod())

In [None]:
df_sp500.describe()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume,Variacion,Variacion ac ult 250,Variacion ac tras 1250,Variacion ac ult 1250,Variacion ac ult 1 años,Variacion ac ult 2 años,Variacion ac ult 5 años,Variacion ac ult 10 años,Variacion ac ult 15 años,Variacion ac ult 20 años
count,23323.0,23323.0,23323.0,23323.0,23323.0,23323.0,23322.0,23073.0,22073.0,22073.0,23073.0,22823.0,22073.0,20823.0,19573.0,18323.0
mean,486.821737,489.690119,483.762812,486.918598,486.918598,769166800.0,1.000298,1.076378,1.428843,1.428843,1.076378,1.151965,1.428843,2.042326,2.994198,4.33636
std,726.187716,730.112168,721.890344,726.278798,726.278798,1484864000.0,0.012,0.200249,0.49924,0.49924,0.200249,0.277514,0.49924,0.900413,1.629885,2.49447
min,4.4,4.4,4.4,4.4,4.4,0.0,0.795331,0.294235,0.266101,0.266101,0.294235,0.181144,0.266101,0.356066,0.389884,0.483679
25%,23.855001,23.855001,23.855001,23.855001,23.855001,1280000.0,0.995466,0.960681,1.061279,1.061279,0.960681,1.006817,1.061279,1.30588,1.618138,2.438813
50%,99.5,100.309998,98.720001,99.5,99.5,17340000.0,1.000482,1.088715,1.423052,1.423052,1.088715,1.157611,1.423052,1.949479,2.611214,3.76399
75%,834.035004,843.744995,822.889984,834.704987,834.704987,537855000.0,1.005416,1.195957,1.712228,1.712228,1.195957,1.317628,1.712228,2.752537,4.050454,5.720982
max,3564.73999,3588.110107,3535.22998,3580.840088,3580.840088,11456230000.0,1.166096,2.741573,3.795918,3.795918,2.741573,2.318182,3.795918,5.147127,9.083157,14.675931


# Pregunta 4
Mi objetivo es invertir una cantidad en el sp500 y extraer mi dinero en 5 años (de nuevo nos referimos a la idea de año descrita en la pregunta anterior). Pero soy tremendamente gafe e invierto el peor día posible de la historia para conseguir mi objetivo.
### Qué día he invertido? Cuánto he perdido al cabo de 5 años?

In [None]:
# Días de bolsa en 5 años
250*5

1250

In [None]:
# Solución 1:
# Creación variable variacion tras 5 años utilizando [::-1] para revertir orden
df_sp500['Variacion ac tras 1250'] = df_sp500[::-1]['Variacion'].rolling(1250).agg(lambda x:x.prod())[::-1]

# Filtro que determina el peor día de compra (respecto a una venta en 5 años)
filtro_gafe = df_sp500['Variacion ac tras 1250'] == df_sp500['Variacion ac tras 1250'].min()

# Visualizamos ese día de compra
df_sp500.loc[filtro_gafe,['Date','Close','Variacion ac tras 1250']]

Unnamed: 0,Date,Close,Variacion ac tras 1250
423,1929-09-09,31.67,0.266101


In [None]:
# Solución 2:
# Creación variable variacion ult 5 años
df_sp500['Variacion ac ult 1250'] = df_sp500['Variacion'].rolling(1250).agg(lambda x:x.prod())

# Filtro que determina el peor día de venta (respecto a una compra hace 5 años)
filtro_gafe = df_sp500['Variacion ac ult 1250'] == df_sp500['Variacion ac ult 1250'].min()

# Mostramos la fecha y variacion acumuladas en los últimos 1250 para ese día
display('Venta: ', df_sp500.loc[filtro_gafe,['Date','Close','Variacion ac ult 1250']])

# Nos guardamos el valor del índice de ese día
indice_salida = df_sp500.loc[filtro_gafe].index

# Ahora le restamos 1250 (-1) para acceder al valor del índice de hace 5 años
indice_entrada = indice_salida-1250-1

# Utilizamos ese índice para ver el valor de compra
display('Compra ', df_sp500.loc[indice_entrada,['Date','Close','Variacion ac ult 1250']])

'Venta: '

Unnamed: 0,Date,Close,Variacion ac ult 1250
1672,1934-09-14,8.47,0.266101


'Compra '

Unnamed: 0,Date,Close,Variacion ac ult 1250
421,1929-09-05,31.02,


In [None]:
print("Invertí el día " + str(df_sp500.loc[indice_entrada,'Date'].values))

ganancia = np.round(float(df_sp500.loc[filtro_gafe,'Variacion ac ult 1250'].values), 2)
print('5 años después había perdido el ' + str((1-ganancia)*100) + '%')

Invertí el día ['1929-09-05']
5 años después había perdido el 73.0%


# Pregunta 5
La respuesta a la pregunta anterior se ve influenciada por el crash del 1929. A partir de ahora limitemos nuestro análisis a los últimos del 1955 en adelante.
### Cuál es la distribución de la ganancia a [1,2,5,10,15,20] años?
Nota: con distribución nos referimos a los estadísticos principales: media, mediana, cuantiles principales, etc.

In [None]:
# Primero creamos las variables deseadas para los intervalos pedidos
for n in [1,2,5,10,15,20]:

  # Variación en los últimos 250*n registros para cada registro disponible
  df_sp500['Variacion ac ult '+str(n)+' años'] = df_sp500['Variacion'].rolling(250*n).agg(lambda x:x.prod())

In [None]:
# Generamos un filtro que nos seleccione solo las fechas desde 1950
filtro_post_1955 = df_sp500['Date'] >= '1955-01-01'
df_sp500.loc[filtro_post_1955,:].head()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume,Variacion,Variacion ac ult 250,Variacion ac tras 1250,Variacion ac ult 1250,Variacion ac ult 1 años,Variacion ac ult 2 años,Variacion ac ult 5 años,Variacion ac ult 10 años,Variacion ac ult 15 años,Variacion ac ult 20 años
6747,1955-01-03,36.75,36.75,36.75,36.75,36.75,4570000,1.021401,1.461814,1.638966,2.181009,1.461814,1.393629,2.181009,2.805344,2.877839,3.836117
6748,1955-01-04,36.419998,36.419998,36.419998,36.419998,36.419998,4420000,0.99102,1.453312,1.601633,2.151211,1.453312,1.383213,2.151211,2.74247,2.860958,3.845829
6749,1955-01-05,35.52,35.52,35.52,35.52,35.52,4640000,0.975288,1.424789,1.623833,2.091873,1.424789,1.361963,2.091873,2.664666,2.805687,3.754757
6750,1955-01-06,35.040001,35.040001,35.040001,35.040001,35.040001,5300000,0.986487,1.412903,1.666948,2.051522,1.412903,1.354988,2.051522,2.601336,2.765588,3.711865
6751,1955-01-07,35.330002,35.330002,35.330002,35.330002,35.330002,4030000,1.008276,1.417168,1.687785,2.074574,1.417168,1.357802,2.074574,2.618977,2.81514,3.81946


In [None]:
# Ejecutamos el método describe() sobre el dataframe filtrado
df_sp500.loc[filtro_post_1955,[var for var in df_sp500.columns if 'años' in var]].describe()

Unnamed: 0,Variacion ac ult 1 años,Variacion ac ult 2 años,Variacion ac ult 5 años,Variacion ac ult 10 años,Variacion ac ult 15 años,Variacion ac ult 20 años
count,16576.0,16576.0,16576.0,16576.0,16576.0,16576.0
mean,1.08509,1.177332,1.49652,2.20694,3.26077,4.588016
std,0.158046,0.235627,0.469407,0.874937,1.609481,2.458483
min,0.51227,0.485248,0.607386,0.520108,1.090909,1.547355
25%,0.989114,1.045031,1.128437,1.537978,1.835525,2.699654
50%,1.09643,1.167769,1.483711,2.15107,3.139417,4.004788
75%,1.187664,1.31528,1.751907,2.849368,4.275529,5.953456
max,1.683148,1.970717,3.192277,5.147127,9.083157,14.675931
