# 2019 1C 2da Oportunidad

Se tiene información diaria de la cotización de acciones en el NYSE en el archivo nyse_daily.csv en el siguiente formato (symbol, date, open, measure_midday, measure_afternoon, close, volume). Por cada acción cuyo nombre está indicado en el campo symbol, tendremos una entrada por fecha con los valores open, measure_midday, measure_afternoon, y close indicando respectivamente a qué valor abrio la acción, cuál fue el valor que tuvo al mediodía, cual fue su valor que tuvo por la tarde y cual fue su valor al cierre del mercado. Asimismo en volume se indica el volumen operado ese día para esa acción.
Por otro lado se cuenta con el archivo s&p500.csv de formato (symbol, company_name) que indica aquellas acciones que deben ser consideradas para calcular el índice Standard & Poor’s 500 (S&P 500).
Se pide calcular el valor diario del índice S&P 500, teniendo en cuenta que el mismo se calcula como el promedio del valor promedio de las mediciones que tuvo cada acción ese día (open, measure_midday, measure_afternoon, close), para las 500 acciones que se encuentran en el archivo s&p500.csv.
El resultado debe estar en un dataframe de la forma (date, index_name, value). Por ejemplo, una entrada del mismo sería (‘2019-03-24’, ‘SP500’, ‘35.46’).

Nota: A los efectos prácticos del ejercicio consideraremos como estadísticamente significativo calcular el promedio con esas pocas mediciones.

In [1]:
# importacion general de librerias y de visualizacion (matplotlib y seaborn)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

plt.style.use('default') # haciendo los graficos un poco mas bonitos en matplotlib
#plt.rcParams['figure.figsize'] = (20, 10)

sns.set(style="whitegrid") # seteando tipo de grid en seaborn

pd.options.display.float_format = '{:20,.2f}'.format # suprimimos la notacion cientifica en los outputs

import warnings
warnings.filterwarnings('ignore')

In [12]:
# inicializacion de nyse_daily
# usando data de https://www.kaggle.com/szrlee/stock-time-series-20050101-to-20171231
# cargamos multiples archivos en el data frame que tienen informacion en el mismo
# formato de columnas
import glob

all_files = glob.glob("../data/stock-time-series-20050101-to-20171231/*.csv")
nyse_daily = pd.concat((pd.read_csv(f) for f in all_files))

In [9]:
df['Name'].value_counts()

VZ       6291
PFE      6291
WMT      6291
GS       6291
AXP      6291
NKE      6291
IBM      6291
BA       6291
TRV      6291
UTX      6291
MCD      6291
DIS      6291
KO       6291
MMM      6291
GE       6291
UNH      6291
CAT      6291
HD       6291
JPM      6291
JNJ      6291
PG       6291
XOM      6291
CVX      6291
AABA     6289
MRK      6289
AMZN     6289
GOOGL    6289
CSCO     6289
INTC     6289
AAPL     6289
MSFT     6289
Name: Name, dtype: int64

In [13]:
nyse_daily.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
0,2006-01-03,61.07,61.85,61.05,61.63,10703200,JNJ
1,2006-01-04,61.93,62.64,61.76,62.58,9068100,JNJ
2,2006-01-05,62.57,62.95,62.1,62.32,9852600,JNJ
3,2006-01-06,62.36,62.74,62.14,62.6,5919300,JNJ
4,2006-01-09,62.52,63.01,62.43,62.99,7103700,JNJ


In [43]:
# armamos un data frame para usarlo como ejemplo de S&OP 500
sp500_data = {
        'Name': ['AAPL', 'GOOGL', 'MSFT', 'AMZN'],
        'Company Name': ['Apple', 'Google', 'Microsoft', 'Amazon'],
}

sp500 = pd.DataFrame(sp500_data, columns = ['Name', 'Company Name'])

In [44]:
sp500.head()

Unnamed: 0,Name,Company Name
0,AAPL,Apple
1,GOOGL,Google
2,MSFT,Microsoft
3,AMZN,Amazon


In [45]:
df.merge(sp500, how='inner')['Name']

0        MSFT
1        MSFT
2        MSFT
3        MSFT
4        MSFT
         ... 
25151    AMZN
25152    AMZN
25153    AMZN
25154    AMZN
25155    AMZN
Name: Name, Length: 25156, dtype: object

In [46]:
df['Mean'] = (df['Open'] + df['Close'] + df['High'] + df['Close']) / 4

In [47]:
df.head()

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name,Mean
0,2006-01-03,61.07,61.85,61.05,61.63,10703200,JNJ,61.55
1,2006-01-04,61.93,62.64,61.76,62.58,9068100,JNJ,62.43
2,2006-01-05,62.57,62.95,62.1,62.32,9852600,JNJ,62.54
3,2006-01-06,62.36,62.74,62.14,62.6,5919300,JNJ,62.58
4,2006-01-09,62.52,63.01,62.43,62.99,7103700,JNJ,62.88


In [48]:
partial = df.groupby('Date')['Mean'].agg('mean')

In [49]:
final = partial.reset_index()

In [50]:
final['Name'] = 'SP500'

In [51]:
final

Unnamed: 0,Date,Mean,Name
0,2006-01-03,51.47,SP500
1,2006-01-04,51.87,SP500
2,2006-01-05,51.93,SP500
3,2006-01-06,52.57,SP500
4,2006-01-09,52.76,SP500
...,...,...,...
3015,2017-12-22,184.79,SP500
3016,2017-12-26,184.69,SP500
3017,2017-12-27,184.93,SP500
3018,2017-12-28,185.20,SP500
