# Descarga de históricos de precios

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/7/7d/Copper_Price_History_USD.png" width="600px" height="400px" />

> Entonces, en la clase anterior vimos que podemos caracterizar la distribución de rendimientos de un activo mediante una medida de tendencia central (media: rendimiento esperado) y una medida de dispersión (desviación estándar: volatilidad). 

> Estas medidas se pueden calcular cuando tenemos escenarios probables de la economía y conocemos sus probabilidades de ocurrencia. Ahora, si no conocemos dichos escenarios, ¿qué podemos hacer?

*Objetivos:*
- Aprender a importar datos desde archivos separados por comas (extensión `.csv`).
- Descargar el paquete `pandas-datareader`.
- Aprender a descargar datos desde fuentes remotas.

**Referencias:**
- http://pandas.pydata.org/
- https://pandas-datareader.readthedocs.io/en/latest/

## 1. Importar datos desde archivos locales

<img style="float: left; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/8/86/Microsoft_Excel_2013_logo.svg" width="300px" height="125px" />

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/0/0a/Python.svg" width="300px" height="125px" />

### 1.1. ¿Porqué?

- Muchas veces tenemos bases de datos proporcionadas como archivos locales.
- Para poder analizar, procesar y tomar decisiones con estos datos, es necesario importarlos a python.
- Ejemplos de archivos donde comúnmente se guardan bases de datos son: 
 - `.xls` o `.xlsx`
 -  `.cvs`
- Excel es ampliamente usado en distintos campos de aplicación en todo el mundo.
- Nos guste o no, esto también aplica a ciencia de datos (ingeniería financiera).
- Muchos de ustedes en su futuro académico y profesional tendrán que trabajar con estas hojas de cálculo, pero no siempre querrán trabajar directamente con ellas si tienen que hacer un análisis un poco más avanzado de los datos.
- Por eso en Python se han implementado herramientas para leer, escribir y manipular este tipo de archivos.

En esta clase veremos cómo podemos trabajar con Excel y Python de manera básica utilizando la librería *pandas*.

### 1.2. Reglas básicas para antes de leer hojas de cálculo

Antes de comenzar a leer una hoja de cálculo en Python (o cualquier otro programa), debemos considerar el ajustar nuestro archivo para cumplir ciertos principios, como:

- La primer fila de la hoja de cálculo se reserva para los títulos, mientras que la primer columna se usa para identificar la unidad de muestreo o indización de los datos (tiempo, fecha, eventos...)
- Evitar nombres, valores o campos con espacios en blanco. De otra manera, cada palabra se interpreta como variable separada y resultan errores relacionados con el número de elementos por línea.
- Los nombres cortos se prefieren sobre nombre largos.
- Evite símbolos como ?, $, %, ^, &, *, (,),-,#, ?, ,,<,>, /, |, \, [ ,] , {, y }.
- Borre cualquier tipo de comentario que haya hecho en su archivo para evitar columnas extras.
- Asegúrese de que cualquier valor inexistente esté indicado como NA.

Si se hizo algún cambio, estar seguro de guardarlo. 

Si estás trabajando con Microsoft Excel, verás que hay muchas opciones para guardar archivos, a parte de las extensiones por defecto .xls or .xlsx. Para esto ir a “Save As” y seleccionar una de las extensiones listadas en “Save as Type”. 

La extensión más común es .csv (archivos de texto separados por comas).

**Actividad.** Descargar precios de acciones de Apple (AAPL) de Yahoo Finance, con una ventana de tiempo desde el 01-01-2015 al 31-12-2017 y frecuencia diaria.

- Ir a https://finance.yahoo.com/.
- Buscar cada una de las compañías solicitadas.
- Dar click en la pestaña *'Historical Data'*.
- Cambiar las fechas en *'Time Period'*, click en *'Apply'* y, finalmente, click en *'Download Data'*.
- **¡POR FAVOR! GUARDAR ESTOS ARCHIVOS EN UNA CARPETA LLAMADA precios EN EL MISMO DIRECTORIO DONDE TIENEN ESTE ARCHIVO**.

### 1.3. Carguemos archivos .csv como ventanas de datos de pandas

Ahora podemos comenzar a importar nuestros archivos.

Una de las formas más comunes de trabajar con análisis de datos es en pandas. Esto es debido a que pandas está construido sobre NumPy y provee estructuras de datos y herramientas de análisis fáciles de usar.

In [1]:
# Importamos pandas
import pandas as pd

Para leer archivos `.csv`, utilizaremos la función `read_csv` de pandas:

In [2]:
# Función read_csv
data=pd.read_csv("precios/AAPL.csv")

In [3]:
# Cargamos hoja de calculo en un dataframe
aapl=pd.DataFrame(data)
aapl

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2015-01-02,111.389999,111.440002,107.349998,109.330002,102.319397,53204600
1,2015-01-05,108.290001,108.650002,105.410004,106.250000,99.436890,64285500
2,2015-01-06,106.540001,107.430000,104.629997,106.260002,99.446251,65797100
3,2015-01-07,107.199997,108.199997,106.699997,107.750000,100.840714,40105900
4,2015-01-08,109.230003,112.150002,108.699997,111.889999,104.715256,59364500
5,2015-01-09,112.669998,113.250000,110.209999,112.010002,104.827553,53699500
6,2015-01-12,112.599998,112.629997,108.800003,109.250000,102.244522,49650800
7,2015-01-13,111.430000,112.800003,108.910004,110.220001,103.152313,67091900
8,2015-01-14,109.040001,110.489998,108.500000,109.800003,102.759262,48337000
9,2015-01-15,110.000000,110.059998,106.660004,106.820000,99.970337,60014000


#### Anotación #1
- Quisieramos indizar por fecha.

In [4]:
# Cargamos hoja de calculo en un dataframe
data=pd.read_csv("precios/AAPL.csv",index_col='Date')
aapl=pd.DataFrame(data)
aapl

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-02,111.389999,111.440002,107.349998,109.330002,102.319397,53204600
2015-01-05,108.290001,108.650002,105.410004,106.250000,99.436890,64285500
2015-01-06,106.540001,107.430000,104.629997,106.260002,99.446251,65797100
2015-01-07,107.199997,108.199997,106.699997,107.750000,100.840714,40105900
2015-01-08,109.230003,112.150002,108.699997,111.889999,104.715256,59364500
2015-01-09,112.669998,113.250000,110.209999,112.010002,104.827553,53699500
2015-01-12,112.599998,112.629997,108.800003,109.250000,102.244522,49650800
2015-01-13,111.430000,112.800003,108.910004,110.220001,103.152313,67091900
2015-01-14,109.040001,110.489998,108.500000,109.800003,102.759262,48337000
2015-01-15,110.000000,110.059998,106.660004,106.820000,99.970337,60014000


In [5]:
# Graficar precios de cierre y precios de cierre ajustados
aapl[['Close','Adj Close']].plot(figsize=(8,6));


#### Anotación #2
- Para nuestra aplicación solo nos interesan los precios de cierre de las acciones (columna Adj Close).

In [6]:
# Cargamos hoja de calculo en un dataframe
aapl=pd.read_csv("precios/AAPL.csv",index_col='Date',usecols=['Date','Adj Close'])
aapl.columns=['AAPL']
aapl

Unnamed: 0_level_0,AAPL
Date,Unnamed: 1_level_1
2015-01-02,102.319397
2015-01-05,99.436890
2015-01-06,99.446251
2015-01-07,100.840714
2015-01-08,104.715256
2015-01-09,104.827553
2015-01-12,102.244522
2015-01-13,103.152313
2015-01-14,102.759262
2015-01-15,99.970337


**Actividad.** Importen todos los archivos .csv como acabamos de hacerlo con el de apple. Además, crear un solo DataFrame que cuyos encabezados por columna sean los nombres respectivos (AAPL, AMZN,...) y contengan los datos de precio de cierre.

In [12]:
# Cargamos hoja de calculo en un dataframe
aapl=pd.read_csv("precios/AAPL.csv",index_col='Date',usecols=['Date','Adj Close'])
aapl.columns=['AAPL']
amzn=pd.read_csv("precios/AMZN.csv",index_col='Date',usecols=['Date','Adj Close'])
amzn.columns=['amzn']
closes=pd.DataFrame(index=aapl.index,columns=['AAPL','AMZN'])
closes.index.name='Date'
closes['AAPL']=aapl
closes['AMZN']=amzn
closes


Unnamed: 0_level_0,AAPL,AMZN
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2015-01-02,102.319397,308.519989
2015-01-05,99.436890,302.190002
2015-01-06,99.446251,295.290009
2015-01-07,100.840714,298.420013
2015-01-08,104.715256,300.459991
2015-01-09,104.827553,296.929993
2015-01-12,102.244522,291.410004
2015-01-13,103.152313,294.739990
2015-01-14,102.759262,293.269989
2015-01-15,99.970337,286.950012


## 2. Descargar los datos remotamente
Para esto utilizaremos el paquete *pandas_datareader*.

**Nota**: Usualmente, las distribuciones de Python no cuentan, por defecto, con el paquete *pandas_datareader*. Por lo que será necesario instalarlo aparte:
- buscar en inicio "Anaconda prompt" y ejecutarlo como administrador;
- el siguiente comando instala el paquete en Anaconda: *conda install pandas-datareader*;
- una vez finalice la instalación correr el comando: *conda list*, y buscar que sí se haya instalado pandas-datareader

In [27]:
# Importar el modulo data del paquete pandas_datareader. La comunidad lo importa con el nombre de web
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader.data as web

El módulo data del paquete pandas_datareader contiene la funcion `DataReader`:

In [50]:
# Función DataReader
web.DataReader

- A esta función le podemos especificar la fuente de los datos para que se use la api específica para la descarga de datos de cada fuente.
- Fuentes:
 - Google Finance: su api ya no sirve.
 - Quandl: solo permite descargar datos de equities estadounidenses de manera gratuita, y una a la vez. Es la base de datos más completa.
 - IEX: los datos tienen antiguedad máxima de 5 años y de equities estadounidenses.
 - Yahoo! Finance: su api ha tenido cambios significativos y ya no es posible usarla desde DataReader. Sin embargo permite obtener datos de distintas bolsas (incluida la mexicana), por eso le haremos la luchita.

In [30]:
# Ejemplo google finance
ticker='AAPL'
source='google'
start='2015-01-01'
end='2017-12-31'
aapl_goo=web.DataReader(ticker,source,start,end)


The Google Finance API has not been stable since late 2017. Requests seem
to fail at random. Failure is especially common when bulk downloading.



RemoteDataError: Unable to read URL: https://finance.google.com/finance/historical?q=AAPL&startdate=Jan+01%2C+2015&enddate=Dec+31%2C+2017&output=csv
Response Text:
b'<html><head><meta http-equiv="content-type" content="text/html; charset=utf-8"/><title>Sorry...</title><style> body { font-family: verdana, arial, sans-serif; background-color: #fff; color: #000; }</style></head><body><div><table><tr><td><b><font face=sans-serif size=10><font color=#4285f4>G</font><font color=#ea4335>o</font><font color=#fbbc05>o</font><font color=#4285f4>g</font><font color=#34a853>l</font><font color=#ea4335>e</font></font></b></td><td style="text-align: left; vertical-align: bottom; padding-bottom: 15px; width: 50%"><div style="border-bottom: 1px solid #dfdfdf;">Sorry...</div></td></tr></table></div><div style="margin-left: 4em;"><h1>We\'re sorry...</h1><p>... but your computer or network may be sending automated queries. To protect our users, we can\'t process your request right now.</p></div><div style="margin-left: 4em;">See <a href="https://support.google.com/websearch/answer/86640">Google Help</a> for more information.<br/><br/></div><div style="text-align: center; border-top: 1px solid #dfdfdf;"><a href="https://www.google.com">Google Home</a></div></body></html>'

In [32]:
# Ejemplo quandl
ticker='AAPL'
source='quandl'
start='2015-01-01'
end='2017-12-31'
aapl_qua=web.DataReader(ticker,source,start,end)
aapl_qua

Unnamed: 0_level_0,Open,High,Low,Close,Volume,ExDividend,SplitRatio,AdjOpen,AdjHigh,AdjLow,AdjClose,AdjVolume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2017-12-29,170.520,170.5900,169.2200,169.230,25643711.0,0.00,1.0,170.520000,170.590000,169.220000,169.230000,25643711.0
2017-12-28,171.000,171.8500,170.4800,171.080,15997739.0,0.00,1.0,171.000000,171.850000,170.480000,171.080000,15997739.0
2017-12-27,170.100,170.7800,169.7100,170.600,21672062.0,0.00,1.0,170.100000,170.780000,169.710000,170.600000,21672062.0
2017-12-26,170.800,171.4700,169.6790,170.570,32968167.0,0.00,1.0,170.800000,171.470000,169.679000,170.570000,32968167.0
2017-12-22,174.680,175.4240,174.5000,175.010,16052615.0,0.00,1.0,174.680000,175.424000,174.500000,175.010000,16052615.0
2017-12-21,174.170,176.0200,174.1000,175.010,20356826.0,0.00,1.0,174.170000,176.020000,174.100000,175.010000,20356826.0
2017-12-20,174.870,175.4200,173.2500,174.350,23000392.0,0.00,1.0,174.870000,175.420000,173.250000,174.350000,23000392.0
2017-12-19,175.030,175.3900,174.0900,174.540,27078872.0,0.00,1.0,175.030000,175.390000,174.090000,174.540000,27078872.0
2017-12-18,174.880,177.2000,174.8600,176.420,28831533.0,0.00,1.0,174.880000,177.200000,174.860000,176.420000,28831533.0
2017-12-15,173.630,174.1700,172.4600,173.870,37054632.0,0.00,1.0,173.630000,174.170000,172.460000,173.870000,37054632.0


In [33]:
# Ejemplo iex
ticker='AAPL'
source='iex'
start='2015-01-01'
end='2017-12-31'
aapl_iex=web.DataReader(ticker,source,start,end)
aapl_iex


5y


Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-01-02,104.2471,104.2939,100.4662,102.3192,53204626
2015-01-05,101.3459,101.6828,98.6506,99.4367,64285491
2015-01-06,99.7082,100.5411,97.9206,99.4461,65797116
2015-01-07,100.3258,101.2617,99.8532,100.8406,40105934
2015-01-08,102.2257,104.9584,101.7296,104.7151,59364547
2015-01-09,105.4451,105.9879,103.1428,104.8274,53699527
2015-01-12,105.3796,105.4076,101.8232,102.2444,49650790
2015-01-13,104.2846,105.5667,101.9262,103.1522,67091928
2015-01-14,102.0478,103.4049,101.5425,102.7591,48956588
2015-01-15,102.9463,103.0024,99.8205,99.9702,60013996


In [34]:
# Ejemplo yahoo
ticker='AAPL'
source='yahoo'
start='2015-01-01'
end='2017-12-31'
aapl_yahoo=web.DataReader(ticker,source,start,end)
aapl_yahoo

ImmediateDeprecationError: 
Yahoo Daily has been immediately deprecated due to large breaks in the API without the
introduction of a stable replacement. Pull Requests to re-enable these data
connectors are welcome.

See https://github.com/pydata/pandas-datareader/issues


Intentamos con la función YahooDailyReader

In [65]:
# YahooDailyReader


In [66]:
# Ejemplo


Sin embargo no se pueden descargar varios a la vez. Intentémoslo hacer nosotros así sea de manera rudimentaria:

In [68]:
# Crear función para descargar precios de cierre ajustados de varios activos a la vez:
def download_closes(tickers, start_date, end_date):
    import pandas as pd
    pd.core.common.is_list_like = pd.api.types.is_list_like
    import pandas_datareader.data as web
    closes = pd.DataFrame(columns = tickers, index=web.YahooDailyReader(tickers[0], start_date, end_date).read().index)
    for ticker in tickers:
        df = web.YahooDailyReader(ticker, start_date, end_date).read()
        closes[ticker]=df['Adj Close']
    closes.index_name = 'Date'
    closes = closes.sort_index()
    return closes

A veces, no lee a la primera. La api es inestable. Intentar varias veces.

**Nota**: Para descargar datos de la bolsa mexicana de valores (BMV), el ticker debe tener la extensión MX. 
Por ejemplo: *MEXCHEM.MX*, *LABB.MX*, *GFINBURO.MX* y *GFNORTEO.MX*.

In [77]:
# Ejemplo: 'AAPL', 'MSFT', 'NVDA', '^GSPC'





In [None]:
# Gráfico


**Conclusión**
- Aprendimos a importar datos desde archivos locales.
- Aprendimos a importar datos remotamente con el paquete pandas_datareader. Queda pendiente Infosel (después vemos esto).

¿Ahora qué? Pues con estos históricos, obtendremos los rendimientos y ellos nos servirán como base para caracterizar la distribución de rendimientos... 

### ¡Oh, si!

# Anuncios parroquiales:
## 1. Recordar tarea para hoy.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>