# Descarga de históricos de precios

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/7/7d/Copper_Price_History_USD.png" width="600px" height="400px" />

> Entonces, en la clase anterior vimos que podemos caracterizar la distribución de rendimientos de un activo mediante una medida de tendencia central (media: rendimiento esperado) y una medida de dispersión (desviación estándar: volatilidad). 

> Estas medidas se pueden calcular cuando tenemos escenarios probables de la economía y conocemos sus probabilidades de ocurrencia. Ahora, si no conocemos dichos escenarios, ¿qué podemos hacer?

*Objetivos:*
- Aprender a importar datos desde archivos separados por comas (extensión `.csv`).
- Descargar el paquete `pandas-datareader`.
- Aprender a descargar datos desde fuentes remotas.

**Referencias:**
- http://pandas.pydata.org/
- https://pandas-datareader.readthedocs.io/en/latest/

## 1. Importar datos desde archivos locales

<img style="float: left; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/8/86/Microsoft_Excel_2013_logo.svg" width="300px" height="125px" />

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/0/0a/Python.svg" width="300px" height="125px" />

### 1.1. ¿Porqué?

- Muchas veces tenemos bases de datos proporcionadas como archivos locales.
- Para poder analizar, procesar y tomar decisiones con estos datos, es necesario importarlos a python.
- Ejemplos de archivos donde comúnmente se guardan bases de datos son: 
 - `.xls` o `.xlsx`
 -  `.cvs`
- Excel es ampliamente usado en distintos campos de aplicación en todo el mundo.
- Nos guste o no, esto también aplica a ciencia de datos (ingeniería financiera).
- Muchos de ustedes en su futuro académico y profesional tendrán que trabajar con estas hojas de cálculo, pero no siempre querrán trabajar directamente con ellas si tienen que hacer un análisis un poco más avanzado de los datos.
- Por eso en Python se han implementado herramientas para leer, escribir y manipular este tipo de archivos.

En esta clase veremos cómo podemos trabajar con Excel y Python de manera básica utilizando la librería *pandas*.

### 1.2. Reglas básicas para antes de leer hojas de cálculo

Antes de comenzar a leer una hoja de cálculo en Python (o cualquier otro programa), debemos considerar el ajustar nuestro archivo para cumplir ciertos principios, como:

- La primer fila de la hoja de cálculo se reserva para los títulos, mientras que la primer columna se usa para identificar la unidad de muestreo o indización de los datos (tiempo, fecha, eventos...)
- Evitar nombres, valores o campos con espacios en blanco. De otra manera, cada palabra se interpreta como variable separada y resultan errores relacionados con el número de elementos por línea.
- Los nombres cortos se prefieren sobre nombre largos.
- Evite símbolos como ?, $, %, ^, &, *, (,),-,#, ?, ,,<,>, /, |, \, [ ,] , {, y }.
- Borre cualquier tipo de comentario que haya hecho en su archivo para evitar columnas extras.
- Asegúrese de que cualquier valor inexistente esté indicado como NA.

Si se hizo algún cambio, estar seguro de guardarlo. 

Si estás trabajando con Microsoft Excel, verás que hay muchas opciones para guardar archivos, a parte de las extensiones por defecto .xls or .xlsx. Para esto ir a “Save As” y seleccionar una de las extensiones listadas en “Save as Type”. 

La extensión más común es .csv (archivos de texto separados por comas).

**Actividad.** Descargar precios de acciones de Apple (AAPL) de Yahoo Finance, con una ventana de tiempo desde el 01-01-2015 al 31-12-2017 y frecuencia diaria.

- Ir a https://finance.yahoo.com/.
- Buscar cada una de las compañías solicitadas.
- Dar click en la pestaña *'Historical Data'*.
- Cambiar las fechas en *'Time Period'*, click en *'Apply'* y, finalmente, click en *'Download Data'*.
- **¡POR FAVOR! GUARDAR ESTOS ARCHIVOS EN UNA CARPETA LLAMADA precios EN EL MISMO DIRECTORIO DONDE TIENEN ESTE ARCHIVO**.

### 1.3. Carguemos archivos .csv como ventanas de datos de pandas

Ahora podemos comenzar a importar nuestros archivos.

Una de las formas más comunes de trabajar con análisis de datos es en pandas. Esto es debido a que pandas está construido sobre NumPy y provee estructuras de datos y herramientas de análisis fáciles de usar.

In [2]:
# Importamos pandas
import pandas as pd

Para leer archivos `.csv`, utilizaremos la función `read_csv` de pandas:

In [3]:
# Función read_csv
pd.read_csv

<function pandas.io.parsers._make_parser_function.<locals>.parser_f(filepath_or_buffer, sep=',', delimiter=None, header='infer', names=None, index_col=None, usecols=None, squeeze=False, prefix=None, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=False, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, iterator=False, chunksize=None, compression='infer', thousands=None, decimal=b'.', lineterminator=None, quotechar='"', quoting=0, escapechar=None, comment=None, encoding=None, dialect=None, tupleize_cols=None, error_bad_lines=True, warn_bad_lines=True, skipfooter=0, doublequote=True, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None)>

In [4]:
# Cargamos hoja de calculo en un dataframe
file_name='precios/AAPL.csv'
aapl=pd.read_csv(file_name)
aapl

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2015-01-02,111.389999,111.440002,107.349998,109.330002,102.319397,53204600
1,2015-01-05,108.290001,108.650002,105.410004,106.250000,99.436890,64285500
2,2015-01-06,106.540001,107.430000,104.629997,106.260002,99.446251,65797100
3,2015-01-07,107.199997,108.199997,106.699997,107.750000,100.840714,40105900
4,2015-01-08,109.230003,112.150002,108.699997,111.889999,104.715256,59364500
5,2015-01-09,112.669998,113.250000,110.209999,112.010002,104.827553,53699500
6,2015-01-12,112.599998,112.629997,108.800003,109.250000,102.244522,49650800
7,2015-01-13,111.430000,112.800003,108.910004,110.220001,103.152313,67091900
8,2015-01-14,109.040001,110.489998,108.500000,109.800003,102.759262,48337000
9,2015-01-15,110.000000,110.059998,106.660004,106.820000,99.970337,60014000


#### Anotación #1
- Quisieramos indizar por fecha.

In [5]:
# Cargamos hoja de calculo en un dataframe
aapl= pd.read_csv(file_name,index_col='Date')
aapl

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-02,111.389999,111.440002,107.349998,109.330002,102.319397,53204600
2015-01-05,108.290001,108.650002,105.410004,106.250000,99.436890,64285500
2015-01-06,106.540001,107.430000,104.629997,106.260002,99.446251,65797100
2015-01-07,107.199997,108.199997,106.699997,107.750000,100.840714,40105900
2015-01-08,109.230003,112.150002,108.699997,111.889999,104.715256,59364500
2015-01-09,112.669998,113.250000,110.209999,112.010002,104.827553,53699500
2015-01-12,112.599998,112.629997,108.800003,109.250000,102.244522,49650800
2015-01-13,111.430000,112.800003,108.910004,110.220001,103.152313,67091900
2015-01-14,109.040001,110.489998,108.500000,109.800003,102.759262,48337000
2015-01-15,110.000000,110.059998,106.660004,106.820000,99.970337,60014000


In [6]:
# Graficar precios de cierre y precios de cierre ajustados
aapl[['Close','Adj Close']].plot(figsize=(15,15));

#### Anotación #2
- Para nuestra aplicación solo nos interesan los precios de cierre de las acciones (columna Adj Close).

In [7]:
# Cargamos hoja de calculo en un dataframe
aapl=pd.read_csv(file_name,index_col='Date',usecols=['Date','Adj Close'])
aapl.columns=['AAPL']
aapl

Unnamed: 0_level_0,AAPL
Date,Unnamed: 1_level_1
2015-01-02,102.319397
2015-01-05,99.436890
2015-01-06,99.446251
2015-01-07,100.840714
2015-01-08,104.715256
2015-01-09,104.827553
2015-01-12,102.244522
2015-01-13,103.152313
2015-01-14,102.759262
2015-01-15,99.970337


**Actividad.** Importen todos los archivos .csv como acabamos de hacerlo con el de apple. Además, crear un solo DataFrame que cuyos encabezados por columna sean los nombres respectivos (AAPL, AMZN,...) y contengan los datos de precio de cierre.

## 2. Descargar los datos remotamente
Para esto utilizaremos el paquete *pandas_datareader*.

**Nota**: Usualmente, las distribuciones de Python no cuentan, por defecto, con el paquete *pandas_datareader*. Por lo que será necesario instalarlo aparte:
- buscar en inicio "Anaconda prompt" y ejecutarlo como administrador;
- el siguiente comando instala el paquete en Anaconda: *conda install pandas-datareader*;
- una vez finalice la instalación correr el comando: *conda list*, y buscar que sí se haya instalado pandas-datareader

In [8]:
# Importar el modulo data del paquete pandas_datareader. La comunidad lo importa con el nombre de web
pd.core.common.is_list_like = pd.api.types.is_list_like
import pandas_datareader.data as web 

El módulo data del paquete pandas_datareader contiene la funcion `DataReader`:

In [9]:
# Función DataReader
help(web.DataReader)

Help on function DataReader in module pandas_datareader.data:

DataReader(name, data_source=None, start=None, end=None, retry_count=3, pause=0.001, session=None, access_key=None)
    Imports data from a number of online sources.
    
    Currently supports Google Finance, St. Louis FED (FRED),
    and Kenneth French's data library, among others.
    
    Parameters
    ----------
    name : str or list of strs
        the name of the dataset. Some data sources (google, fred) will
        accept a list of names.
    data_source: {str, None}
        the data source ("google", "fred", "ff")
    start : {datetime, None}
        left boundary for range (defaults to 1/1/2010)
    end : {datetime, None}
        right boundary for range (defaults to today)
    retry_count : {int, 3}
        Number of times to retry query request.
    pause : {numeric, 0.001}
        Time, in seconds, to pause between consecutive queries of chunks. If
        single value given for symbol, represents the pause 

- A esta función le podemos especificar la fuente de los datos para que se use la api específica para la descarga de datos de cada fuente.
- Fuentes:
 - Google Finance: su api ya no sirve.
 - Quandl: solo permite descargar datos de equities estadounidenses de manera gratuita, y una a la vez. Es la base de datos más completa.
 - IEX: los datos tienen antiguedad máxima de 5 años y de equities estadounidenses.
 - Yahoo! Finance: su api ha tenido cambios significativos y ya no es posible usarla desde DataReader. Sin embargo permite obtener datos de distintas bolsas (incluida la mexicana), por eso le haremos la luchita.

In [42]:
# Ejemplo google finance
no sirve

In [52]:
# Ejemplo quand


In [13]:
# Ejemplo iex
ticker= 'AAPL'
source= 'iex'
start= '2015-01-01'
end= '2017-12-31'
aapi_iex =web.DataReader(ticker,source,start,end)
aapi_iex

5y


Unnamed: 0_level_0,open,high,low,close,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2015-01-02,104.2471,104.2939,100.4662,102.3192,53204626
2015-01-05,101.3459,101.6828,98.6506,99.4367,64285491
2015-01-06,99.7082,100.5411,97.9206,99.4461,65797116
2015-01-07,100.3258,101.2617,99.8532,100.8406,40105934
2015-01-08,102.2257,104.9584,101.7296,104.7151,59364547
2015-01-09,105.4451,105.9879,103.1428,104.8274,53699527
2015-01-12,105.3796,105.4076,101.8232,102.2444,49650790
2015-01-13,104.2846,105.5667,101.9262,103.1522,67091928
2015-01-14,102.0478,103.4049,101.5425,102.7591,48956588
2015-01-15,102.9463,103.0024,99.8205,99.9702,60013996


In [14]:
# Ejemplo yahoo
ticker= 'AAPL'
start= '2015-01-01'
end= '2017-12-31'
aapl_yah=web.YahooDailyReader(ticker,start,end,interval='d').read()
aapl_yah

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-01-02,111.389999,111.440002,107.349998,109.330002,102.319397,53204600
2015-01-05,108.290001,108.650002,105.410004,106.250000,99.436890,64285500
2015-01-06,106.540001,107.430000,104.629997,106.260002,99.446251,65797100
2015-01-07,107.199997,108.199997,106.699997,107.750000,100.840714,40105900
2015-01-08,109.230003,112.150002,108.699997,111.889999,104.715256,59364500
2015-01-09,112.669998,113.250000,110.209999,112.010002,104.827553,53699500
2015-01-12,112.599998,112.629997,108.800003,109.250000,102.244522,49650800
2015-01-13,111.430000,112.800003,108.910004,110.220001,103.152313,67091900
2015-01-14,109.040001,110.489998,108.500000,109.800003,102.759262,48337000
2015-01-15,110.000000,110.059998,106.660004,106.820000,99.970337,60014000


Intentamos con la función YahooDailyReader

In [65]:
# YahooDailyReader


In [66]:
# Ejemplo


Sin embargo no se pueden descargar varios a la vez. Intentémoslo hacer nosotros así sea de manera rudimentaria:

In [68]:
# Crear función para descargar precios de cierre ajustados de varios activos a la vez:
def download_closes(tickers, start_date, end_date):
    import pandas as pd
    pd.core.common.is_list_like = pd.api.types.is_list_like
    import pandas_datareader.data as web
    closes = pd.DataFrame(columns = tickers, index=web.YahooDailyReader(tickers[0], start_date, end_date).read().index)
    for ticker in tickers:
        df = web.YahooDailyReader(ticker, start_date, end_date).read()
        closes[ticker]=df['Adj Close']
    closes.index_name = 'Date'
    closes = closes.sort_index()
    return closes

A veces, no lee a la primera. La api es inestable. Intentar varias veces.

**Nota**: Para descargar datos de la bolsa mexicana de valores (BMV), el ticker debe tener la extensión MX. 
Por ejemplo: *MEXCHEM.MX*, *LABB.MX*, *GFINBURO.MX* y *GFNORTEO.MX*.

In [77]:
# Ejemplo: 'AAPL', 'MSFT', 'NVDA', '^GSPC'





In [None]:
# Gráfico


**Conclusión**
- Aprendimos a importar datos desde archivos locales.
- Aprendimos a importar datos remotamente con el paquete pandas_datareader. Queda pendiente Infosel (después vemos esto).

¿Ahora qué? Pues con estos históricos, obtendremos los rendimientos y ellos nos servirán como base para caracterizar la distribución de rendimientos... 

### ¡Oh, si!

# Anuncios parroquiales:
## 1. Recordar tarea para hoy.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>