## Descarga de Datos - Obtención de datos web

A lo largo de estos módulos, se ha podido tratar la carga y manipulación de datos con **pandas** en caso de disponer localmente de los archivos que contienen dichos datos (para refrescar la memoria, véase [su sección] (../3.%20Pandas/2.1.%20Operaciones%20básicas.ipynb)). 
<br>
<br>
No obstante, en muchas ocasiones encontraremos que queremos obtener datos que están disponibles en una página web y utilizarlos en nuestro entorno de trabajo; para dichas ocasiones, veremos los siguientes recursos:

* **Pandas Datareader**
* **Web Scraping**
* **Introducción a APIs**

### Pandas-Datareader

**Pandas-Datareader** es una librería que, si bien originalmente pertenecía a la propia librería de **pandas**, dada su magnitud y alcance, se ha convertido en un repositorio y proyecto independiente.
<br><br>
Su utilidad es limitada y está principalmente enfocada a **datos financieros**, por lo que no se podrán obtener datos de cualquier fuente; las fuentes disponibles en este momento son:

* **AlphaVantage**
* **Federal Reserve Economic Data (FRED)**
* **Fama-French Data (Ken French’s Data Library)**
* **Bank of Canada**
* **Econdb**
* **Enigma**
* **Eurostat**
* **The Investors Exchange (IEX)**
* **Moscow Exchange (MOEX)**
* **NASDAQ**
* **Naver Finance**
* **Organisation for Economic Co-operation and Development (OECD)**
* **Quandl**
* **Stooq.com**
* **Tiingo**
* **Thrift Savings Plan (TSP)**
* **World Bank**

Como de costumbre, primero deberemos instalar dicho paquete en nuestro entorno de trabajo:

In [None]:
!pip install pandas-datareader

Esa es la *release* oficial; no obstante, podemos instalar la útima versión directamente desde su **repositorio** si lo consideramos mejor:

In [None]:
!pip install git+https://github.com/pydata/pandas-datareader.git

Para utilizar dicha librería, la importaremos como de costumbre:

In [4]:
import pandas_datareader as pdr

Una vez importada, se podrá proceder a extraer los datos pertinentes de las fuentes anteriormente citadas. En este ejemplo, veremos como extraer datos de la **FRED**.
<br><br>
**Cabe destacar que en muchas de ellas será necesario tener una *Key* obtenida tras un registro previo, con la que identificar nuestro usuario**. 

In [10]:
# Nos importamos la librería 'datetime' para poder trabajar con fechas
from datetime import datetime

# Pasamos a formato fecha el inicio deseado, en este caso introducido como dd/mm/yyyy
inicio_datos = datetime.strptime('01/01/2018', '%d/%m/%Y')

# Hacemos lo mismo con el fin deseado
fin_datos    = datetime.strptime('01/01/2020', '%d/%m/%Y')

# Obtenemos os datos llamando al método de esta manera
gdp = pdr.data.DataReader('GDP', 'fred', inicio_datos, fin_datos)

# Mostramos los datos obtenidos
gdp

Unnamed: 0_level_0,GDP
DATE,Unnamed: 1_level_1
2018-01-01,20242.215
2018-04-01,20552.653
2018-07-01,20742.723
2018-10-01,20909.853
2019-01-01,21115.309
2019-04-01,21329.877
2019-07-01,21540.325
2019-10-01,21747.394
2020-01-01,21561.139


Debido a la **cantidad de fuentes existentes**, no se mostrará un ejemplo para cada una de ellas; para comprobar los datos que se puede extraer así como la forma de llegar a ellos con esta librería, nos remitimos a la **[documentación](https://pandas-datareader.readthedocs.io/en/latest/remote_data.html)**.

Por otra parte, cabe hacer especial hincapié en un detalle a tener en cuenta: realizar una misma llamada repetidamente puede usar mucho ancho de banda, hacer más lento nuestro código o, incluso, puede resultar en la prohibición de nuestra IP por la fuente a la que deseamos acceder.
<br><br>
Para solucionar este problema, **pandas-datareader** nos permite poner en **cache** las peticiones que queramos utilizando **requests_cache**, para poder reutilizar la información sin necesidad de realizar la petición a la Web de nuevo.
<br><br> 
Para ello, se hará uso de la librería **requests_cache**:

In [None]:
# Nos traemos la librería
import requests_cache

# Indicamos cuándo expirará el caché
tiempo_expiracion = datetime.timedelta(days=3)

# Creamos una nueva sesión
session = requests_cache.CachedSession(cache_name = 'cache', backend = 'sqlite', expire_after = tiempo_expiracion)

# Solamente tendremos que utilizar una argumento adicional en nuestras peticiones "session"
gdp = pdr.data.DataReader('GDP', 'fred', inicio_datos, fin_datos , session = session)

Un archivo de **SQLite** (pues es el *backend* que hemos elegido) se creará en el directorio que estemos trabajando, con la petición hasta la fecha de expiración; para más información, consultar su **[documentación](https://requests-cache.readthedocs.io/en/latest/)**.