![Logo](images/logo_mds.png)

# Importación/Exportación de datos en Python

Hasta ahora hemos utilizado de forma indiferente datos leídos desde ficheros Excel y desde ficheros CSV pero, de forma habitual, tendremos que trabajar con otros tipos de orígenes de información como pueden ser:
 - Bases de datos
 - Formatos específicos de fichero (como los de otras aplicaciones de procesado de datos: Stata, SAS, SPSS)
 - Formatos específicos de almacenamiento (HDF, Feather, Parquet, pickle, json, XML)
 - Páginas web
 
En esta sesión trataremos los casos de las bases de datos, páginas web y los formatos específicos de almacenamiento.

El cuarto grupo, los formatos de fichero, no se suele utilizar ya que lo más habitual al transferir datos entre aplicaciones es hacerlo en un formato lo más universal posible (por ejemplo, Excel o CSV), se tratan únicamente los formatos de almacenamiento ya que pueden tener ventajas a la hora de trabajar con analítica de datos en python.

El uso de datos externos es, cada vez, más habitual en analítica de datos. Utilizar únicamente información propia puede hacernos llegar a conclusiones incorrectas en diferentes horizontes temporales:
 - Descriptiva: por ejemplo, la venta insuficiente de un producto puede achacarse a un mal posicionamiento en tienda sin tener en cuenta que un competidor ha tenido una oferta vigente.
 - Predictiva: por ejemplo, no tener en cuenta la predicción meteorológica puede afectar a nuestra capacidad de predecir cuánta cerveza se venderá en una cafetería
 - Prescriptiva: por ejemplo, no incluir el incremento o decremento del precio de las materias primas en un proceso de optimización.


## Leer datos provenientes de Internet

Nos referimos a datos provenientes de Internet como aquellos a los que podemos acceder desde una página web o desde un servicio de transferencia de datos que disponga de una API (interfaz de programación de aplicaciones).

Vamos a tratar tres casos, de dificultad creciente, de forma separada:
- Los datos están en una página web y están en una tabla
- Los datos están en un servicio accesible mediante un API
- Los datos están en una página web pero no están en una tabla



# Los datos están en una tabla
Nos referimos en este caso a las tablas más "aburridas" de las que podemos encontrar por Internet, por ejemplo [de la wikipedia](https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_superficie):

![Tabla_wikipedia](./images/tabla_wikipedia.png)

o las tablas habituales de [los periódicos económicos](https://www.elconfidencial.com/mercados/indice/ibex35/):

![Tabla_cotizalia](./images/tabla_cotizalia.png)

En estos casos, **pandas** nos proporciona una forma extremadamente sencilla de leer las tablas, no tenemos más que llamar al método ```read_html``` y, automáticamente, lee todas las tablas que contenga la página y las convierte en DataFrames.

Pandas siempre devuelve una **lista** de DataFrames, cada DataFrame es una tabla en la página web, incluso aunque solo encuentre una tabla:

In [1]:
import pandas as pd
wiki = pd.read_html('https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_superficie')
wiki[0]

Unnamed: 0,Puesto,Territorio,Superficie (km²),Datos
0,-,Planeta Tierra,510 072 000,
1,-,Océanos,359 685 360,
2,-,Continentes,150 386 640,
3,1,Rusia,17 098 242,País más extenso del mundo. País más grande de...
4,-,Antártida,14 000 000,"Con territorios reclamados por Argentina,[5]​ ..."
...,...,...,...,...
249,-,Islas Ashmore y Cartier,5,Administradas por Australia.[6]​
250,-,Islas Spratly,5,Territorio disputado.[43]​
251,-,Islas del Mar del Coral,3,Administrado por Australia.[6]​
252,194,Mónaco,2,País con salida al mar más pequeño del mundo.


## Ejercicio 1. Cotizalia

Accede a los datos de la web de Cotizalia en: https://www.elconfidencial.com/mercados/indice/ibex35/ y localiza las cinco acciones que tienen mayor valor de capitalización.


In [2]:
ibex = pd.read_html('https://www.elconfidencial.com/mercados/indice/ibex35/')[0]
ibex = ibex.sort_values(by='Capitalización',ascending=False).head(5)
ibex

Unnamed: 0,Nombre,Último,Dif%.,Máx. Intradía,Mín. Intradía,Acci.,Efect.,Capitalización,Hora
20,INDITEX,280400,0,-,-,-,-,87.391,17:38:00
19,IBERDROLA,99440,0,-,-,-,-,63.304,17:38:00
31,SANTANDER,28155,0,-,-,-,-,48.823,17:38:00
9,BBVA,50970,0,-,-,-,-,33.986,17:38:00
11,CELLNEX,488800,0,-,-,-,-,33.205,17:38:00


## Páginas web que no contienen tablas (o que no responden a pandas)

Sin embargo, no todas las páginas que parece que contienen una tabla pueden ser leídas por pandas. Cada vez es más habitual que las páginas web contengan elementos que bloquean la navegación hasta que se acepten las cookies o cuyo contenido no sea una tabla a pesar de parecerlo. 

Por ejemplo, Yahoo nos da datos de la cotización del bitcoin en: [https://finance.yahoo.com/quote/BTC-USD/history/](https://finance.yahoo.com/quote/BTC-USD/history/) 
![Htco_bitcoin](./images/htco_bitcoin.png)

Pero, si pedimos los datos desde **pandas** no son tan colaborativos:

In [3]:
#bitcoin = pd.read_html('https://finance.yahoo.com/quote/BTC-USD/history/')

De la misma forma, la información en algunas páginas web puede no ser ni siquiera una tabla:

![Zalando](./images/zalando.png)

# Uso de APIs para obtener información externa

En programación, se llama API, a una interfaz de comunicación que se deja abierta para que terceros puedan interactuar con una aplicación.

Las APIs pueden servir para enviar y recibir datos, comandos... es habitual que muchos servicios, a partir de la web 2.0 (~2005), proporcionen tanto una interfaz gráfica (página web) como una API para interactuar con ellos.

Por ejemplo, en las aplicaciones de la suite Zoho (aplicaciones empresariales en formato web: CRM, ERP,...) el uso de APIs permite interactuar con el sistema sin utilizar su web; mediante ellas, podríamos, por ejemplo, crear una entrada en el CRM cuando recibamos un correo electrónico de determinadas direcciones o cambiando el estado de pago de una factura cuando veamos el apunte en el banco.

En analítica de datos, utilizaremos las API, principalmente, como mecanismo para obtener datos externos de **servicios web**, estos datos pueden ser tanto gratuitos como de pago.

Algunos ejemplos de datos provenientes de API pueden ser:
 - Servicios meteorológicos (AEMET, Accuweaher - este último de pago)
 - Servicios financieros (yahoo finance, quandl - de pago)
 - Redes sociales (twitter principalmente, Instagram y Facebook han bloqueado el acceso a sus APIs salvo para casos excepcionales).
 
Puesto que el proceso de conexión a Twitter es excesivamente laborioso (tienen que autorizar el acceso y proporcionar una clave de uso), haremos un ejemplo de conexión para AEMET.

Recordad que, aunque un servicio gratuito puede parece más atractivo inicialmente, no nos da ninguna garantía en cuánto a plazos, disponibilidad, continuidad... por lo tanto, antes de usar servicios gratuitos tendremos que evaluar pros y contras y el coste de alternativas de pago si las hubiese (sesión 1, tipología de datos).


## Acceso al API de AEMET

La agencia española de meteorología ofrece acceso a los datos de observaciones y predicciones de cientos de estaciones meteorológicas distribuidas por España mediante una API que podemos encontrar en: [AEMET Open Data](https://opendata.aemet.es/centrodedescargas/inicio)

En esta web podemos registrarnos en Obtención de API Key



### Ejercicio 3: Obtén una Key de AEMET (utiliza la dirección de correo del máster)

In [4]:
key = "eyJhbGciOiJIUzI1NiJ9.eyJzdWIiOiJhbGVqYW5kcm8uZmVybmFuZGV6QGVmYnMuZWR1LmVzIiwianRpIjoiZGVmOTI0N2QtYWQyZS00OTEzLTk3NDEtOWRjNmI4ZmZjMDYyIiwiaXNzIjoiQUVNRVQiLCJpYXQiOjE2MzkxNTQ1MjQsInVzZXJJZCI6ImRlZjkyNDdkLWFkMmUtNDkxMy05NzQxLTlkYzZiOGZmYzA2MiIsInJvbGUiOiIifQ.5urxSmy-vYj-NLNwvtZtu8epRl8Q73Kb4rKmtsTGMmE"

## Evaluando qué podemos hacer con un servicio web

Si vemos la documentación que hay en [opendada.aemet.es](https://opendata.aemet.es/dist/index.html?#/) veremos que hace mención a muchos tipos de datos (Predicciones específicas, Valores Climatológicos...) explorar todas ellas requiere mucho tiempo.

Para poder realizar una práctica más o menos acotada, utilizaremos únicamente tress métodos de los muchos que ofrece la AEMET:
 - Municipios [Maestro -> /api/maestro/municipios](https://opendata.aemet.es/dist/index.html?#/maestro)
 - Observación [Observación Convencional -> /api/observacion/convencional/todas](https://opendata.aemet.es/dist/index.html?#!/observacion-convencional/Datos_de_observaci%C3%B3n_Tiempo_actual)
 - Prediccion [Predicciones Específicas -> /api/prediccion/especifica/municipio/diaria/{municipio}](https://opendata.aemet.es/dist/index.html?#!/predicciones-especificas/Predicci%C3%B3n_por_municipios_horaria_Tiempo_actual)

El primero muestra una forma de interactuar sencilla con una API, simplemente le pedimos un maestro de todos los municipios que conoce la aplicación.

El segundo servicio nos devuelve datos observados de todas las estaciones.

El último nos dal a predicción para un municipio.

Para acceder a cada uno de ellos necesitamos realizar **peticiones** a un servidor web. Estas peticiones son como las que realiza nuestro navegador cuando pedimos una página, para poder hacerlas desde Python necesitamos utilizar una herramienta que sea capaz de hablar con servidores de páginas web.

En nuestro caso utilizaremos la librería **requests** que es muy sencilla de utilizar:

In [5]:
import requests

google = requests.get('https://www.google.com')

La clave es la palabra **get** que es un **verbo** admitido por los servidores de páginas web (la lista, incompleta, de verbos que puede llegar a aceptar un servidor web está formada por: GET, POST, PUT, PATCH y DELETE, y todos juntos forman lo que se llama una interfaz RESTful)

En nuestro caso nos preocupa únicamente ```get``` que simplemente "obtiene" esa página del servidor.

Este código pide la página "www.google.com" al servidor de páginas web de google y almacena el resultado en una variable llamada google.

Esa variable tiene varias cosas dentro, pero, la más importante es el contenido:

In [6]:
google.content[:1000] # Mostramos los primeros 1000 caracteres de la página de google tal como los lee el navegador

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la informaci\xf3n mundial en castellano, catal\xe1n, gallego, euskara e ingl\xe9s." name="description"><meta content="noodp" name="robots"><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/logos/doodles/2021/seasonal-holidays-2021-6753651837109324-6752733080595605-cst.gif" itemprop="image"><meta content="Felices fiestas 2021" property="twitter:title"><meta content="Felices fiestas 2021 #GoogleDoodle" property="twitter:description"><meta content="Felices fiestas 2021 #GoogleDoodle" property="og:description"><meta content="summary_large_image" property="twitter:card"><meta content="@GoogleDoodles" property="twitter:site"><meta content="https://www.google.com/logos/doodles/2021/seasonal-holidays-2021-6753651837109324-2xa.gif" property="twitter:image"><meta content="https://www.google.com/logos/doodles/2021/seasonal-holidays-20

Como curiosidad, podemos ver la cantidad de texto que hace falta para hacer la página inicial de google:


In [7]:
len(google.content) / 1000

16.137

Para mostrar la página inicial de Google, necesitamos más de 16.000 letras, unas 5 páginas de texto.

Si leemos el contenido de la web de países que utilizamos antes de la wikipedia con Requests obtenemos:

In [8]:
html_paises = requests.get('https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_superficie')

html_paises.content[:1000]

b'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Anexo:Pa\xc3\xadses por superficie - Wikipedia, la enciclopedia libre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"117130e6-2d7d-4104-a40e-42aaf4f384db","wgCSPNonce":false,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":104,"wgPageName":"Anexo:Pa\xc3\xadses_por_superficie","wgTitle":"Pa\xc3\xadses por superficie","wgCurRevisionId":140540589,"wgRevisionId":140540589,"wgArticleId":4474,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Wikipedia:P\xc3\xa1ginas con plantillas con 

In [9]:
print(f'La lista de países de la wikipedia, requeriría, si se imprimiese en papel, unas {int(len(html_paises.content) / 3000)} páginas')

La lista de países de la wikipedia, requeriría, si se imprimiese en papel, unas 105 páginas


### Solicitando datos a la  AEMET

Si ahora intentamos pedir los datos de la AEMET veremos que tenemos varias dudas, primero vemos que nos habla de algo que parecen páginas (/api/prediccion/especial/municipio/horaria) pero no nos dice la ruta base a utilizar.

En este caso la ruta base será: https://opendata.aemet.es/opendata

Es una buena costumbre crear una variable con la ruta base de la API a la que accedemos:

In [10]:
ruta_base_aemet = 'https://opendata.aemet.es/opendata'

Esto lee la página web inicial de Google y guarda toda la respuesta del servidor en la variable ```google```.

En ella podemos ver diferentes parámetros de respuesta del servidor (si todo fue bien,...) pero, lo más importante, podemos ver el **contenido** de la web:



Ahora, podríamos pedir los datos de las diferentes páginas:
- Municipios: /api/maestro/municipios
- Observación: /api/observacion/convencional/todas
- Predicción: /api/prediccion/especifica/municipio/diaria/{municipio}

Para pedirlas tenemos que concatener la ruta base con la ruta del servicio especificado pero, si lo hacemos, no recibiremos ninguna respuesta:

In [11]:
res = requests.get(ruta_base_aemet + '/api/maestro/municipios')

res.content

b''

Esto es porque el API de AEMET exige que le pasemos la key que nos ha llegado al correo electrónico, para ello tenemos que hacer uso de las "cabeceras" de las peticiones en las que podemos pasar información especial al servidor que procesa la petición:

In [12]:
headers = {'api_key': key}

res = requests.get(ruta_base_aemet + '/api/maestro/municipios', headers=headers)

print(f'Recibidos {len(res.content)} caracteres, los primeros 10000 son: \n{res.content[:10000]}')

Recibidos 3008591 caracteres, los primeros 10000 son: 
b'[ {\n  "latitud" : "40\xba32\'54.450744\\"",\n  "id_old" : "44004",\n  "url" : "ababuj-id44001",\n  "latitud_dec" : "40.54845854",\n  "altitud" : "1372",\n  "capital" : "Ababuj",\n  "num_hab" : "65",\n  "zona_comarcal" : "624401",\n  "destacada" : "0",\n  "nombre" : "Ababuj",\n  "longitud_dec" : "-0.80780117",\n  "id" : "id44001",\n  "longitud" : "-0\xba48\'28.084212\\""\n}, {\n  "latitud" : "40\xba54\'58.824504\\"",\n  "id_old" : "40004",\n  "url" : "abades-id40001",\n  "latitud_dec" : "40.91634014",\n  "altitud" : "971",\n  "capital" : "Abades",\n  "num_hab" : "873",\n  "zona_comarcal" : "674001",\n  "destacada" : "0",\n  "nombre" : "Abades",\n  "longitud_dec" : "-4.26787389",\n  "id" : "id40001",\n  "longitud" : "-4\xba16\'4.346004\\""\n}, {\n  "latitud" : "43\xba8\'51.525564\\"",\n  "id_old" : "48010",\n  "url" : "abadino-abadino-zelaieta-id48001",\n  "latitud_dec" : "43.14764599",\n  "altitud" : "144",\n  "capital" : "Abadi\

Podemos ver que, hemos recibido 3 Mb de datos (1000 páginas de texto)

La información recibida, tal como está viene en un formato denominado ```json``` que es un formato de intercambio de datos muy utilizado para transferir el equivalente a nuestros diccionarios y listas de python. 

Podemos ver ese contenido json utilizando el método ```json```de la respuesta de requests:

In [13]:
res.json()[:5]

[{'latitud': '40º32\'54.450744"',
  'id_old': '44004',
  'url': 'ababuj-id44001',
  'latitud_dec': '40.54845854',
  'altitud': '1372',
  'capital': 'Ababuj',
  'num_hab': '65',
  'zona_comarcal': '624401',
  'destacada': '0',
  'nombre': 'Ababuj',
  'longitud_dec': '-0.80780117',
  'id': 'id44001',
  'longitud': '-0º48\'28.084212"'},
 {'latitud': '40º54\'58.824504"',
  'id_old': '40004',
  'url': 'abades-id40001',
  'latitud_dec': '40.91634014',
  'altitud': '971',
  'capital': 'Abades',
  'num_hab': '873',
  'zona_comarcal': '674001',
  'destacada': '0',
  'nombre': 'Abades',
  'longitud_dec': '-4.26787389',
  'id': 'id40001',
  'longitud': '-4º16\'4.346004"'},
 {'latitud': '43º8\'51.525564"',
  'id_old': '48010',
  'url': 'abadino-abadino-zelaieta-id48001',
  'latitud_dec': '43.14764599',
  'altitud': '144',
  'capital': 'Abadiño-Zelaieta',
  'num_hab': '7504',
  'zona_comarcal': '754802',
  'destacada': '0',
  'nombre': 'Abadiño',
  'longitud_dec': '-2.60687319',
  'id': 'id48001',


Esta respuesta está formada por una lista de diccionarios, que podemos utilizar como cualquier otro diccionario de Python:

In [14]:
primer_municipio = res.json()[0]

primer_municipio['capital']

'Ababuj'

Pero, como trabajar con diccionarios y json no es muy operativo, lo normal es pasar este contenido a un DataFrame de Pandas:

In [15]:
df = pd.DataFrame(res.json())

df.head()

Unnamed: 0,latitud,id_old,url,latitud_dec,altitud,capital,num_hab,zona_comarcal,destacada,nombre,longitud_dec,id,longitud
0,"40º32'54.450744""",44004,ababuj-id44001,40.54845854,1372,Ababuj,65,624401,0,Ababuj,-0.80780117,id44001,"-0º48'28.084212"""
1,"40º54'58.824504""",40004,abades-id40001,40.91634014,971,Abades,873,674001,0,Abades,-4.26787389,id40001,"-4º16'4.346004"""
2,"43º8'51.525564""",48010,abadino-abadino-zelaieta-id48001,43.14764599,144,Abadiño-Zelaieta,7504,754802,0,Abadiño,-2.60687319,id48001,"-2º36'24.743484"""
3,"40º15'34.315272""",10004,abadia-id10001,40.25953202,451,Abadía,324,701001,0,Abadía,-5.97785806,id10001,"-5º58'40.289016"""
4,"43º21'46.874736""",27010,abadin-abadin-o-provecende-id27001,43.36302076,515,Abadín o Provecende,2646,712702,0,Abadín,-7.47214495,id27001,"-7º28'19.72182"""


### Ejercicio 4: Obtén la información de la observación convencional

In [16]:
headers = {'api_key': key}

res = requests.get(ruta_base_aemet + '/api/observacion/convencional/todas', headers=headers)

In [17]:
res.json()

{'descripcion': 'exito',
 'estado': 200,
 'datos': 'https://opendata.aemet.es/opendata/sh/c6ad3b7e',
 'metadatos': 'https://opendata.aemet.es/opendata/sh/55c2971b'}

En este caso vemos que AEMET nos ha engañado y, en lugar de darnos los datos, nos ha enviado a buscarlos a otros sitio, concretamente a la página indicada en "datos".

Si obtenemos esa página:


In [18]:
res.json()['datos']

'https://opendata.aemet.es/opendata/sh/c6ad3b7e'

In [19]:
resultado = res.json()

resultado_real = requests.get(resultado['datos'])

resultado_real.content[:100]

b'[ {\n  "idema" : "0009X",\n  "lon" : 0.963335,\n  "fint" : "2021-12-28T02:00:00",\n  "prec" : 0.0,\n  "al'

In [20]:
resultado_real.json()

[{'idema': '0009X',
  'lon': 0.963335,
  'fint': '2021-12-28T02:00:00',
  'prec': 0.0,
  'alt': 406.0,
  'vmax': 12.3,
  'vv': 5.4,
  'dv': 272.0,
  'lat': 41.213894,
  'dmax': 257.0,
  'ubi': 'ALFORJA',
  'hr': 65.0,
  'tamin': 13.1,
  'ta': 13.2,
  'tamax': 13.3},
 {'idema': '0016A',
  'lon': 1.178894,
  'fint': '2021-12-28T02:00:00',
  'prec': 0.0,
  'alt': 71.0,
  'vmax': 13.4,
  'vv': 7.7,
  'dv': 270.0,
  'lat': 41.14972,
  'dmax': 270.0,
  'ubi': 'REUS/AEROPUERTO',
  'pres': 1003.7,
  'hr': 54.0,
  'stdvv': 0.9,
  'ts': 15.5,
  'pres_nmar': 1012.7,
  'tamin': 14.7,
  'ta': 15.3,
  'tamax': 15.5,
  'tpr': 6.1,
  'vis': 30.0,
  'stddv': 5.0,
  'inso': 0.0},
 {'idema': '0034X',
  'lon': 1.260838,
  'fint': '2021-12-28T02:00:00',
  'prec': 0.0,
  'alt': 233.0,
  'lat': 41.293053,
  'ubi': 'VALLS',
  'hr': 66.0,
  'tamin': 12.9,
  'ta': 13.6,
  'tamax': 13.6},
 {'idema': '0042Y',
  'lon': 1.249167,
  'fint': '2021-12-28T02:00:00',
  'prec': 0.0,
  'alt': 55.0,
  'vmax': 9.2,
  'vv': 

In [21]:
predicciones = pd.DataFrame(resultado_real.json())
predicciones.head()

Unnamed: 0,idema,lon,fint,prec,alt,vmax,vv,dv,lat,dmax,...,pacutp,vvu,stdvvu,stddvu,dmaxu,tss20cm,geo850,geo925,nieve,geo700
0,0009X,0.963335,2021-12-28T02:00:00,0.0,406.0,12.3,5.4,272.0,41.213894,257.0,...,,,,,,,,,,
1,0016A,1.178894,2021-12-28T02:00:00,0.0,71.0,13.4,7.7,270.0,41.14972,270.0,...,,,,,,,,,,
2,0034X,1.260838,2021-12-28T02:00:00,0.0,233.0,,,,41.293053,,...,,,,,,,,,,
3,0042Y,1.249167,2021-12-28T02:00:00,0.0,55.0,9.2,3.3,274.0,41.123894,260.0,...,,,,,,,,,,
4,0061X,1.519269,2021-12-28T02:00:00,0.0,632.0,14.9,9.2,281.0,41.417053,277.0,...,,,,,,,,,,


In [22]:
predicciones.shape

(17914, 39)

In [23]:
df.columns

Index(['latitud', 'id_old', 'url', 'latitud_dec', 'altitud', 'capital',
       'num_hab', 'zona_comarcal', 'destacada', 'nombre', 'longitud_dec', 'id',
       'longitud'],
      dtype='object')

In [24]:
predicciones.columns

Index(['idema', 'lon', 'fint', 'prec', 'alt', 'vmax', 'vv', 'dv', 'lat',
       'dmax', 'ubi', 'hr', 'tamin', 'ta', 'tamax', 'pres', 'stdvv', 'ts',
       'pres_nmar', 'tpr', 'vis', 'stddv', 'inso', 'tss5cm', 'psoltp', 'pliqt',
       'rviento', 'vmaxu', 'dvu', 'pacutp', 'vvu', 'stdvvu', 'stddvu', 'dmaxu',
       'tss20cm', 'geo850', 'geo925', 'nieve', 'geo700'],
      dtype='object')

### Ejercicio 5: Obtén la predicción para el municipio de Coruña

#### Obtener el id del municipio de Oleiros
#### Obtener la predicción ¿Cómo se le pasa el código de municipio?

In [25]:
import requests
import pandas

coruna = df[(df['capital'].str.contains('Coru')) & (df['id_old'].str.contains('15'))]
coruna

Unnamed: 0,latitud,id_old,url,latitud_dec,altitud,capital,num_hab,zona_comarcal,destacada,nombre,longitud_dec,id,longitud
2354,"43º22'12.455148""",15001,coruna-a-id15030,43.37012643,21,"Coruña, A",244810,711501,1,"Coruña, A",-8.39114853,id15030,"-8º23'28.134708"""


In [26]:
coruna_id = list(coruna['id'].str.replace('id',''))[0]
coruna_id

'15030'

In [27]:
res = requests.get(ruta_base_aemet + '/api/prediccion/especifica/municipio/diaria/{}'.format(coruna_id), headers=headers)
resultado = res.json()
res = requests.get(resultado['datos'])
coruna_pred = res.json()[0]

In [28]:
coruna_pred=coruna_pred['prediccion']
coruna_pred

{'dia': [{'probPrecipitacion': [{'value': 0, 'periodo': '00-24'},
    {'value': 0, 'periodo': '00-12'},
    {'value': 0, 'periodo': '12-24'},
    {'value': 0, 'periodo': '00-06'},
    {'value': 0, 'periodo': '06-12'},
    {'value': 0, 'periodo': '12-18'},
    {'value': 5, 'periodo': '18-24'}],
   'cotaNieveProv': [{'value': '', 'periodo': '00-24'},
    {'value': '', 'periodo': '00-12'},
    {'value': '', 'periodo': '12-24'},
    {'value': '', 'periodo': '00-06'},
    {'value': '', 'periodo': '06-12'},
    {'value': '', 'periodo': '12-18'},
    {'value': '', 'periodo': '18-24'}],
   'estadoCielo': [{'value': '', 'periodo': '00-24', 'descripcion': ''},
    {'value': '', 'periodo': '00-12', 'descripcion': ''},
    {'value': '', 'periodo': '12-24', 'descripcion': ''},
    {'value': '', 'periodo': '00-06', 'descripcion': ''},
    {'value': '', 'periodo': '06-12', 'descripcion': ''},
    {'value': '', 'periodo': '12-18', 'descripcion': ''},
    {'value': '16n', 'periodo': '18-24', 'descripci

In [29]:
coruna_pred['dia'][0]

{'probPrecipitacion': [{'value': 0, 'periodo': '00-24'},
  {'value': 0, 'periodo': '00-12'},
  {'value': 0, 'periodo': '12-24'},
  {'value': 0, 'periodo': '00-06'},
  {'value': 0, 'periodo': '06-12'},
  {'value': 0, 'periodo': '12-18'},
  {'value': 5, 'periodo': '18-24'}],
 'cotaNieveProv': [{'value': '', 'periodo': '00-24'},
  {'value': '', 'periodo': '00-12'},
  {'value': '', 'periodo': '12-24'},
  {'value': '', 'periodo': '00-06'},
  {'value': '', 'periodo': '06-12'},
  {'value': '', 'periodo': '12-18'},
  {'value': '', 'periodo': '18-24'}],
 'estadoCielo': [{'value': '', 'periodo': '00-24', 'descripcion': ''},
  {'value': '', 'periodo': '00-12', 'descripcion': ''},
  {'value': '', 'periodo': '12-24', 'descripcion': ''},
  {'value': '', 'periodo': '00-06', 'descripcion': ''},
  {'value': '', 'periodo': '06-12', 'descripcion': ''},
  {'value': '', 'periodo': '12-18', 'descripcion': ''},
  {'value': '16n', 'periodo': '18-24', 'descripcion': 'Cubierto'}],
 'viento': [{'direccion': '', 

# Scraping de datos 

El siguiente escalón en la lista de métodos para extraer información de páginas web es el scraping de datos.

Con esta técnica, accedemos a una página web y leemos la información que queda visible para un usuario final. Es un método muy poco eficiente y requiere mucho más trabajo que el acceso a un API pero también permite acceder a datos que, de otra forma sería imposible recopilar como, por ejemplo, el precio de los productos de nuestros competidores en un mercado.

Para ello podemos intentar varias técnicas quedándonos con la que sea más sencillo implementar:
 - Tratar de descargar el contenido de la web y dárselo a **pandas**
 - Scrapear los datos que necesitamos
 - Simular un navegador e ir scrapeando los datos que necesitamos
 
En esta sesión solo veremos las dos primeras, la tercera requiere instalar varias utilidades en el ordenador y no siempre funciona bien.

## Descargar el contenido y pasárselo a Pandas

En ocasiones, una página web puede no querer colaborar con Pandas y decide no devolverle información, por ejemplo, si vamos a la web:
  [Finanzas yahoo - BTC vs USD](https://finance.yahoo.com/quote/BTC-USD/history/)
  
Podemos ver una web normal con información de cotización del Bitcoin en Dólares.

Sin embargo, si se la pedimos a Pandas algo no funciona bien:

In [30]:
#pd.read_html('https://finance.yahoo.com/quote/BTC-USD/history/')

Pandas dice que no hay ninguna web con esa dirección.

Podemos probar si requests se lleva mejor con esta página:

In [31]:
x = requests.get('https://finance.yahoo.com/quote/BTC-USD/history/')
x.content

b'<!DOCTYPE html>\n  <html lang="en-us"><head>\n  <meta http-equiv="content-type" content="text/html; charset=UTF-8">\n      <meta charset="utf-8">\n      <title>Yahoo</title>\n      <meta name="viewport" content="width=device-width,initial-scale=1,minimal-ui">\n      <meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n      <style>\n  html {\n      height: 100%;\n  }\n  body {\n      background: #fafafc url(https://s.yimg.com/nn/img/sad-panda-201402200631.png) 50% 50%;\n      background-size: cover;\n      height: 100%;\n      text-align: center;\n      font: 300 18px "helvetica neue", helvetica, verdana, tahoma, arial, sans-serif;\n  }\n  table {\n      height: 100%;\n      width: 100%;\n      table-layout: fixed;\n      border-collapse: collapse;\n      border-spacing: 0;\n      border: none;\n  }\n  h1 {\n      font-size: 42px;\n      font-weight: 400;\n      color: #400090;\n  }\n  p {\n      color: #1A1A1A;\n  }\n  #message-1 {\n      font-weight: bold;\n      margin:

Sin entrar a evaluar el contenido en sí mismo, vemos que el método ha fallado.

Si para la página inicial de Google necesitamos 5 páginas de papel parece obvio que, para la cotización de Bitcoin de varios días, necesitaremos más texto que el que nos ha devuelto esta Yahoo.

En este caso, la experiencia al tratar de extraer datos de páginas web es importante y nos dice que, lo más probable, es que Yahoo se esté dando cuenta de que no estamos accediendo desde un navegador de verdad y por eso no quiera mostrar la información real.

Podemos prometerle a Yahoo que, realmente, aunque parezcamos código de Python, somos un navegador Google Chrome. En este caso es necesario darle esa información por escrito en forma de **headers** que, como ya hemos visto, son la forma que tenemos de decirle a un servidor web cosas de nosotros mismos (nuestros metadatos).

En este caso  pondremos un User-Agent (el identificador del navegador) obtenido de: https://www.whatismybrowser.com/guides/the-latest-user-agent/chrome Aunque, la forma más segura de obtener un User-Agent actualizado, es mediante F12 en Chrome.

Utilizar un User-Agent nos hará pasarnos por el navegador que nosotros queramos, cuando una página web nos deniega el acceso, cambiar de User-Agent suele ayudar a que piense que somos alguien diferente.



In [32]:
import requests
import pandas as pd
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}
x = requests.get('https://finance.yahoo.com/quote/BTC-USD/history/', headers=headers)

pd.read_html(x.content)[0]

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Dec 29, 2021",47576.86,47982.23,47576.86,47982.23,47982.23,32707647488
1,"Dec 28, 2021",-,-,-,-,-,-
2,"Dec 27, 2021",50802.61,51956.33,50499.47,50640.42,50640.42,24324345758
3,"Dec 26, 2021",50428.69,51196.38,49623.11,50809.52,50809.52,20964372926
4,"Dec 25, 2021",50854.92,51176.60,50236.71,50429.86,50429.86,19030650914
...,...,...,...,...,...,...,...
96,"Sep 24, 2021",44894.30,45080.49,40936.56,42839.75,42839.75,42839345714
97,"Sep 23, 2021",43560.30,44942.18,43109.34,44895.10,44895.10,34244064430
98,"Sep 22, 2021",40677.95,43978.62,40625.63,43574.51,43574.51,38139709246
99,"Sep 21, 2021",43012.23,43607.61,39787.61,40693.68,40693.68,48701090088


Parece que, para obtener datos de Yahoo, ha sido suficiente con esto.

### Ejercicio 6, mayor diferencial en Ethereum

Partiendo del ejemplo anterior, descarga los datos de cotización de **Ethereum** (ETH) frente a Euro (EUR) y localiza el día en el que el diferencial entre el High y el Low ha sido más alto.

In [33]:
import requests
import pandas as pd
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}
x = requests.get('https://finance.yahoo.com/quote/ETH-USD/history/', headers=headers)

eth = pd.read_html(x.content)[0]
eth

Unnamed: 0,Date,Open,High,Low,Close*,Adj Close**,Volume
0,"Dec 29, 2021",3793.41,3826.90,3793.41,3826.90,3826.90,16977080320
1,"Dec 28, 2021",-,-,-,-,-,-
2,"Dec 27, 2021",4064.75,4126.00,4033.49,4037.55,4037.55,11424360002
3,"Dec 26, 2021",4094.15,4105.02,4013.03,4067.33,4067.33,11197244172
4,"Dec 25, 2021",4049.78,4138.56,4027.93,4093.28,4093.28,10894785525
...,...,...,...,...,...,...,...
96,"Sep 24, 2021",3154.56,3159.64,2747.34,2931.67,2931.67,25595422789
97,"Sep 23, 2021",3077.97,3173.54,3038.10,3155.52,3155.52,18516291047
98,"Sep 22, 2021",2763.21,3089.08,2741.44,3077.87,3077.87,23742102645
99,"Sep 21, 2021",2977.31,3101.70,2676.41,2764.43,2764.43,30405062665


## Scraping de datos: Requests + BeautifulSoup

Hasta ahora hemos utilizado Requests como una forma de interactuar con servidores que tienen información estructurada, ya sea mediante API o mediante tablas.

Sin embargo, la información en Internet no está siempre tan bien organizada y los datos necesitan limpiarse antes de pasarse a pandas.

**BeautifulSoup** es la librería con nombre estúpido que se encargará de ayudarnos en esta tarea.

BeautifulSoup nos ayudará a navegar en todo el conjunto de etiquetas que forman una página web y que, en la peor época en cuánto a estándares de internet, se llamó **tag-soup**.



Podemos ver el código que forma una página web, si vamos a "www.elconfidencial.com" y pulsamos F12 (en chrome), se abre una ventana con el siguiente aspecto:

![Dev_tools](./images/Dev-tools.png)

Si pulsamos en el botón en la flecha situada arriba a la izquierda en la imagen anterior y en un titular del periódico:

![titular](./images/seleccionar_titular.png)


nos abre la siguiente información:

![Dev tools2](./images/Dev-tools2.png)

Aquí, podemos ver las etiquetas (entre símbolos de mayor y menor) que componen la "sopa" a la que hace referencia BeautifulSoup.

Entre toda la maraña de cosas que salen podemos fijarnos en ```<h3 class="art-tit" typetitle="tsmall">```, sin entrar en detalles del código html, la referencia ```h3``` quiere decir que es un encabezado y, la **clase** nos dice el aspecto que tiene (la clase de un elemento de un página web decide su color, tipo de fuente, espaciado, ... todas sus características visuales).

En este caso vamos a utilizar esa clase **art-tit** para intentar extraer todos los titulares de la página principal de ElConfidencial:

In [34]:

import requests

el_confidencial = requests.get('https://www.elconfidencial.com')
pagina_principal = el_confidencial.content

print(f'La página principal tiene: {len(pagina_principal)} caracteres, los 1000 primeros son:\n\n {pagina_principal[:1000]}')


La página principal tiene: 423757 caracteres, los 1000 primeros son:

 b'<!DOCTYPE html><html lang="es"><head><link rel="dns-prefetch" href="https://bc.marfeelcache.com" /><link rel="preload" as="script" href="https://bc.marfeelcache.com/statics/marfeel/gardac-sync.js" crossorigin="crossorigin" /><script data-mrf-script="garda" data-mrf-dt="1" data-mrf-host="titania.marfeel.com" src="https://bc.marfeelcache.com/statics/marfeel/gardac-sync.js"></script><script type="application/json" id="EC_hosts">{"name": "El confidencial","id": "1","enviroment": "production","host": "www.elconfidencial.com","api": "api.elconfidencial.com","secure": "secure.elconfidencial.com","image": ""}</script><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><meta http-equiv="X-UA-Compatible" content="IE=edge"/><!--[if IE 8]><script src="/javascript/v2/plugins/html5-shim/html5shiv-printshiv.js"></script><![endif]--><title>El Confidencial - El diario de los lectores influyentes</title><meta name="

Para trabajar con estos 450.000 caracteres, delegaremos en BeautifulSoup:

In [35]:
from bs4 import BeautifulSoup

doc = BeautifulSoup(pagina_principal)


Esto crea, en nuestro ordenador, un **objeto** de BeautifulSoup al que podemos hacerle peticiones.

Al igual que con las API, hay muchísimas vías que se pueden explorar pero, por centrarnos en una, encontraremos objetos por su clase:

In [36]:
tit = doc.find_all(attrs={'class':'art-tit'})
tit[:100]

[<h3 class="art-tit fs-60" typetitle="tsmall"><a class="art-tit-link tit-color" data-title="Sánchez aleja las restricciones comunes a la espera de otra reunión con las CCAA" href="https://www.elconfidencial.com/espana/2021-12-28/sanchez-restricciones-nochevieja-reunion-ccaa_3350676/" title="Sánchez aleja las restricciones comunes a la espera de otra reunión con las CCAA">Sánchez aleja las restricciones comunes <br/>a la espera de otra reunión con las CCAA</a></h3>,
 <h3 class="art-tit fs-26" typetitle="tnormal"><a class="art-tit-link tit-color" data-title="España registra un nuevo récord de incidencia (1.360) y otro de contagios (99.671)" href="https://www.elconfidencial.com/espana/2021-12-28/coronavirus-datos-sanidad-incidencia-contagios-fallecimientos-28diciembre_3350837/" title="España registra un nuevo récord de incidencia (1.360) y otro de contagios (99.671)">España registra un nuevo récord de incidencia (1.360) y otro de contagios (99.671)</a></h3>,
 <h3 class="art-tit fs-26" typ

In [37]:
titulos = [x.text for x in doc.find_all(attrs={'class':'art-tit'})]
titulos[:10]

['Sánchez aleja las restricciones comunes a\xa0la espera de otra reunión con las CCAA',
 'España registra un nuevo récord de incidencia (1.360) y otro de contagios (99.671)',
 'Con la tercera dosis sin poner, cada vez más países se lanzan a por la cuarta',
 'Directo | Euskadi cierra\xa0el ocio a la 1:00: 9 regiones, con límites horarios',
 'Madrid y Andalucía apoyan estudiar que se rebaje la cuarentena de 10 días',
 'Las comunidades despedirán a miles de sanitarios pese al menor déficit',
 'Moncloa da tres meses a las empresas para que adopten la nueva regla de temporalidad',
 'Un Gobierno agotadoy el primer mitinelectoral de Sánchez',
 'El presidente saca los PGE entre serios avisos de sus socios por la reforma laboral',
 'ERC busca ahora un acomodo a Trapero en los Mossos tras haberlo destituido']

In [38]:
len(titulos)

111

Vemos que, con este código tan "sencillo" (son solo 7 líneas de código) hemos extraído todos los titulares que había hoy en el periódico.

Podemos hacer algo un poco más interesante, por ejemplo, leer los precios de Tous, para ello utilizaremos la página base:

https://www.tous.com/eu-en/jewelry/best-sellers/c/2026

Y se la pasaremos a BeautifulSoup.

Utilizaremos las herramientas de desarrollo de Google Chrome al mismo tiempo que el código Python para extraer lo que necesitamos

### Ejercicio 7. Obtén los descriptivos de los productos de la web de Tous

#### Obtener la clase que tiene la descripción de los productos
#### Pasárselo a BeautifulSoup para que nos extraiga los descriptivos



In [39]:
url = 'https://www.tous.com/eu-en/jewelry/best-sellers/c/2026'
doc = BeautifulSoup(requests.get(url).content)

In [40]:
desc = [x.text for x in doc.find_all(attrs={'class':'product-card'})]
nombre = []
for i in desc:
    nombre.append(i.replace('\n    ','').replace('materials','').replace('ENGRAVABLE','').strip())
nombre

['Silver Vermeil TOUS Basics bear Hoop earrings       50\xa0€',
 'Silver Vermeil Cool Joy Earrings       70\xa0€',
 'Silver Vermeil Cool Joy Earrings set       65\xa0€',
 'Silver vermeil Cool Joy Set   2 products',
 'Silver TOUS Straight Earrings with Pearls       60\xa0€',
 'Silver TOUS Straight Earrings with Pearls       52\xa0€',
 'Silver Vermeil Cool Joy Necklace with Gemstones       130\xa0€',
 'Cool Joy Set - Straight gemstones  2 products',
 'Silver Vermeil Cool Joy Earcuff with Gemstones       50\xa0€',
 'Magic Nature Necklaces Set        70\xa0€',
 'Silver Vermeil TOUS Good Vibes four-leaf clover Bracelet with multicolored Cord         75\xa0€',
 'Silver TOUS Good Vibes flower Bracelet with red Cord         65\xa0€',
 'Rose Vermeil Silver Super Power Earrings with Turquoise       60\xa0€',
 'Rose Vermeil Silver Super Power Earrings with Gemstones       99\xa0€',
 'Rose Vermeil Silver Super Power Necklace with Gemstones       80\xa0€',
 'Rose Vermeil Silver Super Power Bracelet

In [41]:
lst=[]
for i in nombre:
    k = i.split('       ')
    lst.append(k)
df = pd.DataFrame(lst,columns=['Desc','Price'])

In [42]:
df

Unnamed: 0,Desc,Price
0,Silver Vermeil TOUS Basics bear Hoop earrings,50 €
1,Silver Vermeil Cool Joy Earrings,70 €
2,Silver Vermeil Cool Joy Earrings set,65 €
3,Silver vermeil Cool Joy Set 2 products,
4,Silver TOUS Straight Earrings with Pearls,60 €
5,Silver TOUS Straight Earrings with Pearls,52 €
6,Silver Vermeil Cool Joy Necklace with Gemstones,130 €
7,Cool Joy Set - Straight gemstones 2 products,
8,Silver Vermeil Cool Joy Earcuff with Gemstones,50 €
9,Magic Nature Necklaces Set,70 €


Con los nombres obtenidos lo que necesitamos es ir un paso más allá y obtener también los precios.

Para ello lo que vamos a hacer es buscar un "contenedor" que tenga tanto el descriptivo como el precio:

En este caso, el contenedor que tiene nombre y precio del producto tiene una clase llamada "product-card":



### Ejercicio 8. Obtén todos los productos de las siguientes páginas (productivizar el scraping)


In [43]:
paginas = {
    'Best_sellers': 'https://www.tous.com/eu-en/jewelry/best-sellers/c/2026',
    'Earrings': 'https://www.tous.com/eu-en/jewelry/earrings/c/6',
    'Piercings': 'https://www.tous.com/eu-en/jewelry/piercings/c/4433',
    'Bracelets': 'https://www.tous.com/eu-en/jewelry/bracelets/c/3',
    'Rings': 'https://www.tous.com/eu-en/jewelry/jewelry-rings/c/5',
    'Necklaces': 'https://www.tous.com/eu-en/jewelry/necklaces/c/7',
    'Pendants': 'https://www.tous.com/eu-en/jewelry/pendants/c/10',
    'Chains': 'https://www.tous.com/eu-en/jewelry/chains/c/11',
    'Diamonds': 'https://www.tous.com/eu-en/jewelry/diamonds/c/4358'
}

In [44]:
import requests
from bs4 import BeautifulSoup
import pandas as pd


lst=[]
for p in paginas:
    
    doc = BeautifulSoup(requests.get(paginas[p]).content)
    desc = [x.text for x in doc.find_all(attrs={'class':'product-card'})]

    nombre = []
    for i in desc:
        nombre.append(i.replace('\n    ','').replace('materials','').replace('ENGRAVABLE','').replace('ADD','').strip())
        
    
    for i in nombre:
        k = i.split('       ')
        lst.append(k)    

In [45]:
dfs = pd.DataFrame(lst)
dfs.columns = ['Nombre','Precio','Extra']
dfs.drop('Extra',axis=1,inplace=True)

In [46]:
dfs.head()

Unnamed: 0,Nombre,Precio
0,Silver Vermeil TOUS Basics bear Hoop earrings,50 €
1,Silver Vermeil Cool Joy Earrings,70 €
2,Silver Vermeil Cool Joy Earrings set,65 €
3,Silver vermeil Cool Joy Set 2 products,
4,Silver TOUS Straight Earrings with Pearls,60 €


## Aspectos Éticos / legales del Scraping

El scraping de datos está en una zona un tanto gris en cuánto a legalidad. Por una parte estamos accediendo a información que el dueño ofrece de forma gratuita por internet pero, por otra, si realizamos demasiadas peticiones de datos (demasiadas peticiones por segundo) podríamos afectar al rendimiento de la página respecto al resto de usuarios de la página.

En general, antes de scrapear datos, debemos comprobar si existen otros métodos para obtenerlos que sean menos intrusivos y, en caso de no existir, tratar de realizar un scraping respetuoso con los servicios del proveedor de datos.

## Scraping con navegador

Por último, algunas páginas web no responden a peticiones de requests o, la página obtenida no tiene todos los datos que tiene la página original.

En muchas ocasiones esto se debe a que la página a la que intentamos acceder requiere la ejecución de código JavaScript en nuestro navegador.

Por ejemplo, si vamos a AirBnB y pedimos los datos de una casa con requests, veremos que casi ninguna de las clases que aparecen en las herramientas de desarrollo de chrome está en la respuesta obtenida por requests.

AirBnB "monta" la página en nuestro navegador en función de sus características, tamaño de pantalla, tipo de dispositivo (tablet, móvil...) y, para ello, utiliza Javascript.

Aunque en el máster no se ve cómo hacer este scraping (configurar el motor de control del navegador puede llevar mucho tiempo), intentaremos ver una demostración de cómo funcionan estos programas:

# Acceso a una base de datos desde Python

Por último, el origen de datos más frecuente para trabajar en Python es una base de datos.

Python tiene un estándar de acceso a bases de datos que simplifica el trabajar con diferentes motores pero, a la hora de la verdad, pequeñas diferencias en su funcionamiento hacen que el día a día sea bastante latoso.

Puesto que el trabajo del analista de datos es principalmente basado en DataFrames de Pandas, en HINTD hemos creado una librería de acceso a la base de datos que nos ayuda a interactuar con diferentes bases de datos.

Su código compelto son las siguientes 183 filas:


In [47]:
class ConfiguracionConexion:
    BD_ORACLE = "Oracle"
    BD_MSSQL = "Microsoft"
    BD_DB2 = "DB2"
    
    def __init__(self, entorno, user, pwd, server, service, database, port=None):
        """
        Inicializa la configuración de un acceso a una base de datos.
        
        Entorno: admite tres tipos diferentes de bases de datos, Oracle, Microsoft SQL y DB2
        User: Nombre de usuario para conectarnos a la base de datos
        Pwd: contraseña de acceso
        Server: Servidor (IP o nombre) en el que está la base de datos
        Service: Nombre del servicio en Oracle, base de datos en IBM o instancia en MSSQL
        Database: Nombre de la base de datos a la que nos queremos conectar
        Port: puerto del servidor en el que está la base de datos.
        
        """
        self.entorno = entorno
        self.user = user
        self.pwd = pwd
        self.server = server
        self.service = service
        self.database = database
        self.port = port
        if self.port == None:
            if self.entorno == ConfiguracionConexion.BD_ORACLE:
                self.port = 1521
            elif self.entorno == ConfiguracionConexion.BD_MSSQL:
                self.port = 1433
            elif self.entorno == ConfiguracionConexion.BD_DB2:
                self.port = 50001
    
    def get_connection(self):
        if self.entorno == ConfiguracionConexion.BD_ORACLE:
            import cx_Oracle
            return cx_Oracle.connect(f'{self.user}/{self.pwd}@{self.server}:{self.port}/{self.service}')
        if self.entorno == ConfiguracionConexion.BD_MSSQL:
            import pymssql
            return pymssql.connect(server=f'{self.server}', port=f'{self.port}', database=f'{self.database}', 
                                   user=f'{self.user}', password=f'{self.pwd}')
        if self.entorno == ConfiguracionConexion.BD_DB2:
            import ibm_db_dbi
            return ibm_db_dbi.connect(f'HOSTNAME={self.server};PORT={self.port};UID={self.user};PWD={self.pwd};'+
                                      f'Database={self.service};Security=ssl', '', '')
            

class AccessDB:
    def __init__(self, configuracion):
        self.configuracion = configuracion
        self.entorno = configuracion.entorno

    def get_connection(self):
        return self.configuracion.get_connection()
    
    def execute(self, query):
        con = self.get_connection()
        cur = con.cursor()
        try:
            cur.execute(query)
            con.commit()
            cur.close()
            con.close()
        except Exception as e:
            con.rollback()
            con.close()
            raise e
    
    def execute_non_query(self, query):
        self.execute(query)

    def get(self, query):
        con = self.get_connection()
        cur = con.cursor()
        cur.execute(query, args)
        data = cur.fetchall()
        cur.close()
        con.close()
        return data

    def get_scalar(self, query):
        data = self.get(query)
        return data[0][0]
    
    def get_dictionary(self, query):
        con = self.get_connection()
        cur = con.cursor()
        cur.execute(query)
        data = cur.fetchall()
        names = [x[0] for x in cur.description]
        data = [dict(zip(names, d)) for d in data]
        cur.close()
        con.close()
        return data

    def get_dataframe(self, query):
        import pandas as pd
        return pd.DataFrame(self.get_dictionary(query))
    
    def get_data_progresivo(self, query, bloque=100, debug=True):
        if debug:
            import datetime as dtt
        data = []
        con = self.get_connection()
        cur = con.cursor()
        if debug: 
            inicio = dtt.datetime.now()
            print(f'{inicio.isoformat()}: iniciando.')
        cur.execute(query)        
        while True:
            new_data = cur.fetchmany(bloque)
            data.extend(new_data[:])
            if not new_data or len(new_data) < bloque:
                break
            if debug: 
                fin = dtt.datetime.now()
                velocidad = bloque / (fin - inicio).total_seconds()
                print(f'\t{fin.isoformat()}: obtenidos {bloque} registros a {velocidad} registros por segundo, acumulado: {len(data)} registros')
        cols = [x[0] for x in cur.description]
        cur.close()
        con.close()
        del cur
        del con
        return data, cols
    
    def get_dictionary_progresivo(self, query,bloque=100, debug=True):
        data, cols = self.get_data_progresivo( query, bloque, debug)
        return [dict(zip(cols, d)) for d in data]
    
    
    def get_dataframe_progresivo(self, query, bloque=100, debug=True):
        import pandas as pd
        return pd.DataFrame(self.get_dictionary_progresivo(query, bloque, debug))
    
    def execute_many(self, query, data, table=None):
        con = self.get_connection()
        cur = con.cursor()
        
        if self.entorno == ConfiguracionConexion.BD_ORACLE:
            cur.prepare(query)
            query = None
        try:
            if self.entorno == ConfiguracionConexion.BD_MSSQL:
                con.bulk_copy(table, data, check_constraints=False)
            else:
                cur.executemany(query, data)
        except Exception as e:
            con.rollback()
            con.close()
            raise e
            return
        
        con.commit()
        cur.close()
        con.close()

    def generate_upload_command(self, destination, columns):
        if self.entorno == ConfiguracionConexion.BD_ORACLE:
            usuario = user if usuario == None else usuario
            return "INSERT INTO {0} ({1}) VALUES ({2})".format(
                        destination, # Tabla destino
                        ','.join(columns), 
                        ','.join([':' + x for x in columns]))
        elif self.entorno == ConfiguracionConexion.BD_MSSQL:
            return "INSERT INTO {0} ({1}) VALUES ({2})".format(
                    destination,
                    ','.join(columns),
                    ','.join(['%s' for _ in columns])
                )
        
    def upload_data_frame(self, dataframe, destino):
        import pandas as pd
        comando = self.generate_upload_command(destino, dataframe.columns)
        df_ = dataframe.copy()
        for x in df_.columns:
            df_[x] = df_[x].astype(object)
        df_ = df_.where(pd.notnull(df_), None)
              
        if self.entorno == ConfiguracionConexion.BD_ORACLE:
            self.execute_many(comando, dataframe_.to_dict(orient='records'))
            
        elif self.entorno == ConfiguracionConexion.BD_MSSQL:
            self.execute_many(comando, [tuple(x.values()) for x in df_.to_dict(orient='records')], table=destino)
 

Su funcionamiento es el siguiente.

1. Crear un objeto ConfiguracionConexion que nos dice a qué tipo de base de datos nos vamos a conectar y establece algunos parámetros específicos.
2. Crear un objeto AccessDB con la configuración de la conexión
3. Interacturas con la base de datos

La separación del código en dos clases permite reutilizar conexiones y cambiar el acceso de una base de datos a otra fácilmente.

Una vez creado el acceso a la base de datos podemos llamar a diferentes métodos:
 - ```execute```: Ejecuta un comando en la base de datos y no espera respuesta (útil para delete, update,...)
 - ```get```: Ejecuta un select en la base de datos y devuelve el resultado
 - ```get_scalar```: Ejecuta un select en la base de datos y devuelve únicamente la primera columna de la primera fila (útil para conteos)
 - ```get_dictionary```: Ejecuta un select en la base de datos y lo devuelve en forma de diccionario
 - ```get_dataframe```: Ejecuta un select en la base de datos y lo devuelve como DataFrame de pandas
 - ```get_xxx_progresivo```: Versiones progresivas de las funciones get que van informando del progreso de la lectura
 - ```upload_dataframe```: Acepta un dataframe y una tabla de destino y genera un comando SQL que mapea nombres del dataframe a nombres de columnas (es necesario que en la tabla existan esas columnas y se llamen igual) y sube los datos.
 
Esta librería está preparada para trabajar con:
 - Microsoft SQL
 - Oracle
 - IBM DB2
 
Aunque, para ello, requiere que estén instaladas las librerías necesarias en el equipo:
 - MSSQL: pymssql
 - Oracle: cx_Oracle
 - DB2: imb_db_dbi
 
Podemos probar la librería leyendo los datos de Nemiña:

In [48]:
acceso_mds = ConfiguracionConexion(entorno = ConfiguracionConexion.BD_MSSQL,
                                  user = 'estudiante',
                                  pwd = 'uvh8DNU7BDBa8T',
                                  server='mds.hintd.net',
                                  service='',
                                  database='master')

In [49]:
mds =AccessDB(acceso_mds)

In [50]:
df = mds.get_dataframe('''SELECT * FROM nemina.DBO.DATOS_BASE WHERE FY_ID = 2019''')

In [51]:
df

Unnamed: 0,PEDIDO_ID,FY_ID,PRODUCTO_ID,ZONA_ID,CLIENTE_ID,TONELADAS,INGRESOS_EUR
0,P-0302,2019,Setas,Coruña,17,42.8000000000,32870.0000000000
1,P-0303,2019,Setas,Coruña,11,45.2000000000,34352.0000000000
2,P-0304,2019,Setas,Ourense,28,41.4000000000,26522.0000000000
3,P-0305,2019,Algas,Coruña,18,42.4000000000,25949.0000000000
4,P-0306,2019,Setas,Ourense,24,33.3000000000,21312.0000000000
...,...,...,...,...,...,...,...
194,P-0496,2019,Setas,Coruña,37,44.8000000000,35123.0000000000
195,P-0497,2019,Algas,Lugo,17,43.6000000000,26945.0000000000
196,P-0498,2019,Setas,Coruña,7,42.4000000000,32224.0000000000
197,P-0499,2019,Setas,Coruña,38,42.4000000000,33581.0000000000


# Ejercicio compendio

Obtén los datos de cotización de Bitcoin a Euros desde el 23 de Septiembre al 31 de Diciembre de 2019 utilizando la siguiente URL:


In [52]:
url_tc = 'https://finance.yahoo.com/quote/BTC-EUR/history?period1=1568851200&period2=1577750400&interval=1d&filter=history&frequency=1d&includeAdjustedClose=true'

Descarga también los datos de venta de nemiña entre esos meses y aplica, para cada venta de los meses entre septiembre y diciembre, el tipo de cambio medio de EUR a BTC para tener, junto con el importe de cada factura, su importe equivalente en BTC.

Por último sube los datos a una tabla llamada: DATOS_BASE_ALUMNOS que contiene las siguientes columnas:
 - ALUMNO: tu nombre
 - PEDIDO_ID: el original
 - FY_ID: original
 - PRODUCTO_ID: original
 - ZONA_ID: original
 - CLIENTE_ID: original
 - TONELADAS: original
 - INGRESOS_EUR: original
 - TASA_DE_CAMBIO_BTC: Tasa de cambio a aplicar
 - INGRESOS_BTC: converesión de INGRESOS_EUR a BTC según el tipo de cambio medio



In [53]:
import requests
import pandas as pd
import numpy as np
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36'}
x = requests.get(url_tc, headers=headers)

btc = pd.read_html(x.content)[0]

In [54]:
btc = btc.head(btc.shape[0]-1)
btc['Open'] = btc['Open'].astype(float)
btc_mean = round(btc['Open'].mean(),2)
btc_mean

7308.59

In [55]:
df['TASA_DE_CAMBIO_BTC'] = np.where(df['FY_ID']==2019,btc_mean,0)
df['INGRESOS_BTC'] = np.where(df['FY_ID']==2019,round(df['INGRESOS_EUR'].astype(float) * (1/df['TASA_DE_CAMBIO_BTC']),2),0)
df

Unnamed: 0,PEDIDO_ID,FY_ID,PRODUCTO_ID,ZONA_ID,CLIENTE_ID,TONELADAS,INGRESOS_EUR,TASA_DE_CAMBIO_BTC,INGRESOS_BTC
0,P-0302,2019,Setas,Coruña,17,42.8000000000,32870.0000000000,7308.59,4.50
1,P-0303,2019,Setas,Coruña,11,45.2000000000,34352.0000000000,7308.59,4.70
2,P-0304,2019,Setas,Ourense,28,41.4000000000,26522.0000000000,7308.59,3.63
3,P-0305,2019,Algas,Coruña,18,42.4000000000,25949.0000000000,7308.59,3.55
4,P-0306,2019,Setas,Ourense,24,33.3000000000,21312.0000000000,7308.59,2.92
...,...,...,...,...,...,...,...,...,...
194,P-0496,2019,Setas,Coruña,37,44.8000000000,35123.0000000000,7308.59,4.81
195,P-0497,2019,Algas,Lugo,17,43.6000000000,26945.0000000000,7308.59,3.69
196,P-0498,2019,Setas,Coruña,7,42.4000000000,32224.0000000000,7308.59,4.41
197,P-0499,2019,Setas,Coruña,38,42.4000000000,33581.0000000000,7308.59,4.59


In [None]:
mds.upload_data_frame(df,"nemina.DBO.DATOS_BASE_ALUMNOS")