# Obtención de datos a partir de web crawling
En ocasiones nos interesará capturar datos que se encuentran en Internet pero para los cuáles no existe una API que nos permita acceder a ellos de forma estructurada. En estos casos, una alternativa es programar una araña (en inglés, un **web crawler**), un programa que analiza páginas web de forma automática en busca del contenido de interés.

El procedimiento esencial de un *web crawler* consiste en explorar una determinada página web en busca de datos de interés, que se almacenarán para el posterior uso, y enlaces a otras páginas web de interés, que serán exploradas posteriormente por el propio *crawler*, en busca de nuevos datos de interés y nuevas páginas.

Para obtener tanto los datos como los enlaces de interés, el *web crawler* utiliza un analizador sintáctico (en inglés, **parser**), que procesa el HTML de la página web y extrae los datos.

### HTML
El formato **HTML** (del inglés, *Hypertext Markup Language*) es el lenguaje de marcas estándar para describir la presentación de páginas web. Del mismo modo que XML, utiliza (mayoritariamente) una etiqueta inicial y una final para indicar elementos. A diferencia de XML, las etiquetas se encuentran prefijadas por un estándar. 

Además de señalizar el inicio y el final de un elemento, las etiquetas HTML pueden incluir atributos, que permiten proporcionar información adicional sobre los elementos.

Veamos un ejemplo de un documento HTML sencillo:

```
<html>
  <head>
    <title>El título de la página</title>
  </head>
  <body>
    <div class="clase1" id =”id1”>
       <p> Un texto </p>
    </div>
    <div class="clase1" id =”id2”>
       <p> Otro texto </p>
    </div>
  </body>
</html>

```

### Leer datos de un documentos HTML

La función *pd.read_html* de Pandas recorre un documento HTML en busca de elementos de tipo ```<table>```. El valor devuelto es una lista de objetos de tipo *DataFrame*.

In [2]:
# Ejemplo extraemos las informaciones de wikipedia
# Cargamos las librerías requests y pandas

import requests
import pandas as pd

In [3]:
url = "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid"

In [4]:
respuesta = requests.get(url)
respuesta

<Response [200]>

In [5]:
respuesta.headers

{'Date': 'Sat, 10 Jul 2021 11:52:27 GMT', 'Server': 'mw2316.codfw.wmnet', 'X-Content-Type-Options': 'nosniff', 'P3p': 'CP="See https://es.wikipedia.org/wiki/Special:CentralAutoLogin/P3P for more info."', 'Content-Language': 'es', 'Vary': 'Accept-Encoding,Cookie,Authorization', 'Last-Modified': 'Sat, 26 Jun 2021 11:52:27 GMT', 'Content-Type': 'text/html; charset=UTF-8', 'Content-Encoding': 'gzip', 'Age': '2', 'X-Cache': 'cp2029 miss, cp2035 miss', 'X-Cache-Status': 'miss', 'Server-Timing': 'cache;desc="miss", host;desc="cp2035"', 'Strict-Transport-Security': 'max-age=106384710; includeSubDomains; preload', 'Report-To': '{ "group": "wm_nel", "max_age": 86400, "endpoints": [{ "url": "https://intake-logging.wikimedia.org/v1/events?stream=w3c.reportingapi.network_error&schema_uri=/w3c/reportingapi/network_error/1.0.0" }] }', 'NEL': '{ "report_to": "wm_nel", "max_age": 86400, "failure_fraction": 0.05, "success_fraction": 0.0}', 'Permissions-Policy': 'interest-cohort=()', 'Set-Cookie': 'WMF-L

In [6]:
respuesta.content

b'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Anexo:Municipios de la Comunidad de Madrid - Wikipedia, la enciclopedia libre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"935699fb-378b-4ad2-b273-65c7c4603144","wgCSPNonce":!1,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":104,"wgPageName":"Anexo:Municipios_de_la_Comunidad_de_Madrid","wgTitle":"Municipios de la Comunidad de Madrid","wgCurRevisionId":131081205,"wgRevisionId":131081205,"wgArticleId":22109,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Anexos:Municipios de Espa\xc3\xb1

In [7]:
codigoHTML = respuesta.text
codigoHTML

'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Anexo:Municipios de la Comunidad de Madrid - Wikipedia, la enciclopedia libre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgRequestId":"935699fb-378b-4ad2-b273-65c7c4603144","wgCSPNonce":!1,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":104,"wgPageName":"Anexo:Municipios_de_la_Comunidad_de_Madrid","wgTitle":"Municipios de la Comunidad de Madrid","wgCurRevisionId":131081205,"wgRevisionId":131081205,"wgArticleId":22109,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Anexos:Municipios de España","Municipi

In [8]:
# En pandas tenemos la función pd.read_html que nos permitirá leer este código
dataframe = pd.read_html(codigoHTML, header=0)
dataframe

[                    Nombre  ... Altitud(msnm)[a]​[2]​
 0               La Acebeda  ...                  1271
 1                  Ajalvir  ...                   680
 2        Alameda del Valle  ...                  1104
 3                 El Álamo  ...                   608
 4        Alcalá de Henares  ...                   587
 ..                     ...  ...                   ...
 174        Villar del Olmo  ...                   675
 175  Villarejo de Salvanés  ...                   753
 176   Villaviciosa de Odón  ...                   661
 177  Villavieja del Lozoya  ...                  1060
 178              Zarzalejo  ...                  1104
 
 [179 rows x 7 columns]]

In [10]:
type(dataframe) # comprobamos que el resultado es una lista

list

In [11]:
len(dataframe)

1

In [13]:
df = dataframe[0]
df

Unnamed: 0,Nombre,Población(2017),Superficie (km²)[1]​,Mapa,Escudo,Capitalidad[1]​,Altitud(msnm)[a]​[2]​
0,La Acebeda,66,2206,,,La Acebeda,1271
1,Ajalvir,4455,1962,,,Ajalvir,680
2,Alameda del Valle,200,2501,,,Alameda del Valle,1104
3,El Álamo,9149,2225,,,El Álamo,608
4,Alcalá de Henares,194 310,8772,,,Alcalá de Henares,587
...,...,...,...,...,...,...,...
174,Villar del Olmo,1997,2762,,,Villar del Olmo,675
175,Villarejo de Salvanés,7245,11862,,,Villarejo de Salvanés,753
176,Villaviciosa de Odón,27 504,6805,,,Villaviciosa de Odón,661
177,Villavieja del Lozoya,267,2329,,,Villavieja del Lozoya,1060


In [14]:
type(df)

pandas.core.frame.DataFrame

***

## Tratamiento de datos en formato XML

### Lectura de documentos XML alojados localmente

In [15]:
from lxml import objectify

In [16]:
xml = "https://datos.madrid.es/egob/catalogo/300032-10037102-turismo-alojamientos.xml"
xml

'https://datos.madrid.es/egob/catalogo/300032-10037102-turismo-alojamientos.xml'

In [17]:
objectify.parse(xml)

OSError: ignored

In [18]:
respuesta = requests.get(xml)
respuesta

<Response [200]>

In [19]:
respuesta.content

b'<?xml version="1.0" encoding="UTF-8"?>\n<serviceList><service fechaActualizacion="2021-07-07" id="97373"><basicData><language>es</language><name><![CDATA[Atocha Hotel Madrid, Tapestry Collection by Hilton]]></name><email>tapestryatocha@hilton.com</email><phone>+34 610 44 01 15</phone><fax/><title><![CDATA[Atocha Hotel Madrid, Tapestry Collection by Hilton]]></title><body><![CDATA[<p><strong>A unos pasos del Paseo del Arte y de la estaci\xc3\xb3n de Atocha, se encuentra este alojamiento&nbsp;de la marca hotelera Tapestry by Hilton.</strong></p><p>Este hotel boutique, el primero de la marca Tapestry que se instala en Espa\xc3\xb1a y fuera de Am\xc3\xa9rica, cuenta con 46 habitaciones, divididas en ocho opciones, entre las que se encuentran, la Atocha Suite, situada en el \xc3\xa1tico y con dise\xc3\xb1o art dec\xc3\xb3, o la Five Feet to Fitness, que permite a los hu\xc3\xa9spedes realizar ejercicio f\xc3\xadsico y entrenar. Adem\xc3\xa1s, cuenta con wifi gratis, gimnasio y&nbsp;salas 

In [20]:
respuesta.text

'<?xml version="1.0" encoding="UTF-8"?>\n<serviceList><service fechaActualizacion="2021-07-07" id="97373"><basicData><language>es</language><name><![CDATA[Atocha Hotel Madrid, Tapestry Collection by Hilton]]></name><email>tapestryatocha@hilton.com</email><phone>+34 610 44 01 15</phone><fax/><title><![CDATA[Atocha Hotel Madrid, Tapestry Collection by Hilton]]></title><body><![CDATA[<p><strong>A unos pasos del Paseo del Arte y de la estación de Atocha, se encuentra este alojamiento&nbsp;de la marca hotelera Tapestry by Hilton.</strong></p><p>Este hotel boutique, el primero de la marca Tapestry que se instala en España y fuera de América, cuenta con 46 habitaciones, divididas en ocho opciones, entre las que se encuentran, la Atocha Suite, situada en el ático y con diseño art decó, o la Five Feet to Fitness, que permite a los huéspedes realizar ejercicio físico y entrenar. Además, cuenta con wifi gratis, gimnasio y&nbsp;salas de reuniones.</p><p>Ubicado en la planta baja del hotel, se encu

In [21]:
pd.read_html(respuesta.text) # no podemos convertir a pandas un formato XML

ValueError: ignored

In [24]:
objectify.fromstring(bytes(bytearray(respuesta.content, encoding = 'utf-8')))

TypeError: ignored

***
## Webscraping con Beautiful Soup

Análisis de Matching Cryptocurrencies
https://finance.yahoo.com/cryptocurrencies


In [25]:
# importamos las librerías
import requests
import csv
import pandas as pd
from bs4 import BeautifulSoup

In [28]:
# basada en la información principal extraeremos solo algunas de las columnas e inicializaremos con listas vacías
names = []
prices = []
changes = []
percentChanges = []
marketCaps = []
totalVolumes = []
circulatingSupplys = []

In [32]:
# Realizamos la iteración por tablas y páginas del recurso a descargar
for i in range(0,10):
  # Creamos la dinámica de las paginaciones
  cryptourl = f'https://finance.yahoo.com/cryptocurrencies?offset={i}&count=50'
  # creamos el requests
  r = requests.get(cryptourl) # valoramos la respuesta
  if (r.status_code != 200):
    # en caso contrario imprime respuesta negativa
    raise Exception(f"No se puede hacer WebScraping en {cryptourl}")
  data = r.text
  soup = BeautifulSoup(data)

  # Desde el texto general recogemos solo las info que necesitaremos para popular las listas inicializadas arriba
  for listing in soup.find_all('tr', attrs={'class':'simpTblRow'}):
    # y de cada fila extraeremos la etiqueta con los valores
    for name in listing.find_all('td', attrs={'aria-label':'Name'}):
      # Procederemos con el append a la lista de arriba
      names.append(name.text)
    for change in listing.find_all('td', attrs={'aria-label':'Change'}):
      # Procederemos con el append a la lista de arriba
      changes.append(change.text)

In [30]:
names

['Bitcoin USD',
 'Ethereum USD',
 'Tether USD',
 'BinanceCoin USD',
 'Cardano USD',
 'XRP USD',
 'Dogecoin USD',
 'USDCoin USD',
 'Polkadot USD',
 'HEX USD',
 'Uniswap USD',
 'BitcoinCash USD',
 'Solana USD',
 'Litecoin USD',
 'Chainlink USD',
 'MaticNetwork USD',
 'THETA USD',
 'EthereumClassic USD',
 'Stellar USD',
 'InternetComputer USD',
 'VeChain USD',
 'FilecoinFutures USD',
 'TRON USD',
 'Monero USD',
 'EOS USD',
 'Bitcoin USD',
 'Ethereum USD',
 'Tether USD',
 'BinanceCoin USD',
 'Cardano USD',
 'XRP USD',
 'Dogecoin USD',
 'USDCoin USD',
 'Polkadot USD',
 'HEX USD',
 'Uniswap USD',
 'BitcoinCash USD',
 'Solana USD',
 'Litecoin USD',
 'Chainlink USD',
 'MaticNetwork USD',
 'THETA USD',
 'EthereumClassic USD',
 'Stellar USD',
 'InternetComputer USD',
 'VeChain USD',
 'FilecoinFutures USD',
 'TRON USD',
 'Monero USD',
 'EOS USD',
 'Bitcoin USD',
 'Ethereum USD',
 'Tether USD',
 'BinanceCoin USD',
 'Cardano USD',
 'XRP USD',
 'Dogecoin USD',
 'USDCoin USD',
 'Polkadot USD',
 'HEX 

In [31]:
len(names)

250

In [34]:
len(changes)

250

In [35]:
# Construimos el dataframe parcial....
df = pd.DataFrame(
    {
        'Names': pd.Series(names),
        'Changes':pd.Series(changes)
    }
)
df

Unnamed: 0,Names,Changes
0,Bitcoin USD,+1164.90
1,Ethereum USD,+44.06
2,Tether USD,+0.0003
3,BinanceCoin USD,+7.56
4,Cardano USD,+0.0178
...,...,...
495,VeChain USD,
496,FilecoinFutures USD,
497,TRON USD,
498,Monero USD,


In [37]:
df.dtypes

Names      object
Changes    object
dtype: object