# Extracción de datos web

## Índice
1. [Navegador web en Python (socket)](#socket)
2. [Recepción de páginas web con urllib](#urllib)
3. [Parsing de HTML mediante BeatifulSoup](#bea)
4. [Ejemplos de web scraping](#ejemplos)

<a id="socket"></a>
## Navegador web en Python (socket)

Vamos a crear nuestro primer navegador web utilizando el protocolo HTTP, realizando una conexión a un servidor web siguiendo las reglas de este protocolo para solicitar un documento y mostrar lo que el servidor nos devuelve. El documento al que accederemos se encuentra en la página web https://www.w3.org/TR/PNG/iso_8859-1.txt

In [2]:
import socket

mysock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
mysock.connect(('www.w3.org',80))
cmd = 'GET https://www.w3.org/TR/PNG/iso_8859-1.txt HTTP/1.0\r\n\r\n'.encode()

mysock.send(cmd)

while True:
    data = mysock.recv(512) #recv para recibir datos
    if len(data)<1:
        break
    print(data.decode())
    
mysock.close()

HTTP/1.1 200 OK
date: Sun, 14 Mar 2021 16:21:00 GMT
last-modified: Fri, 07 Nov 2003 05:51:11 GMT
etag: "17e9-3cb82080711c0;50c0b26855880"
accept-ranges: bytes
content-length: 6121
cache-control: max-age=31536000
expires: Mon, 14 Mar 2022 16:21:00 GMT
vary: Accept-Encoding,upgrade-insecure-requests
access-control-allow-origin: *
keep-alive: timeout=5, max=2000
content-type: text/plain
x-backend: www-mirrors
connection: close

The following are the graphical (non-control) characters defined by

ISO 8859-1 (1987).  Descriptions in words aren't all that helpful,
but they're the best we can do in text.  A graphics file illustrating
the character set should be available from the same archive as this
file.

Hex Description                 Hex Description

20  SPACE
21  EXCLAMATION MARK            A1  INVERTED EXCLAMATION MARK
22  QUOTATION MARK              A2  CENT SIGN
23  NUMBER SIGN                 A3  POUND SIGN
24  DOLLAR SIGN                 A4  CURRENCY SIGN
25  PERCENT SIGN          

Primero, el programa realiza una conexión al puerto 80 del servidor www.w3.org. Como nuestro programa está asumiendo el rol de "navegador web", el protocolo HTTP nos dice que tenemos que enviar el comando GET seguido por una línea en blanco. `\r\n` significa un final de línea, y `\r\n\r\n` es el equivalente a la línea en blanco.

<a id="urllib"></a>
## Recepción de páginas web con urllib

In [3]:
# Lo mismo que lo anterior, pero más fácil con la librería urllib
import urllib.request

f = urllib.request.urlopen('https://www.w3.org/TR/PNG/iso_8859-1.txt')
for line in f:
    print (line.decode().strip())

The following are the graphical (non-control) characters defined by
ISO 8859-1 (1987).  Descriptions in words aren't all that helpful,
but they're the best we can do in text.  A graphics file illustrating
the character set should be available from the same archive as this
file.

Hex Description                 Hex Description

20  SPACE
21  EXCLAMATION MARK            A1  INVERTED EXCLAMATION MARK
22  QUOTATION MARK              A2  CENT SIGN
23  NUMBER SIGN                 A3  POUND SIGN
24  DOLLAR SIGN                 A4  CURRENCY SIGN
25  PERCENT SIGN                A5  YEN SIGN
26  AMPERSAND                   A6  BROKEN BAR
27  APOSTROPHE                  A7  SECTION SIGN
28  LEFT PARENTHESIS            A8  DIAERESIS
29  RIGHT PARENTHESIS           A9  COPYRIGHT SIGN
2A  ASTERISK                    AA  FEMININE ORDINAL INDICATOR
2B  PLUS SIGN                   AB  LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
2C  COMMA                       AC  NOT SIGN
2D  HYPHEN-MINUS                

Cuando el programa se ejecuta, en su salida sólo vemos el contenido del fichero. Las cabeceras siguen enviándose, pero el código de `urllib` se queda con ella y sólo nos devuelve los datos. Una vez abierta la página web, se puede leer como si fuese un archivo local.  
¿Qué ocurre si cambiamos el txt por otra página web?

<a id="bea"></a>
## Parsing de HTML mediante BeatifulSoup

BeautifulSoup es una librería de Python que permite analizar documentos HTML y extraer datos de ellos, compensando imperfecciones que puedan existir. Para instalar esta librería escribimos en anaconda Prompt:  
`conda install -c anaconda beautifulsoup4`

Esta librería permite, por ejemplo, extraer los atributos href de las etiquetas de anclaje (a)  
<img src='http://www.cellbiol.com/bioinformatics_web_development/wp-content/uploads/2017/01/attributes_and_values_in_the_a_tag.png'>  
En el siguiente ejemplo, vamos a parsear una entrada HTML y extraer los links utilizando la librería BeautifulSoup. 
Utilizaremos urllib para leer la página y después BeautifulSoup para extraer los atributos href de las etiquetas de tipo ancla (a)

In [7]:
import urllib
from bs4 import BeautifulSoup

url = input('Enter URL: ')
html = urllib.request.urlopen(url)

soup = BeautifulSoup(html)

tags = soup('a')

for tag in tags:
    print(tag.get('href'))

Enter URL:  https://www.eoi.es/


#main-content
/contacto
http://www.eoi.es/portal/en
/en
/es
/es
/business-school
/mbas-masters
/programas/programas-ejecutivos
/programas/programas-enfocados
/programas/cursos-talleres-seminarios
/programas/admisiones
/programas/becas-y-descuentos
https://www.eoi.es/es/programas/estilo-propio
/es/metodologia
/es/rankings
/programas/talentia360-mujeres-directivas
/es/programas/secretaria
/empresas
/empresas/company
/empresas/pymes
/es/inmersiondigitalindustriacovid19
https://www.eoi.es/es/aceleracionmarketingdigitalturismo
/empresas/pymes/cursos
/empresas/pymes/ayudas-la-contratacion
https://www.eoi.es/es/ayudas-practicas-no-laborales
/empresas/pymes/digitalxborder
/empresas/emprendedores
/empresas/emprendedores/espacios-coworking
/empresas/emprendedores/ayudas-al-emprendimiento
/circularlabs
/empresas/emprendedores/low-carbon-innovation
/empresas/emprendedores/red-agriconect-40
/empresas/emprendedores/crafts-code
/empresas/emprendedores/crafting-europe
/es/empresas/emprendedores/inicia

Podemos extraer más campos de las etiquetas

In [8]:
import urllib
from bs4 import BeautifulSoup

url = input('Enter URL: ')
html = urllib.request.urlopen(url)

soup = BeautifulSoup(html)

tags = soup('a')

for tag in tags:
    print('TAG:', tag)
    print('URL:', tag.get('href'))
    print('Text:', tag.contents)
    print('Attributes:', tag.attrs)
    print('\n')

Enter URL:  https://www.eoi.es


TAG: <a class="visually-hidden focusable" href="#main-content">
      Pasar al contenido principal
    </a>
URL: #main-content
Text: ['\n      Pasar al contenido principal\n    ']
Attributes: {'href': '#main-content', 'class': ['visually-hidden', 'focusable']}


TAG: <a aria-label="Contacto" href="/contacto" title="Contacto">Contacto</a>
URL: /contacto
Text: ['Contacto']
Attributes: {'href': '/contacto', 'aria-label': 'Contacto', 'title': 'Contacto'}


TAG: <a aria-label="English" href="http://www.eoi.es/portal/en" title="English">English</a>
URL: http://www.eoi.es/portal/en
Text: ['English']
Attributes: {'href': 'http://www.eoi.es/portal/en', 'aria-label': 'English', 'title': 'English'}


TAG: <a class="language-link" data-drupal-link-system-path="&lt;front&gt;" href="/en" hreflang="en">English</a>
URL: /en
Text: ['English']
Attributes: {'href': '/en', 'class': ['language-link'], 'hreflang': 'en', 'data-drupal-link-system-path': '<front>'}


TAG: <a class="language-link is-active" dat

Puedes encontrar la documentación de beautifulsoup en https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<a id="ejemplos"></a>
## Ejemplos de web scraping

### 1. Frecuencia de las palabras de un discurso  
Vamos a obtener la frecuencia de las palabras del siguiente discurso: https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html

In [14]:
import urllib
from bs4 import BeautifulSoup

url = 'https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html'
html = urllib.request.urlopen(url)

soup2 = BeautifulSoup(html)

tags = soup2('p') # Extraigo las etiquetas de tipo <p>

discurso = '' # Aquí guardo el discurso, inicialmente vacío

for tag in tags:
    if (len(tag.attrs))==0:
        a = tag.contents[0] # Extrayendo el texto de la etiqueta
        discurso = discurso + a
        
# print (discurso)

contadores = dict()

discurso = (discurso.replace(',', '')
                    .replace('. ', ' ')
                    .replace('.', ' ')
                    .replace(':', '')
                    .replace('?', '')
                    .replace('(', '')
                    .replace(')', ''))

palabras = discurso.lower().split()

for palabra in palabras:
    if len(palabra)>3:
        contadores[palabra] = contadores.get(palabra, 0)+1

import pandas as pd

pd.DataFrame(list(contadores.items()), columns = ['palabra','contador']).sort_values('contador', ascending=False).head(10)

Unnamed: 0,palabra,contador
20,para,65
18,esta,37
55,estadounidenses,32
548,nuestros,28
31,nuestro,28
59,hemos,27
343,nuestra,27
10,unidos,27
127,como,26
9,estados,26


### 2. Web Scraping de CoinMarketCap
Extraemos el valor más reciente de Bitcoin en https://coinmarketcap.com/currencies/bitcoin/


In [18]:
import urllib
from bs4 import BeautifulSoup

url = 'https://coinmarketcap.com/currencies/bitcoin/'
html = urllib.request.urlopen(url)

soup = BeautifulSoup(html)

tags = soup.find_all('td', class_='priceValue___11gHJ')

float(tags[0].contents[0].replace('$','').replace(',',''))



60111.03

### 3. Web scraping con pandas 

La función `read_html()` de pandas también permite extraer tablas de páginas web, devolviendo una lista de dataframes con todas las tablas que existan.  
Por ejemplo, vamos a hacer scraping de la siguiente tabla: http://www.fdic.gov/bank/individual/failed/banklist.html  

Es necesario instalar la librería `lxml`: `conda install -c conda-forge lxml`

In [6]:
import pandas as pd
url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/'

tablas = pd.read_html(url)
tablas[0]

Unnamed: 0,Bank Name,City,State,Cert,Acquiring Institution,Closing Date
0,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020"
1,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020"
2,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020"
3,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020"
4,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019"
...,...,...,...,...,...,...
558,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001"
559,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001"
560,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001"
561,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000"
