# Web Scraping con Python
Vamos a usar las librerías [Requests](https://requests.kennethreitz.org/en/master/) y [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para hacer web scraping. Instalación (en Anaconda):
```
conda install requests beautifulsoup4
```

In [None]:
import requests
from bs4 import BeautifulSoup
import re

In [None]:
r = requests.get("https://idal.uv.es/ejemplo.html", params=dict(q="h"))

In [None]:
type(r)

In [None]:
r.url

Para obtener la respuesta completa (código HTML de la página) como una cadena de texto accedemos al atributo `text`:

In [None]:
print(r.text)

El objeto devuelto es de tipo `requests.models.Response` con unos atributos determinados:

In [None]:
[s for s in dir(r) if not s.startswith('_')]

Podemos ver el código de respuesta del servidor (útil para detectar errores 4XX o 5XX):

In [None]:
r.status_code

Podemos ver todas las cabeceras de respuesta en caso de respuesta afirmativa:

In [None]:
r.headers

Para comprobar el tipo de respuesta (Content Type) y ver si es HTML, JSON, XML, etc.:

In [None]:
r.headers["content-type"]

Si el servidor diera la información de la codificación incorrecta (p. ej. ISO-8859-1 para una página UTF-8) podemos forzar una nueva codificación

In [None]:
r.encoding

In [None]:
r.encoding='UTF-8' #cambiar a ISO-8859-1 para comprobar que muestra mal los acentos

### Extraer contenido del HTML
Usar expresiones regulares para buscar patrones HTML no está recomendado. Es mejor usar una librería para "parsear" el HTML y extraer el contenido de las etiquetas específicas.  
Aún así, las RegEx se pueden usar para buscar patrones específicos como listas de precios, direcciones de correo, números de teléfono.  
Podemos ejecutar una RegEx en el texto de respuesta para buscar un patrón específico, como p. ej. una URL:

In [None]:
import re

re.findall(r'https?://[\w_./]+', r.text)

## Librería BeautifulSoup
La librería BeautifulSoup se utiliza para extraer contenidos desde una página HTML. Tiene una API muy simple a la vez que potente.  
Para empezar, hay que convertir el HTML del texto de respuesta en una estructura DOM jerárquica que se pueda recorrer y buscar.


In [None]:
soup = BeautifulSoup(r.text, "html.parser")

In [None]:
type(soup)

Podemos referirnos a cada elemento del DOM por su etiqueta dentro del objeto `soup` (si hay varias apariciones sólo devuelve la primera)

In [None]:
soup.title

In [None]:
type(soup.title)

Podemos ver el texto del elemento con el atributo `text`

In [None]:
titulo = soup.title.text
print(titulo)

In [None]:
type(titulo)

In [None]:
soup.a

In [None]:
soup.a.text

In [None]:
soup.p

In [None]:
soup.p.text

In [None]:
soup.text

Podemos acceder a los atributos de un elemento como un diccionario dentro del elemento

In [None]:
soup.a.attrs

In [None]:
soup.a['class']

In [None]:
soup.a['title']

In [None]:
soup.div['class']

### Búsqueda de elementos
El método `find_all` devuelve una lista con todas las etiquetas que encuentra. El método `find` sólo devuelve el primer resultado de la búsqueda.   
En ambos casos, cada etiqueta contiene todo su contenido en la estructura DOM.

In [None]:
link = soup.find("a")
link

In [None]:
#equivale a
soup.a

EL objeto que devuelve `find()` es del tipo `Tag`


In [None]:
type(link)

In [None]:
#atributos y métodos de Tag
[s for s in dir(link) if not s.startswith('_')]

De cada enlace podemos obtener sus atributos

In [None]:
link.get('class') #equivalente a link['class']

In [None]:
link.attrs

Podemos anidar varias etiquetas a buscar

In [None]:
soup.find('p').find('em')

In [None]:
soup.find("em")

Podemos acotar la búsqueda a una clase específica de la etiqueta (p.ej. `<a class="enlace">...</a>`)

In [None]:
tag = soup.find("a", class_="enlace")
print(tag)

In [None]:
#o simplemente
tag = soup.find("a", "enlace")
print(tag)

Podemos buscar una etiqueta con un atributo ID específico (p.ej.: `<div id="col4">...</div>`)

In [None]:
tag = soup.find("div", id="col4")
print(tag)

Para buscar todas las etiquetas de un tipo en el árbol DOM (por ejemplo los enlaces `<a>` de una página) 

In [None]:
enlaces = soup.find_all("a")

In [None]:
enlaces

Devuelve un objeto especial que se comporta como una lista de objetos `Tag`

In [None]:
type(enlaces)

In [None]:
[s for s in dir(enlaces) if not s.startswith('_')]

In [None]:
type(enlaces[0])

El primer elemento devuelto por `find_all` es el mismo que devuelve el atributo de ese elemento en el objeto `soup`

In [None]:
soup.find_all("div")[0]

In [None]:
soup.div

In [None]:
#hay un shortcut para find_all
soup("a")

In [None]:
#podemos buscar varios tipos de elemento a la vez
soup.find_all(["a", "p"])

In [None]:
titulos = soup.find_all(re.compile("h\d+"))

In [None]:
[t.name for t in titulos]

Podemos filtrar por un atributo del Tag (por defecto es la clase si no indicamos otra cosa)

In [None]:
for link in soup.find_all('a', class_="enlace"):
    print(link)

Como el objeto devuelto por `find_all` y `select` es una lista de `Tags` podemos obtener los atributos de cada uno de los elementos

In [None]:
for link in soup.find_all('a', class_="enlace"):
    print(link["href"], link["title"])

In [None]:
enlaces = soup.find_all("a", "btn")
for e in enlaces:
    print(e)

Podemos hacer una búsqueda de otra etiqueta anidada dentro de la primera búsqueda (útil por ejemplo para buscar elementos genéricos dentro de una sección específica de la página)

In [None]:
tags = soup.find("div", id="col4").find_all("a")
print(tags)

Repetimos esta búsqueda especificando un selector CSS (más simple que lo anterior si se conoce la sintaxis CSS)

In [None]:
soup.select("a") #equivale a soup.find_all("a")

In [None]:
soup.select("#col4")

In [None]:
tags = soup.select("#col4 a")
print(tags)

El atributo `contents` del resultado de una etiqueta individual (objeto `bs4.element.Tag`) contiene una lista de objetos con su contenido interno (que incluye tanto los nodos de texto como la representación e texto de todo el HTML anidado).  
Si el objeto sólo contiene texto es del tipo `NavigableString`, y si contiene una etiqueta es del tipo `Tag`. Los saltos de línea (`\n`) entre las etiquetas se consideran elementos de texto y aparecen en la lista devuelta.

In [None]:
print(soup.find("title"))

In [None]:
inner_contents = soup.find("title").contents
print(inner_contents)

In [None]:
soup.find("div")

In [None]:
soup.div.p.contents

In [None]:
for e in soup.div.p.contents:
    print(e, type(e))

También podemos buscar por un atributo en particular del elemento o por una clase.

In [None]:
soup.find(href="#")

In [None]:
soup.find(class_="col-sm-4").h3.text

### Ejercicio
Muestra el contenido interno del div `#col4`

El atributo `text` del objeto `bs4.element.Tag` contiene una lista de strings con los textos contenidos en la etiqueta, ignorando todas las etiquetas HTML (como por ejemplo `<span>`, `<strong>` o `<i>`):

In [None]:
inner_text = soup.find("div", id="col4").text.strip()
print(inner_text)

Aquí el método `strip()` simplemente elimina las líneas en blanco (`\n`) del resultado.  

### Búsqueda por función
Podemos definir una función booleana para hacer la búsqueda de elementos en el árbol DOM

In [None]:
def etiquetas(tag):
    return tag.has_attr('id')

soup.find_all(etiquetas)

### Ejercicio
Lista todos los Tags que cumplan el filtrado de la función `etiquetas()` y muéstralos como una lista de tuplas `(tag.name, tag.attrs)`

## Navegación por la estructura DOM
Cada elemento `Tag` guarda información de su posición dentro del árbol de etiquetas HTML del documento (estructura DOM) de manera que se puede navegar desde cada etiqueta a sus etiquetas relacionadas:
### Navegar hacia abajo
Podemos usar los nombres de las etiquetas como atributos encadenados del objeto `soup` para recorrer el árbol hacia abajo:

In [None]:
soup.div.h1 #busca la primera etiqueta <h1> dentro de la primera etiqueta <div> 

In [None]:
soup("div")[1].h3

Todos los hijos de una etiqueta están en su atributo `contents`:

In [None]:
soup.div.contents

Las etiquetas que sólo contienen texto aparecen en la lista de `contents` como un objeto `NavigableString`

In [None]:
soup.div.h1.contents

In [None]:
type(soup.div.h1.contents[0])

Podemos iterar sobre los descendientes de una etiqueta con el iterador `children`:

In [None]:
soup.div.children

In [None]:
[child for child in soup.div.children]

In [None]:
#la lista que genera children es equivalente a contents
list(soup.div.children)==soup.div.contents

Con `contents` y `children` consideran sólo los descencientes directos de una etiqueta. Con `descendants` accedemos iterativamente a todos sus descendientes:

In [None]:
soup.div.p

In [None]:
soup.div.p.descendants

In [None]:
[child for child in soup.div.p.descendants]

Por contra...

In [None]:
[child for child in soup.div.p.children]

Para obtener sólo el texto de una etiqueta usamos el atributo `string`, o para obtener iterativamente todos los textos contenidos usamos el iterador `strings`:

In [None]:
soup.div.h1.string

In [None]:
#si una etiqueta contiene otras etiquetas el atributo string está vacío
soup.div.p

In [None]:
soup.div.p.string

In [None]:
#iteramos por todos los elementos contenidos para obtener su string
[s for s in soup.div.p.strings]

### Navegar hacia arriba
Con `parent` obtenemos la etiqueta superior a una dada, y con `parents` obtenemos iterativamente todos sus ancentros:

In [None]:
soup.div.h1.parent

In [None]:
soup.div.h1.parents

### Ejercicio
Busca el ascendente directo del div `#col4`

### Ejercicio
Itera sobre los ancestros del div `#col4` y muestra cada uno de sus nombres y atributos

### Navegar hacia los lados
Los métodos `next_sibling` y `previous_sibling` acceden a la etiqueta posterior o anterior del mismo nivel. Los métodos `next_siblings` y `previous_siblings` lo hacen iterativamente

In [None]:
soup.find("div", id="enlaces")

In [None]:
soup.find("div", id="enlaces").ul.contents

In [None]:
soup.find("div", id="enlaces").li.previous_sibling

In [None]:
soup.find("div", id="enlaces").li.next_sibling.next_sibling

In [None]:
soup.find("div", id="enlaces").find("a",{"title": "ETSE"}).parent

In [None]:
#buscamos elementos hermanos a continuación del <li> intermedio
enlace_etse = soup.find("div", id="enlaces").find("a",{"title": "ETSE"})
[tag for tag in enlace_etse.parent.next_siblings]

In [None]:
#buscamos elementos hermanos anteriores al <li> final

[tag for tag in soup.find("div", id="enlaces").find("a",{"title": "UV"}).parent.previous_siblings]

### Ejemplo completo
Del siguiente código HTML vamos a extraer los ítems listados y su precio

In [None]:
texto = """
<body>
<div id="listings_prices">
 <div class="item">
  <li class="item_name">Reloj</li>
  <div class="main_price">Precio: 66.68€</div>
  <div class="discounted_price">Precio con descuento: 46.68€</div>
   </div>
   <div class="item">
  <li class="item_name">Móvil</li>
  <div class="main_price">Precio: 566.68€</div>
   </div>
</div>
</body>
"""

In [None]:
soup = BeautifulSoup(texto, "html.parser")
for product in soup.find_all("div", "item"):
    product_title = product.find("li").text 
    product_price = re.search(r'\d+\.\d+€', product.find("div", "main_price").text)[0]
    print(f"{product_title} se vende por {product_price}")

### Ejercicio
¿Cuál es el precio con descuento de los ítems?