# Web Scraping con Python
Vamos a usar las librerías [Requests](https://requests.kennethreitz.org/en/master/) y [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) para hacer web scraping. Instalación (en Anaconda):
```
conda install requests
conda install beautifulsoup4
```

Note: you may need to restart the kernel to use updated packages.


Note: you may need to restart the kernel to use updated packages.


requests.models.Response

El objeto devuelto es un objeto `requests.models.Response` con unos atributos determinados:

['apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

Podemos ver el código de respuesta del servidor (útil para detectar errores 4XX o 5XX):

200

La URL de donde ha sacado los datos es:

'https://idal.uv.es/ejemplo.html'

Para obtener la respuesta completa (código HTML de la página) como una cadena de texto accedemos al atributo `text`:

<!DOCTYPE html>
<html lang="es">
<head>
  <title>Página de ejemplo</title>
  <meta charset="UTF-8"/>
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.4.0/css/bootstrap.min.css">
</head>
<body>

  <div class="jumbotron text-center">
    <h1>Página de ejemplo</h1>
    <p>Página <em>HTML</em> con texto de ejemplo para hacer web scraping</p> 
  </div>
  
  <div class="container">
    <div class="row">
      <div class="col-sm-4">
        <h3>Columna 1</h3>
        <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit...</p>
        <p>Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris...</p>
        <a class="btn" href="#" title="IDAL">Enlace 1</a>
      </div>
      <div class="col-sm-4">
        <h3>Columna 2</h3>
        <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit...</p>
        <p>Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris...</p>

Para comprobar el tipo de respuesta (Content Type) y ver si es HTML, JSON, XML, etc.:

'text/html; charset=UTF-8'

Si el servidor diera la información de la codificación incorrecta (p. ej. ISO-8859-1 para una página UTF-8) podemos forzar una nueva codificación

'UTF-8'

<!DOCTYPE html>
<html lang="es">
<head>
  <title>PÃ¡gina de ejemplo</title>
  <meta charset="UTF-8"/>
  <meta name="viewport" content="width=device-width, initial-scale=1">
  <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/3.4.0/css/bootstrap.min.css">
</head>
<body>

  <div class="jumbotron text-center">
    <h1>PÃ¡gina de ejemplo</h1>
    <p>PÃ¡gina <em>HTML</em> con texto de ejemplo para hacer web scraping</p> 
  </div>
  
  <div class="container">
    <div class="row">
      <div class="col-sm-4">
        <h3>Columna 1</h3>
        <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit...</p>
        <p>Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris...</p>
        <a class="btn" href="#" title="IDAL">Enlace 1</a>
      </div>
      <div class="col-sm-4">
        <h3>Columna 2</h3>
        <p>Lorem ipsum dolor sit amet, consectetur adipisicing elit...</p>
        <p>Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris...<

Volvemos a la codificación correcta

Podemos ver todas las cabeceras devueltas:

{'Date': 'Wed, 17 Apr 2024 07:42:51 GMT', 'Server': 'Apache/2.4.41 (Ubuntu)', 'Last-Modified': 'Wed, 10 Feb 2021 10:11:14 GMT', 'ETag': '"73d-5baf89f8467b1-gzip"', 'Accept-Ranges': 'bytes', 'Vary': 'Accept-Encoding', 'Content-Encoding': 'gzip', 'Content-Length': '673', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html; charset=UTF-8'}

O una cabecera en concreto

'text/html; charset=UTF-8'

### Extraer contenido del HTML
Usar expresiones regulares para buscar patrones HTML no está recomendado. Es mejor usar una librería para "parsear" el HTML y extraer el contenido de las etiquetas específicas.  
Aún así, las RegEx se pueden usar para buscar patrones específicos como listas de precios, direcciones de correo, números de teléfono.  
Podemos ejecutar una RegEx en el texto de respuesta para buscar un patrón específico, como p. ej. una URL:

['https://maxcdn.bootstrapcdn.com/bootstrap/3.4.0/css/bootstrap.min.css',
 'https://idal.uv.es',
 'http://etse.uv.es',
 'http://uv.es']

## Librería BeautifulSoup
La librería BeautifulSoup se utiliza para extraer contenidos desde una página HTML. Tiene una API muy simple a la vez que potente.  
Para empezar, hay que convertir el HTML del texto de respuesta en una estructura DOM jerárquica que se pueda recorrer y buscar.


El objeto `soup` contiene el DOM de todo el documento HTML

bs4.BeautifulSoup

Podemos referirnos a cada elemento del DOM por su nombre (etiqueta HTML) dentro del objeto `soup` (si hay varias apariciones sólo devuelve la primera)

<title>Página de ejemplo</title>

bs4.element.Tag

Página de ejemplo


<a class="btn" href="#" title="IDAL">Enlace 1</a>

Atributos del elemento HTML

'#'

Si un elemento tiene otros elementos anidados los muestra todos.

<div class="jumbotron text-center">
<h1>Página de ejemplo</h1>
<p>Página <em>HTML</em> con texto de ejemplo para hacer web scraping</p>
</div>

El atributo `text` contiene el texto de todos los elementos internos.

'\nPágina de ejemplo\nPágina HTML con texto de ejemplo para hacer web scraping\n'

El método `find` busca la primera aparición de una etiqueta en el objeto `Soup`. Cada etiqueta contiene todo su contenido dentro de la estructura DOM.

Es equivalente a:

De cada elemento podemos obtener sus atributos

Podemos encadenar varias etiquetas a buscar

Podemos acotar la búsqueda a una clase específica de la etiqueta (p.ej. `<a class="enlace">...</a>`)

Podemos buscar una etiqueta con un atributo ID específico (p.ej.: `<div id="col4">...</div>`)

Podemos buscar un atributo sin especificar el tipo de elemento que lo contiene:

EL objeto que devuelve `find()` es del tipo `Tag`


El método `find_all` devuelve una lista de objetos `Tag` con todas las etiquetas que encuentra con ese parámetro de búsqueda.  
P. ej. para buscar todas las etiquetas de un tipo en el árbol DOM (por ejemplo los enlaces `<a>` de una página):

Devuelve un elemento especial que funciona como un *iterable*

Que equivale a

Podemos especificar una lista de etiquetas a buscar y las devuelve todas en el orden en que aparecen en la página.

También podemos especificar el criterio de búsqueda de las etiquetas mediante expresiones regulares.

Podemos filtrar por un atributo del `Tag` (por defecto es la clase si no indicamos otra cosa)

Cada elemento de la lista devuelta es del tipo `Tag` con sus atributos particulares.

Podemos hacer una búsqueda de otra etiqueta anidada dentro de la primera búsqueda (útil por ejemplo para buscar elementos genéricos dentro de una sección específica de la página)

Repetimos esta búsqueda especificando un selector CSS utilizando el método `select` (más simple que lo anterior si se conoce la sintaxis CSS). Este método devuelve una lista con todos los elementos encontrados.    

P. ej. elementos `p` contenidos dentro de un elemento con ID="col4"

El atributo `contents` del resultado de una etiqueta individual (objeto `bs4.element.Tag`) contiene una lista de objetos con su contenido interno (que incluye tanto los nodos de texto como la representación e texto de todo el HTML anidado).  
Si el objeto sólo contiene texto es del tipo `NavigableString`, y si contiene etiqueta es del tipo `Tag`. Los saltos de línea (`\n`) entre las etiquetas se consideran elementos de texto y aparecen en la lista devuelta.

El atributo `text` del objeto `bs4.element.Tag` contiene un string con los textos contenidos en la etiqueta, ignorando todas las etiquetas HTML (como por ejemplo `<span>`, `<strong>` o `<i>`):

Aquí el método `strip()` simplemente elimina las líneas en blanco (`\n`) del resultado.  

### Búsqueda por función
Podemos definir una función booleana para hacer la búsqueda de elementos en el árbol DOM

## Navegación por la estructura DOM
Cada elemento `Tag` guarda información de su posición dentro del árbol de etiquetas HTML del documento (estructura DOM) de manera que se puede navegar desde cada etiqueta a sus etiquetas relacionadas:
### Navegar hacia abajo
Podemos usar los nombres de las etiquetas como atributos encadenados del objeto `soup` para recorrer el árbol hacia abajo:

Todos los hijos de una etiqueta están en su atributo `contents`:

Los hijos de una etiqueta que sólo contienen texto aparecen en la lista de `contents` como un objeto `NavigableString`. Los que contienen una etiqueta son objetos `Tag`

Podemos iterar sobre los descendientes de una etiqueta con el iterador `children`:

Tanto `contents` como `children` consideran sólo los descencientes directos de una etiqueta. Con `descendants` accedemos iterativamente a todos sus descendientes:

Para obtener sólo el texto de una etiqueta usamos `string` o para obtener iterativamente todos los textos contenidos usamos el iterador `strings`:

### Navegar hacia arriba
Con `parent` obtenemos la etiqueta superior a una dada, y con `parents` obtenemos iterativamente todos sus ascendientes:

### Navegar hacia los lados
Los métodos `next_sibling` y `previous_sibling` acceden a la etiqueta posterior o anterior del mismo nivel. Los métodos `next_siblings` y `previous_siblings` lo hacen iterativamente con todos los elementos al mismo nivel.

### Ejemplo completo
Del siguiente código HTML vamos a extraer los ítems listados y su precio