<div align="right">
  <img src="https://drive.google.com/uc?export=view&id=1J8JpP65HsHXdpJvhb_sMwn3yROyU832m" height="80" width="200" style="float: right;">
</div>
<h1><b>Data Science and Machine Learning</b></h1>
<h2><b>Clase 12</b>: Web Scraping</h2>
<h3><b>Docente</b>: <a href="https://www.linkedin.com/in/danielablanco/">Daniela Blanco</a>

# Contenido

- [1. ¿Qué es Web scraping?](#scraping)
- [2. Protocolo HTTP](#http)
  - [2.1. Componentes HTTP](#componentes)
  - [2.2. Métodos de petición](#metodos)
  - [2.3. Códigos de respuesta](#codigos)
- [3. HTTP con Python](#python)
- [4. Librería Beutiful Soap](#beautiful)
- [5. Librería Selenium](#selenium)
- [6. Links de interés](#links)


## 1. ¿Qué es Web scraping? <a name="scraping"></a>

<img src="https://drive.google.com/uc?export=view&id=1wlmDqOyuRlD_84WgitU34uKKRbFBuRCe" height="119" width="422" style="float: center;">

Técnica usada para extraer contenido de un sitio web de manera automátizada.(utilizando software).

El proceso implica enviar solicitudes a una página web, analizar el contenido de la página y extraer los datos deseados.

Podemos utilizar Python para scraperar asegurando que todo el proceso de ETL (Extract, Transform, Load) quede integrado aumentando legibilidad y mantenibilidad.

## 2. Protocolo HTTP <a name="http"></a>

HTTP (HyperText Transfer Protocol, Protocolo de Transferencia de HiperTexto) es un protocolo utilizado para transmitir en Internet.

Interviene en todos los flujos de transmisión de información.

Opera entre un cliente y un servidor. El cliente realiza una petición enviando un mensaje con cierto formato al servidor. Este entonces le devuelve con una respuesta también en texto.

Es un protocolo de solicitud-respuesta entre un cliente (por ejemplo, un navegador web) y un servidor (donde se aloja el sitio web).

<img src="https://drive.google.com/uc?export=view&id=1LZRkUm9iQ-9t3W79sogz6jwI3jjhoUHH" height="304" width="720" style="float: center;">

Esta comunicación se lleva a cabo mediante un proceso:

- El cliente quiere realizar el envío de una imagen a través de un servidor.
- El servidor recibe la imagen y la transforma en texto (codifica). Este texto es ilegible por los humanos. Si un hacker interceptase esto, lo que vería es un conjunto de símbolos/letras/números uno detrás de otro.
- La imagen transformada en texto se transmite a través de Internet.
- La cadena de caracteres llega al ordenador/dispositivo móvil del receptor, en este caso, la abuela.
- Cuando la abuela recibe el fichero y quiere abrirlo, se lleva a cabo la decodificación, que transforma el texto en imagen, para su posterior visualización.

<img src="https://drive.google.com/uc?export=view&id=1NkyWjgHkor8g9qDdEEl25BUcmLg8iKsl" height="289" width="574" style="float: center;">

- El protocolo HTTP funciona a través de solicitudes y respuestas, el cliente (por ejemplo, un navegador de internet) y un servidor (por ejemplo, las computadoras que alojan y despliegan los sitios web).

- El servidor, tras recibir una solicitud, responde con un mensaje estructurado.

- Este mensaje tendrá además un código de respuesta/error.

- Se cuenta con diversos métodos de petición (request methods).

- A una secuencia de estas solicitudes se le conoce como sesión HTTP.

Hacer **web scraping** está estrechamente relacionado con el protocolo **HTTP**, ya que este protocolo es el que se utiliza para enviar y recibir solicitudes y respuestas entre el cliente (el scraper) y el servidor web.

Al realizar web scraping, se utilizan métodos de solicitud HTTP para acceder y recuperar el contenido de las páginas web.

### 2.1. Componentes HTTP <a name="componentes"></a>

1. URL (Uniform Resource Locator): La dirección de la página web.
2. Métodos de solicitud: Diferentes tipos de solicitudes que se pueden realizar.
3. Códigos de estado HTTP: Respuestas del servidor que indican el resultado de la solicitud.
4. Cabeceras HTTP: Información adicional enviada con las solicitudes y respuestas.

### 2.2. Métodos de petición <a name="metodos"></a>

| Método | Descripción |
|---------|--------------------------|
| GET    | Utilizado para solicitar datos de un servidor. Los parámetros se envían en la URL.   |
| POST   | Utilizado para enviar datos al servidor. Los datos se envían en el cuerpo de la solicitud. |
| PUT    | Utilizado para actualizar datos existentes en el servidor o crear datos nuevos. Los datos se envían en el cuerpo de la solicitud.                      |
| DELETE | Se utiliza para eliminar datos en el servidor.  |

Una petición para obtener una página web, en este caso, google.com, en lenguaje HTTP sería algo así:

<img src="https://drive.google.com/uc?export=view&id=1QQ3NUsK8-ACbnK2GODh3Gg6hQi5HYucZ" height="99" width="550" style="float: center;">

### 2.3. Códigos de respuesta <a name="codigos"></a>

Cuando el servidor recibe la petición, sabe con exactitud qué recurso necesita el cliente (a través de la URI) y qué quiere hacer con ese recurso (a través del método de petición utilizado).

La respuesta contiene el recurso solicitado, además del código de respuesta. En este caso 200 indica que todo es correcto, que el recurso se ha recibido, además de que la comunicación ha sido un éxito.

Los códigos de estado HTTP puedes encontrarlos [aquí](https://developer.mozilla.org/es/docs/Web/HTTP/Status) y según el número con el que empiecen, brindan información muy valiosa:

  1xx – Metadata

  2xx – Todo OK

  3xx – Redirección

  4xx – Cliente hizo algo mal

  5xx – Servidor hizo algo mal

## 3. HTTP con Python <a name="python"></a>

En Python, el paquete requests permite interactuar con URIs HTTP.

Veamos un ejemplo para descargar un recurso de [UC Irvine Machine Learning Repository](https://archive.ics.uci.edu)

#### Paso 1. Encontrar el recurso a descargar

Localizamos la URL de la fuente a descargar.

Podemos buscar dataset en [https://datasetsearch.research.google.com/](https://datasetsearch.research.google.com/) por ejemplos sobre "climate change".

Nos quedamos con este recurso para [https://data.cdp.net/Climate-Hazards/2021-Cities-Climate-Change-Impacts-on-Health-and-H/ixst-39vn/about_data](https://data.cdp.net/Climate-Hazards/2021-Cities-Climate-Change-Impacts-on-Health-and-H/ixst-39vn/about_data)

#### Paso 2. Localizar el punto de descarga del recurso

Dependiendo de la página web, a veces obtener este enlace es lo más complicado de todo el proceso.

Tras analizar la web, obtenemos que el enlace de descarga (en Export via api) es el siguiente: `https://data.cdp.net/resource/ixst-39vn.csv`.

#### Paso 3. Programar la descarga del fichero

Lo último que queda antes de poder trabajar con la información es descargarla. Para ello utilizaremos el paquete `requests`, ya que proporciona un mecanismo muy sencillo de utilizar:

In [1]:
import requests

In [2]:
# Seleccionar el recurso a descargar
resource_url = "https://data.cdp.net/resource/ixst-39vn.csv"

# Petición para descargar el fichero de Internet
response = requests.get(resource_url)

print("Código respuesta", response.status_code)
print("Contenido", response.content)

Código respuesta 200


In [3]:
# Si la petición se ha ejecutado correctamente (código 200), entonces el fichero se ha podido descargar
if response.status_code == 200:
    # Se almacena el archivo en el directorio actual para usarlo más tarde
    with open("ixst-39vn.csv", "wb") as dataset:
        dataset.write(response.content)

## 4. Librería Beutiful Soap <a name="beautiful"></a>

Obtener información de un sitio web es un proceso más tedioso que simplemente descargar un archivo.

Necesitamos profundizar en la estructura `HTML` del sitio para obtener esa información.

Existen muchas formas de llevar a cabo este proceso.

Una es la librería `BeautifulSoup`.

In [4]:
import requests
import time

import re
from bs4 import BeautifulSoup

### Ejemplo básico

Partimos de un HTML básico para obtener información.


In [5]:
# HTML de ejemplo
html_doc = """
<html>
  <head>
    <title>Ejemplo de Beautiful Soup</title>
  </head>
  <body>
    <h1>Hola, Mundo!</h1>
    <p class="descripcion">Esto es un párrafo de ejemplo.</p>
    <p class="descripcion">Otro párrafo de ejemplo.</p>
    <a href="https://www.example.com">Enlace a Example.com</a>
  </body>
</html>
"""

# Crear el objeto BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

# Extraer y mostrar el título de la página
titulo = soup.title.string
print("Título de la página:", titulo)

# Extraer y mostrar el contenido del primer h1
h1 = soup.h1.string
print("Contenido del h1:", h1)

# Extraer y mostrar todos los párrafos con la clase 'descripcion'
parrafos = soup.find_all('p', class_='descripcion')
for i, p in enumerate(parrafos, start=1):
    print(f"Párrafo {i}: {p.string}")

# Extraer y mostrar el enlace
enlace = soup.a['href']
print("Enlace:", enlace)


Título de la página: Ejemplo de Beautiful Soup
Contenido del h1: Hola, Mundo!
Párrafo 1: Esto es un párrafo de ejemplo.
Párrafo 2: Otro párrafo de ejemplo.
Enlace: https://www.example.com


### Ejemplo con Request

#### Paso 1. Encontrar el contenido a obtener

Por ejemplo estamos interesados en obtener información sobre el piso más barato que se puede adquirir en Guardamar del Segura, una ciudad costera al sur de Alicante.

Decidimos buscarla en un portal inmobiliario como [Inmobiliaria CGI](https://inmobiliariacgi.com). El primer paso es acceder a la web, filtrar por la ciudad y ordenar los resultados en la web:

`https://inmobiliariacgi.com/es/component/jak2filter/?Itemid=111&issearch=1&category_id=1,3&theme=propiedades&isc=1&ordering=zdate&xf_3=2&orders[xf5]=xf5`

#### Paso 2. Descargar todo el contenido HTML de la URL

Para ello utilizamos, por un lado, la librería `requests` para descargar el HTML en formato de texto plano, y `BeautifulSoup` para generar el árbol de elementos y poder realizar consultas para obtener la información que queramos obtener.

In [14]:
# Seleccionar el recurso a descargar
resource_url = "https://inmobiliariacgi.com/busqueda-avanzada/?adv_location=&filter_search_type%5B%5D=&advanced_city=alicante&filter_search_action%5B%5D=&property_status=disponible&wpestate_regular_search_nonce=3b1989dff4&_wp_http_referer=%2F"

# Petición para descargar el fichero de Internet
response = requests.get(resource_url, time.sleep(3))

# Si la petición se ha ejecutado correctamente (código 200), entonces el contenido HTML de la página se ha podido descargar
if response.status_code == 200:
    # Transformamos el HTML plano en un HTML real (estructurado y anidado, con forma de árbol)
    soup = BeautifulSoup(response.text, 'html.parser') # es más actual que usar solo 'html'

In [7]:
soup

<!DOCTYPE html>
<html dir="ltr" lang="es" prefix="og: https://ogp.me/ns#"><head><script data-no-optimize="1">var litespeed_docref=sessionStorage.getItem("litespeed_docref");litespeed_docref&&(Object.defineProperty(document,"referrer",{get:function(){return litespeed_docref}}),sessionStorage.removeItem("litespeed_docref"));</script><meta charset="utf-8"/><style id="litespeed-ccss">:root{--wp--preset--aspect-ratio--square:1;--wp--preset--aspect-ratio--4-3:4/3;--wp--preset--aspect-ratio--3-4:3/4;--wp--preset--aspect-ratio--3-2:3/2;--wp--preset--aspect-ratio--2-3:2/3;--wp--preset--aspect-ratio--16-9:16/9;--wp--preset--aspect-ratio--9-16:9/16;--wp--preset--color--black:#000;--wp--preset--color--cyan-bluish-gray:#abb8c3;--wp--preset--color--white:#fff;--wp--preset--color--pale-pink:#f78da7;--wp--preset--color--vivid-red:#cf2e2e;--wp--preset--color--luminous-vivid-orange:#ff6900;--wp--preset--color--luminous-vivid-amber:#fcb900;--wp--preset--color--light-green-cyan:#7bdcb5;--wp--preset--color

En este caso buscamos obtener el importe (marcado en rojo en la imagen).

Debemos buscar el elemento en el HTML de la página web antes de comenzar a trabajar con el objeto `soup`.

Para ello, nos servimos de las [herramientas de desarrollador](https://developer.chrome.com/docs/devtools/overview/) de nuestro navegador:

<img src="https://drive.google.com/uc?export=view&id=1CGRTLh9HqHNFrGdL2S_HuZQwSAtYcpiP" height="1004" width="1915" style="float: center;">

Buscando el elemento lo encontramos encerrado dentro del siguiente `div`:

```html
<div class="listing_unit_price_wrapper">
  <a href="https://inmobiliariacgi.com/estate_property/apartamento-v2358/"> 209.900 €
  <span class="price_label"></span>
  </a>
</div>
```

Existen tres formas de extraer el valor que queremos:

1. Filtro por jerarquía.
2. Filtro por nombre de etiqueta.
3. Filtro por atributos.

##### Filtro por jerarquía

Este tipo de filtro requiere de recorrer todo el árbol jerárquico del HTML hasta dar con el elemento. Sabemos que tras haber encontrado el elemento, observando la imagen anterior, la jerarquía es la siguiente:

`body > main > div > div > div > div > div > div > div > div > span`

Siendo el elemento `span` el que contiene el importe que queremos extraer.

Sin embargo, esta forma de extraer información es muy poco eficiente, no es mantenible (pequeños cambios en la página web pueden afectar mucho a la extracción).

##### Filtro por nombre de etiqueta

Es el filtro más básico, ya que consiste en pasar el nombre de la etiqueta a buscar en la función de búsqueda, para seleccionar después el deseado.

En nuestro ejemplo, estamos buscando un elemento `div`, así que no tenemos más que encontrar todos los que tenga el documento HTML y procesarlos hasta encontrar el deseado.

In [18]:
# Obtener todos los elementos de tipo 'span' del documento HTML
divs = soup.find_all("div")

# Iteramos por cada uno de los resultados para encontrar el elemento que contiene el importe.
precios = []
for div in divs:
    texto = div.get_text(strip=True)
    #print(texto)

    match = re.search(r'€\s?([\d,.]+)', texto)

    if match:
        precios.append(match.group(0))

# Mostrar los precios encontrados
print(precios)

['€2263', '€2263', '€2263', '€2263', '€2263', '€2263', '€2263', '€2263', '€2263', '€43239', '€43239', '€43239', '€54230', '€54230', '€54230']


Esta metodología es poco útil en este caso. Además, es muy poco eficiente en tiempo, ya que requiere que se analicen todos los elementos de la web hasta encontrar el apropiado.

##### Filtro por atributos

Podemos utilizar otro mecanismo para seleccionar elementos de nuestro árbol HTML: **identificadores** y **clases**. De esta forma, podemos localizar rápidamente el elemento a través de su clase. Así, si el `div` que contenía el `span` era el siguiente:

```html
<div class="listing_unit_price_wrapper">
  <a href="https://inmobiliariacgi.com/estate_property/apartamento-v2358/"> 209.900 €
  <span class="price_label"></span>
  </a>
</div>
```

Entonces, usando la clase `listing_unit_price_wrapper` podríamos filtrar rápidamente este elemento y obtenerlo.

In [None]:
amounts = soup.find_all("div", class_="listing_unit_price_wrapper")

print(f"El importe de la casa de Guardamar del Segura más barata es {amounts[0].text}")

In [19]:
divs = soup.find_all("div", class_="listing_unit_price_wrapper")

# Iteramos por cada uno de los resultados para encontrar el elemento que contiene el importe.
precios = []
for div in divs:
    texto = div.get_text(strip=True)
    print(texto)

    match = re.search(r'€\s?([\d,.]+)', texto)

    if match:
        precios.append(match.group(0))

# Mostrar los precios encontrados
print(precios)

209.900 €
475.000 €
1.695.000 €
[]


## 5. Librería Selenium <a name="selenium"></a>

Permite automatizar navegadores web.

Se utiliza ampliamente para tareas de prueba de aplicaciones web, así como para web scraping, especialmente cuando se necesita interactuar con JavaScript y otros elementos dinámicos que no pueden ser manejados fácilmente por bibliotecas como Beautiful Soup.

Para usar Selenium en Python, primero debes instalar la biblioteca: `pip install selenium`

Además, necesitarás un controlador (driver) para el navegador que vas a utilizar, como ChromeDriver para Google Chrome o GeckoDriver para Mozilla Firefox.

### Ejemplo básico

Realizamos una búsqueda en google.

**Nota**: En colab se puede pero sin interfaz gráfica.


In [11]:
import time

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

ModuleNotFoundError: No module named 'selenium'

In [None]:
# Ruta al ChromeDriver
chrome_driver_path = 'ruta/chromedriver.exe'
service = Service(chrome_driver_path)

# Configurar el driver
driver = webdriver.Chrome(service=service)

In [None]:
# Navegar a Google
driver.get('https://www.google.com')
time.sleep(2)

# Encontrar la caja de búsqueda
search_box = driver.find_element(By.NAME, 'q')

# Escribir la búsqueda y presionar Enter
search_box.send_keys('4Geeks data science')
time.sleep(2)
search_box.send_keys(Keys.RETURN)

# Esperar a que se carguen los resultados
driver.implicitly_wait(4)  # Espera implícita de 4 segundos

# Extraer los títulos de los primeros resultados de búsqueda
results = driver.find_elements(By.CSS_SELECTOR, 'h3')
for index, result in enumerate(results[:5], start=1):  # Limitar a los primeros 5 resultados
      print(f"Resultado {index}: {result.text}")

In [None]:
# Cerrar el navegador
driver.quit()

### Ejemplo con Request

In [None]:
import time

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select

In [None]:
ciudad = 'Alicante'

In [None]:
# Ruta al ChromeDriver
chrome_driver_path = 'ruta/chromedriver.exe'
service = Service(chrome_driver_path)

# Configurar el driver
driver = webdriver.Chrome(service=service)

In [None]:
# Navegar a pagina principal
driver.get('https://inmobiliariacgi.com/es/')
time.sleep(2)

# Encontrar el elemento select
select_element = driver.find_element(By.ID, 'xf_3')

# Utilizar la clase Select de Selenium para interactuar con el elemento select
select = Select(select_element)
select.select_by_visible_text(ciudad)
time.sleep(2)

# buscamos el boton
button_buscar = driver.find_element(By.NAME,'btnSubmit')

button_buscar.click()
time.sleep(2)

# buscamos el selector para ordenar
select_element = driver.find_element(By.CSS_SELECTOR, 'div.ordenprecio.vkform.f.r select')

select = Select(select_element)
select.select_by_visible_text('Precio más bajo')
time.sleep(2)

# buscamos los precios
# toma el contenido de "primary items"
primary_items = driver.find_element(By.CSS_SELECTOR, 'div.f.items')
time.sleep(2)

# obtiene todos los items
items = primary_items.find_elements(By.CSS_SELECTOR,".item.c33")
time.sleep(2)

precios = []
for item in items:
    # obtiene todos los precios
    precio = item.find_element(By.CLASS_NAME,"preciodestacadas")
    precios.append(precio.text)

# menor precio
precio_menor = precios[0]

print('El importe de la casa más barata en '+ciudad+' es '+str(precio_menor))

In [None]:
# Cerrar el navegador
driver.quit()

## 6. Links de interés <a name="links"></a>

- [Automate the Boring Stuff with Python](https://automatetheboringstuff.com/2e/chapter12/)
- [A Practical Introduction to Web Scraping in Python](https://realpython.com/python-web-scraping-practical-introduction/)
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
- [The Selenium Browser Automation Project](https://www.selenium.dev/documentation/)