## Web Scraping

Web Scraping se conoce como uno de los métodos más importantes para recuperar contenidos y datos de un sitio web automáticamente utilizando software. Esta información más tarde se puede utilizar para añadir contenido en una base de datos, exportar información a tipos de documentos estructurados, etcétera.

El listado de lo que podemos "scrapear" en la web es amplio, pero incluye:
- Redes sociales (Facebook, Twitter...).
- Motores de búsqueda (Google, Bing...).
- Páginas corporativas: tiendas online, servicios, de información empresarial, etcétera.
- Páginas gubernamentales oficiales y de noticias.

Existen dos formas de "scrapear", dependiendo de lo que queramos obtener de Internet:

1. Obtener archivos/documentos.
2. Obtener información.

La diferencia entre el primer y segundo punto es que un archivo contiene información pero no está descrito en la página web. Con el segundo punto lo que buscamos es extraer párrafos, títulos, cantidades, importes, etcétera inmersos en la web.

Como es evidente, utilizaremos `Python` para obtener contenido de Internet. Manteniendo el uso del mismo lenguaje aseguramos que todo el proceso de `ETL` quede integrado aumentando legibilidad y mantenibilidad.

### 1. Obtener archivos/documentos

En Python, el paquete `requests` permite interactuar con URIs HTTP y que posibilita, por ejemplo, descargar recursos y archivos alojados en alguna página web. La función que permite hacer esto es `get` y, en nuestro caso, permitiría descargar cierta información y transformarla, por ejemplo, en un DataFrame de Pandas.

#### Paso 1. Encontrar el recurso a descargar
En este caso estamos interesados en descargar información sobre los ingresos en Estados Unidos. Para ello, dado que no disponemos de información en nuestra base de datos (está vacía) buscamos recursos en Internet. Localizamos una fuente que nos podría permitir desarrollar un modelo predictivo, y accedemos a ella:

![Scraping files step 1](https://github.com/4GeeksAcademy/machine-learning-content/tree/master/assets/scraping_web_files_step1.png?raw=true)

#### Paso 2. Localizar el punto de descarga del recurso
El siguiente paso es localizar desde qué dirección podremos descargar el recurso. El UCI repository proporciona una interfaz muy intuitiva para descargar recursos. Copiando la dirección del botón `Download` podremos obtener fácilmente el punto de descarga. Sin embargo, dependiendo de la página web a veces obtener este enlace es lo más complicado de todo el proceso.

Tras analizar la web, obtenemos que el enlace de descarga es el siguiente: `https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data`

![Scraping files step 2](https://github.com/4GeeksAcademy/machine-learning-content/tree/master/assets/scraping_web_files_step2.png?raw=true)

#### Paso 3. Programar la descarga del fichero
Lo último que queda antes de poder trabajar con la información es descargarla. Para ello utilizaremos el paquete `requests` ya que porporciona un mecanismo muy sencillo de utilizar:

In [None]:
import requests

# Seleccionar el recurso a descargar
resource_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data"

# Petición para descargar el fichero de Internet
response = requests.get(resource_url)

# Si la petición se ha ejecutado correctamente (código 200), entonces el fichero se ha podido descargar
if response:
    # Se almacena el archivo en el directorio actual para usarlo más tarde
    with open("adult.csv", "wb") as dataset:
        dataset.write(response.content)

El resultado es un fichero totalmente utilizable en nuestro directorio y que proviene de Internet, totalmente utilizable para el resto de pasos a realizar para entrenar nuestro modelo de Machine Learning.

![Scraping files step 3](https://github.com/4GeeksAcademy/machine-learning-content/tree/master/assets/scraping_web_files_step3.png?raw=true)

Ahora, podríamos leerlo con `Pandas` y crear un DataFrame a partir del fichero.

### 2. Obtener información

En Python, el paquete `requests` permite interactuar con URIs HTTP y que posibilita, por ejemplo, descargar recursos y archivos alojados en alguna página web. La función que permite hacer esto es `get` y, en nuestro caso, permitiría descargar cierta información y transformarla, por ejemplo, en un DataFrame de Pandas.

#### Paso 1. Encontrar el recurso a descargar
En este caso estamos interesados en descargar información sobre los ingresos en Estados Unidos. Para ello, dado que no disponemos de información en nuestra base de datos (está vacía) buscamos recursos en Internet. Localizamos una fuente que nos podría permitir desarrollar un modelo predictivo, y accedemos a ella:

![Scraping files step 1](https://github.com/4GeeksAcademy/machine-learning-content/tree/master/assets/scraping_web_files_step1.png?raw=true)

#### Paso 2. Localizar el punto de descarga del recurso
El siguiente paso es localizar desde qué dirección podremos descargar el recurso. El UCI repository proporciona una interfaz muy intuitiva para descargar recursos. Copiando la dirección del botón `Download` podremos obtener fácilmente el punto de descarga. Sin embargo, dependiendo de la página web a veces obtener este enlace es lo más complicado de todo el proceso.

Tras analizar la web, obtenemos que el enlace de descarga es el siguiente: `https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data`

![Scraping files step 2](https://github.com/4GeeksAcademy/machine-learning-content/tree/master/assets/scraping_web_files_step2.png?raw=true)

#### Paso 3. Programar la descarga del fichero
Lo último que queda antes de poder trabajar con la información es descargarla. Para ello utilizaremos el paquete `requests` ya que porporciona un mecanismo muy sencillo de utilizar:

### 2. Realización de solicitudes HTTP

Pasos para hacer solicitudes HTTP:

1. Inspeccionar el HTML del sitio web que queremos raspar (clic derecho).

2. Acceder a la URL del sitio web usando código y descargar todo el contenido HTML en la página.

3. Dar formato al contenido descargado en un formato legible.

4. Extraer información útil y guardarla en un formato estructurado.

5. Si la información se encuentra en varias páginas del sitio web, es posible que debamos repetir los pasos 2 a 4 para tener la información completa.

**Realización de solicitudes HTTP utilizando urllib**

Extraeremos el HTML en sí, pero primero empaquetaremos, enviaremos la solicitud y luego capturaremos la respuesta.

In [None]:
# Importar paquetes
from urllib.request import urlopen, Request

# Especificar la URL
url = " https://scikit-learn.org/stable/getting_started.html"

# Esto empaqueta la solicitud
request = Request(url)

# Envíar la solicitud y capturar la respuesta
response = urlopen(request)

# Imprimir el tipo de datos de la respuesta
print(type(response))

# ¡Cierrar la respuesta!
response.close()

Esta respuesta es un objeto http.client.HTTPResponse. ¿Qué podemos hacer con él?

Como viene de una página HTML, podemos leerlo para extraer el HTML usando un método read() asociado a él. Ahora extraigamos la respuesta e imprimamos el HTML.

In [None]:
request = Request(url)

response = urlopen(request)

# Extraer la respuesta: html
html = response.read()

# imprimir el html
print(html)

# ¡Cerrar la respuesta!
response.close()


**Realizando solicitudes HTTP mediante solicitudes**

Ahora vamos a usar la biblioteca de solicitudes. Esta vez no tenemos que cerrar la conexión.

In [None]:
import requests

# Especificar la url: url
url = "https://scikit-learn.org/stable/getting_started.html"

# Empaquetar la solicitud, envíar la solicitud y capturar la respuesta: resp
resp = requests.get(url)

# Extraer la respuesta: texto
text = resp.text

# imprimir el html
print(text)


**Analizando HTML usando Beautiful Soup**

Aprenderemos a usar el paquete BeautifulSoup para analizar, embellecer y extraer información de HTML.

In [None]:
# Importar paquetes
import requests
from bs4 import BeautifulSoup

# Especificar la url: url
url = 'https://gvanrossum.github.io//'

# Empaquetar la solicitud, enviar la solicitud y obtener la respuesta: resp
resp = requests.get(url)

# Extraer la respuesta como html: html_doc
html_doc = resp.text

# Luego, ¡todo lo que tenemos que hacer es convertir el documento HTML en un objeto BeautifulSoup!
soup = BeautifulSoup(html_doc)

# Embellecer el objeto BeautifulSoup: pretty_soup
pretty_soup = soup.prettify()

# Imprimir la respuesta
print(pretty_soup)

**Los tags se pueden llamar de diferentes maneras**

In [None]:
# Esta línea de código crea un objeto BeautifulSoup desde una página web:
 
soup = BeautifulSoup(webpage.content, "html.parser")
 
# Dentro del objeto `sopa`, los tags se pueden llamar por su nombre:
 
first_div = soup.div
 
# O por selector de CSS:
 
all_elements_of_header_class = soup.select(".header")
 
# O por una llamada a `.find_all`:
 
all_p_elements = soup.find_all("p")

### 3. Interactuando con APIs

Es un poco más complicado que raspar el documento HTML, especialmente si se requiere autenticación, pero los datos serán más estructurados y estables.

Pasos para consultar datos de la API del sitio web:

1. Inspeccionar la sección de red XHR de la URL que queremos raspar.

2. Averiguar la petición-respuesta que nos da los datos que queremos.

3. Dependiendo del tipo de solicitud (publicar u obtener), simulemos la solicitud en nuestro código y recuperemos los datos de la API. Si se requiere autenticación, primero deberemos solicitar el token antes de enviar nuestra solicitud POST.

4. Extraer información útil que necesitamos.

5. Para API con un límite en el tamaño de la consulta, necesitaremos usar 'for loop' para recuperar repetidamente todos los datos

**Ejemplo: cargando y explorando un Json con solicitud GET**


In [None]:
# Importar paquete
import requests

# Asignar url a la variable: url
url = "https://covid-19-statistics.p.rapidapi.com/regions"

headers = {
	"X-RapidAPI-Host": "covid-19-statistics.p.rapidapi.com",
	"X-RapidAPI-Key": "SIGN-UP-FOR-KEY"
}

response = requests.request("GET", url, headers=headers)

# Decodificar los datos JSON en un diccionario: json_data
json_data = response.json()

# Imprimir cada par clave-valor en json_data
for k in json_data.keys():
    print(k + ': ', json_data[k])


Si deseas raspar un sitio web, primero debemos verificar la existencia de API en la sección de red usando inspeccionar. Si podemos encontrar la respuesta a una solicitud que nos proporcione todos los datos que necesitamos, podemos construir una solución estable. Si no podemos encontrar los datos en la red, podemos intentar usar solicitudes o Selenium para descargar contenido HTML y usar Beautiful Soup para formatear los datos.

Otras herramientas principales de Raspado Web en 2022:

1. Newsdata.io

2. Scrapingbee 

3. Bright Data

4. Scraping-bot 

5. Scraper API 

6. Scrapestack 

7. Apify 

8. Agenty 

9. Import.io

10. Outwit 

11. Webz.io 

Referencias: 

https://towardsdatascience.com/web-scraping-basics-82f8b5acd45c

https://rapidapi.com/rapidapi/api

https://newsdata.io/blog/top-21-web-scraping-tools-for-you/
