#  Raspado Web

El Raspado Web es uno de los métodos importantes para recuperar datos de un sitio web automáticamente. No todos los sitios web permiten que las personas raspen, sin embargo, puede agregar 'robots.txt' después de la URL del sitio web que deseas raspar, para saber si se le permitirá raspar o no.

¿Cómo obtenemos datos de un sitio web?

Hay tres formas en las que podemos obtener datos de la web:

1. Importando de archivos de Internet.

2. Hacer Raspado Web directamente con código para descargar el contenido HMTL.

3. Consultando datos de la API del sitio web.

Pero, ¿qué es una API de sitio web?

Una API (Interfaz de Programación de Aplicaciones) es una interfaz de software que permite que dos aplicaciones interactúen entre sí sin la intervención del usuario. Se puede acceder a una API web a través de la web utilizando el protocolo HTTP.

Las herramientas de raspado son un software especialmente desarrollado para extraer datos de sitios web. ¿Cuáles son las herramientas más comunes para el Raspado Web?

- Solicitudes: Es un módulo de Python en el que podemos enviar solicitudes HTTP para recuperar contenidos. Nos ayuda a acceder a los contenidos HTML o API del sitio web mediante el envío de solicitudes Get o Post.

- Beautiful Soup: Nos ayuda a analizar documentos HTML o XML en un formato legible. Podemos recuperar información más rápido.

- Selenio: se utiliza principalmente para pruebas de sitios web. Ayuda a automatizar diferentes eventos.



### 1. Importación de archivos planos desde la web

El archivo plano que importaremos será el dataset de iris de http://archive.ics.uci.edu/ml/machine-learning-databases/iris/ obtenido del repositorio de Machine Learning UCI.

Después de importarlo, lo cargaremos en un dataframe (marco de datos) de Pandas.

In [3]:
# Importar paquete
from urllib.request import urlretrieve

# Importar Pandas
import pandas as pd

# Asignar url de archivo: url
url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'

# Guardar archivo localmente
urlretrieve(url,'iris.csv')

# Leer el archivo en un dataframe y mirar las primeras filas
df = pd.read_csv('iris.csv', sep=';')
print(df.head())


   5.1,3.5,1.4,0.2,Iris-setosa
0  4.9,3.0,1.4,0.2,Iris-setosa
1  4.7,3.2,1.3,0.2,Iris-setosa
2  4.6,3.1,1.5,0.2,Iris-setosa
3  5.0,3.6,1.4,0.2,Iris-setosa
4  5.4,3.9,1.7,0.4,Iris-setosa


### 2. Realización de solicitudes HTTP

Pasos para hacer solicitudes HTTP:

1. Inspeccionar el HTML del sitio web que queremos raspar (clic derecho).

2. Acceder a la URL del sitio web usando código y descargar todo el contenido HTML en la página.

3. Dar formato al contenido descargado en un formato legible.

4. Extraer información útil y guardarla en un formato estructurado.

5. Si la información se encuentra en varias páginas del sitio web, es posible que debamos repetir los pasos 2 a 4 para tener la información completa.

**Realización de solicitudes HTTP utilizando urllib**

Extraeremos el HTML en sí, pero primero empaquetaremos, enviaremos la solicitud y luego capturaremos la respuesta.

In [None]:
# Importar paquetes
from urllib.request import urlopen, Request

# Especificar la URL
url = " https://scikit-learn.org/stable/getting_started.html"

# Esto empaqueta la solicitud
request = Request(url)

# Envíar la solicitud y capturar la respuesta
response = urlopen(request)

# Imprimir el tipo de datos de la respuesta
print(type(response))

# ¡Cierrar la respuesta!
response.close()

Esta respuesta es un objeto http.client.HTTPResponse. ¿Qué podemos hacer con él?

Como viene de una página HTML, podemos leerlo para extraer el HTML usando un método read() asociado a él. Ahora extraigamos la respuesta e imprimamos el HTML.

In [None]:
request = Request(url)

response = urlopen(request)

# Extraer la respuesta: html
html = response.read()

# imprimir el html
print(html)

# ¡Cerrar la respuesta!
response.close()


**Realizando solicitudes HTTP mediante solicitudes**

Ahora vamos a usar la biblioteca de solicitudes. Esta vez no tenemos que cerrar la conexión.

In [None]:
import requests

# Specify the url: url
url = "https://scikit-learn.org/stable/getting_started.html"

# Packages the request, send the request and catch the response: resp
resp = requests.get(url)

# Extract the response: text
text = resp.text

# Print the html
print(text)


**Parsing HTML Using Beautiful Soup**

We'll learn how to use the BeautifulSoup package to parse, prettify and extract information from HTML.

In [None]:
# Import packages
import requests
from bs4 import BeautifulSoup

# Specify url: url
url = 'https://gvanrossum.github.io//'

# Package the request, send the request and catch the response: resp
resp = requests.get(url)

# Extracts the response as html: html_doc
html_doc = resp.text

#Then, all we have to do is convert the HTML document to a BeautifulSoup object!
soup = BeautifulSoup(html_doc)

# Prettify the BeautifulSoup object: pretty_soup
pretty_soup = soup.prettify()

# Print the response
print(pretty_soup)

**Tags can be called in different ways**

In [None]:
#This line of code creates a BeautifulSoup object from a webpage:
 
soup = BeautifulSoup(webpage.content, "html.parser")
 
# Within the `soup` object, tags can be called by name:
 
first_div = soup.div
 
# or by CSS selector:
 
all_elements_of_header_class = soup.select(".header")
 
# or by a call to `.find_all`:
 
all_p_elements = soup.find_all("p")

### 3. Interacting with APIs

it is a bit more complicated than scraping the HTML document, especially if authentication is required, but the data will be more structured and stable.

Steps to querying data from the website API:

1. Inspect the XHR network section of the URL that we want to scrape

2. Find out the request-response that gives us the data that we want

3. Depending on the type of request(post or get), let's simulate the request in our code and retrieve the data from API. If authentication is required, we will need to request for token first before sending our POST request

4. Extract useful information that we need

5. For API with a limit on query size, we will need to use ‘for loop’ to repeatedly retrieve all the data

**Example: Loading and exploring a Json with GET request**


In [None]:
# Import package
import requests

# Assign URL to variable: url
url = "https://covid-19-statistics.p.rapidapi.com/regions"

headers = {
	"X-RapidAPI-Host": "covid-19-statistics.p.rapidapi.com",
	"X-RapidAPI-Key": "SIGN-UP-FOR-KEY"
}

response = requests.request("GET", url, headers=headers)

# Decode the JSON data into a dictionary: json_data
json_data = response.json()

# Print each key-value pair in json_data
for k in json_data.keys():
    print(k + ': ', json_data[k])


If you want to scrape a website, we should check the existence of API first in the network section using inspect. If we can find the response to a request that gives us all the data we need, we can build a stable solution. If we cannot find the data in-network, we can try using requests or Selenium to download HTML content and use Beautiful Soup to format the data.

Other top web scraping tools in 2022:

1. Newsdata.io

2. Scrapingbee 

3. Bright Data

4. Scraping-bot 

5. Scraper API 

6. Scrapestack 

7. Apify 

8. Agenty 

9. Import.io

10. Outwit 

11. Webz.io 

References: 

https://towardsdatascience.com/web-scraping-basics-82f8b5acd45c

https://rapidapi.com/rapidapi/api

https://newsdata.io/blog/top-21-web-scraping-tools-for-you/
