# Web APIs and Web Scraping

El web scraping es una técnica que puede ayudarnos a transformar datos HTML no estructurados en datos estructurados en una hoja de cálculo o base de datos de forma automatizada-

Para algunos sitios web grandes como Airbnb, Twitter o Spotify, podemos encontrar APIs para que los desarrolladores accedan a sus datos. API (*application programming interface*) significa interfaz de programación de aplicaciones, que es el acceso para que dos aplicaciones se comuniquen entre sí. Para la mayoría de las personas, API es el enfoque más óptimo para obtener datos proporcionados por el propio sitio web.

Sin embargo, la mayoría de los sitios web no tienen servicios API. A veces, incluso si proporcionan API, los datos que podría obtener no son los que desea. Por lo tanto, escribir una secuencia de comandos de Python para crear un rastreador web se convierte en otra solución poderosa y flexible, a estas técnicas se le denomina web scraping.

# 1. Web API's

Una API, o *application programming interface*, es un forma que tienen diferentes programas de comunicarse entre ellos. Las Web APIs es por lo tanto, el método por el que dos programas se comunican a través de internet.

Las herramientas que generalmente vamos a utilizar con las API's son: `post` y `get`. Estas herramientas permiten obtener o remitir información a una URL definida. Estas dos herramientas forman parte del módulo `requests`, que es una librería para trabajar con el protocolo HTTP (*Hypertext Transfer Protocol*).

- `get`: el método `get` solicita una representación (código HTML) del recurso especificado. Las solicitudes que usan `get` solo deben recuperar datos y no deben tener ningún otro efecto.

- `post`: envía datos para que sean procesados por el recurso identificado en la URL de la línea petición. Los datos se incluirán en el cuerpo de la petición. A nivel semántico está orientado a crear un nuevo recurso.

In [1]:
import requests

In [2]:
resp = requests.get('https://elpais.com')
type(resp)

requests.models.Response

Toda la información sobre nuestra solicitud está ahora almacenada en un objeto `Response`. Este objeto también tiene atributos, por ejemplo, puedes obtener la codificación de la página web usando la propiedad `.encoding`. También puedes obtener el código de estado de la petición usando la propiedad `.status_code`.

In [3]:
resp.encoding, resp.status_code

('utf-8', 200)

Cuando ejecutamos un método de petición o solicitud, lo que se obtiene es un código de respuesta `.status_code`, que es un número que indica que ha ocurrido con la petición:

- Códigos con formato 1xx: Respuestas informativas. Indica que la petición ha sido recibida y se está procesando.
- Códigos con formato 2xx: Respuestas correctas. Indica que la petición ha sido procesada correctamente.
- Códigos con formato 3xx: Respuestas de redirección. Indica que el cliente necesita realizar más acciones para finalizar la petición.
- Códigos con formato 4xx: Errores causados por el cliente. Indica que ha habido un error en el procesado de la petición a causa de que el cliente ha hecho algo mal.
- Códigos con formato 5xx: Errores causados por el servidor. Indica que ha habido un error en el procesado de la petición a causa de un fallo en el servidor.

También se puede acceder al contenido de la petición mediante el atributo `.content`, o `.text`.

In [4]:
resp.content[:500]

b'<!DOCTYPE html><html lang="es"><head><title>EL PA\xc3\x8dS: el peri\xc3\xb3dico global</title><meta name="lang" content="es"/><meta name="author" content="Ediciones El Pa\xc3\xads"/><meta name="robots" content="index,follow"/><meta name="description" content="Noticias de \xc3\xbaltima hora sobre la actualidad en Espa\xc3\xb1a y el mundo: pol\xc3\xadtica, econom\xc3\xada, deportes, cultura, sociedad, tecnolog\xc3\xada, gente, opini\xc3\xb3n, viajes, moda, televisi\xc3\xb3n, los blogs y las firmas de EL PA\xc3\x8dS. Adem\xc3\xa1s especiales, v\xc3\xaddeos, fotos, audios, gr'

In [6]:
resp.text[:500]

'<!DOCTYPE html><html lang="es"><head><title>EL PAÍS: el periódico global</title><meta name="lang" content="es"/><meta name="author" content="Ediciones El País"/><meta name="robots" content="index,follow"/><meta name="description" content="Noticias de última hora sobre la actualidad en España y el mundo: política, economía, deportes, cultura, sociedad, tecnología, gente, opinión, viajes, moda, televisión, los blogs y las firmas de EL PAÍS. Además especiales, vídeos, fotos, audios, gráficos, entre'

## 1.1. Acceder a una API

Para explicar esta parte se va a realizar mediante un ejercicio de tipo práctico, en el que accederemos a una API y extraeremos información de ella de forma automatizada. En la url http://open-notify.org/ podemos encontrar tres APIs que arrojan información relativa a la estación espacial internacional (*ISS*).

En el primer ejercicio vamos a trabajar con la API *International Space Station Current Location*, la cual da las coordenadas a cada momento de la posición de la ISS. Para obtener esta información deberemos realizar una solicitud de la URL de la API.

In [9]:
# Importamos la librería requests
import requests

# Realizamos una solicitud a la API
url = 'http://api.open-notify.org/iss-now.json'
iss_location = requests.get(url)
iss_location.text

'{"message": "success", "timestamp": 1603973885, "iss_position": {"longitude": "171.3014", "latitude": "-12.0174"}}'

In [10]:
type(iss_location.text)

str

El contenido de la petición es un string con formato json (diccionario), por lo que podemos acceder a él mediante la librería `json` y trabajar con sus elementos.

In [11]:
import json

iss_location_json = json.loads(iss_location.text)
iss_location_json

{'message': 'success',
 'timestamp': 1603973885,
 'iss_position': {'longitude': '171.3014', 'latitude': '-12.0174'}}

In [12]:
type(iss_location_json)

dict

In [25]:
iss_location_json['iss_position']['latitude']

'32.6177'

También es accesible esta información mediante el método `.json()` del objeto `Response`.

In [36]:
iss_location.json()

{'iss_position': {'longitude': '-80.8566', 'latitude': '32.6177'},
 'timestamp': 1603731027,
 'message': 'success'}

In [13]:
type(iss_location.json())

dict

**Ejercicio:**

Define una funión que devuelva la duración de las 5 próximas pasadas de la ISS para una latitud y longitud dada, mediante la API: http://open-notify.org/Open-Notify-API/ISS-Pass-Times/

Necesitamos parametrizar las coordenadas en la petición como se define en las especificaciones de la API. Por ejemplo para Madrid:

- http://api.open-notify.org/iss-pass.json?lat=LAT&lon=LON
- http://api.open-notify.org/iss-pass.json?lat=40.4&lon=-3.7

Como se puede intuir a partir de la URL, a partir del símbolo `?` se identifica que existen dos variables a parametrizar, *lat* y *lon*. Hay que definir una función con dos argumentos que incluya estos valores, dentro de la URL.

In [16]:
def iss_pass_times(lat, lon):
    url = f'http://api.open-notify.org/iss-pass.json?lat={lat}&lon={lon}'
    iss_pass = requests.get(url)
    iss_pass_json = iss_pass.json()
    passes = iss_pass_json['response']
    return passes

iss_pass_times('40.4', '-3.7')

[{'duration': 244, 'risetime': 1604019167},
 {'duration': 632, 'risetime': 1604024729},
 {'duration': 632, 'risetime': 1604030538},
 {'duration': 560, 'risetime': 1604036430},
 {'duration': 578, 'risetime': 1604042293}]

Aunque en el caso anterior resulta sencillo codificar los parámetros dentro de la URL, a veces puede ser una tarea más complicada y desencadenar errores en la codificación. Para solventar este problema, el módulo `requests` permite pasar los parámetros mediante un diccionario como un argumento de la función `requests.get()`.

Los parámetros de una URL se identifican porque van precedidos del símbolo `?`, y se concatenan mediante un *ampersand* `&`. En el siguiente caso: http://api.open-notify.org/iss-pass.json?lat=40.4&lon=-3.7, los parámetros son `lat` y `lon`.

In [19]:
madrid = {'lat': 40, 'lon': -3}

response = requests.get('http://api.open-notify.org/iss-pass.json', params = madrid)
response.json()

{'message': 'success',
 'request': {'altitude': 100,
  'datetime': 1603974691,
  'latitude': 40.0,
  'longitude': -3.0,
  'passes': 5},
 'response': [{'duration': 292, 'risetime': 1604019143},
  {'duration': 637, 'risetime': 1604024729},
  {'duration': 627, 'risetime': 1604030545},
  {'duration': 550, 'risetime': 1604036443},
  {'duration': 574, 'risetime': 1604042305}]}

En otros casos, la parametrización de la request puede ser tan complicada, que sea necesario enviarlos en formato json o con un formulario HTML. Mediante la herramienta `post` mencionada al principio del notebook, se puede realizar este envío.

In [20]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)
r.json()

{'args': {},
 'data': '',
 'files': {},
 'form': {'key1': 'value1', 'key2': 'value2'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Content-Length': '23',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.24.0',
  'X-Amzn-Trace-Id': 'Root=1-5f9ab660-7aa8da9433a7a19d1bef38ba'},
 'json': None,
 'origin': '83.50.213.41',
 'url': 'http://httpbin.org/post'}

# 2. Web Scraping

Cuando navegamos por internet lo que en verdad hacemos es escribir una URL, que envía una petición siguiendo el protocolo HTTP a un servidor, el cual nos devuelve el código HTML y que nuestro navegador consigue interpretar y transformar en ese aspecto visual que vemos en las páginas web.

Con Python podemos hacer exactamente lo mismo, crear programas que generen peticiones al servidor de una URL, y recibir el código fuente en formato HTML.

En general, un código HTML, el código fuente de una página, contiene muchísima información, de la cual solo nos interesan ciertas partes. Es en este código dónde mediante diferentes librerías, podremos extraer la información que buscamos en base a una serie de reglas, y deshechar (*scrap*) la que no queremos. El proceso es el siguiente:

- URL: definir una URL semilla, es la web principal desde la que tiene origen la extracción de datos
- Request: realizar un requerimiento (autenticación, parámetros) a la URL semilla
- Response: obtener una respuesta
- Response parsing: obtener la información que deseo de la respuesta, por ejemplo otras URLs
- Request paso 2: se repite el proceso a partir del punto 2

Otra consideración en cuenta a tener dentro del ámbito del web scraping, es el tipo de búsqueda que vamos a realizar:

- Estático a una sola página web: toda la información la tenemos en una única web
- Estático a varias páginas web: web crawling
    - Crawling Horizontal: página 1, página 2, página 3...
    - Crawling Vertical: ítems en página 1, ítems en página 2, ítems en página 3...
- Dinámico: automatizar las acciones a través de programación simulando la acción de un humanos, scrolling, clicks...etc

Algunas de las librerías más utilizas para llevar a cabo web scraping son `requests`, `BeautifulSoup`, `Selenium` o `Scrapy`.

In [5]:
# Módulos de Web Scraping
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
import scrapy

## 2.1. Terminología básica

- web scraping: extracción de información de una web, proviene de la palabra inglesa *scrape*, la cual significa arañar o raspar. Es un término genérico que engloba cualquier proceso relacionado con el análisis y extracción de contenido web de forma automatizada.
- web crawling: rastreo de información de una web, se conoce con este término al proceso de analizar todo el contenido de una web de modo que se extraigan sus conexiones con otras URLs, y se vaya analizando cada hipervínculo nuevo.
- parsing: es el proceso en el que se extrae solo aquella información que queremos de una web, proviene de la palabra inglesa *parse*, la cual significa analizar o diseccionar.

## 2.2. Ética del Web Scraping

Cuando realizamos Web Scraping estamos extrayendo información de forma masiva de terceros, por lo que es conveniente tener en cuenta una serie de conductas éticas que se detallan a continuación:

- Es necesario revisar los términos y condiciones del sitio web que vayamos a scrapear. Son sus datos, y probablemente tengan algun reglamento de gobiernos del datos sobre ellos. En caso de que se puedan extraer sus datos de acuerdo a sus términos legales, siempre debemos dar crédito y referenciar el origen de esta información.

- Se prudente, un ordenador es capaz de solicitar requests mucho más rápido que cualquier humano. Asegurate de espaciar tus requests en el tiempo para no sobrecargar los servidores.

- La estructura de las páginas web cambia constantemente, por lo que debes estar preparado para reescribir tu código. Adicionalmente, las webs suelen presentar inconsistencias, por lo que muchas veces es necesario limpiar los datos un vez se han obtenido.

## 2.3. Introducción a HTML

HTML es un leguaje que significa *HyperText Markup Language*, y hace referencia al lenguaje de marcado para la elaboración de páginas web. Es un estándar que sirve de referencia del software que conecta con la elaboración de páginas web en sus diferentes versiones, define una estructura básica y un código (denominado código HTML).

El HTML se escribe en forma de etiquetas o TAGs, rodeadas por corchetes angulares *(<>, </>)*. El HTML también puede describir, hasta un cierto punto, la apariencia de un documento, y puede incluir o hacer referencia a un tipo de programa llamado script, el cual puede afectar el comportamiento de navegadores web y otros procesadores de HTML. HTML consta de varios componentes vitales, entre ellos los elementos y sus atributos, tipos de data y la declaración de tipo de documento:

**Elementos:**

Los elementos son la estructura básica de HTML. Los elementos tienen dos propiedades básicas: atributos y contenido. Cada atributo y contenido tiene ciertas restricciones para que se considere válido al documento HTML. Un elemento generalmente tiene una etiqueta de inicio (por ejemplo, `<nombre-de-elemento>`) y una etiqueta de cierre (por ejemplo, `</nombre-de-elemento>`). Algunos elementos, tales como `<br>` son excepciones, y no tienen contenido ni llevan una etiqueta de cierre. Debajo se listan varios tipos de elementos de marcado usados en HTML:

- Marcado estructural: describe el propósito del texto, por ejemplo si un texto es encabezamiento de primer, segundo u otro nivel.

- Marcado presentacional: describe la apariencia del texto, por ejemplo si un texto va en negrita o cursiva.

- Marcado hipertextual: se utiliza para enlazar partes del documento con otros documentos o con otras partes del mismo documento. Para crear un enlace es necesario utilizar la etiqueta de ancla `<a>` junto con el atributo `href`, que establecerá la dirección URL a la que apunta el enlace.

Algunos elementos de ejemplo pueden ser:

- `<html>...</html>`: raíz que contiene todo el código HTML
- `<body>...</body>`: define el cuerpo del mensaje
- `<div>...</div>`: divide un cuerpo en diferentes secciones, tmbién conocido como contenedor
- `<p>...</p>`: cada párrafo dentro del cuerpo del mensaje
- `<a>...</a>`: enlaces a otras URLs
- `<button>...</button>`: botones de acción

**Atributos:**

En su mayoría de los atributos de un elemento son pares nombre-valor, separados por un signo de igual `=` y escritos en la etiqueta de comienzo de un elemento, después del nombre del elemento, la estructura es `<tag attrib-name="attrib-info"></tag>`.

<center><img src="../_images\html_structure.png" alt="Drawing" style="width: 300px;"/></center>
    
El nombre de los atributos puede ser cualquiera, aunque existen algunos estándares:

- `class`: dar estilo a las etiquetas
- `id`: asignar un valor exclusivo a una de las etiquetas, **es único**, por lo que puede ser realmente útil.

**Inspeccionar HTML:**

Para poder encontrar dentro del código HTML la información del elemento que nos interesa, es necesario inspeccionarlo (botón derecho del ratón) y encontrar sus TAGs *(<>, </>)* y jerarquía de etiquetas dentro del código. 

<center><img src="../_images\web_scraping_inspect.png" alt="Drawing" style="width: 800px;"/></center>

## 2.4. Introducción a XPath

XPath (XML Path Language) es un lenguaje que permite construir expresiones que recorren y procesan un documento XML. La idea es parecida a las expresiones regulares (RegEx) para seleccionar partes de un texto sin atributos (plain text). XPath permite buscar y seleccionar teniendo en cuenta la estructura jerárquica del XML.

Ejemplos de XPath:

- `/html/body/div[2]`: la segunda división del body del html
- `//table`: todas las tablas del html
- `//div[@id="uid"]`: todas las divisiones del html, donde el atributo id es igual a "uid"
- `//div[@id!="uid"]`: todas las divisiones del html, donde el atributo id no es igual a "uid"
- `./`: búsqueda relativa desde donde me encuentro en el documento

Si los atributos son numéricos, se pueden emplear operadores lógicos; adicionalmente se pueden concatenar expreciones con `and` y `or`.

Adicionalmente, en XPath también se pueden utilizar funciones que permiten realizar un filtrado más conciso del HTML. Algunas de estas funciones son:

- `div[contains(@id, "elemento")]`: analiza si existe algun contenedor div, cuyo id contiene el string "elemento"
- `div[contains(text(), "esto es un contenedor")]`: analiza si dentro del contenedor, existe un texto determinado
- `div[starts-with(@id, "elemento")]`: analiza si existe algun contenedor div, cuyo id empieza por el string "elemento"
- `div[ends-with(@id, "elemento")]`: analiza si existe algun contenedor div, cuyo id termina con el string "elemento"

Las funciones se pueden invertir, utilizando el comando `not()` y pasando como argumento la función.

También hay que tener en cuenta, que cuando paso una sentencia XPath a un códgo HTML, el resultado es el nodo completo, con sus TAGs, atributos...etc; si queremos solo el contenido del nodo deberemos pasar también el comando `/text()`, mientras que si queremos el valor del atributo añadiremos `/@atributo`.

Puedes prácticar en estas web:

- https://topswagcode.com/xpath/
- http://xpather.com/

## 2.5. Encabezados y User Agents

Cuando se realiza una solicitud a un servidor, existen una serie de datos que van atados al requerimiento y que quedan registrados en el servidor. Dentro de esta información existe un grupo muy importante denominado enccabezados, que son un grupo de variables que indican quién y cómo se está realizando el requerimiento.

Dentro de los encabezados, existe una variable denominada `user-agent` que contiene información acerca del navegador y el sistema operativo desde el que se está solicitando el requerimento, por defecto tiene el valor *ROBOT*. Esto puede derivar en que si realizamos muchas requests en un servidor, podamos ser baneados.

Para enmascarar el `user-agent` y evitar este problema, podemos reescribirlo con los siguientes valores:

- Windows + Chrome: "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36"

En internet existen webs donde se indica el `user-agent` en función del sistema operativo, explorador...etc, o puede averiguar el suyo mediante la web https://www.whatismybrowser.com/es/detect/what-is-my-user-agent.

En función de la librería de trabajo que se utilice, el método para definir un `user-agent` puede ser diferente.

## 2.6. Métodos BeautifulSoup 

Dentro de `BeautifulSoup` podemos encontrar diferentes métodos para buscar información, algunos de ellos son:

- `.find()`: encuentra el primer TAG coincidente, y devuelve un TAG object
- `.find_all()`: encuentra todos los TAG coincidentes, y devuelve un ResultSet object
- `.find_next_sibling()`: encuentra etiquetas al mismo nivel.

Una vez se tienen los TAG, se puede extraer información de los mismos mediante los siguientes métodos:

- `.text`: extrae el texto del TAG y devuelve un string
- `.content`: extrae todos los hijos del TAG, y devuelve una lista de TAGs y strings

In [43]:
req = requests.get('https://www.elmundotoday.com/')
soup = BeautifulSoup(req.content)

In [45]:
section_header = soup.find('ul')
section_header

<ul class="td-mobile-main-menu" id="menu-menu-mobile"><li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-first menu-item-65940" id="menu-item-65940"><a href="https://www.elmundotoday.com/login/">Iniciar sesión</a></li>
<li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-65931" id="menu-item-65931"><a href="https://www.elmundotoday.com/noticias/internacional/">Internacional</a></li>
<li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-65932" id="menu-item-65932"><a href="https://www.elmundotoday.com/noticias/espanya/">España</a></li>
<li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-65933" id="menu-item-65933"><a href="https://www.elmundotoday.com/noticias/sociedad/">Sociedad</a></li>
<li class="menu-item menu-item-type-taxonomy menu-item-object-category menu-item-65934" id="menu-item-65934"><a href="https://www.elmundotoday.com/noticias/tecnologia/">Ciencia y Tecnología</a>

In [46]:
for section in section_header.find_all('li'):
    print(section.text)
    print(section.find('a')['href'])

Iniciar sesión
https://www.elmundotoday.com/login/
Internacional
https://www.elmundotoday.com/noticias/internacional/
España
https://www.elmundotoday.com/noticias/espanya/
Sociedad
https://www.elmundotoday.com/noticias/sociedad/
Ciencia y Tecnología
https://www.elmundotoday.com/noticias/tecnologia/
Cultura
https://www.elmundotoday.com/noticias/cultura/
Gente
https://www.elmundotoday.com/noticias/gente/
Deportes
https://www.elmundotoday.com/noticias/deportes/
Vídeos
https://www.elmundotoday.com/noticias/videos/


In [48]:
results = []
for headline in soup.find_all('h3'):
    text = headline.text
    url = headline.find('a')['href']
    results.append((text, url))
    
results

[('Un salón, un bar y una clase: así  contagia el fascismo',
  'https://www.elmundotoday.com/2020/10/un-salon-un-bar-y-una-clase-asi-contagia-el-fascismo/'),
 ('Los chilenos votan a favor de modificar la Constitución para que Felipe VI sea su rey',
  'https://www.elmundotoday.com/2020/10/los-chilenos-votan-a-favor-de-modificar-la-constitucion-para-que-felipe-vi-sea-su-rey/'),
 ('El Gobierno informa de que incumplir el toque de queda supondrá penalti a favor del Real Madrid',
  'https://www.elmundotoday.com/2020/10/el-gobierno-informa-de-que-incumplir-el-toque-de-queda-supondra-penalti-a-favor-del-real-madrid/'),
 ('España se da cuenta ahora de que el «botellón» representa el 80% de su PIB',
  'https://www.elmundotoday.com/2020/10/espana-se-da-cuenta-ahora-de-que-el-botellon-representa-el-80-de-su-pib/'),
 ('Desalojan el Congreso por una inundación de lágrimas de facha',
  'https://www.elmundotoday.com/2020/10/desalojan-el-congreso-por-una-inundacion-de-lagrimas-de-facha/'),
 ('El Mundo

## 2.7. Web Scraping con Scrapy

Scrapy no es solo una librería de web scraping, es un marco de trabajo, y por lo tanto el método más utilizado para extrar información de páginas web. Se utiliza para rastrear sitios web y extraer datos estructurados de sus páginas. Se puede utilizar para una amplia gama de propósitos, desde minería de datos hasta monitoreo y pruebas automatizadas.

Su arquitectura basada en Pipelines, Schedulers, Spiders y Downloaders permite al desarrollador tener un impresionante control sobre todo el proceso de Scraping.

La arquitectura de Scrapy contiene cinco componentes principales:

- Motor: el motor de Scrapy es su componente principal, cuyo objetivo es controlar el flujo de datos entre todos los demás componentes. El motor genera peticiones y gestiona eventos contra una acción.
- Planificador: recibe las solicitudes enviadas por el motor y las pone en cola.
- Descargador: buscar todas las páginas web y las envía motor. El motor luego envía las páginas web a las arañas.
- Arañas: son las reglas escritas mediante código para rastrear e indexar (*crawl*) las webs.
- Tuberías de elementos: procesa los elementos lado a lado después de que las arañas los extraen.

<center><img src="../_images\scrapy_architecture.png" alt="Drawing" style="width: 500px;"/></center>

### 2.7.1. Arañas

Las arañas son clases que definen cómo se scrapeará un determinado sitio (o un grupo de sitios), incluido cómo realizar el rastreo (es decir, seguir enlaces), y cómo extraer datos estructurados de sus páginas (es decir, elementos de raspado). En otras palabras, las arañas son el lugar donde se define el comportamiento personalizado para rastrear y analizar páginas para un sitio en particular (o, en algunos casos, un grupo de sitios).

Deben tener la siguiente estructura:

- name (atributo-str): nombre único que identifica a la araña, y mediante el cual llamaremos desde la cmd
- allowed_domains (atributo-list): listado opcional de urls permitidas para realizar el web scraping
- start_urls (atributo-list): identificar la url de partida del rastreo
- download_delay (atributo-float): establece un delay en segundos para un SpiderCrawl
- custom_settings (atributo-dict): diccionario de configuraciones
- rules (atributo-tuple): establece las reglas de crawling de URLs para un SpiderCrawl
- parse (método): reglas lógicas que definen el comportamiento de la araña

A continuación se muestra un ejemplo genérico:

```Python
# Library
import scrapy

# Spider creation
class YourNameSpider(scrapy.Spider):
    name = 'YourNameSpider'
    
    custom_settings = {'USER_AGENT': 'your user-agent',
                       'CLOSESPIDER_PAGECOUNT': 50,
                       'CLOSESPIDER_ITEMCOUNT': 20}
    
    allowed_domains = ['yoururl.com']
    start_urls = ['http://www.yoururl.com']
    
    # Delay en descargas, solo con SpiderCrawl. Por defecto es un valor aleatorio entre 0.5 y 1.5
    download_delay = float                                   

    # Comportamiento del crawler, solo con SpiderCrawl
    rules = (
        Rule(LinkExtractor(allow = r'',                         # LinkExtract solo funciona con tags <a href>
                           restrict_xpaths = [],
                           tags = ('a', 'button'),
                           attrs = ('href', 'data-url')),
             follow = True),
        Rule(LinkExtractor(allow = r'',                         
                           restrict_xpaths = []),
             follow = True,
             callback = 'parse_function'),
    )               
    
    # Parse function
    def parse_function(self, response):
        pass
```

Una vez se define la araña, se ejecuta desde la terminal mediante el siguiente comando `scrapy runspider <spider_name> -o data.<ext>`. Mediante este comando se puede modificar el tipo de fichero de salida del proceso cambiando la extensión por el formato deseado: .csv, .json...etc.

### 2.7.2. Web Scraping con Scrapy desde la nube

Es posible que a la hora de realizar web scraping nos topemos con webs que tienen implementados herramientas muy robustas para evitar la extracción de información, y que a pesar de modificar el user-agent o configurar delays respetuosos con los servidores, seamos baneados.

Para realizar web scraping en estas webs existen alternativas en la nube. Estas soluciones son servidores intermedios (proxy) que reciben nuestras solicitudes y a través de los mismos, realizan las solicitudes a la URL objetivo de forma anónima modificando de forma periódica las direcciones IP, user-agents, delays...etc. La contra de este servicio es que suelen ser de pago, pero más económico que la suscripción de la API oficial de la URL objetivo.

Una de estas soluciones y que permite su uso con Scrapy es Crawlera.

https://www.scrapinghub.com/crawlera/

## 2.8. Web Scraping con Selenium

Existen páginas web denominadas dinámicas que no cargan toda la información de golpe, si no que es necesario una interacción del usuario para que el servidor muestre el contenido total de la web (sin cambiar la URL).

Con lo que hemos visto hasta ahora con BeautifulSoup o Scrapy, podemos realizar una solicitud a un servidor, ya sea mediante crawling horizontal o vertical, y luego parsear la respuesta a cada solicitud, ¿pero qué ocurre cuando la página web es dinámica y el código HTML no viene completo?, aquí es donde entra en juego la librería `Selenium`.

`Selenium` es un conjunto de herramientas para automatizar los navegadores web en muchas plataformas, y que permite mediante lenguaje de programación, simular el comportamiento de una persona en una página web.

Para configurar `Selenium` es necesario:

- instalar la librería: `pip install selenium`
- instala el driver de chrome: https://selenium-python.readthedocs.io/installation.html#drivers


https://chromedriver.storage.googleapis.com/index.html?path=86.0.4240.22/

# 3. Ejercicios

## 3.1. Ejercicios de nivel 1: web scraping estático en una única página

**Nivel 1 - Ejercicio 1: Extraer los nombres de los idiomas que Wikipedia muestra en su página principal, mediante las librerías resquest y html:**

- URL semilla: https://www.wikipedia.org/

In [13]:
# Importamos librerías de trabajo
import requests
from lxml import html

# Encabezados
encabezados = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

# Declaramos la URL semilla
url = 'https://www.wikipedia.org/'

# Realizamos la request con los nuevos encabezados, y almacenamos la respuesta en la variable response
response = requests.get(url, headers = encabezados)

# Creo un objeto parseador, para poder acceder al código HTML de la response
parser = html.fromstring(response.text)

# Extracción del idioma inglés, mediante inspeccionar:
# <a id="js-link-box-en" href="//en.wikipedia.org/" title="English — Wikipedia — The Free Encyclopedia" class="link-box" data-slogan="The Free Encyclopedia"><strong>English</strong><small><bdi dir="ltr">6&nbsp;168&nbsp;000+</bdi> <span>articles</span></small></a>

wik_english = parser.get_element_by_id("js-link-box-en")
print(wik_english.text_content())


English
6 168 000+ articles



In [16]:
# Extracción del idioma inglés mediante XPath
wik_english = parser.xpath("//a[@id='js-link-box-en']/strong/text()")
wik_english

['English']

In [31]:
# Extracción de todos los idiomas por clase
wik_idioms = parser.find_class('central-featured-lang')
wik_idioms_list = [idiom.text_content() for idiom in wik_idioms]
wik_idioms_list

['\n\nEnglish\n6\xa0168\xa0000+ articles\n\n',
 '\n\nEspaÃ±ol\n1\xa0630\xa0000+ artÃ\xadculos\n\n',
 '\n\næ\x97¥æ\x9c¬èª\x9e\n1\xa0231\xa0000+ è¨\x98äº\x8b\n\n',
 '\n\nDeutsch\n2\xa0486\xa0000+ Artikel\n\n',
 '\n\nÐ\xa0Ñ\x83Ñ\x81Ñ\x81ÐºÐ¸Ð¹\n1\xa0665\xa0000+ Ñ\x81Ñ\x82Ð°Ñ\x82ÐµÐ¹\n\n',
 '\n\nFranÃ§ais\n2\xa0254\xa0000+ articles\n\n',
 '\n\nItaliano\n1\xa0639\xa0000+ voci\n\n',
 '\n\nä¸\xadæ\x96\x87\n1\xa0150\xa0000+ æ¢\x9dç\x9b®\n\n',
 '\n\nPortuguÃªs\n1\xa0044\xa0000+ artigos\n\n',
 '\n\nØ§Ù\x84Ø¹Ø±Ø¨Ù\x8aØ©\n1\xa0068\xa0000+ Ù\x85Ù\x82Ø§Ù\x84Ø©\n\n']

In [24]:
# Extracción de todos los idiomas por XPath
idiomas = parser.xpath("//div[contains(@class,'central-featured-lang')]//strong/text()")
for idioma in idiomas:
    print(idioma)

English
EspaÃ±ol
æ¥æ¬èª
Deutsch
Ð ÑÑÑÐºÐ¸Ð¹
FranÃ§ais
Italiano
ä¸­æ
PortuguÃªs


**Nivel 1 - Ejercicio 2: Extraer los preguntas y descripciones breves de las mismas del foro Stack Overflow, mediante las librerías resquest y BeautifulSoup:**

- URL semilla: https://stackoverflow.com/questions

In [46]:
# Importamos librerías de trabajo
import requests
from bs4 import BeautifulSoup

# Encabezados
encabezados = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}

# Declaramos la URL semilla
url = 'https://stackoverflow.com/questions'

# Realizamos la request con los nuevos encabezados, y almacenamos la respuesta en la variable response
response = requests.get(url, headers = encabezados)

# Parseo del árbol con BeautifulSoup
soup = BeautifulSoup(response.text)
quest_container = soup.find(id = 'questions')                                  # Contenedor de preguntas (único)
quest_list = quest_container.find_all('div', class_ = "question-summary")      # Lista de preguntas (muchas)
for quest in quest_list:
    question = quest.find('h3').text                                           # Título de la pregunta
    question_desc = quest.find(class_ = 'excerpt').text                        # Descripción pregunta
    question_desc = question_desc.replace('\n', '').replace('\r', '').strip()  # Eliminamos saltos de página etc
    print(question)
    print(question_desc)

Wordpress Cache issue
i've got some issues with caching proccess of my wordpress site :the problem is , when i add any new product in my site it will be available to buy but , when a customer logs in his account to buy ...
How to start class while in a class
I want to be able to open a seperate class, for a different widget, from within a class when a button is clicked, current code below;import sys, osfrom PyQt5 import QtCore,QtGui,uic,QtWidgets...
SQL - Display Name ID from Consecutive Occurrences of values in a Table
I have a table created, as an example 'Table1', see below;Name    Year        John    2003Lyla    1994Faith   1996John    2002Carol   2000Carol   1999John    2001Carol   2002Lyla    1996...
Directadmin flash install - Custom Build Web Page not loading
We have just installed the DA , however , we wanted to use the custom build. The page keeps on loading and there are an error shows:please see attached screen shot.I cannot use the DA normally.help ...
How do I update my I

**Nivel 1 - Ejercicio 3: Extraer las preguntas y descripciones breves de las mismas del foro Stack Overflow, mediante la librería Scrapy, y almacenar el contenido en un fichero .csv:**

- URL semilla: https://stackoverflow.com/questions

> *Scrapy es un marco de trabajo, y no es tan sencillo ejecutar desde un notebook. Para este ejercicio, trasladamos el código a un fichero .py, y ejecutamos desde la terminal de Anaconda, con ubicación en el directorio donde se encuentra el fichero.py, el siguiente comando: `scrapy runspider ej_niv1_num3_scrapy.py -o ej_niv1_num3.csv -t csv`.*

> *`-o`: output*
> *`-t`: formato*

In [1]:
# Importamos librerías de trabajo
# ---------------------------------------------------------------------------------------------------------------
from scrapy.item import Item, Field
from scrapy.spiders import Spider
from scrapy.selector import Selector
from scrapy.loader import ItemLoader


# Datos a extraer - Determina los datos que tengo que completar, y que se encontrarán en el fichero generado
# ---------------------------------------------------------------------------------------------------------------
class Pregunta(Item):
    id = Field()
    pregunta = Field()
    descripcion = Field()
    
# Clase Spider - Se define el comportamiento
# ---------------------------------------------------------------------------------------------------------------
class StackOverflowSpider(Spider):
    name = "StackOverflowSpider"
    
    # User-Agent
    custom_settings = {'USER_AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
    
    # URL semilla
    start_urls = ['https://stackoverflow.com/questions']
    
    # Funcion a la que se va a llamar, cuando se haga el requerimiento a la URL semilla
    def parse(self, response):
        # Selectores: Clase de scrapy para extraer datos
        sel = Selector(response)
        # Selector de todas las preguntas de la página principal de StackOverflow
        preguntas = sel.xpath('//div[@id="questions"]//div[@class="question-summary"]')
        # Para cada pregunta:
        i = 1
        for pregunta in preguntas:
            # Instanciamos el ítem Pregunta, e indicamos en que variable puede encontrar la información
            item = ItemLoader(Pregunta(), pregunta)
            # Lleno los atributos del ítem Pregunta
            item.add_value('id', i)
            item.add_xpath('pregunta', './/h3/a/text()')                         # El punto del XPath indica ruta relativa
            item.add_xpath('descripcion', './/div[@class="excerpt"]/text()')     # El punto del XPath indica ruta relativa
            i += 1
            # Hago Yield de la informacion para que se escriban los datos del ítem Pregunta, en un archivo
            yield item.load_item()

**Nivel 1 - Ejercicio 4: Extraer el titular y la descripción breve de las noticias de El Universo, mediante la librería Scrapy por un lado, y por otro combinándola con BeautifulSoup, y almacenar el contenido en un fichero .json:**

- URL semilla: https://www.eluniverso.com/deportes

> *Puedes encontrar los ficheros .py en el repo de GitHub, luego ejecutalos mediante los siguientes comandos: `scrapy runspider ej_niv1_num4_scrapy.py -o ej_niv1_num4.json -t json`, y `scrapy runspider ej_niv1_num4_scrapy_bs.py -o ej_niv1_num4_scrapy_bs.json -t json`.*

## 3.2. Ejercicios de nivel 2: web scraping con crawling horizontal y vertical



**Nivel 2 - Ejercicio 1: Entrar en Tripadvisor Madrid, y en la sección hoteles, obtener para cada uno de ellos: el nombre, descripción, precio, y servicios de la propiedad incluídos. Es necesario hacer crawling vertical en cada uno de los hoteles de la página principal.**

- URL semilla: https://www.tripadvisor.com/Hotels-g187514-Madrid-Hotels.html

> *Puedes encontrar los ficheros .py en el repo de GitHub, luego ejecutalos mediante los siguientes comandos: `scrapy runspider ej_niv2_num1_scrapy_tripadvisor.py -o ej_niv2_num1_scrapy_tripadvisor.json`.*

> *Indicar que debido a la estructura del árbol HTML de la página web, los XPath de donde extraemos los datos pueden ser modificados.*

**Nivel 2 - Ejercicio 2: Entrar en Mercado Libre Ecuador, y para la sección de perros, obtener para cada uno de ellos el título, precio y descripción de producto, realizando tanto crawling vertical como horizontal.**

- URL semilla: https://listado.mercadolibre.com.ec/animales-mascotas/perros/

> *Puedes encontrar los ficheros .py en el repo de GitHub, luego ejecutalos mediante los siguientes comandos: `scrapy runspider ej_niv2_num2_scrapy_mercadolibre.py -o ej_niv2_num1_scrapy_mercadolibre.json`.*

**Nivel 2 - Ejercicio 3: Entrar en Ign, y mediante crawling horizontal (paginación y tipo) y vertical, extraer información los artículos revies y videos .**

- URL semilla: https://latam.ign.com/se/?model=article&q=ps4

> *Puedes encontrar los ficheros .py en el repo de GitHub, luego ejecutalos mediante los siguientes comandos: `scrapy runspider ej_niv2_num3_scrapy_ign.py -o ej_niv2_num3_scrapy_ign.json`.*

**Nivel 2 - Ejercicio 4: Entrar en Tripadvisor, y mediante crawling horizontal (2 niveles) y vertical (2 niveles), obtener las opiniones, e información de detalles de los autores de las mismas**

- URL semilla: https://www.tripadvisor.com/Hotels-g303845-Guayaquil_Guayas_Province-Hotels.html

> *Puedes encontrar los ficheros .py en el repo de GitHub, luego ejecutalos mediante los siguientes comandos: `scrapy runspider ej_niv2_num4_scrapy_tripadvisor.py -o ej_niv2_num4_scrapy_tripadvisor.json`.*

## 3.3. Ejercicios de nivel 3: web scraping en páginas dinámicas



# 4. Bibliografía

- KSchool Data Science Master Ed. 23.
- Udemy - Curso maestro de Web Scraping: Extracción de Datos de la Web por Leonardo Kuffo
- https://requests.readthedocs.io/es/latest/
- https://es.wikipedia.org/wiki/Protocolo_de_transferencia_de_hipertexto
- https://es.wikipedia.org/wiki/HTML
- https://github.com/emunozlorenzo/MasterDataScience/tree/master/10_Web_Scraping
- https://doc.scrapy.org/en/latest/index.html
- https://www.scrapinghub.com/crawlera/