![imagenes/pythonista.png](imagenes/pythonista.png)

## El proyecto *Scrapy*.

Existen diversa herramientas y técnicas que le permiten a un desarrollador o analista acceder, consumir y extraer contenidos basado en Web. El proyecto *Scrapy* ofrece una herramienta que permite realizar 'web scraping' de manera automatizada y rápida de grand cantidades de contenido basado en web.

*Scrapy* cuenta con muy buena documentación, la cual puede ser accedida desde https://doc.scrapy.org/en/latest.

*Scrapy* fue creado a partir de [*Twisted*](https://twistedmatrix.com), por lo que es capaz de realizar miles de consultas de forma simultánea.

Del mismo modo, *Scrapy* hace uso de herramientas como *beautifulsoup* y el paquete *xml* de Python para facilitar la búsqueda de contenidos.

In [None]:
!sudo apt install libxml2-dev python-lxml -y

In [None]:
!pip install scrapy

Una vez instalado, es posible utilizar el comando *scrapy* desde la línea de comando, utilizando a su vez subcomandos.
En caso de no ingresar un subcomando, *scrapy* desplegará una lista básica de subcomandos
disponibles.

In [None]:
%pwd

In [None]:
!scrapy

## Sitio de ejemplo.

El uso de herramientas automatizadas para la adquisición de contenido web (web crawling) es una práctica que en algunos casos no es aceptable para ciertos sitios en internet. Con la finalidad de evitar inconvenientes, hemos puesto a disposición el dominio http://coder.mx, el cual presenta un sitio ficticio que puede ser utilizado para practicar el uso de herramientas como *scrapy* sin inconvenientes.

# Creación de un proyecto.



Para poder comenzar, es necesario crear un proyecto desde la línea de comando utilizando el subcomando *startproject*:

``` bash
scrapy startproject <nombre>
```

In [None]:
!scrapy startproject prueba

Lo anterior creará una estructura de directorios y archivos en el sitio indicado dentro del sistema de archivos local.

In [None]:
%cd prueba

El comando *tree* nos permite observar la estructura de archivos que fue creada. Para instalar *tree* en en un sistema Linux basado en Red Hat se ejecuta los siguiente:

In [None]:
!tree

### Creación de 'arañas'.
A las herramientas encargadas de escudriñar los sitios web se les conoce como 'arañas' y para crear una se utiliza el subcomando *genspider* desde la línea de comando.

```
scrapy genspider <nombre de la araña> <URL>
```

Un proyecto de Scrapy puede hacer uso de una o múltiples arañas.

#### Ejemplo:
Se creará una araña que accederá al sitio http://coder.mx.

In [None]:
!scrapy genspider coder coder.mx

Una vez creada, la araña será alojada en el subdirectorio *spiders* del proyecto y por defecto contendrá un código similar al siguiente:
``` python
# -*- coding: utf-8 -*-
import scrapy


class PythonistaSpider(scrapy.Spider):
    name = 'coder'
    allowed_domains = ['coder.mx']
    start_urls = ['http://coder.mx/']

    def parse(self, response):
        pass
```

In [None]:
%cat prueba/spiders/coder.py

In [None]:
!type prueba\spiders\coder.py

## El paquete *scrapy*.
Como se puede ver en el código previo, el paquete *scrapy* contiene todas las herramientas de *Scrapy*, el cual define diversas clases y herramientas que facilitan realizar web scraping de forma automatizada.

In [None]:
import scrapy

In [None]:
help(scrapy)

### La clase *scrapy.Spider*.

Todas las arañas de *scrapy* son subclases de la clase *scrapy.Spider*, la cual define por defecto los siguientes atributos y métodos:

* El atributo *name*, el cual es el nombre que se el asignará a cada objeto instanciado.
* *allowed_domains*, que se refiere a un objeto tipo _list_ que contiene la lista de los dominios a los que puede acceder la araña.
* El atributo *start_urls*, que corresponde a una lista de URLs a partir de los cuales las arañas escudriñarán el contenido.
* El método *parse()*, el cual en un principio es un método abstracto y se utiliza para definir los contenidos que debe de buscar la araña.
* El método *start_requests()* se encarga de iniciar la carga de datos a partir de los URL ingresados en *start_urls* y obteniendo los datos definidos en *parse*. El resultado es un objeto llamado *Request*.

Existen otros atributos y métodos definidos para *scrapy* que se verán posteriormente.

In [None]:
help(scrapy.Spider)

### Inicio del proceso de adquisición de contenidos.
En este caso, se realizará una búsqueda en http://coder.mx, utilizando la araña localizada en [prueba/prueba/spiders/coder.py](prueba/prueba/spiders/coder.py).


In [None]:
!scrapy crawl coder

Al inciar a "arrastrarse" en el sitio indicado, *scrapy* busca por defecto un archivo *robots.txt* en el sitio que está escudriñando. Estos archivos son utilizados por los administradores de los sitios web para definir a qué partes del sitio tiene acceso las arañas.
En este caso, del http://coder.mx/robots.txt no existe, por lo que el servidor regresa un mensaje de estado *404*.
En vista de que se está ejecutando una búsqueda recién creada, no hay reglas definidas, por lo que *scrapy* sólo escudriña al contenido correspondiente a http://coder.mx/index.html, pero no realiza búsquedas en ningún otro archivo o subdirectorio.

### Ejecución de una araña.

En este caso se ejecutará la araña localizada en [prueba/prueba/spiders/coder.py](prueba/prueba/spiders/coder.py), la cual al no contenr criterios refinados de búsqueda, obtendrá y regresará el contenido completo de http://coder.mx/index.html

In [None]:
!scrapy fetch --spider=coder https://coder.mx

## Selectores.

Los selectores son los objetos que se encargan de realizar búsquedas específicas dentro de un texto estructurado y son instancias del objetos *scrapy.Selector*.

La clase *scrapy.Selector* contiene varios métodos, entre los que se incluyen:
* *css()*, permite realizar búsqueda de nodos dentro de un documento HTML mediante la sintaxis de selectores de CSS.
* *xpath()*, permite realizar búsquedas de nodos dentro de un documento HTML/XML mediante XPath.
* *re()*,  permite realizar búsquedas de nodos dentro de un documento HTML/XML mediante expresiones regulares.
* *extract()* regresa los datos correspondientes a un nodo encontrado.

In [None]:
help(scrapy.Selector)



## El shell de *scrapy*.

Scrapy cuenta con su propio entorno interactivo, el cual es muy similar al shell de Python. Este entorno nos permite probar las búsquedas que se pueden realizar en un sitio específico.

Este shell permite al usuario interactuar con los objetos y elementos de un proyecto.

Lo único que se requiere es ejecutar lo siguiente desde la línea de comando:

``` bash
scrapy shell <URL>```

**Ejemplo:**

**Advertencia:** este ejemplo se realiza desde una terminal de texto. No intente ejecutar los comandos desde esta notebook.

En la página [http://coder.mx/menu.html](http://coder.mx/menu.html) existe una estructura de tablas que contienen una serie de elementos *dt* que corresponden al nombre de cada platillo en el menú de un restaruante ficticio y del mismo modo existen un elemento *td* con el atributo *class="precio"*, que corresonden al precio de cada producto.

Para acceder al shell y conectarse a la página sobre la que se haran las búsquedas se ejectua lo siguiente desde una terminal localizada en el subdirectorio del proyecto de scrapy:

``` bash
scrapy shell http://coder.mx/menu.html

```

Lo anterior dará por resultado algo similar a lo siguiente y se iniciará el shell de *scrapy*:

```
18-03-07 14:30:28 [scrapy.utils.log] INFO: Scrapy 1.5.0 started (bot: prueba)
2018-03-07 14:30:28 [scrapy.utils.log] INFO: Versions: lxml 4.1.1.0, libxml2 2.9.7, cssselect 1.0.3, parsel 1.4.0, w3lib 1.19.0, Twi
sted 17.9.0, Python 3.6.4 (default, Dec 19 2017, 14:48:12) - [GCC 4.8.5 20150623 (Red Hat 4.8.5-16)], pyOpenSSL 17.5.0 (OpenSSL 1.1.
0g  2 Nov 2017), cryptography 2.1.4, Platform Linux-3.10.0-693.17.1.el7.x86_64-x86_64-with-centos-7.4.1708-Core
2018-03-07 14:30:28 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'prueba', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseD
upeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'prueba.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['prueba.spiders
']}
2018-03-07 14:30:28 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2018-03-07 14:30:28 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-03-07 14:30:28 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-03-07 14:30:28 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-03-07 14:30:28 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-03-07 14:30:28 [scrapy.core.engine] INFO: Spider opened
2018-03-07 14:30:28 [scrapy.core.engine] DEBUG: Crawled (404) <GET http://coder.mx/robots.txt> (referer: None)
2018-03-07 14:30:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://coder.mx/menu.html> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x7f624cd9e550>
[s]   item       {}
[s]   request    <GET http://coder.mx/menu.html>
[s]   response   <200 http://coder.mx/menu.html>
[s]   settings   <scrapy.settings.Settings object at 0x7f624b3a6e48>
[s]   spider     <CoderSpider 'coder' at 0x7f624aed6fd0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
In [1]:
```

Al ejecutar el comando, scrapy se conectó a la página y generó una petición con el método *GET*. El objeto correspondiente a la respuesta es una instancia de la clase *HtmlResponse* y fue ligado al nombre *response*.
A su vez, las clase *HtmlResponse* es subclase de *scrapy.http.response.text.TextResponse*.

Dicha clase contiene los métodos *css()* y *xpath()*, los cuales nos permiten hacer búsquedas en el el código HTML de la respuesta.

El siguiente código utilizando el método *xpath()* traerá la lista de elementos HTML que son *dt*.
``` python
response.xpath('//dt')
```
El resultado es un objeto tipo *SelectorList* que contiene los resultados de la búsqueda: 
```
In [1]: response.xpath('//dt')
Out[1]:
[<Selector xpath='//dt' data='<dt><em>Ensalada mixta</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Corazones de alcachofa al vapor<'>,
 <Selector xpath='//dt' data='<dt><em>Empanadas argentinas (3)</em></d'>,
 <Selector xpath='//dt' data='<dt><em>Sashimi de pepino</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Consomé de la Condesa</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Jugo de carne</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Sopa de lentejas</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Sopa de fideos</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Pechuga en salsa de huitlacoche<'>,
 <Selector xpath='//dt' data='<dt><em>Nuestras gringas muy mexicanas</'>,
 <Selector xpath='//dt' data='<dt><em>Pepitos de arrachera</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Huachinango a la sal</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Pan de pulque</em></dt>'>,
 <Selector xpath='//dt' data='<dt><em>Nieve de leche quemada con tuna<'>,
 <Selector xpath='//dt' data='<dt><em>Sorbete de rosas y vino blanco e'>,
 <Selector xpath='//dt' data='<dt><em>Crepas al momento</em></dt>'>]
```

Para desplegar el texto de cada nodo encontrado se aplica el siguiente código:

``` python
for item in response.xpath('//dt'):
    print(item.extract())
```

El siguiente código utilizando el método *css()* traerá la lista de elementos HTML que son de clase *precio*.

El resultado es un objeto de tipo _list_ que contiene otro objeto tipo _list_ cuyos elementos son un selector y el elemento HTML que coincide con la búsqueda.
```
 [2]: response.css('.precio')
Out[2]:
[<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$65.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$125.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$130.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$150.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$85.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$85.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$90.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$105.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$145.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$100.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$160.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$220.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$95.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$65.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$85.00</td>'>,
 <Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' precio ')]" data='<td class="precio">$115.00</td>'>]
```

Para desplegar el texto de cada nodo encontrado se aplica el siguiente código:

``` python
for item in response.css('.precio'):
    print(item.extract())
```

## Creación de una búsqueda.

Añadir lo siguiente al archivo [prueba/items.py](prueba/items.py).

``` python
from scrapy.item import Item, Field

class PruebaItem(Item):
    # Primary fields
    platillo = Field()
    precio = Field()
```

Añadir lo siguiente al archivo [prueba/spiders/coder.py](prueba/spiders/coder.py).

``` python
# -*- coding: utf-8 -*-
import scrapy
from prueba.items import PruebaItem

class CoderSpider(scrapy.Spider):
    name = 'coder'
    allowed_domains = ['coder.mx']
    start_urls = ['http://coder.mx/menu.html']

    def parse(self, response):
        item = PruebaItem()
        item['platillo'] = response.xpath('//dt').extract()
        item['precio'] = response.css('.precio').extract()
        return item
```

In [None]:
%pwd

In [None]:
cd /opt/oi/py121/prueba/prueba

In [None]:
!scrapy crawl coder -o items.json

In [None]:
%cat items.json

In [None]:
!scrapy fetch --spider=coder http://coder.mx/menu.html



<p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2019.</p>