## Web Scrapy 

Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en la World Wide Web ya sea utilizando el protocolo HTTP manualmente, o incrustando un navegador en una aplicación.


El web scraping está muy relacionado con la indexación de la web, la cual indexa la información de la web utilizando un robot y es una técnica universal adoptada por la mayoría de los motores de búsqueda. Sin embargo, el web scraping se enfoca más en la transformación de datos sin estructura en la web (como el formato HTML) en datos estructurados que pueden ser almacenados y analizados en una base de datos central, en una hoja de cálculo o en alguna otra fuente de almacenamiento. Alguno de los usos del web scraping son la comparación de precios en tiendas, la monitorización de datos relacionados con el clima de cierta región, la detección de cambios en sitios webs y la integración de datos en sitios webs. También es utilizado para obtener información relevante de un sitio a través de los rich snippets.


### Arquitectura Scrapy
La Arquitectura de un web Scraping es muy simple:

<img src="sc1.png">

El primer paso será crear el “Engine”, el cual obtiene las “Requests” iniciales que los “Spiders” le envían.

El “Engine” programa las “Requests” en el planificador y solicita las siguientes “Requests” que se deben rastrear (crawl).

El Programador o “Scheduler” devuelve las próximas “Requests” al “ Engine”.

El “Engine” envía las “Requests” al “Downloader”, pasando por los diferentes “Middlewares” del “Downloader”.

Bien, los anteriores pasos son cuando, requerimos al sistema de un proceso de descarga de información, entonces cuando la página termina de descargar el contenido que le hemos solicitado, el “Downloader” genera una Respuesta con dicho contenido y la envía al “Engine”, pasando de nuevo por los “Middlewares” del “Downloader”. Cuando el “Engine” recibe la respuesta del “Downloader”, la envía a los “Spiders”, de nuevo, para que sea procesada la información.

Los “Spiders” procesan la respuestas y son devueltos los elementos identificados (scraped) y las nuevas “Requests” al “Engine”, pasando a través de los Middleware de los “Spiders”.
El “Engine” envía los elementos procesados a las “Pipeline” de elementos, luego envía las solicitudes procesadas al “Scheduler” y pide posibles próximas solicitudes para rastrear.
El proceso se repite, desde el paso 1, hasta que no haya más solicitudes del “Scheduler”.
El proceso, como tal, no es complejo pero es recurrente. En el anterior diagrama se muestra una visión general de la arquitectura Scrapy con sus componentes y un esquema del flujo de datos que tiene lugar dentro del sistema. Que seguramente ayuda y mucho a interpretar el texto de explicación.


### Intalación en python 

pip install scrapy 


### Configuracion del Path 

export PATH="${PATH}:${HOME}/.local/bin"


In [1]:
#Este comando nos permite crear un proyecto de scrapy dentro 
#de nuestra carpeta de jupyter 
!scrapy startproject prueba


/usr/bin/sh: 1: scrapy: not found


In [2]:
# para explorar el proyecto es necesario teclear el siguiente comando
# de igual forma es conveniete cambiar la ruta, path a su maquina personal 

%cd prueba

/home/likcos/Programacion/Notebooks/prueba


In [4]:
%pwd


'/home/likcos/Programacion/Notebooks/prueba'

In [5]:
!tree


[01;34m.[00m
├── [01;34mprueba[00m
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   └── [01;34mspiders[00m
│       └── __init__.py
└── scrapy.cfg

2 directories, 7 files


## Ejemplo 

El uso de herramientas automatizadas para la adquisición de contenido web (web crawling) es una práctica que en algunos casos no es aceptable para ciertos sitios en internet y posible que se bloquie la ip desde donte se intenta obtener la información.

En la estructura anterior se puede apreciar que la carpeta spider esta bacía debido a que no sea generado ningun spider para obtener la información.

In [6]:
!scrapy genspider ejemplo itmorelia.edu.mx

Created spider 'ejemplo' using template 'basic' in module:
  prueba.spiders.ejemplo


In [7]:
!tree

[01;34m.[00m
├── [01;34mprueba[00m
│   ├── __init__.py
│   ├── __init__.pyc
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   ├── settings.pyc
│   └── [01;34mspiders[00m
│       ├── ejemplo.py
│       ├── __init__.py
│       └── __init__.pyc
└── scrapy.cfg

2 directories, 11 files


In [9]:
%cat prueba/spiders/ejemplo.py

# -*- coding: utf-8 -*-
import scrapy


class EjemploSpider(scrapy.Spider):
    name = 'ejemplo'
    allowed_domains = ['itmorelia.edu.mx']
    start_urls = ['http://itmorelia.edu.mx/']

    def parse(self, response):
        pass


In [3]:
import scrapy 

In [4]:
help(scrapy.spiders)

Help on package scrapy.spiders in scrapy:

NAME
    scrapy.spiders - Base class for Scrapy spiders

DESCRIPTION
    See documentation in docs/topics/spiders.rst

PACKAGE CONTENTS
    crawl
    feed
    init
    sitemap

CLASSES
    scrapy.utils.trackref.object_ref(builtins.object)
        Spider
    
    class Spider(scrapy.utils.trackref.object_ref)
     |  Spider(*args, **kwargs)
     |  
     |  Base class for scrapy spiders. All spiders must inherit from this
     |  class.
     |  
     |  Method resolution order:
     |      Spider
     |      scrapy.utils.trackref.object_ref
     |      builtins.object
     |  
     |  Methods defined here:
     |  
     |  __init__(self, name=None, **kwargs)
     |      Initialize self.  See help(type(self)) for accurate signature.
     |  
     |  __repr__ = __str__(self)
     |  
     |  __str__(self)
     |      Return str(self).
     |  
     |  log(self, message, level=10, **kw)
     |      Log the given message at the given log level
    

# La clase scrapy.Spider.
Todas las arañas de scrapy son subclases de la clase scrapy.Spider, la cual define por defecto los siguientes atributos y métodos:

- El atributo name, el cual es el nombre que se el asignará a cada objeto instanciado.

- allowed_domains, que se refiere a un objeto tipo list que contiene la lista de los dominios a los que puede acceder la araña.

- El atributo start_urls, que corresponde a una lista de URLs a partir de los cuales las arañas escudriñarán el contenido.

- El método parse(), el cual en un principio es un método abstracto y se utiliza para definir los contenidos que debe de buscar la araña.

- El método start_requests() se encarga de iniciar la carga de datos a partir de los URL ingresados en start_urls y obteniendo los datos definidos en parse. El resultado es un objeto llamado Request.


In [16]:
!scrapy crawl ejemplo

2019-10-08 22:57:17 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: prueba)
2019-10-08 22:57:17 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.4, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 2.7.16 (default, Apr  6 2019, 01:42:57) - [GCC 8.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.6.1, Platform Linux-4.19.0-6-amd64-x86_64-with-debian-10.1
2019-10-08 22:57:17 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'prueba.spiders', 'SPIDER_MODULES': ['prueba.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'prueba'}
2019-10-08 22:57:17 [scrapy.extensions.telnet] INFO: Telnet Password: b83bc9b61eebf4b1
2019-10-08 22:57:17 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
2019-10-08 22:57:17 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scr

In [17]:
!tree

[01;34m.[00m
├── [01;34mprueba[00m
│   ├── __init__.py
│   ├── __init__.pyc
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py
│   ├── settings.py
│   ├── settings.pyc
│   └── [01;34mspiders[00m
│       ├── ejemplo.py
│       ├── ejemplo.pyc
│       ├── __init__.py
│       └── __init__.pyc
└── scrapy.cfg

2 directories, 12 files


In [19]:
!scrapy fetch --spider=ejemplo http://itmorelia.edu.mx/

2019-10-08 23:04:16 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: prueba)
2019-10-08 23:04:16 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.4, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 2.7.16 (default, Apr  6 2019, 01:42:57) - [GCC 8.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.6.1, Platform Linux-4.19.0-6-amd64-x86_64-with-debian-10.1
2019-10-08 23:04:16 [scrapy.crawler] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'prueba.spiders', 'SPIDER_MODULES': ['prueba.spiders'], 'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'prueba'}
2019-10-08 23:04:16 [scrapy.extensions.telnet] INFO: Telnet Password: 6c104554506d1ed3
2019-10-08 23:04:16 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
2019-10-08 23:04:16 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scr

# Selectores. 

Los selectores son los objetos que se encargan de realizar búsquedas específicas dentro de un texto estructurado y son instancias del objetos scrapy.Selector.

La clase scrapy.Selector contiene varios métodos, entre los que se incluyen:

- css(), permite realizar búsqueda de nodos dentro de un documento HTML mediante la sintaxis de selectores de CSS.

- xpath(), permite realizar búsquedas de nodos dentro de un documento HTML/XML mediante XPath.

- re(), permite realizar búsquedas de nodos dentro de un documento HTML/XML mediante expresiones regulares.

- extract() regresa los datos correspondientes a un nodo encontrado.

In [1]:
help(scrapy)

NameError: name 'scrapy' is not defined

# El shell de scrapy.
Scrapy cuenta con su propio entorno interactivo, el cual es muy similar al shell de Python. Este entorno nos permite probar las búsquedas que se pueden realizar en un sitio específico.

Este shell permite al usuario interactuar con los objetos y elementos de un proyecto.

Lo único que se requiere es ejecutar lo siguiente desde la línea de comando:

scrapy shell <URL>

In [10]:
!scrapy shell http://likcos.blogspot.com/

2019-10-13 23:39:29 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: scrapybot)
2019-10-13 23:39:29 [scrapy.utils.log] INFO: Versions: lxml 4.3.2.0, libxml2 2.9.4, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python 2.7.16 (default, Apr  6 2019, 01:42:57) - [GCC 8.3.0], pyOpenSSL 19.0.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.6.1, Platform Linux-4.19.0-6-amd64-x86_64-with-debian-10.1
2019-10-13 23:39:29 [scrapy.crawler] INFO: Overridden settings: {'LOGSTATS_INTERVAL': 0, 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter'}
2019-10-13 23:39:29 [scrapy.extensions.telnet] INFO: Telnet Password: fd2f8994e6730c8b
2019-10-13 23:39:29 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
2019-10-13 23:39:29 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermid

In [11]:
response.xpath('//h3')

NameError: name 'response' is not defined

In [12]:
for item in response.xpath('//dt'):
    print(item.extract())

NameError: name 'response' is not defined

In [None]:
for item in response.css('.precio'):
    print(item.extract())

In [1]:
import json

In [3]:
with open('prueba.json') as file:
    data = json.load(file)

FileNotFoundError: [Errno 2] No such file or directory: 'prueba.json'