# 1. Scrapy: Temas más avanzados

## 1.1 Scrapy: obteniendo url absoluta

Scrapy viene equipado con la funcion <b>urljoin</b> el cual nos permite unir la <b>url base + url deseada</b>

In [1]:
import requests

from scrapy.selector import Selector
from scrapy.http import Request

In [2]:
url = 'https://quotes.toscrape.com/'
response = requests.get( url )

html = response.content

In [3]:
# pasando contenido al selector
sel = Selector(text = html)

#### Ejemplo utilizado dentro del proyecto scrapy

In [4]:
#obteniendo siguiente pagina
link = sel.css("li.next > a::attr(href)").get()
link

'/page/2/'

In [7]:
response.url[:-1] + link

'https://quotes.toscrape.com/page/2/'

In [None]:
#obteniendo url_absoluta
url_absoluta_libro=response.urljoin(link)

## 1.2 Scrapy: Realizando Request

La clase Request nos permite ingresar a una nueva página web para continuar con el scrapeo de esta

<img src='./img/scrapy/request.png' width="700" height="300">

Recuerden revisar la documentación completa en la <a href=https://docs.scrapy.org/en/latest/topics/request-response.html>página oficial<a/>

#### Ejemplo utilizando dentro del proyecto scrapy

In [3]:
#libreria importada dentro del proyecto
from scrapy.http import Request

In [None]:
#Forma request básica
Request(url_absoluta_libro,callback=self.parse)

## 1.3 Scrapy Shell: Fetch()

El shell de scrapy posee la funcion <b>Fetch()</b> la cual nos permite ingresar a una nueva página para de este modo seguir trabajando desde el shell 

#### Ejemplo

In [None]:
# desde la consola de scrapy shell realizar
url="https://reddit.com"
fetch(url)

## 1.4. Scrapy: Navegando entre páginas

Muchas veces nos encontramos con casos en que se requiere obtener información de la primera página y luego se requiere ir navegando dentro de sus páginas para obtener más datos de ella. Para estos casos se requiere utilizar el método Request que vimos anteriormente

In [None]:
# para introducirnos en una página adicional sin pasar datos previamente extraidos
yield Request(absolute_url, callback=self.parse_book)

<img src='./img/meta.PNG'>

In [None]:
# para introducirnos en una página adicional con datos previamente extraidos
meta = {'URL': absolute_url, 
        'Title': title, 
        'Address':address}

yield Request(absolute_url, callback=self.parse_page, meta= meta)

In [None]:
# sobre la nueva funcion, debemos recuperar los valores anteriormente recopilados

url = response.meta.get('URL')
title = response.meta.get('Title')
address = response.meta.get('Address')

## Ejemplo

In [8]:
import requests
from scrapy.selector import Selector
from scrapy.http import Request

In [9]:
url = 'http://books.toscrape.com/'
response = requests.get( url )

html = response.content

In [10]:
sel = Selector(text = html)

In [14]:
bloques = sel.css('article.product_pod')

In [15]:
bloque = bloques[1]

In [25]:
bloque.css('h3>a::attr(title)').get()

'Tipping the Velvet'

In [27]:
url_book = bloque.css('h3>a::attr(href)').get()

In [24]:
url_relativa = sel.css('li.next > a::attr(href)').get()

In [30]:
response.url + url_book

#http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html

'http://books.toscrape.com/catalogue/tipping-the-velvet_999/index.html'

Siguiente pagina en libro

In [31]:

response = requests.get( response.url + url_book )
html = response.content

In [32]:
sel = Selector(text = html)

In [34]:
table = sel.css('table.table.table-striped')

In [41]:
table.css('tr > th::text').getall()
    

['UPC',
 'Product Type',
 'Price (excl. tax)',
 'Price (incl. tax)',
 'Tax',
 'Availability',
 'Number of reviews']

In [39]:
table.css('tr > td::text').getall()

['90fa61229261140a',
 'Books',
 '£53.74',
 '£53.74',
 '£0.00',
 'In stock (20 available)',
 '0']

# 2. Scrapy: Completado Formularios

Por medio del metodo <b>FormRequest</b> se puede realizar el login en las páginas web.

<img src='./img/scrapy/login.png' width="700" height="300">

Recuerden revisar la documentación completa en la <a href=https://docs.scrapy.org/en/latest/topics/request-response.html>página oficial<a/>

#### Ejemplo

In [5]:
from scrapy.http import FormRequest

In [None]:
# se requieren conocer los parámetros con lo que será necesario loguearse
FormRequest('http://quotes.toscrape.com/login',
                          formdata={'csrf_token': csrf_token,
                                    'username': 'abc',
                                    'password': '123'},
                          callback=self.parse_after_login)

In [42]:
# cargando
response = requests.get( 'https://quotes.toscrape.com/login' )
html = response.content

In [43]:
sel = Selector(text = html)

In [51]:
sel.xpath('//input[@name="csrf_token"]').css('::attr(value)').get()

'LeWFojhcHSYDPCiZslRJpEOMXbKrwaqNGdkvuzTmtgIyVQAnBUxf'

In [None]:
table = sel.css('table.table.table-striped')

# 3. Scrapy: Items

El objetivo principal del scraping es extraer datos estructurados de fuentes no estructuradas, por lo general, páginas web.
Scrapy items, es una especie de colector de datos [link](https://docs.scrapy.org/en/latest/topics/items.html) mucho más ordenado de lo que hemos venido utilizando

# 4. Scrapy: Piperline

Después de que un elemento ha sido raspado por una araña, se envía al proceso de elementos que lo procesa a través de varios componentes que se ejecutan secuencialmente.

# Adicionales

[Scrapy donwload images](https://docs.scrapy.org/en/latest/topics/media-pipeline.html)