## Webscrapping NIVEL 2 - Extracción Vertical + Horizontal

In [1]:
import numpy as np
import pandas as pd
from scrapy.item import Field
from scrapy.item import Item
from scrapy.spiders import CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.loader.processors import MapCompose
from scrapy.linkextractors import LinkExtractor
from scrapy.loader import ItemLoader

### 2.2.- Extracción Vertical + Horizontal con Scrapy en MercadoLibre

In [2]:
class Articulo(Item):
    titulo = Field()
    precio = Field()
    descripcion = Field()
    
class MercadoLibreCrawler(CrawlSpider):
    name = 'mercadoLibre'

    custom_settings = {
      'USER_AGENT': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 Safari/537.36',
      'CLOSESPIDER_PAGECOUNT': 20 # Numero maximo de paginas en las cuales voy a descargar items. Scrapy se cierra cuando alcanza este numero
    }

    # Utilizamos 2 dominios permitidos, ya que los articulos utilizan un dominio diferente
    allowed_domains = ['articulo.mercadolibre.com.ec', 'listado.mercadolibre.com.ec']

    start_urls = ['https://listado.mercadolibre.com.ec/animales-mascotas/perros/']

    download_delay = 1

    # Tupla de reglas
    rules = (
        Rule( # REGLA #1 => HORIZONTALIDAD POR PAGINACION
            LinkExtractor(
                allow=r'/_Desde_\d+' # Patron en donde se utiliza "\d+", expresion que puede tomar el valor de cualquier combinacion de numeros
            ), follow=True),
        Rule( # REGLA #2 => VERTICALIDAD AL DETALLE DE LOS PRODUCTOS
            LinkExtractor(
                allow=r'/MEC-' 
            ), follow=True, callback='parse_items'), # Al entrar al detalle de los productos, se llama al callback con la respuesta al requerimiento
    )
    
    def limpiarTexto(self,texto):
        nuevotexto = texto.replace('\n',' ').replace('\r',' ').replace('\t',' ').strip()
        return nuevotexto
    
    def parse_items(self,response):
        item = ItemLoader(Articulo(),response)
        item.add_xpath('titulo','//h1/text()',MapCompose(self.limpiarTexto))
        item.add_xpath('descripcion','//div[@class="ui-pdp-description"]/p/text()',MapCompose(self.limpiarTexto))
        item.add_xpath('precio','//span[@class="price-tag-fraction"]/text()')
        
        yield item.load_item()
    

In [3]:
from scrapy.spiders import Spider
from scrapy.crawler import CrawlerProcess

if __name__ == "__main__": # Código que se va a ejecutar al dar clic en RUN
        process = CrawlerProcess()
        process.crawl(MercadoLibreCrawler) # Nombre de la clase de mi Spider
        process.start()

2020-12-25 17:31:18 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2020-12-25 17:31:18 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.6 (default, Jan  8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2020-12-25 17:31:18 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-12-25 17:31:18 [scrapy.crawler] INFO: Overridden settings:
{'CLOSESPIDER_PAGECOUNT': 20,
 'USER_AGENT': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, '
               'like Gecko) Ubuntu Chromium/71.0.3578.80 Chrome/71.0.3578.80 '
               'Safari/537.36'}
2020-12-25 17:31:18 [scrapy.extensions.telnet] INFO: Telnet Password: c666818f18cf4104
2020-12-25 17:31:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.exte

2020-12-25 17:31:24 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://articulo.mercadolibre.com.ec/MEC-428364186-peine-electrico-eliminador-de-pulgas-y-garrapatas-mascotas-_JM#position=42&type=item&tracking_id=d6e27108-f20d-4060-8de6-c3b725de6911> (referer: https://listado.mercadolibre.com.ec/animales-mascotas/perros/)
2020-12-25 17:31:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://articulo.mercadolibre.com.ec/MEC-428364186-peine-electrico-eliminador-de-pulgas-y-garrapatas-mascotas-_JM>
{'descripcion': ['SOMOS DISTRIBUIDORA VASQUEZ, CONTAMOS CON LOCALES EN '
                 'GUAYAQUIL, QUITO Y CUENCA',
                 '-----------------------------------------------------------------------------------------',
                 'GUAYAQUIL: URDESA CENTRAL AV. LAS AGUAS',
                 '-----------------------------------------------------------------------------------------',
                 'QUITO: NORTE SECTOR RUMIÑAHUI AV. REAL AUDIENCIA',
                 '------

2020-12-25 17:31:29 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://listado.mercadolibre.com.ec/animales-mascotas/perros/_Desde_151> (referer: https://listado.mercadolibre.com.ec/animales-mascotas/perros/)
2020-12-25 17:31:30 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://articulo.mercadolibre.com.ec/MEC-428189868-kit-de-rasuradora-para-mascotas-cortaunas-accesorios-_JM#position=49&type=item&tracking_id=d6e27108-f20d-4060-8de6-c3b725de6911> (referer: https://listado.mercadolibre.com.ec/animales-mascotas/perros/)
2020-12-25 17:31:30 [scrapy.core.scraper] DEBUG: Scraped from <200 https://articulo.mercadolibre.com.ec/MEC-428189868-kit-de-rasuradora-para-mascotas-cortaunas-accesorios-_JM>
{'descripcion': ['SOMOS DISTRIBUIDORA VASQUEZ, CONTAMOS CON LOCALES EN '
                 'GUAYAQUIL, QUITO Y CUENCA, PARA QUE REALICE SU COMPRA DE '
                 'FORMA SEGURA Y CON GARANTIA',
                 '---------------------------------------------------------------------------

2020-12-25 17:31:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://articulo.mercadolibre.com.ec/MEC-428312878-227kg-dog-chow-cachorro-puppy-raza-mediana-grande-_JM#position=49&type=item&tracking_id=4babe944-73b6-46ea-95d5-964a8ee8e9c5> (referer: https://listado.mercadolibre.com.ec/animales-mascotas/perros/_Desde_51)
2020-12-25 17:31:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://articulo.mercadolibre.com.ec/MEC-428312878-227kg-dog-chow-cachorro-puppy-raza-mediana-grande-_JM>
{'descripcion': ['Purina® Dog Chow Cachorros Razas Medianas y Grandes',
                 'Purina Dog Chow Cachorros Razas Medianas/Grandes, '
                 'proporciona una mejor nutrición y nivel óptimo de energía '
                 'para mantener una curva de crecimiento adecuada, promoviendo '
                 'el sano desarrollo de las articulaciones y una óptima salud '
                 'en cachorros de raza mediana o grande.',
                 'El siste ma F.O.R. ayuda a formar:',
      

2020-12-25 17:31:39 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://articulo.mercadolibre.com.ec/MEC-428589336-royal-canin-medium-junior-15kg-entrega-a-domicilio-quito-_JM#position=50&type=item&tracking_id=ee5b9e50-8146-4600-a00d-3b7f399c61f7> (referer: https://listado.mercadolibre.com.ec/animales-mascotas/perros/_Desde_351)
2020-12-25 17:31:39 [scrapy.core.scraper] DEBUG: Scraped from <200 https://articulo.mercadolibre.com.ec/MEC-428589336-royal-canin-medium-junior-15kg-entrega-a-domicilio-quito-_JM>
{'descripcion': ['El mejor alimento para su mascota',
                 'Gran promoción',
                 'Se hace entrega a domicilio en Quito y sus valles',
                 'Provincia envíos por coop de transporte'],
 'precio': ['112'],
 'titulo': ['Royal Canin Medium Junior 15kg Entrega A Domicilio Quito']}
2020-12-25 17:31:40 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://articulo.mercadolibre.com.ec/MEC-428285821-cachorros-golden-retriever-_JM#position=49&type=item&tr

2020-12-25 17:31:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://articulo.mercadolibre.com.ec/MEC-428363859-cortadora-para-mascotas-wahl-maquina-para-perro-_JM>
{'descripcion': ['-Cuchillas afiladas de precisión de acero de alto carbono.',
                 '-Poderoso motor patentado de V5000.',
                 '-Cabezal de corte de precisión, de acero templado.',
                 '-Silenciosa, ideal para trabajar con animales sensibles al '
                 'ruido.',
                 '-Recomendada para la cara, las patas y las terminaciones en '
                 'animales de pelo corto.',
                 'INCLUYE:',
                 '-4 peines regulables: 3mm, 6mm, 10mm, 13 mm',
                 '-Peine',
                 '-Tijera',
                 '-Aceite lubricante',
                 '-Cepillo de limpieza',
                 '-Protector de cuchillas',
                 '-Instrucciones de uso super detalladas.',
                 '-Estuche.',
                 '*Antes de dar