## Webscrapping NIVEL 2

### 2.4.- Extracción vertical y horizontal en dos niveles diferentes de profundidad en TripAdvisor con Scrapy

**OBJETIVO:**
    - Extraer todas las opiniones de los usuarios que dejan reviews en hoteles de Guayaquil en tripadvisor
    - Aprender a realizar extracciones de dos niveles de verticalidad y dos niveles de horizontalidad
    - Aprender a reducir el espectro de busqueda para filtrar URLs en las reglas
    - Evitar obtener URLs repetidas

In [1]:
import numpy as np
import pandas as pd
from scrapy.item import Field
from scrapy.item import Item
from scrapy.spiders import CrawlSpider,Rule
from scrapy.selector import Selector
from scrapy.loader.processors import MapCompose
from scrapy.linkextractors import LinkExtractor
from scrapy.loader import ItemLoader

In [2]:
class Opinion(Item):
    titulo = Field()
    calificacion = Field()
    contenido = Field()
    autor = Field()
    
class TripAdvisor(CrawlSpider):
    name = 'OpinionesTripAdvisor'
    custom_settings = {
        'USER AGENT':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/80.0.3987.149 Safari/537.36',
        'CLOSESPIDER_PAGECOUNT':30
    }
    
    allowed_domains = ['tripadvisor.com']
    start_urls = ['https://www.tripadvisor.es/Hotels-g187514-Madrid-Hotels.html']
    
    download_delay = 1
    
    rules = (
     Rule( # https://www.tripadvisor.com/Hotels-g303845-Guayaquil_Guayas_Province-Hotels.html
       LinkExtractor(  # PAGINACION DE HOTELES (HORIZONTALIDAD DE PRIMER NIVEL)
         allow=r'-oa\d+-' 
       ), follow=True), # No tiene callback porque aun no voy a extraer datos de aqui. Solamente voy a seguir otras URLs.
     Rule( 
       LinkExtractor( # DETALLE DE HOTELES (VERTICALIDAD DE PRIMER NIVEL)
         allow=r'/Hotel_Review-', 
         restrict_xpaths=['//div[@id="taplc_hsx_hotel_list_lite_dusty_hotels_combined_sponsored_0"]'] 
           # Evita obtener URLs repetidas reduciendo el espectro de busqueda de las URLs a solamente un contenedor especifico dentro de un XPATH
       ), follow=True), # No tiene callback porque aun no voy a extraer datos de aqui. Solamente voy a seguir otras URLs.
     Rule( 
       LinkExtractor( # HORIZONTALIDAD DE OPINIONES DE UN HOTEL (HORIZONTALIDAD DE SEGUNDO NIVEL)
         allow=r'-or\d+-'
       ), follow=True), # No tiene callback porque aun no voy a extraer datos de aqui. Solamente voy a seguir otras URLs.
     Rule(
       LinkExtractor( # DETALLE DE PERFIL DE USUARIO (VERTICALIDAD DE SEGUNDO NIVEL)
         allow=r'/Profile/',
         restrict_xpaths=['//div[@data-test-target="reviews-tab"]'] # Evita obtener URLs repetidas reduciendo el espectro de busqueda de las URLs a solamente un contenedor especifico dentro de un XPATH
       ), follow=True, callback='parse_opinion'), # Aqui si voy a utilizar el callback, debido a que en estas paginas es donde yo quiero extraer datos
    )
    
    
    def parse_opinion(self, response):
        sel = Selector(response)
        opiniones = sel.xpath('//div[@id="content"]/div/div') 
        autor = sel.xpath('//h1/span/text()').get()
        for opinion in opiniones:
            item = ItemLoader(Opinion(), opinion)
            item.add_value('autor', autor)
            item.add_xpath('titulo', './/div[@class="social-section-review-ReviewSection__title--dTu08 social-section-review-ReviewSection__linked--kI3zg"]/text()')
            item.add_xpath('hotel', './/div[@class="social-poi-POIObject__poi_name--1QohT ui_link"]/text()')
            item.add_xpath('contenido', './/q/text()', 
                           MapCompose(lambda i: i.replace('\n', '').replace('\r', '')))
            item.add_xpath('calificacion', './/div[contains(@class, "social-section-review")]//span[contains(@class, "ui_bubble_rating")]/@class', 
                               MapCompose(lambda i: i.split('_')[-1]))
            yield item.load_item()

In [3]:
from scrapy.spiders import Spider
from scrapy.crawler import CrawlerProcess

if __name__ == "__main__": # Código que se va a ejecutar al dar clic en RUN
        process = CrawlerProcess()
        process.crawl(TripAdvisor) # Nombre de la clase de mi Spider
        process.start()

2020-12-27 19:54:36 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2020-12-27 19:54:36 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.7.6 (default, Jan  8 2020, 20:23:39) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.18362-SP0
2020-12-27 19:54:36 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2020-12-27 19:54:36 [scrapy.crawler] INFO: Overridden settings:
{'CLOSESPIDER_PAGECOUNT': 30}
2020-12-27 19:54:36 [scrapy.extensions.telnet] INFO: Telnet Password: 81aab282c6262643
2020-12-27 19:54:36 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.closespider.CloseSpider',
 'scrapy.extensions.logstats.LogStats']
2020-12-27 19:54:36 [scrapy.middleware] INFO: Enabled downloader middlew