# Utworzenie scrapera wydobywającego dane o opiniach na temat hotelów w wybranym mieście. Dane pochodzą z booking.com

In [1]:
from scrapy import Spider
from scrapy.crawler import CrawlerProcess

In [2]:
import logging
import os

!dir   --> dodanie wykrzyknika powoduje wykonanie polecenia powłoki

##### Funkcja próbująca usunąć plik jeśli już istnieje w celu uniknięcia błędów i dopisywania danych

In [3]:
def try_remove (filename):
    try:
        os.remove(filename)
    except OSError:
        pass

#### Właściwa klasa scrapująca:

In [4]:
class BookingComOPinions(Spider):
    name = 'BookingComOpinionsSpider' #nazwa obowiazkowa
    
    custom_settings = {
        'FEED_URI': '%(json_file)s',
        'FEED_FORMAT': 'json', #sposob formatowania rezultatow
        'DOWNLOAD_DELAY': 3, #czas, zbyt maly moze nas zbanowac
        'LOG_LEVEL': logging.DEBUG,
        'EXTENSIONS': {
            'scrapy.extensions.closespider.CloseSpider':1 #klasa pozwala wykorzystac specjalny rodzaj wyjatku ktory powinien 
            #zatrzymac pająka; przydatne gdy dostaniemy bana i nie ma sensu dalej scrapowac
        },
        'CLOSESPIDER_ITEMCOUNT': 10 #system zacznie sie zatrzymywac po pobraniu 10 hotelow
    }
    
    def parse (self, response):
        hotels = response.css('div.sr_item')
        for hotel in hotels:
            hotel_name = hotel.css('span.sr-hotel__name::text').get().strip() #strip obcina biale znaki z tekstu
            hotel_link = hotel.css('.hotel_name_link.url').pop()
            yield response.follow(hotel_link, self.parse_hotel,
                                 meta={'hotel': hotel_name})
        
 #       for link in response.css('a[data-page-next]'): #pop() nie moze tu byc bo na ostatniej stronie brak elementu
 #           #zamiast tego petla ktora jest instrukcja warunkowa jesli element jest to wykonaj, a jak nie to nie wykonaj
 #           yield response.follow(link)
            
    def parse_hotel (self, response):
        hotel_name = response.meta['hotel']
        for reviews_link in response.css('a.show_all_reviews_btn'): #link do wszystkich recenzji
            yield response.follow(reviews_link, self.parse_reviews,
                                 meta={'hotel': hotel_name})
        
    def parse_reviews (self, response):
        hotel_name = response.meta['hotel']
        items = response.css('li.review_item')
        for item in items:
            publish_date = item.css('meta[itemprop="datePublished"]'
                                   '::attr(content)').get('')
            reviewer = item.css('div.review_item_reviewer')
            rev_count = reviewer.css('div.'
                                    'review_item_user_review_count::text').get('')
            ...
            
            review = item.css('div.review_item_review')
            rating = item.css('meta[itemprop="ratingValue"]'
                                   '::attr(content)').get('')
            raw_tags = review.css('li.review_info_tag::text').getall()
            tags= list(filter(None, map(str.strip, raw_tags)))
            ...
            
            
            yield{
                'hotel': hotel_name,
                'publish_date': publish_date,
                'rev_count': rev_count,
                'rating': rating,
                'tags': tags
            }
        
        for next_page in response.css('a#review_next_page_link'):
            yield response.follow(next_page, self.parse_reviews,
                                 meta=response.meta)

In [5]:
ENTRY_URL = 'https://www.booking.com/searchresults.pl.html?city=-273837'

In [6]:
json_file = 'Oslo.json' # przypisanie nowej nazwy do pliku
try_remove(json_file)   # usuwanie pliku jeśli istnieje

##### Przygotowanie procesu przez crawlera, spider jest przygotowany i gotowy do pracy:

In [7]:
process = CrawlerProcess()
process.crawl(BookingComOPinions, start_urls = [ENTRY_URL],
             json_file = json_file)
# start_urls to lista tych adresów z których rozpoczynam przeszukiwanie

2019-04-07 23:04:12 [scrapy.utils.log] INFO: Scrapy 1.5.2 started (bot: scrapybot)
2019-04-07 23:04:12 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.1 (default, Dec 10 2018, 22:54:23) [MSC v.1915 64 bit (AMD64)], pyOpenSSL 18.0.0 (OpenSSL 1.1.1a  20 Nov 2018), cryptography 2.4.2, Platform Windows-10-10.0.17134-SP0
2019-04-07 23:04:12 [scrapy.crawler] INFO: Overridden settings: {'CLOSESPIDER_ITEMCOUNT': 10, 'DOWNLOAD_DELAY': 3, 'FEED_FORMAT': 'json', 'FEED_URI': '%(json_file)s', 'LOG_LEVEL': 10}
2019-04-07 23:04:12 [scrapy.extensions.telnet] INFO: Telnet Password: 5aed84efd66ae67f
2019-04-07 23:04:12 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.closespider.CloseSpider']
2019-04-07 23:04:12 [scrapy.middleware] 

<Deferred at 0x24567687748>

#### Uruchomienie procesu scrapowania:

In [8]:
process.start()

2019-04-07 23:04:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/searchresults.pl.html?city=-501414> (referer: None)
2019-04-07 23:04:16 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.booking.com/hotel/pl/courtyard-gdynia-waterfront.pl.html> from <GET https://www.booking.com/hotel/pl/courtyard-gdynia-waterfront.pl.html?from=searchresults%0A#hotelTmpl>
2019-04-07 23:04:21 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/searchresults.pl.html?city=-501414&dest_id=-501414&dest_type=city&offset=15> (referer: https://www.booking.com/searchresults.pl.html?city=-501414)
2019-04-07 23:04:24 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.booking.com/hotel/pl/quadrille-conference-amp-spa.pl.html> from <GET https://www.booking.com/hotel/pl/quadrille-conference-amp-spa.pl.html?from=searchresults%0A#hotelTmpl>
2019-04-07 23:04:28 [scrapy.downloadermiddlewares.redirect] DEBUG: 

2019-04-07 23:06:19 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/hotel/pl/dom-marynarza.pl.html> (referer: https://www.booking.com/searchresults.pl.html?city=-501414&dest_id=-501414&dest_type=city&offset=15)
2019-04-07 23:06:22 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html> (referer: https://www.booking.com/hotel/pl/courtyard-gdynia-waterfront.pl.html)
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2019-03-21', 'rev_count': '\n5 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Pokój dwuosobowy typu Standard z 1 lub 2 łóżkami i widokiem na miasto', '1 nocleg']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-w

2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2019-01-02', 'rev_count': '\n46 opinii\n', 'rating': '3.3', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój dwuosobowy typu Standard z 1 lub 2 łóżkami i widokiem na miasto', '4 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2019-01-02', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój dwuosobowy typu Premium z 1 lub 2 łóżkami i widokiem na morze', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-wat

2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2018-10-27', 'rev_count': '\n10 opinii\n', 'rating': '8.8', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój dwuosobowy typu Standard z 1 lub 2 łóżkami i widokiem na miasto', '2 noclegi']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2018-10-22', 'rev_count': '\n10 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój dwuosobowy typu Standard z 1 lub 2 łóżkami i widokiem na miasto', '3 noclegi']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdy

2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2018-08-24', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój dwuosobowy typu Business z widokiem na morze', '4 noclegi']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2018-08-21', 'rev_count': '\n1 opinia\n', 'rating': '5', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój dwuosobowy typu Premium z 1 lub 2 łóżkami i widokiem na morze', '2 noclegi']}
2019-04-07 23:06:22 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/courtyard-gdynia-waterfront.pl.html>
{'hotel': 'Courtyard by Marriott Gdynia Waterfront', 'publish_date': '2018-08

2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2019-03-23', 'rev_count': '\n10 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '2 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2019-03-18', 'rev_count': '\n17 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Deluxe', '2 noclegi']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2019-03-11', 'rev_count': '\n1 opinia\n', 'rating': '9

2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-10-29', 'rev_count': '\n10 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '2 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-10-24', 'rev_count': '\n34 opinie\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '3 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-10-23', 'rev_count': '\n14

2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-05-27', 'rev_count': '\n7 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-05-09', 'rev_count': '\n8 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2018-05-04', 'rev_count': '\n18 opi

2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2017-11-20', 'rev_count': '\n26 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy', '2 noclegi']}
2019-04-07 23:06:26 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/quadrille-conference-amp-spa.pl.html>
{'hotel': 'Relais & Châteaux Hotel Quadrille', 'publish_date': '2017-11-19', 'rev_count': '\n2 opinie\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '1 nocleg']}
2019-04-07 23:06:31 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html> (referer: https://www.booking.com/hotel/pl/dom-wczasowy-u-sowy.pl.html)
2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com

2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-05-31', 'rev_count': '\n5 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'Grupa', 'Duży pokój dwuosobowy', '3 noclegi']}
2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-05-29', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'Grupa', 'Duży pokój dwuosobowy', '4 noclegi']}
2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-05-15', 'rev_count': '\n17 opinii\n', 'rating': '6.3', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Duży pokój dwuosobowy', '1 nocleg']}
2019-04-07 23

2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-07-31', 'rev_count': '\n11 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Apartament z prysznicem', '3 noclegi']}
2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-07-26', 'rev_count': '\n5 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Duży pokój dwuosobowy', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-wczasowy-u-sowy.pl.html>
{'hotel': 'Dom Wczasowy u Sowy', 'publish_date': '2017-07-24', 'rev_count': '\n4 opinie\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Duży pokój dwuosobowy', '2

2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2019-03-27', 'rev_count': '\n16 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '2 noclegi']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2019-03-18', 'rev_count': '\n1 opinia\n', 'rating': '8.3', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2019-03-14', 'rev_count': '\n8 opinii\n', 'rating': '5', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Standard z 1 lu

2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-11-09', 'rev_count': '\n36 opinii\n', 'rating': '10', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-11-09', 'rev_count': '\n21 opinii\n', 'rating': '8.8', 'tags': ['Wyjazd służbowy', 'Grupa', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-11-08', 'rev_count': '\n9 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny',

2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-07-30', 'rev_count': '\n6 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-07-25', 'rev_count': '\n8 opinii\n', 'rating': '4.6', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy typu Standard z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:38 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/blekitny-zagiel.pl.html>
{'hotel': 'Błękitny Żagiel', 'publish_date': '2018-07-19', 'rev_count': '\n1 opinia\n', 'rating': '7.5', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój Dwuosobowy typu

2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2019-03-10', 'rev_count': '\n34 opinie\n', 'rating': '3.8', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy z łazienką', '1 nocleg']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2019-03-08', 'rev_count': '\n32 opinie\n', 'rating': '8.8', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2019-02-26', 'rev_count': '\n1 opinia\n', 'rating': '5.4', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Po

2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-09-16', 'rev_count': '\n6 opinii\n', 'rating': '10', 'tags': ['Podróżujący w pojedynkę', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-09-16', 'rev_count': '\n1 opinia\n', 'rating': '8.8', 'tags': ['Wyjazd służbowy', 'Grupa', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-09-14', 'rev_count': '\n7 opinii\n', 'rating': '8.3', 'tags': ['Wyjazd służbowy', 'Grupa', 'Pokój Dwuosobowy/Pokó

2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-05-19', 'rev_count': '\n23 opinie\n', 'rating': '8.3', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-05-12', 'rev_count': '\n8 opinii\n', 'rating': '7.1', 'tags': ['Wyjazd służbowy', 'Podróżujący ze znajomymi', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2018-05-08', 'rev_count': '\n5 opinii\n', 'rating': '7.9', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobo

2019-04-07 23:06:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/morski-gdynia.pl.html>
{'hotel': 'Hotel Morski', 'publish_date': '2017-10-12', 'rev_count': '\n169 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój Dwuosobowy/Pokój typu Twin', '1 nocleg']}
2019-04-07 23:06:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/reviews/pl/hotel/apartament-swietojanska-gdynia1.pl.html> (referer: https://www.booking.com/hotel/pl/apartament-swietojanska-gdynia1.pl.html)
2019-04-07 23:06:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/apartament-swietojanska-gdynia1.pl.html>
{'hotel': 'Apartament Świętojańska', 'publish_date': '2018-09-06', 'rev_count': '\n18 opinii\n', 'rating': '7.1', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Apartament', '4 noclegi']}
2019-04-07 23:06:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/review

2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2019-03-10', 'rev_count': '\n4 opinie\n', 'rating': '6.7', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '2 noclegi']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2019-02-26', 'rev_count': '\n1 opinia\n', 'rating': '6.3', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy typu Economy', '2 noclegi']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2019-02-25', 'rev_count': '\n1 opinia\n', 'rating': '3.8', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy typu Economy', '1 nocleg', 'Wysłana przez urz

2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-09-15', 'rev_count': '\n5 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy typu Economy', '1 nocleg']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-09-03', 'rev_count': '\n1 opinia\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy typu Economy', '1 nocleg']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-08-27', 'rev_count': '\n2 opinie\n', 'rating': '7.5', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '4 noclegi', 'Wysłana przez urz

2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-04-22', 'rev_count': '\n6 opinii\n', 'rating': '2.5', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy', '2 noclegi']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-04-17', 'rev_count': '\n33 opinie\n', 'rating': '9.6', 'tags': ['W parze', 'Pokój Dwuosobowy', '7 noclegów']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/grand-tulipan.pl.html>
{'hotel': 'Grand Tulipan', 'publish_date': '2018-04-12', 'rev_count': '\n4 opinie\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy', '3 noclegi']}
2019-04-07 23:06:50 [scrapy.core.scraper] DEBUG: Scraped from 

2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2019-03-20', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2019-03-18', 'rev_count': '\n55 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2019-03-07', 'rev_count': '\n36 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd służbowy', 'Podróżujący w

2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-11-20', 'rev_count': '\n11 opinii\n', 'rating': '7.9', 'tags': ['Wyjazd wakacyjny', 'Grupa', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '2 noclegi']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-11-16', 'rev_count': '\n2 opinie\n', 'rating': '10', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-11-12', 'rev_count': '\n1 opinia\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy z 1

2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-08-04', 'rev_count': '\n42 opinie\n', 'rating': '9.6', 'tags': ['Grupa', 'Pokój Dwuosobowy z 1 lub 2 łóżkami i widokiem na morze', '4 noclegi']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-08-01', 'rev_count': '\n11 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '1 nocleg']}
2019-04-07 23:06:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/rozany-gaj-gdynia.pl.html>
{'hotel': 'Hotel Różany Gaj', 'publish_date': '2018-07-30', 'rev_count': '\n5 opinii\n', 'rating': '9.5', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy z 1 lub 2 łóżkami', '2 noclegi']}
20

2019-04-07 23:06:57 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.booking.com/hotel/pl/vanilly-apartament-centrum-gdynia.pl.html> from <GET https://www.booking.com/hotel/pl/vanilly-apartament-centrum-gdynia.pl.html?from=searchresults%0A#hotelTmpl>
2019-04-07 23:07:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html> (referer: https://www.booking.com/hotel/pl/gdynia_nadmorski.pl.html)
2019-04-07 23:07:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2019-03-30', 'rev_count': '\n17 opinii\n', 'rating': '10', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': '

2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2019-01-09', 'rev_count': '\n2 opinie\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy', '2 noclegi']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2019-01-04', 'rev_count': '\n60 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy typu Business', '2 noclegi']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2019-01-03', 'rev_count': '\n1 opinia\n', 'rating': '7.5', 'tags': ['Podróżujący w pojedynkę', 'Pokój jednoosobowy', '2 noclegi']}
2019-04-07 23:07:02 [scrapy.cor

2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-09-10', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'W parze', '2 pokoje', '2 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-09-08', 'rev_count': '\n1 opinia\n', 'rating': '8.3', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy', '6 noclegów', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-09-07', 'rev_count': '\n13 opinii\n', 'rating': '5.8', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuos

2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-06-09', 'rev_count': '\n19 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy', '1 nocleg']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-06-06', 'rev_count': '\n7 opinii\n', 'rating': '7.9', 'tags': ['Rodzina z małymi dziećmi', 'Pokój Dwuosobowy', '3 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia_nadmorski.pl.html>
{'hotel': 'Hotel Nadmorski', 'publish_date': '2018-05-31', 'rev_count': '\n12 opinii\n', 'rating': '9.2', 'tags': ['Wyjazd służbowy', 'Grupa', 'Pokój Dwuosobowy typu Business', '1 nocleg']}
2

2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-03-18', 'rev_count': '\n2 opinie\n', 'rating': '9.2', 'tags': ['W parze', 'Pokój Dwuosobowy typu Deluxe z balkonem', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-03-14', 'rev_count': '\n1 opinia\n', 'rating': '7.9', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Standard', '2 noclegi']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-03-13', 'rev_count': '\n3 opinie\n', 'rating': '10', 'tags': ['Ze zwierzęciem', 'Wyjazd służbowy', 'Podróżujący w

2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-02-11', 'rev_count': '\n1 opinia\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Deluxe (2 osoby dorosłe + 1 dziecko)', '1 nocleg', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-02-03', 'rev_count': '\n24 opinie\n', 'rating': '3.8', 'tags': ['Wyjazd służbowy', 'W parze', 'Pokój Dwuosobowy typu Standard', '1 nocleg']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2019-02-01', 'rev_count': '\n8 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacy

2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2018-12-11', 'rev_count': '\n2 opinie\n', 'rating': '9.6', 'tags': ['W parze', 'Pokój Dwuosobowy typu Deluxe z balkonem', '2 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2018-12-04', 'rev_count': '\n1 opinia\n', 'rating': '9.2', 'tags': ['Wyjazd wakacyjny', 'Grupa', 'Pokój Dwuosobowy typu Deluxe (2 osoby dorosłe + 1 dziecko)', '1 nocleg']}
2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2018-12-02', 'rev_count': '\n6 opinii\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'Podr

2019-04-07 23:07:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/gdynia-centrum-gdynia1234.pl.html>
{'hotel': 'Gdynia Centrum', 'publish_date': '2018-09-03', 'rev_count': '\n1 opinia\n', 'rating': '5', 'tags': ['Wyjazd wakacyjny', 'Podróżujący w pojedynkę', 'Pokój Dwuosobowy typu Standard', '2 noclegi', 'Wysłana przez urządzenie mobilne']}
2019-04-07 23:07:12 [scrapy.extensions.logstats] INFO: Crawled 31 pages (at 14 pages/min), scraped 696 items (at 696 items/min)
2019-04-07 23:07:16 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.booking.com/reviews/pl/hotel/apartment-zaglami.pl.html> (referer: https://www.booking.com/hotel/pl/apartment-zaglami.pl.html)
2019-04-07 23:07:16 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/apartment-zaglami.pl.html>
{'hotel': 'Sea Towers Apartament pod Żaglami', 'publish_date': '2017-09-22', 'rev_count': '\n8 opinii\n', 'rating': '7.1', 'tags': ['Ze zwierzęciem

2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2019-03-05', 'rev_count': '\n2 opinie\n', 'rating': '7.5', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój Dwuosobowy typu Deluxe', '2 noclegi']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2019-03-04', 'rev_count': '\n4 opinie\n', 'rating': '6.3', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy', '2 noclegi']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2019-02-25', 'rev_count': '\n51 opinii\n', 'rating': '9.6', 'tags': ['Wyjazd służbowy', 'Podróżujący w pojedynkę', 'Pokój jednoosobowy typu Deluxe', '2 noclegi']}

2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-11-18', 'rev_count': '\n4 opinie\n', 'rating': '10', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój z 2 łóżkami pojedynczymi', '1 nocleg']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-11-16', 'rev_count': '\n2 opinie\n', 'rating': '7.1', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój trzyosobowy', '1 nocleg']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-11-12', 'rev_count': '\n33 opinie\n', 'rating': '7.1', 'tags': ['Wyjazd wakacyjny', 'Grupa', 'Pokój Dwuosobowy typu Deluxe', '2 noclegi']}
2019-04-07 23:07:23 [scrapy.core.sc

2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-08-11', 'rev_count': '\n15 opinii\n', 'rating': '7.5', 'tags': ['Wyjazd wakacyjny', 'W parze', 'Pokój z 2 łóżkami pojedynczymi', '1 nocleg']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-08-09', 'rev_count': '\n1 opinia\n', 'rating': '7.9', 'tags': ['Rodzina z małymi dziećmi', 'Pokój trzyosobowy', '5 noclegów']}
2019-04-07 23:07:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.booking.com/reviews/pl/hotel/dom-marynarza.pl.html>
{'hotel': 'Hotel Dom Marynarza', 'publish_date': '2018-08-08', 'rev_count': '\n8 opinii\n', 'rating': '6.7', 'tags': ['Wyjazd wakacyjny', 'Rodzina z małymi dziećmi', 'Pokój Dwuosobowy', '3 noclegi']}
2019-04-07 23:07:23 [scrapy.

##### get() , getall() redukuje selektory od stringu

##### .pop(0)  zdejmuje pierwszy element z listy

# Po wyscrapowaniu danych ze strony można przystąpić do przygotowania ich do analizy:

In [9]:
logging.getLogger().setLevel(logging.INFO) 
# zmiana levelu wyświetlania info

In [10]:
import pandas as pd

In [11]:
df = pd.read_json(json_file) 
# df bo dataframe

##### wyrzuamy napisy zawierające litery opiniae i spacje

In [12]:
df['rev_count'] = df['rev_count'].str.strip(' opinea') 
# df['rev_count'].str.strip() nie modyfikuje to dataframe, chyba że przypiszemy do tego samego obiektu                                                       

##### Konwersja do intów:

In [13]:
#df['rev_count'] = df['rev_count'].astype(int) 

ValueError: invalid literal for int() with base 10: '\n5 opinii\n'

##### Prygotowanie danych do sprawdzenia jakie tagi wpływają na rating:

In [None]:
subset = df[['rating', 'tags']] 
subdf = [subset]

In [None]:
dum = subdf['tags'].map(lambda tags: '|'.join(tags)).str.get_dummies() 
# łączymy tagi dla danej opinii i dzielimy je separatorem  (w get_dummies() domyślny separator to |)

In [None]:
indicators = pd.concat([subdf['rating'], dum], axis = 1) 
# axis mówi wzdłóż której osi ma nastąpić złączenie

In [None]:
melted = pd.melt(indicators, id_vars=['rating'])
# id_vars zmienne które zostawiamy w spokoju

##### Selekcjonowanie według kryterium:

In [None]:
positive = melted['value'] == 1
# wydobywamy wyrażenia z samymi 1 (a raczej odpowiedź na pytanie czy występuje w danym indeksie)
# taka lista może posłużyćza selektor danych w dataframe

In [None]:
selected = melted[positive]

In [None]:
aggregated = selected.groupby(['variable'])['rating'].agg(['mean','count'])
# groupby() wymaga podania listy tych kolumn wedłóg których ma nastąpić grupowanie
# fragment z rating to wycięcie interesującej kolumny
# agg() metoda agregacji przyjmująca jako parametr sposób agregowania, np. funkcja/słownik

##### na koniec będzie sortowanie w celu zwizualizowanie jaki tag wpływa najbardziej na rating:

In [None]:
aggregated.sort_values(by = ['count']).tali(10) 
# sortowanie rosnąco według wartości count (10 ostatnich pozycji)

# KONIEC

class BookingOpinions(Spider):
    name = 'BookingComOpinionsSpider' # nazwa jest obowiązkowa
            
    custom_settings = { 
        'FEED_URI': '%(json_file)s',  # zapisanie rezultatów do pliku %()s wrzua do pola argument który jest stringiem s, wykrywa jedyny string pobrany jako argument
        'FEED_FORMAT': 'json',        # wybór sposobu formatowania rezultatów
        'DOWNLOAD_DELAY': 3,          # trzeba uważać żeby nie dać za małego czasu bo można zostać zbanowanym
        'LOG_LEVEL': logging.DEBUG,   # poziom wartości informacji jakie będą wyświetlane (debug, warn error itp)
        'EXTENSIONS': {
            'scrapy.extensions.closespider.CloseSpider': 1 # klasa która pozwala wykorzystać specjalny rodzaj wyjątku który powinien zatrzymać pająka
                                                           # CloseSpider przydaje się np. gdy dostaliśmy bana od strony więc nie ma sensu dalej szuka           
        },
        'CLOSESPIDER_ITEMCOUNT': 10                                   # system zatrzyma się po porównaniu 10 hoteli
    }
    
    def parse(self, response):                                        # funkcja która będzie analizowała już wybraną stronę
        hotels = response.css('div.sr_item')                          # lista bloków w których są opisane hotele
        for hotel in hotels:
            hotel_name = hotel.css('span.sr-hotel__name::text').get().strip() # hotel jest selektorem samym w sobie więc można na nim wykonać metodę .css()                          # obcinanie białych znaków z tekstu
            hotel_link = hotel.css('.hotel_name_link.url').pop()              # . są do klas, [] do reszty ????
            yield response.follow(hotel_link, self.parse_hotel,
                                 meta={'hotel': hotel_name})                  # zakładamy historię meta-informacji która będzie działać w głąb
            
        for link in response.css('a[data-page-next]'): 
        # pętla która jest instrukcją warunkową (jeśli jest element to wykona, jak nie ma to nie wykonuje)
            yield response.follow(link) 

    def parse_hotel (self, response):  
        hotel_name = response.meta['hotel']                           # wykorzystanie wcześniej utworzonych meta danych do wydobycia nazwy
        for reviews_link in response.css('a.show_all_reviews_btn'):   # parsowanie ścieżki do opinii o hotelu
            yield response.follow(reviews_link, self.parse_reviews,   # przekazanie nazwy funkcji bez wywołania
                                 meta = {'hotel': hotel_name})        # forwardowanie metadanych (same się nie dziedziczą)
    def parse_reviews (self, response): 
        hotel_name = response.meta['hotel']
        items = response.css('li.reviews_item')
        for item in items:
            publish_date = item.css('meta[itemprop= "datePublished"]'
                                    '::attr(content)').get('')        # funkcja get nie wydobędzie niczego (zwraca None) chyba że w nawiasach od get wstawi się wartość domyślnątu '',  gdy nie ma szukanego selektora
            reviewer = item.css('div.review_item_reviewer')
            rev_count = review.css('div.review_item_user_review_count::text').get('')
            ...
            review = item.css('div.review_item_review')
            rating = review.css('meta[itemprop="ratingValue"]::attr(content)').get('')
            
            raw_tags = reviews.css('li.review_info_tag::text').getall()
            tags = list(filter(None, map(str.strip, raw_tags)))       
            # pierwszym parametrem filter może być None (wyłapuje puste stringi), a drugi to lista ?? lub tekst?? filtrowana/y
            ...
            yield {
                'hotel': hotel_name,
                'publish_date': publish_date,
                'rev_count': rev_count,
                'rating': rating,
                'tags': tags
            }                                         
        
        for next_page in response.css('a#review_next_page_link'):      # '#' bo szukamy po id   
            yield response.follow(next_page, self.parse_reviews,
                                 meta=response.meta)