# Crawling [bezdim.org](https://bezdim.org/signali/reports)

### Import Scrapy and install if missing

In [1]:
try:
    import scrapy
except:
    import sys
    !conda install --yes --prefix {sys.prefix} -c conda-forge scrapy
    import scrapy
from scrapy.crawler import CrawlerProcess

#### Other imports

In [2]:
from time import time
from os.path import join
import pandas as pd

timestamp = int(time())

Currently not using the custom pipeline

In [3]:
import json
import codecs


class JsonWriterPipeline:

    def open_spider(self, spider):
        self.file = codecs.open('reportresult.jl', 'w')

    def close_spider(self, spider):
        self.file.close()

    def process_item(self, item, spider):
        line = json.dumps(dict(item)) + "\n"
        self.file.write(line)
        return item

### Helper functions

In [4]:
class ParseUtils:

    @staticmethod
    def parse_description(raw_description):
        striped = [d.strip() for d in raw_description if d.strip()]
        return " ".join(striped)
    
    @staticmethod
    def parse_time_location(when_where_element):
        selectors = when_where_element.xpath('.//span')
        if len(selectors) < 1:
            return ('N/A Data', 'N/A Location')
        
        date = selectors[0].css('span.r_date::text').extract_first(default='N/A Date')
        location = 'N/A Location'
        if len(selectors) > 1:
            location = selectors[1].css('span.r_location::text').extract_first(default='N/A Location')
    
        return date, location
    
    @staticmethod
    def parse_categories(categories_element):
        '''
        Can have multiple categories
        https://bezdim.org/signali/reports/view/10099
        '''
        selector = categories_element.xpath('.//p//a')
        categories = selector.css('a::text').extract()
        
        return [cat.strip() for cat in categories]
    

In [5]:
import logging
from scrapy import Spider
from scrapy.http import Request

class BezDimSpider(Spider):
    name = "bezdim"
    max_page_count = 5
    start_urls = [
        'https://bezdim.org/signali/reports'
    ]
    custom_settings = {
        'LOG_LEVEL': logging.WARNING,
#         'ITEM_PIPELINES': {'__main__.JsonWriterPipeline': 1},
        'FEED_FORMAT':'json',
        'FEED_URI': join('reports_data','report-result-{timestamp}.json'.format(timestamp=timestamp))
    }
    
    def start_requests(self):
        for i in range(1, self.max_page_count):
            yield Request('{url}/fetch_reports?page={page_id}'.
                          format(url=self.start_urls[0], page_id=i),
                    callback=self.process_page)
    
    def process_page(self, response):
        for link in response.css('a.r_title'):
            url = link.xpath('@href').extract_first()
            yield Request(url, callback=self.parse)
    
    def parse(self, report):
        title = report.css('h1.report-title::text').extract_first(default='').strip()
        
        raw_desc = report.css('div.report-description-text::text').extract()
        description = ParseUtils.parse_description(raw_desc)
        
        date, location = ParseUtils.parse_time_location(report.css('p.report-when-where'))
        
        categories = ParseUtils.parse_categories(report.css('div.report-category-list'))
        

        yield {
            'title': title,
            'description': description,
            'date': date,
            'location': location,
            'categories': categories
        }
        
#             description = report.css('div.r_description::text').extract_first().strip()
#             address = report.css('p.bd_location::text').extract_first().strip()
            
            

In [6]:
process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

process.crawl(BezDimSpider)
process.start()

2019-01-25 23:12:39 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: scrapybot)
2019-01-25 23:12:39 [scrapy.utils.log] INFO: Versions: lxml 4.2.5.0, libxml2 2.9.8, cssselect 1.0.3, parsel 1.5.1, w3lib 1.20.0, Twisted 18.9.0, Python 3.7.1 (default, Dec 14 2018, 19:28:38) - [GCC 7.3.0], pyOpenSSL 18.0.0 (OpenSSL 1.1.1a  20 Nov 2018), cryptography 2.4.2, Platform Linux-4.19.14-1-MANJARO-x86_64-with-arch-Manjaro-Linux
2019-01-25 23:12:39 [scrapy.crawler] INFO: Overridden settings: {'FEED_FORMAT': 'json', 'FEED_URI': 'reports_data/report-result-1548450759.json', 'LOG_LEVEL': 30, 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}


In [7]:
import pandas as pd

df = pd.read_json(
    join('reports_data','report-result-{timestamp}.json'.format(timestamp=timestamp)))

In [8]:
df

Unnamed: 0,categories,date,description,location,title
0,[заведение за хранене и развлечение],2019-01-19 09:14:00,В заведението се пуши. Раздават се делвички с ...,"град Враца, ул. ""Вестителя"" № 22","Тютюнопушене в ресторант ""Вестител"", град Враца"
1,[заведение за хранене и развлечение],2018-12-31 11:16:00,Пуши се в механата !!! * Сигналът беше изпрате...,"град Велико Търново, ул. Васил Левски 15","Пушене в механа “Боляри”, град Велико Търново"
2,[заведение за хранене и развлечение],2019-01-01 05:33:00,В заведение My Space в град Кърджали почти на ...,"град Кърджали, ул. Незнаен войн, до общината","Тютюнопушене в заведение My Space, град Кърджали"
3,[заведение за хранене и развлечение],2019-01-01 08:41:00,"В заведението се пуши постоянно и навсякъде, н...","град Варна, бул. “Христо Ботев” 18","Пушене в ""Gossip bar MAX"", град Варна"
4,[заведение за хранене и развлечение],2019-01-01 11:17:00,В едно от знаковите заведения в София - рестор...,"град София, ул. Иван Вазов 8","Пушене в ресторант ""Синият лъв"", град София"
5,[заведение за хранене и развлечение],2019-01-03 09:33:00,име обект: sense hotel rooftop вид обект: бар ...,"град София, бул. ""Цар Освободител"" № 16","Пушене в бар ""Sense hotel rooftop"", град София..."
6,[заведение за хранене и развлечение],2019-01-05 02:32:00,Присъствах на масово тютюнопушене в закритото ...,"град Казанлък, ж.к Изток 71В","Пушене в заведение за хранене Cherry land, гра..."
7,[заведение за хранене и развлечение],2019-01-06 01:32:00,"Пиши се безконтролно в заведение ""Верандата"", ...","град Варна, ул Крайбрежна алея, до плаж Рапонги","Пушене в заведение ""Верандата"", град Варна"
8,[заведение за хранене и развлечение],2019-01-05 07:30:00,Пиша ви по повод значително нарушение на запов...,"град София, ул. Георги Русев 2",Тютюнопушене в заведение за обществено хранене...
9,[заведение за хранене и развлечение],2019-01-06 08:54:00,"Заведението се казва ""При Румен"", град Пловдив...","град Пловдив, ж.к. Тракия, до блок 214","Заведение за хранене, няма отделение за непуша..."


In [9]:
df_sample = pd.read_json(join('reports_data', 'sample-report.json'))

In [10]:
df_sample

Unnamed: 0,categories,date,description,location,title
0,[заведение за хранене и развлечение],10:30 Dec 1 2018,"име обект: МОЛ ВАРНА вид обект: заведение ""ПЛЕ...","град Варна, бул. „Владислав Варненчик“ 186","Пушене в заведение ""ПЛЕЙГРАУНД"" МОЛ ВАРНА, гра..."
1,[заведение за хранене и развлечение],01:30 Dec 3 2018,"В кафе ""Зограф""/съставна част от семеен х-л ""З...","град Трявна, ул. ""П.Р.Славейков"" № 1","Незаконно обособена зона за пушене,тровеща неп..."
2,[заведение за хранене и развлечение],08:18 Nov 29 2018,"Бяха донесени чашки със салфетки, в които да с...","град Пловдив, бул. ""Никола Вапцаров"" 50","Пушене на закрито в ресторант Марс, град Пловдив"
3,[заведение за хранене и развлечение],03:21 Dec 5 2018,Пушене ежедневно в кафене на бензиностанция-га...,"село Ягодово, област Пловдив, ул.Васил Левски...","Пушене в бензиностанция-газстанция на закрито,..."
4,[заведение за хранене и развлечение],07:13 Nov 5 2018,"В ресторант ""Немо"" гр. Варна, пристанище Варн...","град Варна, Морска гара","Заведение с тютюнопушене, град Варна"
5,[заведение за хранене и развлечение],07:16 Nov 7 2018,Пуши се на закрито в заведението The river в г...,"град Русе, ул. Чавдар Войвода 33 /пресечна с б...","Пушене на закрито в заведение за хранене, град..."
6,[заведение за хранене и развлечение],09:18 Nov 27 2018,В ресторант Тео Елит в град Пловдив се пуши * ...,"град Пловдив, ул. ""Съединение"", срещу бл. 151","Нарушение на забрана за тютюнопушене, град Пло..."
7,[заведение за хранене и развлечение],00:43 Nov 11 2018,"В ресторант Родопска къща в Студентски град, С...","град София, ул. ""8-ми декември"", блок 21","Пушене в ресторант Родопска къща, град София"
8,[работно място],08:47 Nov 12 2018,Позволява се пушенето на закрито в снимачния к...,"Нови хан, община Елин Пелин, Софийска област","Пушене на работно място, Нови хан, община Елин..."
9,[приют и център за временно настаняване],10:04 Nov 12 2018,В предаването Биг Брадър се пуши в затворени о...,"Софийса област, община Елин пелин, Нови Хан, с...","Пушене в студиото на Биг Брадър, Нови хан, общ..."


In [11]:
for i in df_sample['description'].head():
    print(i)

име обект: МОЛ ВАРНА вид обект: заведение "ПЛЕЙГРАУНД" град: гр. Варна адрес: гр. Варна бул. „Владислав Варненчик“ 186 описание: В заведението се пушат цигари, когато в същото време се правят детски рождени дни и се вреди и на децата! * Сигналът беше изпратен с електронна поща до РЗИ Варна на 01.12.2018 в 13:20:23 часа.
В кафе "Зограф"/съставна част от семеен х-л "Зограф" - град Трявна, ул. "П.Р.Славейков" № 1, обл. Габрово/ е обособена зона за пушачи,която фактически не е отделена от останалата част на залата. Вратата между двете зали не се затваря през деня с цел да се отоплява зоната за пушачи от климатика, разположен в зоната за непушачи. Същият този климатик взима въздух от зоната за пушачи/а не от атмосферата/и го вкарва в кафенето, за да отоплява!ПЪЛЕН АБСУРД !!! * Сигналът беше изпратен с електронна поща до РЗИ Габрово на 16.12.2018 в 20:20:23 часа.
Бяха донесени чашки със салфетки, в които да се тръска пепелта. * Сигналът беше изпратен с електронна поща до РЗИ Пловдив на 01.12

In [12]:
import re

In [13]:
reg = re.compile('(?P<date>\d{2}\.\d{2}\.\d{4})(\D+)(?P<time>\d{2}\:\d{2}\:\d{2})')

def extract_datetime(text):
    m = reg.search(text)
    if m is None:
        return ('N/A Date', 'N/A Time')
    
    return m.group('date'), m.group('time')

In [14]:
def filed_to_sent_time(datetime_filed, date_sent, time_sent):
    try:
        df = pd.to_datetime(datetime_filed, 
                            infer_datetime_format=True,
                            format='%H:%M %b %d %Y')
        ds = pd.to_datetime(' '.join([date_sent, time_sent]),
                            infer_datetime_format=True,
                            format='%d.%m.%Y %H:%M:%S')
        return (ds - df)
    except ValueError:
        return 'N/A dates parsed'
    except TypeError:
        return 'N/A date margin'

In [15]:
df_sample['date_sent'] = df_sample['description'].apply(lambda x: extract_datetime(x)[0])
df_sample['time_sent'] = df_sample['description'].apply(lambda x: extract_datetime(x)[1])

In [16]:
df_sample['time_to_sent'] = df_sample[['date', 'date_sent', 'time_sent']].apply(
    lambda row: filed_to_sent_time(row[0], row[1], row[2]), axis=1)

In [17]:
df_sample

Unnamed: 0,categories,date,description,location,title,date_sent,time_sent,time_to_sent
0,[заведение за хранене и развлечение],10:30 Dec 1 2018,"име обект: МОЛ ВАРНА вид обект: заведение ""ПЛЕ...","град Варна, бул. „Владислав Варненчик“ 186","Пушене в заведение ""ПЛЕЙГРАУНД"" МОЛ ВАРНА, гра...",01.12.2018,13:20:23,0 days 02:50:23
1,[заведение за хранене и развлечение],01:30 Dec 3 2018,"В кафе ""Зограф""/съставна част от семеен х-л ""З...","град Трявна, ул. ""П.Р.Славейков"" № 1","Незаконно обособена зона за пушене,тровеща неп...",16.12.2018,20:20:23,13 days 18:50:23
2,[заведение за хранене и развлечение],08:18 Nov 29 2018,"Бяха донесени чашки със салфетки, в които да с...","град Пловдив, бул. ""Никола Вапцаров"" 50","Пушене на закрито в ресторант Марс, град Пловдив",01.12.2018,12:20:23,2 days 04:02:23
3,[заведение за хранене и развлечение],03:21 Dec 5 2018,Пушене ежедневно в кафене на бензиностанция-га...,"село Ягодово, област Пловдив, ул.Васил Левски...","Пушене в бензиностанция-газстанция на закрито,...",16.12.2018,20:20:35,11 days 16:59:35
4,[заведение за хранене и развлечение],07:13 Nov 5 2018,"В ресторант ""Немо"" гр. Варна, пристанище Варн...","град Варна, Морска гара","Заведение с тютюнопушене, град Варна",12.11.2018,11:20:52,7 days 04:07:52
5,[заведение за хранене и развлечение],07:16 Nov 7 2018,Пуши се на закрито в заведението The river в г...,"град Русе, ул. Чавдар Войвода 33 /пресечна с б...","Пушене на закрито в заведение за хранене, град...",12.11.2018,11:20:57,5 days 04:04:57
6,[заведение за хранене и развлечение],09:18 Nov 27 2018,В ресторант Тео Елит в град Пловдив се пуши * ...,"град Пловдив, ул. ""Съединение"", срещу бл. 151","Нарушение на забрана за тютюнопушене, град Пло...",28.11.2018,10:20:23,1 days 01:02:23
7,[заведение за хранене и развлечение],00:43 Nov 11 2018,"В ресторант Родопска къща в Студентски град, С...","град София, ул. ""8-ми декември"", блок 21","Пушене в ресторант Родопска къща, град София",12.11.2018,11:21:05,1 days 10:38:05
8,[работно място],08:47 Nov 12 2018,Позволява се пушенето на закрито в снимачния к...,"Нови хан, община Елин Пелин, Софийска област","Пушене на работно място, Нови хан, община Елин...",13.11.2018,09:20:26,1 days 00:33:26
9,[приют и център за временно настаняване],10:04 Nov 12 2018,В предаването Биг Брадър се пуши в затворени о...,"Софийса област, община Елин пелин, Нови Хан, с...","Пушене в студиото на Биг Брадър, Нови хан, общ...",13.11.2018,09:20:31,0 days 23:16:31
