# Polish police statistics

This script collects data from Polish police website: http://www.policja.pl/pol/form/1,Statystyki-dnia.html.

## Web Scraping

In [1]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
import csv

URL = 'http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page='
RANGE = 177
CSV = '../data/polish-police.csv'

header = []
rows = []

def scrape_page(html):
    tbody = BeautifulSoup(html.read(), "html.parser").tbody
    for tr in tbody.findAll('tr'):
        if tr.th:
            if not header:
                for th in tr.findAll('th'):
                    header.append(th.get_text())
        if tr.td:
            row = []
            for td in tr.findAll('td'):
                row.append(td.get_text())
            rows.append(row)

for i in range(RANGE):
    try:
        url = URL + str(i)
        print('Open page', url)
        html = urlopen(url)
    except HTTPError as e:
        print(e)
    else:
        scrape_page(html)
     
rows.insert(0, header)

with open(CSV, "w") as f:
    writer = csv.writer(f)
    writer.writerows(rows)

Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=0
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=1
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=2
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=3
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=4
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=5
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=6
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=7
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=8
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=9
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=10
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=11
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=12
Open page http://www.policja.pl/pol/form/1,Statystyki-dnia.html?page=13
Op

# Check csv file

In [2]:
import pandas as pd
df1 = pd.read_csv(CSV, parse_dates=['Data'], dayfirst=True, index_col='Data')
df1

Unnamed: 0_level_0,Zatrzymani na gorącym uczynku,Zatrzymani poszukiwani,Zatrzymani nietrzeźwi kierujący,Wypadki drogowe,Zabici w wypadkach,Ranni w wypadkach
Data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2016-03-30,581,258,171,70,4,87
2016-03-29,660,266,267,73,15,100
2016-03-28,717,133,321,60,6,89
2016-03-27,482,122,230,38,4,47
2016-03-26,647,180,267,79,16,107
2016-03-25,717,302,243,63,2,72
2016-03-24,636,266,202,67,3,84
2016-03-23,599,247,161,73,6,84
2016-03-22,646,220,183,95,7,132
2016-03-21,665,221,197,57,3,74


# Looking for duplicates

We can drop duplicates:

In [4]:
df2 = pd.read_csv(CSV, parse_dates=['Data'], dayfirst=True)
df3 = df2.drop_duplicates('Data', keep='last').set_index('Data') #done
print(len(df2), len(df3))

2655 2648


Or we can list all rows witch are duplicated:

In [5]:
df2['is_duplicated'] = df2.duplicated('Data', keep=False)
df2[(df2["is_duplicated"] == True)]

Unnamed: 0,Data,Zatrzymani na gorącym uczynku,Zatrzymani poszukiwani,Zatrzymani nietrzeźwi kierujący,Wypadki drogowe,Zabici w wypadkach,Ranni w wypadkach,is_duplicated
20,2016-03-10,702,256,218,61,6,69,True
21,2016-03-10,702,256,218,61,6,69,True
153,2015-10-26,943,174,372,77,4,109,True
154,2015-10-26,621,228,223,77,9,93,True
1290,2012-09-04,717,272,325,76,0,92,True
1291,2012-09-04,946,194,494,105,10,114,True
2060,2010-07-25,872,150,494,100,10,168,True
2061,2010-07-25,901,172,540,125,15,170,True
2105,2010-06-10,1051,371,479,110,6,124,True
2107,2010-06-10,836,412,395,95,11,115,True
