# Warsztaty Python w Data Science

---
## Web Scraping - część 1 z 2  

- ### Budowa web crawlera
  - #### Anatomia pająka
  - #### Zarządzanie granicą (*Crawling Frontier*)
  - #### Jak scrapować etycznie i bezpiecznie
- ### Anatomia strony WWW
  - #### HTML jaki jest - każdy widzi
  - #### Parsowanie pobranych danych
- ### Prosty, praktyczny scraper
---


## Budowa (web) crawlera

*Web crawler, webbot, pająk, spider, pełzacz, web crawler, web wanderer, scraper* - program zbierający informacje o strukturze i treściach stron WWW. 

### Anatomia pająka


*pająk* - to program który:
- odwiedzają linki ze listy określanej jako granica (*the frontier*)
- z odwiedzonych stron wyciąga i zapisuje informacje
  - w szczególności dalsze linki (web indexing)
  - odpowiednie linki uzupełniają *granicę* crawlingu
  - informację w sposób trwały zapisuje web scraper 


### Zarządzanie granicą (*Crawling Frontier*)

- Zakres granicy powinien być ZAWSZE na początku określony
    - najlepiej z góry zawężony do określonej liczby i typu linków
- Granica winna być mocno ograniczana
- Granica rozbudowywana powinna być BARDZO selektywnie
- Duża granica powoduje problemy skali

---
### Jak scrapować etycznie i bezpiecznie

1. Po pierwsze - nie szkodzić! Nie obciążaj niepotrzebnie strony scrapowanej
2. Przestrzegaj `robots.txt` i warunków korzystania z usługi
3. Miej na uwadze, że bazy danych są chronione na podstawie przepisów ustawy o ochronie baz danych 
4. Przestrzegaj RODO
5. Nie ukrywaj się
6. Gdzie to możliwe,  korzystaj z API
---

# art. 8 ustawy z dnia 27 lipca 2001 r. o ochronie baz danych (Dz.U. Nr 28, poz. 1402 ze zm.) 

1. Wolno korzystać z istotnej, co do jakości lub ilości, części rozpowszechnionej bazy danych:

  1)   do własnego użytku osobistego, ale tylko z zawartości nieelektronicznej bazy danych,

  2)   w charakterze ilustracji, w celach _**dydaktycznych lub badawczych**_ (podkreslenie moje), ze wskazaniem źródła, jeżeli takie korzystanie jest uzasadnione niekomercyjnym celem, dla którego wykorzystano bazę,
  
  3)   do celów bezpieczeństwa wewnętrznego, postępowania sądowego lub administracyjnego.

2. Nie jest dozwolone powtarzające się i systematyczne pobieranie lub wtórne wykorzystanie sprzeczne z normalnym korzystaniem i powodujące nieusprawiedliwione naruszenie słusznych interesów producenta.
---

### Anatomia strony WWW
#### HTML jaki jest - każdy widzi


In [2]:
html_doc = """
<html>
<head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
    <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
    <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
    <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>

<p class="story">...</p>
</body></html>
"""

---
#### Parsowanie pobranych danych

In [3]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
    and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>



---
## HTML ma
- strukturę drzewiastą
- znaczniki się zagnieżdzają i mają mieć (w teorii):
  - `<a>` - początek
  - `</a>` - koniec
- pomiędzy początkiem a końcem są tzw. dzieci
- znaczniki nie mogą się "zazębiac" np. `<a><b></a></b>` (w teorii ...)
- znaczniki mają atrybuty - np. `<a href="linkdostrony">Tu jest link</a>
---

In [4]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc)

In [5]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [6]:
soup.p['class']

['title']

In [7]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

### Szukanie po znaczniku

In [8]:
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

### Szukanie po id

In [9]:
soup.find(id="link3")

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

### Wyciąganie atrybutów

In [10]:
[ link.get('href') for link in soup.find_all('a')]

['http://example.com/elsie',
 'http://example.com/lacie',
 'http://example.com/tillie']

### Wędrowanie po drzewie

In [11]:
soup.a

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [12]:
soup.a.find_next_sibling("a")

<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>

In [13]:
soup.p

<p class="title"><b>The Dormouse's story</b></p>

In [15]:
soup.p.find_next_sibling("p")

<p class="story">Once upon a time there were three little sisters; and their names were
    <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
    <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>

In [18]:
pn=soup.p.find_next_sibling("p")
children = pn.children

In [19]:
children

<list_iterator at 0x1839e29c5b0>

In [20]:
lista = [ x for x in children ]
lista

['Once upon a time there were three little sisters; and their names were\n    ',
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 ',\n    ',
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 ' and\n    ',
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>,
 ';\n    and they lived at the bottom of a well.']

In [21]:
lista[1].get('href')

'http://example.com/elsie'

In [22]:
head_tag = soup.head
head_tag

<head><title>The Dormouse's story</title></head>

In [23]:
for child in head_tag.children:
    print(child)

<title>The Dormouse's story</title>


In [24]:
for child in head_tag.descendants:
    print(child)

<title>The Dormouse's story</title>
The Dormouse's story


In [25]:
last_a_tag = soup.find("a", id="link3")
last_a_tag


<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

In [26]:
last_a_tag.next_sibling

';\n    and they lived at the bottom of a well.'

In [27]:
last_a_tag.next_element

'Tillie'

In [28]:
last_a_tag.parent

<p class="story">Once upon a time there were three little sisters; and their names were
    <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
    <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
    <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
    and they lived at the bottom of a well.</p>

### Szukanie przy użyciu predykatu (funckji logicznej)

In [29]:
def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')

soup.find_all(has_class_but_no_id)

[<p class="title"><b>The Dormouse's story</b></p>,
 <p class="story">Once upon a time there were three little sisters; and their names were
     <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
     <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
     <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
     and they lived at the bottom of a well.</p>,
 <p class="story">...</p>]

In [30]:
soup.find_all(id='link2')

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [32]:
soup.find_all("a", class_="sister")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [33]:
soup.find_all("a")
soup("a")

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

---
## Prosty, praktyczny scraper

In [34]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time


url = f'https://pl.wikipedia.org/wiki/Dane_statystyczne_o_miastach_w_Polsce'
    
page = requests.get(url)
print (page)


<Response [200]>


In [35]:
page.content[:300]

b'<!DOCTYPE html>\n<html class="client-nojs" lang="pl" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Dane statystyczne o miastach w Polsce \xe2\x80\x93 Wikipedia, wolna encyklopedia</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.'

In [36]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page.content)

In [37]:
tables = soup.find_all('table')
len(tables)

1

In [38]:
table = tables[0]
rows = table.find_all('tr')
for row in rows[:3]:
    print (row)

<tr>
<th style="width: 26%">Miasto
</th>
<th style="width: 26%"><a href="/wiki/Powiat_(Polska)" title="Powiat (Polska)">Powiat</a>
</th>
<th style="width: 24%"><a href="/wiki/Wojew%C3%B3dztwo" title="Województwo">Województwo</a>
</th>
<th style="width: 8%">Powierzchnia [ha] (01.01.2021)
</th>
<th style="width: 8%"><a href="/wiki/Liczba_ludno%C5%9Bci" title="Liczba ludności">Liczba ludności</a> (01.01.2021)
</th>
<th style="width: 8%"><a href="/wiki/G%C4%99sto%C5%9B%C4%87_zaludnienia" title="Gęstość zaludnienia">Gęstość zaludnienia</a> [osoby/km²] (01.01.2021)
</th></tr>
<tr>
<td><b><a href="/wiki/Aleksandr%C3%B3w_Kujawski" title="Aleksandrów Kujawski">Aleksandrów Kujawski</a></b>
</td>
<td><a href="/wiki/Powiat_aleksandrowski" title="Powiat aleksandrowski">aleksandrowski</a>
</td>
<td><a href="/wiki/Wojew%C3%B3dztwo_kujawsko-pomorskie" title="Województwo kujawsko-pomorskie">kujawsko-pomorskie</a>
</td>
<td>723
</td>
<td>12058
</td>
<td>1668
</td></tr>
<tr>
<td><a href="/wiki/Aleksandr%

In [39]:
table = tables[0]
rows = table.find_all('tr')
for row in rows[:3]:
    cells = row.find_all('td')
    for cell in cells[:4]:
        print(cell)

<td><b><a href="/wiki/Aleksandr%C3%B3w_Kujawski" title="Aleksandrów Kujawski">Aleksandrów Kujawski</a></b>
</td>
<td><a href="/wiki/Powiat_aleksandrowski" title="Powiat aleksandrowski">aleksandrowski</a>
</td>
<td><a href="/wiki/Wojew%C3%B3dztwo_kujawsko-pomorskie" title="Województwo kujawsko-pomorskie">kujawsko-pomorskie</a>
</td>
<td>723
</td>
<td><a href="/wiki/Aleksandr%C3%B3w_%C5%81%C3%B3dzki" title="Aleksandrów Łódzki">Aleksandrów Łódzki</a>
</td>
<td><a href="/wiki/Powiat_zgierski" title="Powiat zgierski">zgierski</a>
</td>
<td><a href="/wiki/Wojew%C3%B3dztwo_%C5%82%C3%B3dzkie" title="Województwo łódzkie">łódzkie</a>
</td>
<td>1382
</td>


In [40]:
table = tables[0]
rows = table.find_all('tr')
for row in rows[:3]:
    cells = row.find_all('td')
    for cell in cells[:4]:
        link=cell.find('a')
        if link and link!=-1:
            print(link)

<a href="/wiki/Aleksandr%C3%B3w_Kujawski" title="Aleksandrów Kujawski">Aleksandrów Kujawski</a>
<a href="/wiki/Powiat_aleksandrowski" title="Powiat aleksandrowski">aleksandrowski</a>
<a href="/wiki/Wojew%C3%B3dztwo_kujawsko-pomorskie" title="Województwo kujawsko-pomorskie">kujawsko-pomorskie</a>
<a href="/wiki/Aleksandr%C3%B3w_%C5%81%C3%B3dzki" title="Aleksandrów Łódzki">Aleksandrów Łódzki</a>
<a href="/wiki/Powiat_zgierski" title="Powiat zgierski">zgierski</a>
<a href="/wiki/Wojew%C3%B3dztwo_%C5%82%C3%B3dzkie" title="Województwo łódzkie">łódzkie</a>


In [41]:
table = tables[0]
rows = table.find_all('tr')
for row in rows[:3]:
    cells = row.find_all('td')
    for cell in cells[:4]:
        link=cell.find('a')
        if link and link!=-1:
            print(link.text)

Aleksandrów Kujawski
aleksandrowski
kujawsko-pomorskie
Aleksandrów Łódzki
zgierski
łódzkie


In [42]:
table = tables[0]
rows = table.find_all('tr')
for row in rows[:3]:
    cells = row.find_all('td')
    for cell in cells[:4]:
        link=cell.find('a')
        if link and link!=-1:
            pass
        else:
            print(cell.text)

723

1382



In [43]:
data = []
table = tables[0]
rows = table.find_all('tr')
for row in rows:
    data_row = []
    cells = row.find_all('td')
    for cell in cells:
        link=cell.find('a')
        if link and link!=-1:
            data_row.append(link.text.strip())
        else:
            data_row.append(cell.text.strip())
    if data_row:
        data.append(data_row)
data[:4]

[['Aleksandrów Kujawski',
  'aleksandrowski',
  'kujawsko-pomorskie',
  '723',
  '12058',
  '1668'],
 ['Aleksandrów Łódzki', 'zgierski', 'łódzkie', '1382', '21754', '1574'],
 ['Alwernia', 'chrzanowski', 'małopolskie', '888', '3336', '376'],
 ['Andrychów', 'wadowicki', 'małopolskie', '1033', '19837', '1920']]

In [44]:
import pandas as pd

df = pd.DataFrame(data)
df

Unnamed: 0,0,1,2,3,4,5
0,Aleksandrów Kujawski,aleksandrowski,kujawsko-pomorskie,723,12058,1668
1,Aleksandrów Łódzki,zgierski,łódzkie,1382,21754,1574
2,Alwernia,chrzanowski,małopolskie,888,3336,376
3,Andrychów,wadowicki,małopolskie,1033,19837,1920
4,Annopol,kraśnicki,lubelskie,773,2436,315
...,...,...,...,...,...,...
949,Żukowo,kartuski,pomorskie,473,8135,1422
950,Żuromin,żuromiński,mazowieckie,1118,8756,783
951,Żychlin,kutnowski,łódzkie,868,7964,918
952,Żyrardów,żyrardowski,mazowieckie,1435,39550,2756


In [45]:
rows = table.find_all('tr')
for row in rows:
    data_row = []
    cells = row.find_all('th')
    for cell in cells:
        print(cell)
    break

<th style="width: 26%">Miasto
</th>
<th style="width: 26%"><a href="/wiki/Powiat_(Polska)" title="Powiat (Polska)">Powiat</a>
</th>
<th style="width: 24%"><a href="/wiki/Wojew%C3%B3dztwo" title="Województwo">Województwo</a>
</th>
<th style="width: 8%">Powierzchnia [ha] (01.01.2021)
</th>
<th style="width: 8%"><a href="/wiki/Liczba_ludno%C5%9Bci" title="Liczba ludności">Liczba ludności</a> (01.01.2021)
</th>
<th style="width: 8%"><a href="/wiki/G%C4%99sto%C5%9B%C4%87_zaludnienia" title="Gęstość zaludnienia">Gęstość zaludnienia</a> [osoby/km²] (01.01.2021)
</th>


In [46]:
header = []
rows = table.find_all('tr')
for row in rows:
    data_row = []
    cells = row.find_all('th')
    for cell in cells:
        link=cell.find('a')
        if link and link!=-1:
            header.append(link.text.strip())
        else:
            header.append(cell.text.strip())
print(header)

['Miasto', 'Powiat', 'Województwo', 'Powierzchnia [ha] (01.01.2021)', 'Liczba ludności', 'Gęstość zaludnienia']


In [47]:
df.columns = header
df

Unnamed: 0,Miasto,Powiat,Województwo,Powierzchnia [ha] (01.01.2021),Liczba ludności,Gęstość zaludnienia
0,Aleksandrów Kujawski,aleksandrowski,kujawsko-pomorskie,723,12058,1668
1,Aleksandrów Łódzki,zgierski,łódzkie,1382,21754,1574
2,Alwernia,chrzanowski,małopolskie,888,3336,376
3,Andrychów,wadowicki,małopolskie,1033,19837,1920
4,Annopol,kraśnicki,lubelskie,773,2436,315
...,...,...,...,...,...,...
949,Żukowo,kartuski,pomorskie,473,8135,1422
950,Żuromin,żuromiński,mazowieckie,1118,8756,783
951,Żychlin,kutnowski,łódzkie,868,7964,918
952,Żyrardów,żyrardowski,mazowieckie,1435,39550,2756
