# Web scraping

## Základní pojmy

**Web scraping** je speciálním případem obecnějšího pojmu - **data scraping**. Podle Wiki je deta scraping proces *extrakce dat z human-readable výstupu z jiného programu*. Web scraping je zřejmě zaměřen na sběr dat prezentovaných formou webové stránky.

Důležitým rozdílem oproti obyčejnému parsování (později) je právě ten fakt, že u scrapování zpracováváme data, která už byla určena přímo pro člověka. To v praxi znamená, že formát není nijak standardizován, není konzistentní nebo pravidelný. Z těchto důvodů bývá scraping protivný a zpravidla se k němu uchylujeme pouze v případě, kdy lepší cesta neexistuje. Důvodů může být mnoho - neochota druhé strany poskytnou použitelné API, přístupné ale nefunkční API a tak podobně. Typickou charakteristikou scrapování bývá to, že pro člověka je extrakce dat na pohled triviální, zatímco pro stroj/program může být velmi pracná. Ale už u velmi malých objemů dat bude člověk oproti stroji prohrávat.

Oproti mnoha různým zdrojům dat, web scraping je ještě poměrně přívětivý. Webovou stránku typicky poměrně snadno stáhneme a většina úsilí se přesouvá k parsování.


### DOM

DOM, neboli **Document Object Model** je standardizovaný, na jazykce nezávislý interface, který reprezentuje dokument. Pro nás bude důležité, že DOM reprezentuje dokument jako strom (tj. graf bez cyklů) - tedy jako datovou strukturu složenou z uzlů (nodes). Každý uzel má atributy a obsah, může mít i jednoho nebo více potomků (children) -  v tom případě se takový uzel nazývá rodič (parent). Potomci jednoho rodiče jsou sourozenci (siblings). Právě tato struktura nám umožní elegantní procházení obsahu webové stránky.

### HTML

HTML, celým jménem **HyperText Markup Language**, který je primárně určený pro reprezentaci struktury webových stránek. HTML je statické a jako takové ho nelze přímo měnit. Důležité ale je, že pomocí HTML parserů lze HTML dokument přímo převést do DOM reprezentace, která už změny dovoluje (např. pomocí JavaScriptu).

HTML k reprezentaci struktury používá tzv. *tagy* dvojího druhu - párové a nepárové. Párové tagy jsou tvoří opening a closing tag, které obestupují obsah (content), nepárové tagy jsou standalone. Každý tag může mít nějaké doplňující atributy. Mezi obyklé patří atributy "id" a "class", které se používají k identifikaci prvků v dokumentu, ať už pro účely změny jejich vzhledu (CSS) nebo pro přístup z kódu (opět např. JavaScript).

Následující příklad ukazuje velmi jednoduchou html stránku, ve které je řada párových i nepárových tagů.

```html
<html>
    <head>
        <title>A simple web page</title>
    </head>
    <body>
        <h1>Toto je nadpis první úrovně.</h1>

        <ul class="ugly-ul">
            <li>první položka nečíslovaného seznamu</li>
            <li>druhá položka nečíslovaného seznamu</li>
        </ul>

        <p>Toto je odstavec obsahující hypertextový odkaz vedoucí na <a href="google.com">Google</a>.</p>
        <p>Po oddělovací čáře bude následovat obrázek</p>
        <hr />
        <img src="path/to/some/image" />
        <table id="table-we-want">
            <tr>
                <th>První sloupec</th>
                <th>Druhý sloupec</th>
                <th>Třetí sloupec</th>
            </tr>
            <tr>
                <td>1</td>
                <td>2</td>
                <td>3</td>
            </tr>
        </table>
    </body>
</html>
```

### Parser

Je nástroj, který vstupní data, nejčastěji text, převádí do nějaké datové struktury (například parse tree, syntax tree atd).

Příbuzný nástroj (někdy součástí parseru - hranice je mlhavá) je lexical analyzer, lexer. Lexer dělává první krok potřebný k parsování - bere vstupní text a reozebírá ho na tokeny. Ty potom žere právě parser.

## Beautiful soup

Beautiful soup je patrně nejpoužívanější nástroj na tahání dat z html a xml souborů. Dobře navrženo, skvěle popsáno a jak říká sama dokumentace:

> It commonly saves programmers hours or days of work.

Instalace
```bash
pip3 install bs4
```

Ke správnému chodu Beautiful soup bude třeba nainstalovat ještě parser. Je více možností, každý má nějaké výhody a nevýhody. Na většinu práce plně vystačí lxml, což je Pythoní interface pro libxml - knihovnu napsanou v C. Je to rychlé a standardizované.

```bash
pip3 installlxml
```

In [None]:
from bs4 import BeautifulSoup

with open("../../data/sample.html") as fp:
    # soup = BeautifulSoup(fp, 'html.parser') # zabudovan7 pythoni parser
    soup = BeautifulSoup(fp, 'lxml') # zabudovan7 pythoni parser

### Objekty

Většinu času budeme pracovat se třemi objekty: `BeautifulSoup`, `Tag`, `NavigatableString`.

In [None]:
title = soup.head.title
print(title, type(title), title.contents, title.name)

In [None]:
title = soup.head.title.string
print(title, type(title))
soup.head.title.string.replace_with("klobasa")
print(soup)

### Atributy

In [None]:
table = soup.body.table
table.attrs

table["id"]
table["class"]

In [None]:
webpage = """
<html>
    <head>
        <title>A simple web page</title>
    </head>
    <body>
        <h1>Toto je nadpis první úrovně.</h1>

        <ul class="ugly-ul">
            <li>první položka nečíslovaného seznamu</li>
            <li>druhá položka nečíslovaného seznamu</li>
        </ul>

        <p>Toto je odstavec obsahující hypertextový odkaz vedoucí na <a href="google.com">Google</a>.</p>
        <p>Po oddělovací čáře bude následovat obrázek</p>
        <hr />
        <img src="path/to/some/image" />
        <table id="table-we-want">
            <tr>
                <th>První sloupec</th>
                <th>Druhý sloupec</th>
                <th>Třetí sloupec</th>
            </tr>
            <tr>
                <td>1</td>
                <td>2</td>
                <td>3</td>
            </tr>
            <tr>
                <td><a href="irozhlas.cz">iRozhlas</a></td>
                <td><a href="hn.cz">Hospodářské noviny</a></td>
                <td><a href="idnes.cz">idnes.cz</a></td>
            </tr>
        </table>
    </body>
</html>
"""

soup = BeautifulSoup(webpage, "lxml")

In [None]:
img = soup.body.img
# a = soup.body.p
img["src"]

In [None]:
a = soup.body.p.a
a["href"]

### Navigace

Protože je stránka reprezentována stromem, můžeme používat pojmy jako children, parent, sibling k navigaci

In [None]:
table = soup.body.table
child = list(table.children)[0]
print(table is child.parent)
child.next_sibling

### Vyhledávání

- tag
- id
- funkce
- regexp

In [None]:
soup.find_all("td")

In [None]:
soup.find_all(id="table-we-want")

In [None]:
def identify_link(tag):
    return str(tag.string) == "Google"

soup.find_all(identify_link)

In [None]:
import re

rec = re.compile("nadpis")
print(rec)
soup.find_all(rec)

## Příklady

### Teploty

In [None]:
for child in a.children:
    print(child)

print(a.caption)

In [None]:
for td in soup.find_all('td'):
    print(td.string)

In [None]:
soup.find(id="sample_table")

In [None]:
import requests
import bs4
import datetime

r = requests.get("http://vaclav-alt.github.io/data/index.html")
soup = bs4.BeautifulSoup(r.content)

def proc_table(table: bs4.Tag, dates: list, temps: list):
    date = table.caption.string
    for row in table.find_all("tr"):
        cols = row.find_all("td")
        dates.append(date + " " + str(cols[0].string))
        temps.append(cols[1].string)
    

dates = []
temps = []
for table in soup.find_all("table"):
    proc_table(table, dates, temps)

dates = [datetime.datetime.strptime(date, "%Y-%m-%d %H:%M:%S") for date in dates]

In [None]:
import pandas as pd
df = pd.DataFrame({
    "date" : dates,
    "temps" : temps
})
df = df.set_index("date", drop=True).astype(float)
df.plot()

## Scrapethissite

https://www.scrapethissite.com/

In [None]:
import requests
url = "https://www.scrapethissite.com/pages/simple/"

response = requests.get(url)
if response.status_code == 200:
    web = response.content


In [None]:
soup = BeautifulSoup(web, "lxml")

def this_is_the_one(tag):
    if tag.has_attr("class"):
        return "country" in tag["class"]
    return False

res = soup.find_all(this_is_the_one)
for div in res:
    print(list(div.h3.stripped_strings)[0])

In [None]:
soup = BeautifulSoup(web, "lxml")

def this_is_the_one(tag):
    if tag.has_attr("class"):
        return "country" in tag["class"]
    return False

res = soup.find_all(this_is_the_one)

data = []
for div in res:
    country = div.h3.contents[-1].strip()
    population = int(div.find_all(class_="country-population")[0].string)
    area = float(div.find_all(class_="country-area")[0].string)
    data.append({"country": country, "population": population, "area": area})

In [None]:
import pandas as pd

df = pd.DataFrame(data)
df["density"] = df["population"] / df["area"]
df = df.dropna()
df.head()

In [None]:
import plotly.express as px
fig = px.scatter(df, x="area", y="population", color="density", size="density", size_max=100, hover_data=['country'])
fig.show()