# Web crawler

V tomto notebooku si vyzkoušíte, jak naprogramovat jednoduchý web crawler, tj. program, který sám prochází internetové stránky a do vhodného formátu ukládá jejich obsah. K vytvoření takového programu použijete standardní funkce Pythonu, soubor modulů urllib pro otvírání internetových stránek a knihovnu BeautifulSoup, díky které jednoduše získáte text z HTML kódu. 

Termín web scraping označuje získávání dat z internetových stránek. Ačkoliv proces stahování dat může probíhat manuálně, většinou se označení web scrapingu vztahuje na automatizovaný proces. Extrahování dat sestává z několika kroků. Nejprve je nutné určit, jaké internetové stránky bude vhodné použít. Poté dojde ke stažení těchto stránek a dalšímu zpracování. V některých aplikacích stačí získat pouze holý text, pro lingvistické bádání může být důležité text např. morfologicky analyzovat. Postup se tedy liší podle konkrétní aplikace.

Existuje mnoho sofistikovaných aplikací pro web scraping volně dostupných k použití, mezi oblíbené patří ku příkladu [Web Scraper](https://webscraper.io/). 

Více o web scrapingu [zde](https://en.wikipedia.org/wiki/Web_scraping). Obecně o fungování web crawlerů pak [zde](https://en.wikipedia.org/wiki/Web_crawler).


## 1 S čím budete pracovat

### 1.1 HTML

HTML (HyperText Markup Language, česky hypertextový značkovací jazyk) je základním stavebním kamenem internetových stránek. Tento jazyk definuje základní strukturu stránek. Vedle HTML se při tvorbě stránek používají ještě CSS (Cascading Style Sheets, česky kaskádové styly) pro vzhled a programovací jazyk JavaScript např. pro ovládání interaktivních prvků.

Pro tento úkol je důležité seznámit se se strukturou HTML, abyste byli schopní ze stránek stáhnout holý text. Ten je v HTML uzavřen ve značkách, např. `<p>Ukázkový text</p>` značí jeden odstavec obsahující text _Ukázkový text_.

HTML kód jednotlivých stránek si můžete prohlédnout přímo v prohlížeči. Po kliknutí pravým tlačítkem myši do prostoru stránky se zobrazí menu, ze kterého vyberte Zobrazit zdrojový kód stránky nebo Prozkoumat prvek. V prvním případě se otevře nové okno se zdrojovým kódem. V druhém případě se přímo na stránce otevře nástroj pro vývojáře, ve kterém je možné prozkoumávat jednotlivé prvky stránky.

![Inspect](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Web%20crawler%20%E2%80%93%20Wikipedie%20%E2%80%94%20Mozilla%20Firefox_001.jpg)

Pro stahování dat bude důležité, abyste věděli, v jakých HTML značkách je uzavřen text, který chcete stáhnout. To zjistíte právě ve zdrojovém kódu.

Více o HTML a značkách například [zde](https://www.w3schools.com/html/html_intro.asp) nebo [zde](https://developer.mozilla.org/en-US/docs/Web/HTML).

### 1.2 urllib

urllib je soubor modulů umožňující pracovat s internetovými adresami (URL). Z tohoto souboru je pro tento notebook nejdůležitější modul request, který otevře požadované URL.

### 1.3 BeautifulSoup

BeautifulSoup je knihovna pro stahování dat z HTML a XML souborů. V tomto úkolu ji použijete pro získání holého textu z HTML značek.

Více informací v [dokumentaci](https://beautiful-soup-4.readthedocs.io/en/latest/).

## 2 Instalace

### 2.1 urllib

urllib je součástí tzv. The Python Standard Library (standardní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 2.2 BeautifulSoup

Instalaci BeautifulSoup provedete přímo v tomto notebooku. 

Následující buňku pouze spusťte.

In [None]:
!pip3 install bs4

## 3 Import knihoven a modulů 

Než bude možné začít s psaním programu, je nutné importovat všechny knihovny a moduly, které budete potřebovat. Patří mezi ně:

- funkce urlopen z modulu urllib.request,
- knihovna BeautifulSoup z modulu bs4.

Spusťte následující buňku, knihovny se importují.

**Poznámka:** Po každém otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu.

In [None]:
from urllib.request import urlopen #importuj funkci urlopen
from bs4 import BeautifulSoup #importuj knihovnu BeautifulSoup

## 4 Otevření URL

Abyste mohli stáhnout textová data z internetových stránek, musíte je nejdřív v Pythonu otevřít. K tomu slouží funkce `urlopen`.

In [None]:
f = urlopen('https://cs.wikipedia.org/wiki/Web_crawler') #otevři url

In [None]:
print(f) #vypiš proměnnou f

Jak si můžete všimnout výše, při vypsání proměnné se nevypíše její obsah, ale informace o vytvořeném objektu. Pokud budete chtít obsah stránky vypsat, musíte nejprve použít metodu `read`, která přečte celý soubor.

In [None]:
f = f.read() #přečti proměnnou f

In [None]:
print(f) #vypiš proměnnou f

Vypsaný text je sice nepřehledný, ale přesto si můžete všimnout, že nepodporuje písmena s diakritikou. Např. slovo _vyhledávače_ je v textu reprezentováno jako _vyhled\xc3\xa1va\xc4\x8de_. To souvisí s kódováním, tj. reprezentací znaků na počítači. Aby se vám text zobrazil i s písmeny s diakritikou, použijte metodu `decode` s parametrem UTF-8.

Více o kódování [zde](https://cs.wikipedia.org/wiki/K%C3%B3dov%C3%A1n%C3%AD_znak%C5%AF) a o standardu UTF-8 [zde](https://cs.wikipedia.org/wiki/UTF-8).

In [None]:
f_decoded = f.decode('UTF-8') #změň kódování na UTF-8

In [None]:
print(f_decoded) #vypiš proměnnou f_decoded

## 5 BeautifulSoup

Pro získání holého textu bez HTML značek použijte knihovnu BeautifulSoup. Nejprve zavolejte BeautifulSoup konstruktor, který požaduje dva parametry:

1. HTML dokument (v tomto případě uložený v proměnné `f` z předchozí kapitoly),
2. typ parseru, v tomto případě `html.parser`, jelikož pracujete s dokumentem psaným v HTML.

Do proměnné `soup` uložte výsledek.

In [None]:
soup = BeautifulSoup(f, 'html.parser') #ulož BeautifulSoup objekt do proměnné soup

Po vypsání proměnné `soup` si na první pohled nevšimnete větších změn od výpisů v minulé sekci. Díky použití konstruktoru můžete však použít metody z knihovny BeautifulSoup pro práci s HTML dokumenty, jelikož se nejedná o obyčejný textový řetězec, ale objekt BeautifulSoup.

In [None]:
print(soup) #vypiš proměnnou soup

In [None]:
type(soup) #vypiš datový typ proměnné soup

### 5.1 prettify

První užitečnou metodou je `prettify`, která text formátuje do přehledného řetězce. Díky tomu si HTML kód můžete přehledně prohlédnout a nemusíte využívat zdrojový kód stránky.

In [None]:
print(soup.prettify()) #formátuj dokument pomocí metody prettify

### 5.2 get_text

Metoda `get_text` vám umožní získat holý text bez HTML značek. Můžete ji použít na celý text nebo jen na text v určitých značkách.

In [None]:
txt = soup.get_text() #získej text z proměnné soup

In [None]:
print(txt) #vypiš text

In [None]:
heading = soup.h1.get_text() #získej text z nadpisu první úrovně v proměnné soup

In [None]:
print(heading) #vypiš proměnnou heading

### 5.3 find

Pro vyhledání značky slouží metoda `find`. Tato metoda (na rozdíl od metody `find_all` uvedené níže) najde a vrátí pouze první výskyt značky. Do parametru metody se uvádí HTML značka, kterou chcete nalézt.

In [None]:
b = soup.find('b') #vyhledej první instanci značky tučného textu

In [None]:
b #vypiš proměnnou b

### 5.4 find_all

Pro vyhledání všech instancí jedné značky slouží metoda `find_all`. Do parametru této metody opět uveďte HTML značku, kterou chcete nalézt.

In [None]:
b2 = soup.find_all('b') #vyhledej všechny instance značky tučného textu

In [None]:
b2 #vypiš proměnnou b2

Všimněte si, že výstupem `find_all` je seznam. Všechny odstavce jsou ponechány s HTML značkami. Pro přehledné vypsání obsahu proměnné tedy nestačí proměnnou pouze vypsat, musíte přes její prvky iterovat a vypsat je postupně pomocí metody `get_text`.

In [None]:
for t in b2: #pro každý element v seznamu b2
    print(t.get_text()) #vypiš element

### 5.5 Hledání tříd a identifikátorů

Pokud vám nebude stačit vyhledání pouze samostatné značky, ale budete potřebovat nalézt značku s konkrétní třídou nebo indentifikátorem, použijte ve funkci `find` nebo `find_all` ještě druhý parametr, do kterého zadáte název třídy nebo identifikátoru. Do parametru musíte zadat datový typ slovník, kde klíč je označení třída/identifikátor a hodnota je název třídy/identifikátoru.

Pro vyhledání všech instancí značky `<span class="toctext">` slouží následující kód. 

In [None]:
tt = soup.find_all('span', {'class': 'toctext'}) #vyhledej všechny instance značky 

In [None]:
tt #vypiš proměnnou tt

**Poznámka:** Tento kód bude fungovat pouze, kdy daná HTML značka má jenom jednu třídu. Pokud je značek víc, musí se postupovat jinak, viz [Stack Overflow](https://stackoverflow.com/a/22284921/2318602).

Další informace ke knihovně BeautifulSoup naleznete [v dokumentaci](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#beautiful-soup-documentation).


## 6 Web crawler

V této sekci budete mít za úkol naprogramovat vlastní web crawler. V několika krocích vytvoříte program, který z hlavní stránky Root.cz stáhne nadpisy článků, jejich perexy a dobu čtení.

Nejprve si prohlédněte strukturu [stránek](https://www.root.cz/).

Než začnete psát první funkci, do proměnné `url` uložte url stránky Root.cz

Následující buňku pouze spusťte.

In [None]:
url = 'https://www.root.cz/' #do proměnné url ulož stránku Root.cz

**Úkol 1:** Napište funkci `read_url`, která otevře stránku uloženou v proměnné `url`, přečte ji, změní kódování na UTF-8 a poté vrátí na výstup.

In [None]:
def read_url(url):
    """ Otevři a přečti stránku, zmeň kódování na UTF-8 """
    
    u = urlopen(url) #otevři url
    u = u.read() #přečti stránku
    u = u.decode('UTF-8') #změň kódování na UTF-8
    
    return u #vrať řetězec

**Úkol 2:** Zavolejte funkci `read_url` a její výstup uložte do proměnné `doc`. Proměnnou `doc` pak vypište.

In [None]:
doc = read_url(url) #zavolej funkci read_url a výsledek ulož do proměnné doc

In [None]:
doc #vypiš proměnnou doc

Aby bylo možné s HTML dokumentem dále pracovat a vyhledávat v něm, je nutné použít BeautifulSoup konstruktor. Následující buňka zavolá BeautifulSoup konstruktor a do proměnné `soup` uloží BeautifulSoup objekt.

Následující buňku pouze spusťte.

In [None]:
soup = BeautifulSoup(doc, 'html.parser') #zavolej BeautifulSoup konstruktor

**Úkol 3:** Zjistěte, jakého typu je proměnná `soup`.

In [None]:
type(soup) #vypiš typ proměnné soup

**Úkol 4:** Pro přehlednější orientaci v HTML dokumentu použijte metodu `prettify`.

**Poznámka:** V tomto případě _musíte_ použít standardní výpis v proměnných v Pythonu, tj. funkci `print`, aby se výpis zobrazil správně s řádkováním a odsazením jednotlivých značek. Pokud použijete výpis bez funkce `print`, zobrazí se v něm netisknutelné řídící znaky (např. `\n` pro nový řádek), výpis tak nebude přehledný.

In [None]:
print(soup.prettify()) #formátuj dokument pomocí metody prettify

**Úkol 5:** 

1. Ve zdrojovém kódu stránky najděte, v jakých značkách jsou uloženy boxy obsahující články.

![Články](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Root.cz%20-%20informace%20nejen%20ze%20sv%C4%9Bta%20Linuxu%20%E2%80%94%20Mozilla%20Firefox_006(1).jpg)

Takto si budete jistí, že výsledek bude obsahovat pouze články z této sekce.

2. Najděte všechny instance těchto boxů pomocí značek a do proměnné `content` uložte výsledek. 
3. Proměnnou pak vypište.

<details> 
    <summary>Klikněte na tento text pro zobrazení <b>nápovědy:</b></summary>
    <p>Lze použít celkem 2 různé značky, se kterými výsledný kód bude fungovat.</p>
    <p>Obě značky mají v názvu box.</p>
</details>

In [None]:
#najdi všechny instance značky div s třídou design-box__content
content = soup.find_all("div", {"class": "design-box__content"})

In [None]:
content #vypiš proměnnou content

**Úkol 6:** 

1. Ve zdrojovém kódu stránky najděte, v jakých značkách jsou uloženy jednotlivé články.
2. Dále nalezněte značky pro nadpis článku, perex a dobu čtení.

Nadpis:

![Nadpis](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Root.cz%20-%20informace%20nejen%20ze%20sv%C4%9Bta%20Linuxu%20%E2%80%94%20Mozilla%20Firefox_004(1).jpg)

Perex:

![Perex](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Root.cz%20-%20informace%20nejen%20ze%20sv%C4%9Bta%20Linuxu%20%E2%80%94%20Mozilla%20Firefox_002.jpg)

Doba čtení:

![Doba čtení](https://raw.githubusercontent.com/AiKuroyake/PLIN-programming/main/pictures/Root.cz%20-%20informace%20nejen%20ze%20sv%C4%9Bta%20Linuxu%20%E2%80%94%20Mozilla%20Firefox_005.jpg)

Názvy značek si napište do následující buňky, budete je potřebovat v dalším úkolu.

_značka pro články:_

_značka pro nadpisy:_

_značka pro perexy:_

_značka pro doby čtení:_

**Úkol 7:** Napište funkci `get_articles`, která:

1. postupně projde elementy v proměnné `content` a nalezne v ní všechny značky pro články,
2. články jednotlivě projde,
3. v každém článku vyhledá nadpis, perex a odhadovanou dobu čtení článku,
4. nadpis, perex a dobu čtení převede na holý text,
5. tyto tři holé texty spojí do jednoho řetězce,
6. řetězec připojí do seznamu `all_articles`,
7. na výstup vrátí seznam `all_articles`, který obsahuje jednotlivé texty.

**Poznámka:** Všimněte si, že ne všechny články mají uvedenou dobu čtení. Může se tedy stát, že vám v určité chvíli program spadne s chybovou hláškou. Pro vyřešení tohoto problému určitě budete potřebovat podmínku, která řekne, co se má stát, pokud doba čtení (ne)chybí.

In [None]:
def get_articles(content):
    """ Stáhni nadpis, perex a dobu čtení článků. Články ulož do seznamu. """
    
    all_articles = [] #vytvoř prázdný seznam
    
    for c in content: #pro každý box s články
        #najdi oddíl, ve kterém se nachází článek
        item = c.find_all('div', 
                          {'class': 'design-article--with-image design-article design-tile'})
       
        for i in item: #pro všechny tagy v oddíle s článkem
            article = '' #vytvoř prázdný řetězec
            
            #najdi nadpis a holý text ulož do proměnné head
            head = i.find('h3', {'class': 'element-heading-reset'}).get_text()
            #najdi perex a holý text ulož do proměnné perex
            perex = i.find('div', {'class': 'design-article__perex-content'}).get_text()
            
            #pokud je v oddíle doba čtení
            if i.find('div', {'class': 'design-impressum__item'}):
                #ulož holý text do proměnné time
                time = i.find('div', {'class': 'design-impressum__item'}).get_text()
            else: #pokud v oddíle doba čtení chybí
                time = '\nDoba čtení: nespecifikováno\n' #ulož do proměnné text
            
            article = head + perex + time #spoj nadpis, perex a dobu čtení článku do jednoho řetězce
            all_articles.append(article) #řetězec (článek) přidej do seznamu
            
    return all_articles #vrať seznam článků
        

Zavolejte funkci `get_articles` a její výstup uložte do proměnné `articles`.

In [None]:
articles = get_articles(content) #zavolej funkci get_articles a výsledek ulož do proměnné articles

Iterujte přes seznam `articles` a jednotlivé články vypište.

In [None]:
for a in articles: #pro každý článek v seznamu articles
    print(a) #vypiš článek