# Web Crawler

V tomto notebooku si vyzkoušíte, jak naprogramovat jednoduchý web crawler, tj. program, který sám prochází webové stránky a do vhodného formátu ukládá jejich obsah. K vytvoření takového programu použijete standardní funkce Pythonu, soubor modulů urllib pro otvírání webových stránek a knihovnu BeautifulSoup, díky které jednoduše získáte text z HTML kódu. 

## 1 S čím budete pracovat

### 1.1 HTML

HTML (HyperText Markup Language, česky hypertextový značkovací jazyk), je základním stavebním kamenem webových stránek. Tento jazyk definuje základní strukturu webu. Vedle HTML se při tvorbě stránek používají ještě CSS (Cascading Style Sheets, česky kaskádové styly) pro vzhled webu a programovací jazyk JavaScript např. pro ovládání interaktivních prvků.

Pro tento úkol je důležité seznámit se se strukturou HTML, abyste byli schopní ze stránek stáhnout holý text. Ten je v HTML uzavřen ve značkách, např. `<p>Ahoj!</p>` značí jeden odstavec obsahující text _Ahoj!_.

HTML kód jednotlivých stránek si můžete prohlédnout přímo v prohlížeči. Po kliknutí pravým tlačítkem myši do prostoru stránky se zobrazí menu, ze kterého vyberte Zobrazit zdrojový kód stránky. Otevře se nové okno, ve kterém uvidíte zdrojový kód stránky. Pro stahování dat bude důležité, abyste věděli, v jakých HTML značkách je uzavřen text, který chcete stáhnout. To zjistíte právě ve zdrojovém kódu.

Více o HTML a značkách například [zde](https://www.w3schools.com/html/html_intro.asp) nebo [zde](https://developer.mozilla.org/en-US/docs/Web/HTML).

### 1.2 urllib

urllib je soubor modulů umožňující pracovat s webovými adresami (URL). Z tohoto souboru je pro tento notebook nejdůležitější modul request, který otevře požadované URL.

### 1.3 BeautifulSoup

BeautifulSoup je knihovna pro stahování dat z HTML a XML souborů. V tomto úkolu ji použijete hlavně pro získání holého textu z HTML značek.

Více informací v [dokumentaci](https://beautiful-soup-4.readthedocs.io/en/latest/).

## 2 Instalace

### 2.1 urllib

urllib e součástí tzv. The Python Standard Library (standarní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 2.2 BeautifulSoup

Instalaci BeautifulSoup provedete přímo v tomto notebooku pomocí následující buňky. 

Následující buňku pouze spusťte.

In [None]:
!pip3 install bs4

## 3 Import knihoven a modulů 

Než bude možné začít s psaním programu, je nutné importovat všechny knihovny a moduly, které budete potřebovat. Patří mezi ně:

- urllib
- BeautifulSoup

Spusťte následující buňku, knihovny se importují.

**Poznámka:** Po každém otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu.

In [1]:
from urllib.request import urlopen #importuj modul urlopen
from bs4 import BeautifulSoup #importuj knihovnu BeautifulSoup

## 4 Otevření URL

Abyste mohli stáhnout textová data z internetových stránek, musíte je nejdřív v Pythonu otevřít. K tomu slouží modul urlopen.

In [20]:
f = urlopen('https://cs.wikipedia.org/wiki/Web_crawler')

In [21]:
print(f)

<http.client.HTTPResponse object at 0x7f0f483ceeb0>


Pokud budete chtít obsah stránky vypsat, musíte použít metodu read. Blíže se s ní seznámíte v sekci Práce se soubory.

In [22]:
f = f.read()

In [23]:
print(f)

b'<!DOCTYPE html>\n<html class="client-nojs" lang="cs" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Web crawler \xe2\x80\x93 Wikipedie</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"\xc4\x8cSN basic dt","wgMonthNames":["","leden","\xc3\xbanor","b\xc5\x99ezen","duben","kv\xc4\x9bten","\xc4\x8derven","\xc4\x8dervenec","srpen","z\xc3\xa1\xc5\x99\xc3\xad","\xc5\x99\xc3\xadjen","listopad","prosinec"],"wgRequestId":"bce9d3ab-8494-403e-8abd-7b8cc94f713b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:\xc4\x8cl\xc3\xa1nky p\xc5\x99elo\x

Vypsaný text je sice nepřehledný, můžete si ale všimnout, že nepodporuje písmena s diakritikou. Např. slovo _vyhledávače_ je v textu reprezentováno jako _vyhled\xc3\xa1va\xc4\x8de_. To souvisí s kódováním, tj. reprezentací znaků na počítači. Aby se vám text zobrazil i s písmeny s diakritikou, použijte metodu decode s parametrem UTF-8.

Více o kódování [zde](https://cs.wikipedia.org/wiki/K%C3%B3dov%C3%A1n%C3%AD_znak%C5%AF) a o standardu UTF-8 [zde](https://cs.wikipedia.org/wiki/UTF-8).

In [24]:
f_decoded = f.decode('UTF-8')

In [25]:
print(f_decoded)

<!DOCTYPE html>
<html class="client-nojs" lang="cs" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Web crawler – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"bce9d3ab-8494-403e-8abd-7b8cc94f713b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:Články přeložené z enwiki","Pahýly","Monitoring:Články s identifikátorem TDKIV","Monitoring:Články s identifikátorem GND","Webový software"

## 5 BeautifulSoup

Pro získání holého textu bez HTML značek použijte knihovnu BeautifulSoup. Nejprve zavolejte BeautifulSoup konstruktor, který požaduje dva parametry:

1. HTML dokument (v tomto případě uložený v proměnné `f` z předchozí kapitoly),
2. typ parseru, v tomto případě `html.parser`, jelikož pracujete s dokumentem psaným v HTML.

Do proměnné `soup` uložte výsledek.

In [26]:
soup = BeautifulSoup(f, 'html.parser')

Po vypsání proměnné `soup` si na první pohled nevšimnete větších změn od výpisů v minulé sekci. Díky použití konstruktoru můžete použít metody z knihovny BeautifulSoup pro práci s HTML dokumenty, jelikož se nejedná o obyčejný textový řetězec ale objekt BeautifulSoup.

In [29]:
print(soup)

<!DOCTYPE html>

<html class="client-nojs" dir="ltr" lang="cs">
<head>
<meta charset="utf-8"/>
<title>Web crawler – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"bce9d3ab-8494-403e-8abd-7b8cc94f713b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:Články přeložené z enwiki","Pahýly","Monitoring:Články s identifikátorem TDKIV","Monitoring:Články s identifikátorem GND","Webový software

In [30]:
type(soup)

bs4.BeautifulSoup

### 5.1 prettify

První užitečnou metodou je `prettify`, která text formátuje do přehledného řetězce. Díky tomu si HTML kód můžete přehledně prohlédnout.

In [27]:
pretty = print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="cs">
 <head>
  <meta charset="utf-8"/>
  <title>
   Web crawler – Wikipedie
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"bce9d3ab-8494-403e-8abd-7b8cc94f713b","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:Články přeložené z enwiki","Pahýly","Monitoring:Články s identifikátorem TDKIV","Monitoring:Články s identifikátorem GND"

In [31]:
type(pretty)

NoneType

### 5.2 get_text

Metoda `get_text` vám umožní získat holý text bez HTML značek. Můžete ji použít na celý text nebo jen na text v určitých značkách.

In [32]:
txt = soup.get_text()

In [33]:
print(txt)





Web crawler – Wikipedie
































Web crawler

Z Wikipedie, otevřené encyklopedie



Skočit na navigaci
Skočit na vyhledávání
Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze (web index). Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení.

Obsah

1 Přehled
2 Vyhledávací politiky

2.1 Výběrová politika
2.2 Politika opětovných návštěv
2.3 Politika zdvořilosti
2.4 Politika paralelního zpracování


3 Příklady
4 Reference


Přehled[editovat | editovat zdroj]
Web crawler začíná se seznamem URL adres k návštěvě, které prohledává a přes HTTP protokol si o nich ukládá důležitá data jako je jejich obsah (text), metadata (datum stažení stránky, hash či změny od poslední návštěvy 

In [34]:
heading = soup.h1.get_text()

In [35]:
print(heading)

Web crawler


### 5.3 find_all

Pro vyhledání všech instancí jedné značky slouží metoda `find_all`. Do parametru této metody uveďte HTML značku, kterou chcete nalézt.

Pro nalezení všech odstavců můžete použít následující kód.

In [36]:
par = soup.find_all('p')

Všimněte si, že výstupem `find_all` je seznam. Všechny odstavce jsou ponechány s HTML značkami. Pro přehledné vypsání obsahu proměnné tedy nestačí proměnnou puze vypsat, musíte přes její prvky iterovat a vypsat je postupně pomocí metody `get_text`.

In [37]:
print(par)

[<p><b>Web crawler</b> (někdy také <b>spider</b>) je v <a href="/wiki/Informatika" title="Informatika">informatice</a> specializovaný <a href="/wiki/Internetov%C3%BD_bot" title="Internetový bot">internetový bot</a>, který prochází <a href="/wiki/World_Wide_Web" title="World Wide Web">World Wide Web</a> za účelem vytvoření obrovské databáze (<a class="new" href="/w/index.php?title=Web_indexing&amp;action=edit&amp;redlink=1" title="Web indexing (stránka neexistuje)">web index</a>). Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. <a href="/wiki/Webov%C3%BD_vyhled%C3%A1va%C4%8D" title="Webový vyhledávač">Webový vyhledávač</a> pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení.
</p>, <p>Web crawler začíná se seznamem <a href="/wiki/Uniform_Resource_Locator" title="Uniform Resource Locator">URL</a> adres k návštěvě, které prohledává a přes <a href="/wiki/Hypertext

In [38]:
for p in par:
    print(p.get_text())

Web crawler (někdy také spider) je v informatice specializovaný internetový bot, který prochází World Wide Web za účelem vytvoření obrovské databáze (web index). Navštěvuje automaticky veškeré dostupné webové stránky a tím umožní zaznamenat, která slova kde viděl. Webový vyhledávač pak na dotaz uživatele (jedno nebo více slov) může z web indexu odpovědět, na kterých stránkách jsou hledaná slova k nalezení.

Web crawler začíná se seznamem URL adres k návštěvě, které prohledává a přes HTTP protokol si o nich ukládá důležitá data jako je jejich obsah (text), metadata (datum stažení stránky, hash či změny od poslední návštěvy apod.), případně informace o zpětných odkazech. Identifikuje všechny hypertextové odkazy (tj. obsah HTML atributů src a href) a přidává je do seznamu URL adres, které bude stahovat v budoucnu.

Data posbírána crawlerem se ukládají na pevné disky o vysokých kapacitách a slouží jako databáze pro příští návštěvy. Na internetu je teoreticky nekonečné množství webových str

Další informace ke všem metodám a dalším užitečným informacím knihovny BeautifulSoup naleznete [zde](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#beautiful-soup-documentation).

## 7 Web crawler

V této sekci budete mít za úkol naprogramovat vlastní web crawler.

**Úkol:** Vytvořte program, který projde vámi určené webové stránky, očistí text od značek a uloží jej ve vhodné formě. Zkuste se zamyslet nad účelem, pro který by stažené texty mohly sloužit, a podle toho se rozhodněte, odkud texty stáhnete a jak je uložíte.

Program vhodně rozdělte na funkce.

In [54]:
def crawler():
    url = 'https://cs.wikipedia.org/wiki/Speci%C3%A1ln%C3%AD:N%C3%A1hodn%C3%A1_str%C3%A1nka'
    txts = []
    
    for i in range(20):
        print('Příprava textu #'+str(i+1))
        txt_final = ''
        
        u = urlopen(url)
        u = u.read()
        u = u.decode('UTF-8')
        
        soup = BeautifulSoup(u, 'html.parser')
        txt = soup.body.get_text()
        
        h1 = soup.find_all('h1')
        for h in h1:
            txt_final += h.get_text() + '\n'
            
        par = soup.find_all('p')
        for p in par:
            txt_final += p.get_text()
        
        txts.append(txt_final)

    return txts

In [55]:
c = crawler()

Příprava textu #1
Příprava textu #2
Příprava textu #3
Příprava textu #4
Příprava textu #5
Příprava textu #6
Příprava textu #7
Příprava textu #8
Příprava textu #9
Příprava textu #10
Příprava textu #11
Příprava textu #12
Příprava textu #13
Příprava textu #14
Příprava textu #15
Příprava textu #16
Příprava textu #17
Příprava textu #18
Příprava textu #19
Příprava textu #20


In [56]:
print(c)

['Lonah Chemtai Salpeter\nLonah Chemtai Salpeter (* 12. prosince 1988) je izraelská atletka původem z Keni, běžkyně na dlouhé tratě, mistryně Evropy v běhu na 10 000 metrů z roku 2018.\nPochází z Keni, do Izraele přišla v roce 2008 jako vychovatelka dětí keňského velvyslance v Izraeli. Původně se věnovala středním tratím, od roku 2014 maratonu. V tomto roce se provdala za svého trenéra Dana Salpetera. Startovala v maratonu na olympiádě v Rio de Janeiro, ale nedoběhla. Na mistrovství Evropy v roce 2018 zvítězila v běhu na 10 000 metrů. Startovala také na poloviční trati, zde omylem finišovala o kolo dříve. Poté doběhla až čtvrtá a následně byla diskvalifikována za vyšlápnutí z trati.\n', 'Cesiomaggiore\nCesiomaggiore je italské město v provincii Belluno v regionu Benátsko (Veneto). Má 4 187 obyvatel (2011).\nMěsto se až do roku 1867 jmenovalo Cesio.[1]\n', 'Škoda 15T\nŠkoda 15T (obchodní název ForCity Alfa; v prvních letech před rozšířením rodiny typů ForCity se používal pouze název For

In [34]:
f = urlopen(url)

In [35]:
f = f.read()

In [36]:
print(f.decode('UTF-8'))

<!DOCTYPE html>
<html class="client-nojs" lang="cs" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>František Xaver Marat – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitoring:Články s identif

In [37]:
soup = BeautifulSoup(f, 'html.parser')

In [38]:
pretty = print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="cs">
 <head>
  <meta charset="utf-8"/>
  <title>
   František Xaver Marat – Wikipedie
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitorin

In [39]:
txt = soup.body.get_text()

In [40]:
txt

'\n\n\n\n\n\n\nFrantišek Xaver Marat\n\nZ Wikipedie, otevřené encyklopedie\n\n\n\nSkočit na navigaci\nSkočit na vyhledávání\nJeho ExcelenceFrantišek Xaver Marat O. Cr.František Xaver MaratSvěceníKněžské svěcení1875Biskupské svěcení1902Vykonávané úřady a funkceZastávané úřady\ngenerál a velmistr Rytířského řádu Křížovníků s červenou hvězdou (1902–1915)\nkonsistorní rada v Praze a Litoměřicích\nrada biskupa brněnského\nčlen Panské sněmovny\nčlen Českého zemského sněmu\nOsobní údajeDatum narození22.\xa0října 1849Místo narozeníPočepiceRakouské císařství Rakouské císařstvíDatum úmrtí29.\xa0června 1915 (ve\xa0věku\xa065\xa0let)Místo úmrtíPrahaRakousko-Uhersko Rakousko-UherskoVyznánířímskokatolickéNěkterá data mohou pocházet z datové položky.\nFrantišek Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brn

In [44]:
h1 = soup.find_all('h1')

In [48]:
for h in h1:
    print(h.get_text())

František Xaver Marat


In [50]:
par = soup.find_all('p')

In [51]:
for p in par:
    print(p.get_text())

František Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brněnského, člen Panské sněmovny ve Vídni a Českého zemského sněmu, nositel zlaté medaile královského hlavního města Prahy, čestný občan Řevnic, Starého Knína, Borotic a Klučenic.

František Xaver Marat byl vysvěcen na kněze v roce 1875, velmistrem byl od roku 1902. Svůj život věnoval osvětové i charitativní činnosti ve službách svého řádu. Byl literárně činný, hlavně v oboru historie. Jeho spisy vydala Královská česká společnost nauk.

Je pohřben v Řevnicích.

