# Web Crawler

V tomto notebooku si vyzkoušíte, jak naprogramovat jednoduchý web crawler, tj. program, který sám prochází webové stránky a do vhodného formátu ukládá jejich obsah. K vytvoření takového programu použijete standardní funkce Pythonu, soubor modulů urllib pro otvírání webových stránek a knihovnu BeautifulSoup, díky které jednoduše získáte text z HTML kódu. 

## 1 S čím budete pracovat

### 1.1 HTML

HTML (HyperText Markup Language, česky hypertextový značkovací jazyk), je základním stavebním kamenem webových stránek. Tento jazyk definuje základní strukturu webu. Vedle HTML se při tvorbě stránek používají ještě CSS (Cascading Style Sheets, česky kaskádové styly) pro vzhled webu a programovací jazyk JavaScript např. pro ovládání interaktivních prvků.

Pro tento úkol je důležité seznámit se se strukturou HTML, abyste byli schopní ze stránek stáhnout holý text. Ten je v HTML uzavřen ve značkách, např. `<p>Ahoj!</p>` značí jeden odstavec obsahující text _Ahoj!_.

HTML kód jednotlivých stránek si můžete prohlédnout přímo v prohlížeči. Po kliknutí pravým tlačítkem myši do prostoru stránky se zobrazí menu, ze kterého vyberte Zobrazit zdrojový kód stránky. Otevře se nové okno, ve kterém uvidíte zdrojový kód stránky. Pro stahování dat bude důležité, abyste věděli, v jakých HTML značkách je uzavřen text, který chcete stáhnout. To zjistíte právě ve zdrojovém kódu.

Více o HTML a značkách například [zde](https://www.w3schools.com/html/html_intro.asp) nebo [zde](https://developer.mozilla.org/en-US/docs/Web/HTML).

### 1.2 urllib

urllib je soubor modulů umožňující pracovat s webovými adresami (URL). Z tohoto souboru je pro tento notebook nejdůležitější modul request, který otevře požadované URL.

### 1.3 BeautifulSoup

BeautifulSoup je knihovna pro stahování dat z HTML a XML souborů. V tomto úkolu ji použijete hlavně pro získání holého textu z HTML značek.

Více informací v [dokumentaci](https://beautiful-soup-4.readthedocs.io/en/latest/).

## 2 Instalace

### 2.1 urllib

urllib e součástí tzv. The Python Standard Library (standarní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 2.2 BeautifulSoup

Instalaci BeautifulSoup provedete přímo v tomto notebooku pomocí následující buňky. 

Následující buňku pouze spusťte.

In [None]:
!pip3 install bs4

## 3 Import knihoven a modulů 

Než bude možné začít s psaním programu, je nutné importovat všechny knihovny a moduly, které budete potřebovat. Patří mezi ně:

- urllib
- BeautifulSoup

Spusťte následující buňku, knihovny se importují.

**Poznámka:** Po každém otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu.

In [None]:
from urllib.request import urlopen #importuj modul urlopen
from bs4 import BeautifulSoup #importuj knihovnu BeautifulSoup

## 4 Otevření URL

## 5 Práce se soubory

## 6 BeautifulSoup

In [33]:
url = 'https://cs.wikipedia.org/wiki/Speci%C3%A1ln%C3%AD:N%C3%A1hodn%C3%A1_str%C3%A1nka'

In [34]:
f = urlopen(url)

In [35]:
f = f.read()

In [36]:
print(f.decode('UTF-8'))

<!DOCTYPE html>
<html class="client-nojs" lang="cs" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>František Xaver Marat – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitoring:Články s identif

In [37]:
soup = BeautifulSoup(f, 'html.parser')

In [38]:
pretty = print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="cs">
 <head>
  <meta charset="utf-8"/>
  <title>
   František Xaver Marat – Wikipedie
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitorin

In [39]:
txt = soup.body.get_text()

In [40]:
txt

'\n\n\n\n\n\n\nFrantišek Xaver Marat\n\nZ Wikipedie, otevřené encyklopedie\n\n\n\nSkočit na navigaci\nSkočit na vyhledávání\nJeho ExcelenceFrantišek Xaver Marat O. Cr.František Xaver MaratSvěceníKněžské svěcení1875Biskupské svěcení1902Vykonávané úřady a funkceZastávané úřady\ngenerál a velmistr Rytířského řádu Křížovníků s červenou hvězdou (1902–1915)\nkonsistorní rada v Praze a Litoměřicích\nrada biskupa brněnského\nčlen Panské sněmovny\nčlen Českého zemského sněmu\nOsobní údajeDatum narození22.\xa0října 1849Místo narozeníPočepiceRakouské císařství Rakouské císařstvíDatum úmrtí29.\xa0června 1915 (ve\xa0věku\xa065\xa0let)Místo úmrtíPrahaRakousko-Uhersko Rakousko-UherskoVyznánířímskokatolickéNěkterá data mohou pocházet z datové položky.\nFrantišek Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brn

In [44]:
h1 = soup.find_all('h1')

In [48]:
for h in h1:
    print(h.get_text())

František Xaver Marat


In [50]:
par = soup.find_all('p')

In [51]:
for p in par:
    print(p.get_text())

František Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brněnského, člen Panské sněmovny ve Vídni a Českého zemského sněmu, nositel zlaté medaile královského hlavního města Prahy, čestný občan Řevnic, Starého Knína, Borotic a Klučenic.

František Xaver Marat byl vysvěcen na kněze v roce 1875, velmistrem byl od roku 1902. Svůj život věnoval osvětové i charitativní činnosti ve službách svého řádu. Byl literárně činný, hlavně v oboru historie. Jeho spisy vydala Královská česká společnost nauk.

Je pohřben v Řevnicích.

