# Web Crawler

V tomto notebooku si vyzkoušíte, jak naprogramovat jednoduchý web crawler, tj. program, který sám prochází webové stránky a do vhodného formátu ukládá jejich obsah. K vytvoření takového programu použijete standardní funkce Pythonu, soubor modulů urllib pro otvírání webových stránek a knihovnu BeautifulSoup, díky které jednoduše získáte text z HTML kódu. 

## 1 S čím budete pracovat

### 1.1 HTML

HTML (HyperText Markup Language, česky hypertextový značkovací jazyk), je základním stavebním kamenem webových stránek. Tento jazyk definuje základní strukturu webu. Vedle HTML se při tvorbě stránek používají ještě CSS (Cascading Style Sheets, česky kaskádové styly) pro vzhled webu a programovací jazyk JavaScript např. pro ovládání interaktivních prvků.

Pro tento úkol je důležité seznámit se se strukturou HTML, abyste byli schopní ze stránek stáhnout holý text. Ten je v HTML uzavřen ve značkách, např. `<p>Ahoj!</p>` značí jeden odstavec obsahující text _Ahoj!_.

HTML kód jednotlivých stránek si můžete prohlédnout přímo v prohlížeči. Po kliknutí pravým tlačítkem myši do prostoru stránky se zobrazí menu, ze kterého vyberte Zobrazit zdrojový kód stránky. Otevře se nové okno, ve kterém uvidíte zdrojový kód stránky. Pro stahování dat bude důležité, abyste věděli, v jakých HTML značkách je uzavřen text, který chcete stáhnout. To zjistíte právě ve zdrojovém kódu.

Více o HTML a značkách například [zde](https://www.w3schools.com/html/html_intro.asp) nebo [zde](https://developer.mozilla.org/en-US/docs/Web/HTML).

### 1.2 urllib

urllib je soubor modulů umožňující pracovat s webovými adresami (URL). Z tohoto souboru je pro tento notebook nejdůležitější modul request, který otevře požadované URL.

### 1.3 BeautifulSoup

BeautifulSoup je knihovna pro stahování dat z HTML a XML souborů. V tomto úkolu ji použijete hlavně pro získání holého textu z HTML značek.

Více informací v [dokumentaci](https://beautiful-soup-4.readthedocs.io/en/latest/).

## 2 Instalace

### 2.1 urllib

urllib e součástí tzv. The Python Standard Library (standarní knihovny Pythonu), není tedy nutné nic instalovat.

Více informací na [The Python Standard Library](https://docs.python.org/3/library/).

### 2.2 BeautifulSoup

Instalaci BeautifulSoup provedete přímo v tomto notebooku pomocí následující buňky. 

Následující buňku pouze spusťte.

In [None]:
!pip3 install bs4

## 3 Import knihoven a modulů 

Než bude možné začít s psaním programu, je nutné importovat všechny knihovny a moduly, které budete potřebovat. Patří mezi ně:

- urllib
- BeautifulSoup

Spusťte následující buňku, knihovny se importují.

**Poznámka:** Po každém otevření notebooku je nutné všechen kód (tj. i importování) spustit znovu.

In [2]:
from urllib.request import urlopen #importuj modul urlopen
from bs4 import BeautifulSoup #importuj knihovnu BeautifulSoup

## 4 Otevření URL

Abyste mohli stáhnout textová data z internetových stránek, musíte je nejdřív v Pythonu otevřít. K tomu slouží modul urlopen.

In [22]:
f = urlopen('https://cs.wikipedia.org/wiki/Web_crawler')

In [23]:
print(f)

<http.client.HTTPResponse object at 0x7f417c5bdee0>


Pokud budete chtít obsah stránky vypsat, musíte použít metodu read. Blíže se s ní seznámíte v sekci Práce se soubory.

In [24]:
f = f.read()

In [25]:
print(f)

b'<!DOCTYPE html>\n<html class="client-nojs" lang="cs" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Web crawler \xe2\x80\x93 Wikipedie</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\\t.","\xc2\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"\xc4\x8cSN basic dt","wgMonthNames":["","leden","\xc3\xbanor","b\xc5\x99ezen","duben","kv\xc4\x9bten","\xc4\x8derven","\xc4\x8dervenec","srpen","z\xc3\xa1\xc5\x99\xc3\xad","\xc5\x99\xc3\xadjen","listopad","prosinec"],"wgRequestId":"75d70256-2b7a-4177-ba9a-97ae09c84531","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:\xc4\x8cl\xc3\xa1nky p\xc5\x99elo\x

Vypsaný text je sice nepřehledný, můžete si ale všimnout, že nepodporuje písmena s diakritikou. Např. slovo _vyhledávače_ je v textu reprezentováno jako _vyhled\xc3\xa1va\xc4\x8de_. To souvisí s kódováním, tj. reprezentací znaků na počítači. Aby se vám text zobrazil i s písmeny s diakritikou, použijte metodu decode s parametrem UTF-8.

Více o kódování [zde](https://cs.wikipedia.org/wiki/K%C3%B3dov%C3%A1n%C3%AD_znak%C5%AF) a o standardu UTF-8 [zde](https://cs.wikipedia.org/wiki/UTF-8).

In [26]:
f = f.decode('UTF-8')

In [27]:
print(f)

<!DOCTYPE html>
<html class="client-nojs" lang="cs" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>Web crawler – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"75d70256-2b7a-4177-ba9a-97ae09c84531","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"Web_crawler","wgTitle":"Web crawler","wgCurRevisionId":18168319,"wgRevisionId":18168319,"wgArticleId":1256095,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Monitoring:Články přeložené z enwiki","Pahýly","Monitoring:Články s identifikátorem TDKIV","Monitoring:Články s identifikátorem GND","Webový software"

## 6 BeautifulSoup

## 5 Práce se soubory

Pokud budete chtít stažené stránky uložit do souboru, využijete metody zmíněné v této kapitole.

### 5.1 Otevření souboru

K otevření souboru v Pythonu slouží metoda `open`. Požaduje dva parametry:

1. název souboru (pokud se soubor nachází ve stejné složce jako program, stačí pouze název s formátem, pokud se soubor nachází jinde, je nutné specifikovat celou cestu),
2. mód, v jakém se soubor otevře (ve vašem případě `r`= read = ke čtení).

Pokud si budete chtít otevření souboru vyzkoušet, zkontrolujte, že do příkazu níže zadáváte existující soubor s platnou cestou.

In [4]:
txt = open('uryvek.txt', 'r') #otevři soubor ke čtení

Všimněte si, že metoda `open` sice otevře daný soubor a uloží jej do proměnné, nevypíše ale obsah souboru.

In [26]:
txt #vypiš proměnnou txt

<_io.TextIOWrapper name='uryvek.txt' mode='r' encoding='UTF-8'>

### 5.2 Přečtení souboru

K výpisu obsahu proměnné musíte použít metodu `read`, která přečte celý soubor (případně metodu `readlines`, která čte po jednom řádku).

In [27]:
txt2 = txt.read() #přečti obsah proměnné txt2

In [28]:
txt2 #vypiš proměnnou txt2

'Zprava:\n\n      V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\n'

In [36]:
txt3 = txt.readlines(1) #přečti jeden řádek

In [37]:
txt3 #vypiš proměnnou txt3

['Zprava:\n']

#### 5.2.1 Iterace přes řádky

Díky metodě `readlines` je navíc možné přes řádky v textu iterovat ve for cyklu postupně a dále s nimi pracovat.

In [68]:
line_num = 0 #vytvoř novou proměnnou pro počítání řádků

for line in txt.readlines(): #iteruj přes každý řádek v textu
    line_num += 1 #zvyš číslo řádku o jedna
    print(line_num, line) #vypiš číslo řádku a celý řádek

1 Zprava:

2 

3       V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.

4 ahoj


### 5.3 Zavření souboru

K zavření souboru slouží metoda `close`. Zavírání souborů je dobrou praxí, která vám zaručí, že si nepoškodíte soubory, se kterými pracujete. Více na [Stack Overflow](https://stackoverflow.com/questions/7395542/is-explicitly-closing-files-important).

**Poznámka:** Pokud proměnnou přepíšete, tj. proměnná již neobsahuje samotný soubor, ale např. text uložený v řetězci, zavřít soubor vám nepůjde.

In [3]:
txt.close() #zavři soubor uložený v proměnné txt

#### 5.3.1 With open

Metoda `with open` se o zavření souboru postará automaticky. Více třeba ve vláknu na [Stack Overflow](https://stackoverflow.com/questions/9282967/how-to-open-a-file-using-the-open-with-statement).

### 5.4 Zápis do již existujícího souboru

Pokud chcete do souboru i zapisovat, musíte změnit mód, ve kterém soubor otevřete. V sekci 6.1 byl použit mód `r` (ke čtení). Pro zápis si můžete vybrat ze dvou módů:

1. `a` = append = další text připojí na konec souboru
2. `w` = write = přepíše existující obsah souboru

In [1]:
txt = open('uryvek.txt', 'a') #otevři soubor v módu append

Po použití těchto dvou módů můžete použít metodu `write` k zápisu dalších řetězců do souboru.

In [2]:
txt.write('Nový text') #zapiš do souboru txt řetězec Nový text

9

In [5]:
txt.read() #přečti obsah proměnné txt

'Zprava:\n\n      V polovině ledna se v médiích objevila zpráva, že předsedkyně Poslanecké sněmovny Markéta Pekarová Adamová shání stážistu. „Stážistce či stážistovi nabízíme aktivní zapojení do práce v oblasti mezinárodních vztahů a diplomatických aktivit předsedkyně, seznámení se s chodem kanceláře předsedkyně a také s prostorami a fungováním Poslanecké sněmovny,“ stojí v inzerátu.\n\nNový text'

### 5.5 Vytvoření nového souboru

K vytvoření nového souboru neexistuje specifická funkce, použijte metodu `open` s některým ze třech módů: `x`, `a`, `w`. 

S `a` a `w` jste se setkali v předchozí podkapitole. Jejich použití od nového módu `x` = create se liší v chybových hláškách. Módy `a` a `w` vytvoří nový soubor pouze, pokud ještě neexistuje. Pokud soubor se stejným jménem existuje, nestane se nic, ale nedostanete ani chybovou hlášku. Oproti tomu mód `x` vytvoří nový soubor pouze pokud soubor se stejným jménem ještě neexistuje. Ale pokud takový soubor existuje, dostanete chybovou hlášku.

In [43]:
txt = open('uryvek2.txt', 'w') #vytvoř nový soubor pomocí módu write

In [1]:
txt = open('uryvek2.txt', 'a') #vytvoř nový soubor pomocí módu append (soubor již existuje, nic se nestane a
                               #a ani nedostaneme chybovou hlášku)

In [45]:
txt = open('uryvek2.txt', 'x') #vytvoř nový soubor pomocí módu create (soubor již existuje, dostaneme chybovou
                               #hlášku)

FileExistsError: [Errno 17] File exists: 'uryvek2.txt'

Přehled všech metod a módů práce se souboru naleznete např. na [Geeks for Geeks](https://www.geeksforgeeks.org/writing-to-file-in-python/).

## Vlastni web crawler

In [33]:
url = 'https://cs.wikipedia.org/wiki/Speci%C3%A1ln%C3%AD:N%C3%A1hodn%C3%A1_str%C3%A1nka'

In [34]:
f = urlopen(url)

In [35]:
f = f.read()

In [36]:
print(f.decode('UTF-8'))

<!DOCTYPE html>
<html class="client-nojs" lang="cs" dir="ltr">
<head>
<meta charset="UTF-8"/>
<title>František Xaver Marat – Wikipedie</title>
<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitoring:Články s identif

In [37]:
soup = BeautifulSoup(f, 'html.parser')

In [38]:
pretty = print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="cs">
 <head>
  <meta charset="utf-8"/>
  <title>
   František Xaver Marat – Wikipedie
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":[",\t."," \t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ČSN basic dt","wgMonthNames":["","leden","únor","březen","duben","květen","červen","červenec","srpen","září","říjen","listopad","prosinec"],"wgRequestId":"4d98eb39-236a-4a5f-8f51-716ecee29074","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"František_Xaver_Marat","wgTitle":"František Xaver Marat","wgCurRevisionId":20690820,"wgRevisionId":20690820,"wgArticleId":692653,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["Údržba:Wikidata mají jiný štítek","Monitoring:Články s odkazem na autoritní záznam","Pahýly","Monitorin

In [39]:
txt = soup.body.get_text()

In [40]:
txt

'\n\n\n\n\n\n\nFrantišek Xaver Marat\n\nZ Wikipedie, otevřené encyklopedie\n\n\n\nSkočit na navigaci\nSkočit na vyhledávání\nJeho ExcelenceFrantišek Xaver Marat O. Cr.František Xaver MaratSvěceníKněžské svěcení1875Biskupské svěcení1902Vykonávané úřady a funkceZastávané úřady\ngenerál a velmistr Rytířského řádu Křížovníků s červenou hvězdou (1902–1915)\nkonsistorní rada v Praze a Litoměřicích\nrada biskupa brněnského\nčlen Panské sněmovny\nčlen Českého zemského sněmu\nOsobní údajeDatum narození22.\xa0října 1849Místo narozeníPočepiceRakouské císařství Rakouské císařstvíDatum úmrtí29.\xa0června 1915 (ve\xa0věku\xa065\xa0let)Místo úmrtíPrahaRakousko-Uhersko Rakousko-UherskoVyznánířímskokatolickéNěkterá data mohou pocházet z datové položky.\nFrantišek Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brn

In [44]:
h1 = soup.find_all('h1')

In [48]:
for h in h1:
    print(h.get_text())

František Xaver Marat


In [50]:
par = soup.find_all('p')

In [51]:
for p in par:
    print(p.get_text())

František Xaver Marat (22. října 1849 Počepice[1] – 29. června 1915 Řevnice[2]) byl generál a velmistr Rytířského řádu Křižovníků s červenou hvězdou v Praze, infulovaný prelát království Českého, konsistorní rada v Praze a Litoměřicích, rada biskupa brněnského, člen Panské sněmovny ve Vídni a Českého zemského sněmu, nositel zlaté medaile královského hlavního města Prahy, čestný občan Řevnic, Starého Knína, Borotic a Klučenic.

František Xaver Marat byl vysvěcen na kněze v roce 1875, velmistrem byl od roku 1902. Svůj život věnoval osvětové i charitativní činnosti ve službách svého řádu. Byl literárně činný, hlavně v oboru historie. Jeho spisy vydala Královská česká společnost nauk.

Je pohřben v Řevnicích.

