# Web scraping

## Co je web scraping?
- Strojové čtení nestrukturovaných dat z webových stránek

## Co není web scraping?
- Stahování dat přes API
- Stahování strukturovaných dat (JSON, CSV,...)
- Crawling - procházení a indexování celé webové stránky pomocí jejích vnitřních hypertextových odkazů


## Příklady web scrapingu

### Analýza cen na českých e-shopech


<div>
    <img src="static/hlidacshopu.png", width="50%"/>
</div>

https://medium.com/@jakubbalada/black-friday-2019-s-hl%C3%ADda%C4%8Dem-shop%C5%AF-9a3ddd352a8c

### Jak hodnotila filmy Mirka Spáčilová


<div>
<img src="static/spacilova.png", width="50%"/>
</div>

https://www.michalblaha.cz/2017/10/filmova-kriticka-mirka-spacilova-v-cislech/

## Etika web scrapingu

- Než začneš s web scrapingem, podívej se, jestli stránka nenabízí strukturovaná data ke stažení nebo neposkytuje API. 
    - **Příklady:** 
    - https://data.gov.cz/datov%C3%A9-sady?poskytovatel=%C4%8Cesk%C3%BD%20statistick%C3%BD%20%C3%BA%C5%99ad
    - https://www.ncdc.noaa.gov/data-access
    - https://www.mapakriminality.cz/data/
    - http://opendata.praha.eu/dataset/meteostanice-chmi-api
- Zjisti si, jaká máš práva k datům, nepublikuj získaná data nelegálně
- Přistupuj ke stránce k rozumné míře, nesnažíš se stránku shodit, ale získat data :-) 

## Z čeho se skládá webová stránka
- **HTML** (HyperText Markup Language): strukturovaný obsah stránky (text a obrázky)
- **CSS** (Cascading Style Sheets): úprava vzhledu stránky
- **JavaScript**: interaktivita obsahu a vzhledu stránky

### HTML 
<div>
    <img src="static/html.png", width="80%">
</div>

- Je tvořen HTML značkami / tagy, např.  ``<img>``
- Většina HTML tagů je párová, např. ``<h2>`` a ``</h2>``
- Tagy mohou mít atributy, které dále specifikují, co a jak bude tag zobrazovat
- Atribut class se obvykle používá k stylování stránky a často podle něj můžeme při webscrapingu odlišit různé části stránky

### CSS

- Popisuje způsob zobrazení html elementů
- Obsahuje 2 části: selektor elementu a blok deklarace:

```
p.error {
  color: red;
}
```


## Pandas: read_html()

Pokud nám stačí stáhnout tabulky z html dokumentu, můžeme použít knihovnu [Pandas](https://pandas.pydata.org/pandas-docs/version/0.25/reference/api/pandas.read_html.html):

In [1]:
import pandas as pd

In [2]:
tables = pd.read_html('https://cs.wikipedia.org/wiki/Seznam_st%C3%A1t%C5%AF_sv%C4%9Bta_podle_spot%C5%99eby_alkoholu')

In [3]:
len(tables)

2

In [4]:
tables[0].head()

Unnamed: 0,stát,evidováno,neevidováno,celkem,pivo,víno,destiláty,ostatní
0,Česko,14.97,1.48,16.45,8.51,2.33,3.59,0.39
1,Maďarsko,12.27,4.0,16.27,4.42,4.94,3.02,0.14
2,Rusko,11.03,4.73,15.76,3.65,0.1,6.88,0.34
3,Ukrajina,8.1,7.5,15.6,2.69,0.58,5.21,0.02
4,Estonsko,13.77,1.8,15.57,5.53,1.09,9.19,0.43


In [5]:
tables[1].head()

Unnamed: 0,Pořadí,Stát,Spotřeba v litrech,Rok
0,1,Francie,12.6,2011
1,2,Rakousko,12.2,2009
2,3,Estonsko,12.0,2011
3,4,Německo,11.7,2009
4,5,Irsko,11.6,2011


### Cvičení

Získejte tabulku aktuálních ekonomických údajů ze stránek Českého statistického úřadu, `https://www.czso.cz/csu/czso/aktualniinformace`.

**Nápověda**: Pokud uvidíte v dataframu ošklivé znaky, zkuste specifikovat `encoding='utf-8'`

## Bonus: co když chceme tabulku z pdf?

Dostat data z pdf dokumentu bývá obtížné. Můžeme zkusit knihovnu [camelot](https://camelot-py.readthedocs.io/en/master/).

Pozor: Je potřeba mít nainstalovaný [Ghostscript](https://www.ghostscript.com/download/gsdnld.html).

In [6]:
import camelot

In [7]:
tables = camelot.read_pdf('static/prd2014.pdf', pages='1-end')

In [8]:
tables

<TableList n=2>

In [9]:
tables[0].df # převedeme tabulku do pandas dataframu

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14
0,Start. \nčíslo,Účastník\n(Příjmení Jméno),Pohlaví \n[Z/M],Rok \nnarození,Družstvo,Hmotnost \n[kg],Odhad času \nvítěze\n(h:mm:s),Čas \n[min],Čas \n[sec],Počet \npiv,Relativ\n[H:M:S],Výsledný čas \n[H:M:S],Pořadí \nRELATIV,Pořadí \nABSOLUTNÍ,Vyhodnoc\není \nodhadu
1,1,Jiřičný Martin,M,1969,Hvězdná pěchota,91,0:35:50,44,39,4,0:25:06,0:44:39,3,26,0:00:37
2,2,Cipl František,M,1951,Rychlá včelka,65,0:35:10,53,19,4,0:44:29,0:53:19,89,96,0:01:17
3,3,Míšek Jan,M,1960,,90,0:36:25,56,33,0,0:43:59,0:56:33,83,120,0:00:02
4,4,Němec Miloš,M,1959,Sebranka,73,0:40:50,49,9,4,0:35:37,0:49:09,33,62,0:04:23
5,5,Valko Stanislav,M,1977,To je jedno,84,0:34:02,61,46,2,0:46:28,1:01:46,100,149,0:02:25
6,6,Přerovský Ondřej,M,1972,,79,0:35:00,54,59,0,0:48:43,0:54:59,113,108,0:01:27
7,7,Bareš Jiří,M,1985,,83,0:28:00,53,21,3,0:37:24,0:53:21,46,98,0:08:27
8,8,Rosen Jan,M,1952,,78,0:00:00,56,13,4,0:39:40,0:56:13,62,117,0:36:27
9,9,Hruša Zdeněk,M,1946,,65,0:29:45,49,26,0,0:53:14,0:49:26,135,65,0:06:42


## BeautifulSoup

Knihovna [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) se používá k získávání dat z HTML a XML souborů. Pracuje s různými parsery, které analyzují HTML soubory, a umožnuje vybrat požadované HTML elementy a pracovat s nimi.


In [10]:
from bs4 import BeautifulSoup

In [11]:
# vzorový html
html_doc = '''
<html lang="en-US">
<head>
<meta charset="UTF-8">
<title>PyData Prague | pydata.cz</title>
<link rel="stylesheet" href="/assets/css/style.css?v=3e86527de11985ac075350329bdb8666892c0b1f">
</head>
<body>
<div class="container-lg px-3 my-5 markdown-body"> 
<h1><a href="https://pydata.cz/">pydata.cz</a></h1>
<h1 id="pydata-prague">PyData Prague</h1>
<p id="description">PyData Prague is a community of data scientists, engineers, analysts, and various other developers 
in the area of scientific computing and data analysis. The term <a class="pydata" href="https://pydata.org/">PyData</a> 
refers to an educational program of <a href="https://numfocus.org/">NumFOCUS</a>, an american non-profit 
helping open source software in terms of governance, financial support, and operations.</p>
<p>The PyData network hosts meetups in hundreds of cities around the world and several conferences each 
year. The Prague chapter started in 2018 with the aim of spreading the word of open source scientific 
computing in the Czech Republic. And while the chapter is based in Prague, we operate and 
collaborate countrywide.</p>
<h2 id="code-of-conduct">Code of Conduct</h2>
<p>We adhere to PyData’s code of conduct, here’s its short version:</p>
<blockquote>
<p>Be kind to others. Do not insult or put down others. Behave professionally. 
Remember that harassment and sexist, racist, or exclusionary jokes and language are not 
appropriate for PyData.</p>
<p>All communication should be appropriate for a professional audience including 
people of many different backgrounds. Sexual language and imagery is not appropriate.</p>
<p>PyData is dedicated to providing a harassment-free event experience for everyone, regardless of 
gender, sexual orientation, gender identity, and expression, disability, physical appearance, 
body size, race, or religion. We do not tolerate harassment of participants in any form.</p>
<p>Thank you for helping make this a welcoming, friendly community for all.</p>
</blockquote>
<p>You can find more information at 
<a class="pydata" href="https://pydata.org/code-of-conduct/">pydata.org/code-of-conduct/</a></p 
</div>  
</body>
</html>
'''

In [12]:
soup = BeautifulSoup(html_doc, 'html.parser')
# Vytiskneme hezky zformatované HTML
print(soup.prettify())

<html lang="en-US">
 <head>
  <meta charset="utf-8"/>
  <title>
   PyData Prague | pydata.cz
  </title>
  <link href="/assets/css/style.css?v=3e86527de11985ac075350329bdb8666892c0b1f" rel="stylesheet"/>
 </head>
 <body>
  <div class="container-lg px-3 my-5 markdown-body">
   <h1>
    <a href="https://pydata.cz/">
     pydata.cz
    </a>
   </h1>
   <h1 id="pydata-prague">
    PyData Prague
   </h1>
   <p id="description">
    PyData Prague is a community of data scientists, engineers, analysts, and various other developers 
in the area of scientific computing and data analysis. The term
    <a class="pydata" href="https://pydata.org/">
     PyData
    </a>
    refers to an educational program of
    <a href="https://numfocus.org/">
     NumFOCUS
    </a>
    , an american non-profit 
helping open source software in terms of governance, financial support, and operations.
   </p>
   <p>
    The PyData network hosts meetups in hundreds of cities around the world and several conferences ea

In [13]:
soup.title

<title>PyData Prague | pydata.cz</title>

In [14]:
# ukáže první element typu h1 
soup.h1

<h1><a href="https://pydata.cz/">pydata.cz</a></h1>

In [15]:
soup.h1.name

'h1'

In [16]:
soup.h1.parent.name

'div'

In [17]:
soup.h1.string

'pydata.cz'

In [18]:
soup.h2

<h2 id="code-of-conduct">Code of Conduct</h2>

In [19]:
soup.h2['id']

'code-of-conduct'

In [20]:
# najde všechny odkazy
links = soup.find_all('a')
links

[<a href="https://pydata.cz/">pydata.cz</a>,
 <a class="pydata" href="https://pydata.org/">PyData</a>,
 <a href="https://numfocus.org/">NumFOCUS</a>,
 <a class="pydata" href="https://pydata.org/code-of-conduct/">pydata.org/code-of-conduct/</a>]

In [21]:
links[0]['href']

'https://pydata.cz/'

In [22]:
links[0].text

'pydata.cz'

In [23]:
soup.find(id="pydata-prague")

<h1 id="pydata-prague">PyData Prague</h1>

Pokud hledáme podle třídy, memůžeme použít ``soup.find(class="pydata")``, protože ``class`` je v Pythonu klíčové slovo. Musíme použít ``class_``

In [24]:
soup.find(class_="pydata")

<a class="pydata" href="https://pydata.org/">PyData</a>

``class`` můžeme taky napsat jako klíč v parametru ``attrs``:

In [25]:
soup.find(attrs={'class':'pydata'})

<a class="pydata" href="https://pydata.org/">PyData</a>

### Cvičení


Vyberte odstavec s id ``description``.

Vyberte všechny odkazy s třídou ``pydata``

## Requests

Knihovna [requests](https://requests.readthedocs.io/en/master/) je určená pro HTTP dotazy. V našem případě ji budeme používat pro získání textu webové stránky.


In [26]:
import requests

In [27]:
r = requests.get('https://pydata.cz/')

Můžeme zkontrolovat návratový stav:

In [28]:
r.status_code

200

[Stavové kódy](https://cs.wikipedia.org/wiki/Stavov%C3%A9_k%C3%B3dy_HTTP) se dělí do 5 skupin:
- 1xx – informační odpověď
- 2xx – úspěch
- 3xx – přesměrování
- 4xx – chyba klienta
- 5xx – chyba serveru

Metoda text ukáže zdrojový kód stránky:

In [29]:
r.text

'<!DOCTYPE html>\n<html lang="en-US">\n  <head>\n    <meta charset="UTF-8">\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <meta name="viewport" content="width=device-width, initial-scale=1">\n\n<!-- Begin Jekyll SEO tag v2.5.0 -->\n<title>PyData Prague | pydata.cz</title>\n<meta name="generator" content="Jekyll v3.8.5" />\n<meta property="og:title" content="PyData Prague" />\n<meta property="og:locale" content="en_US" />\n<link rel="canonical" href="https://pydata.cz/" />\n<meta property="og:url" content="https://pydata.cz/" />\n<meta property="og:site_name" content="pydata.cz" />\n<script type="application/ld+json">\n{"@type":"WebSite","url":"https://pydata.cz/","name":"pydata.cz","headline":"PyData Prague","@context":"http://schema.org"}</script>\n<!-- End Jekyll SEO tag -->\n\n    <link rel="stylesheet" href="/assets/css/style.css?v=3e86527de11985ac075350329bdb8666892c0b1f">\n  </head>\n  <body>\n    <div class="container-lg px-3 my-5 markdown-body">\n      \n     

## BeautifulSoup: CSS selektory

S knihovnou BeautifulSoup můžeme vyhledávat CSS selektory pomocí funkcí `select` (ukáže všechny prvky) a `select_one` (najde první prvek).

In [30]:
r = requests.get('https://dokina.tiscali.cz/program-kin')

In [31]:
soup = BeautifulSoup(r.text)

In [32]:
soup.select('h4')

[<h4>NEJPOPULÁRNĚJŠÍ V KINECH</h4>,
 <h4 class="title mb-0">Dolittle</h4>,
 <h4 class="title mb-0">Mizerové navždy</h4>,
 <h4 class="title mb-0">Případ mrtvého nebožtíka</h4>,
 <h4 class="title mb-0">Šťastný nový rok</h4>,
 <h4 class="title mb-0">Richard Jewell</h4>,
 <h4>NEJBLIŽŠÍ KINA</h4>,
 <h4 class="title mb-0">Jízda</h4>,
 <h4 class="title mb-0">Cats</h4>,
 <h4 class="title mb-0">Jiří Trnka: Nalezený přítel</h4>,
 <h4 class="title mb-0">Portrét dívky v plamenech</h4>,
 <h4 class="title mb-0">Staříci</h4>,
 <h4 class="title mb-0">Karel Svoboda: Šťastná léta</h4>,
 <h4 class="title mb-0">Srdcová královna</h4>,
 <h4 class="title mb-0">Vlastníci</h4>,
 <h4 class="title mb-0">Daleko od Reykjavíku</h4>,
 <h4 class="title mb-0">Dokonalá lež</h4>,
 <h4 class="title mb-0">Na nože</h4>,
 <h4 class="title mb-0">Portrét dívky v plamenech</h4>,
 <h4 class="title mb-0">Richard Jewell</h4>,
 <h4 class="title mb-0">Tenkrát podruhé</h4>,
 <h4 class="title mb-0">Vlastníci</h4>,
 <h4 class="title m

In [33]:
soup.select('html head title') # najdi tag title pod tagy html a head

[<title>Program kin | DOKINA.CZ</title>]

In [34]:
soup.select('.title') # najdi všechny tagy s třídou title

[<h4 class="title mb-0">Dolittle</h4>,
 <h4 class="title mb-0">Mizerové navždy</h4>,
 <h4 class="title mb-0">Případ mrtvého nebožtíka</h4>,
 <h4 class="title mb-0">Šťastný nový rok</h4>,
 <h4 class="title mb-0">Richard Jewell</h4>,
 <h3 class="title mb-0">
 <a data-ga-action="cinema-detail" data-ga-category="program-kin" href="/ponrepo-2836" title="Profil kina">Ponrepo</a>
 <a class="favourite-toggler" data-ga-action="toggle-favorite-cinema" data-ga-category="program-kin" data-id="2836" href="#" title="Přidat do oblíbených"></a>
 </h3>,
 <h3 class="title mb-0">
 <a data-ga-action="cinema-detail" data-ga-category="program-kin" href="/evald-2829" title="Profil kina">Evald</a>
 <a class="favourite-toggler" data-ga-action="toggle-favorite-cinema" data-ga-category="program-kin" data-id="2829" href="#" title="Přidat do oblíbených"></a>
 </h3>,
 <h3 class="title mb-0">
 <a data-ga-action="cinema-detail" data-ga-category="program-kin" href="/mat-2832" title="Profil kina">Mat</a>
 <a class="fav

In [35]:
soup.select('.movie-item .title') # najdi všechny tagy s třídou title uvnitř tagů s třídou movie-item

[<h4 class="title mb-0">Dolittle</h4>,
 <h4 class="title mb-0">Mizerové navždy</h4>,
 <h4 class="title mb-0">Případ mrtvého nebožtíka</h4>,
 <h4 class="title mb-0">Šťastný nový rok</h4>,
 <h4 class="title mb-0">Richard Jewell</h4>,
 <h4 class="title mb-0">Jízda</h4>,
 <h4 class="title mb-0">Cats</h4>,
 <h4 class="title mb-0">Jiří Trnka: Nalezený přítel</h4>,
 <h4 class="title mb-0">Portrét dívky v plamenech</h4>,
 <h4 class="title mb-0">Staříci</h4>,
 <h4 class="title mb-0">Karel Svoboda: Šťastná léta</h4>,
 <h4 class="title mb-0">Srdcová královna</h4>,
 <h4 class="title mb-0">Vlastníci</h4>,
 <h4 class="title mb-0">Daleko od Reykjavíku</h4>,
 <h4 class="title mb-0">Dokonalá lež</h4>,
 <h4 class="title mb-0">Na nože</h4>,
 <h4 class="title mb-0">Portrét dívky v plamenech</h4>,
 <h4 class="title mb-0">Richard Jewell</h4>,
 <h4 class="title mb-0">Tenkrát podruhé</h4>,
 <h4 class="title mb-0">Vlastníci</h4>,
 <h4 class="title mb-0">Výjimeční</h4>,
 <h4 class="title mb-0">Cats</h4>,
 <h4 c

## Nástroje v prohlížeči 

Než začneme stahovat stránku pomocí Pythonu, je dobré podívat se na její strukturu přímo v prohlížeči.

### Zdrojový kód stránky

<br />

<div>
<img src="static/FF_pagesource.png" width="30%"align="left"/>
<img src="static/chrome_pagesource.png" align="left"/> 
</div>

### Prozkoumat prvek / Inspect

<br />

<div>
<img src="static/FF_inspect.png" width="30%"align="left"/>
    Pozor: Zrojový kód vybraného prvku nemusí odpovídat kódu, který stáhnete pomocí Pythonu. Během zobrazení v prohlížeči mohl být změněn JavaScriptem.
<img src="static/inspect.png" align="left"/> 
</div>

### Nástroje pro vývojáře

<br />

<div>
<img src="static/FF_dev.png" />
<img src="static/chrome_dev.png" /> 
</div>


## Příklad z (ne)života

**Extrakce dat o 20 nejlepších filmech podle ČSFD**

Chceme vytvořit tabulku s následujícími sloupci:

- Název filmu
- Průměrné hodnocení
- Země původu
- Rok uvedení
- Délka filmu
- Režisér

*Na scraping není univerzální návod. Obvykle metodou pokus-omyl zkoušíme, co bude fungovat. Pak přijde aktualizace stránek a můžeme začít znovu...*

In [95]:
url = 'https://www.csfd.cz/zebricky/nejlepsi-filmy/'
# stránka odmítá GET requesty identifikace User-Agenta:
headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'}
r = requests.get(url, headers=headers)
soup = BeautifulSoup(r.text, 'html.parser')

In [103]:
soup.select('.film')

[<td class="film" id="chart-2294"><a href="/film/2294-vykoupeni-z-veznice-shawshank/">Vykoupení z věznice Shawshank</a> <span class="film-year" dir="ltr">(1994)</span></td>,
 <td class="film" id="chart-10135"><a href="/film/10135-forrest-gump/">Forrest Gump</a> <span class="film-year" dir="ltr">(1994)</span></td>,
 <td class="film" id="chart-2292"><a href="/film/2292-zelena-mile/">Zelená míle</a> <span class="film-year" dir="ltr">(1999)</span></td>,
 <td class="film" id="chart-2982"><a href="/film/2982-prelet-nad-kukaccim-hnizdem/">Přelet nad kukaččím hnízdem</a> <span class="film-year" dir="ltr">(1975)</span></td>,
 <td class="film" id="chart-2671"><a href="/film/2671-sedm/">Sedm</a> <span class="film-year" dir="ltr">(1995)</span></td>,
 <td class="film" id="chart-8653"><a href="/film/8653-schindleruv-seznam/">Schindlerův seznam</a> <span class="film-year" dir="ltr">(1993)</span></td>,
 <td class="film" id="chart-1644"><a href="/film/1644-kmotr/">Kmotr</a> <span class="film-year" dir=

In [117]:
film_odkazy = soup.select('.film a')
film_odkazy

[<a href="/film/2294-vykoupeni-z-veznice-shawshank/">Vykoupení z věznice Shawshank</a>,
 <a href="/film/10135-forrest-gump/">Forrest Gump</a>,
 <a href="/film/2292-zelena-mile/">Zelená míle</a>,
 <a href="/film/2982-prelet-nad-kukaccim-hnizdem/">Přelet nad kukaččím hnízdem</a>,
 <a href="/film/2671-sedm/">Sedm</a>,
 <a href="/film/8653-schindleruv-seznam/">Schindlerův seznam</a>,
 <a href="/film/1644-kmotr/">Kmotr</a>,
 <a href="/film/306731-nedotknutelni/">Nedotknutelní</a>,
 <a href="/film/6178-dvanact-rozhnevanych-muzu/">Dvanáct rozhněvaných mužů</a>,
 <a href="/film/332773-le-mans-66/">Le Mans '66</a>,
 <a href="/film/4570-pelisky/">Pelíšky</a>,
 <a href="/film/1645-kmotr-ii/">Kmotr II</a>,
 <a href="/film/1248-terminator-2-den-zuctovani/">Terminátor 2: Den zúčtování</a>,
 <a href="/film/8852-pulp-fiction-historky-z-podsveti/">Pulp Fiction: Historky z podsvětí</a>,
 <a href="/film/5911-tenkrat-na-zapade/">Tenkrát na Západě</a>,
 <a href="/film/2356-mlceni-jehnatek/">Mlčení jehňátek

In [118]:
nazvy = [film.text for film in film_odkazy]
nazvy

['Vykoupení z věznice Shawshank',
 'Forrest Gump',
 'Zelená míle',
 'Přelet nad kukaččím hnízdem',
 'Sedm',
 'Schindlerův seznam',
 'Kmotr',
 'Nedotknutelní',
 'Dvanáct rozhněvaných mužů',
 "Le Mans '66",
 'Pelíšky',
 'Kmotr II',
 'Terminátor 2: Den zúčtování',
 'Pulp Fiction: Historky z podsvětí',
 'Tenkrát na Západě',
 'Mlčení jehňátek',
 'Pán prstenů: Společenstvo Prstenu',
 'Pán prstenů: Návrat krále',
 'Gran Torino',
 'Temný rytíř']

In [152]:
soup.select('.average')

[<td class="average">95,3%</td>,
 <td class="average">94,5%</td>,
 <td class="average">92,8%</td>,
 <td class="average">92,5%</td>,
 <td class="average">92,4%</td>,
 <td class="average">92,3%</td>,
 <td class="average">91,8%</td>,
 <td class="average">91,3%</td>,
 <td class="average">91,4%</td>,
 <td class="average">91,4%</td>,
 <td class="average">91,2%</td>,
 <td class="average">90,8%</td>,
 <td class="average">90,8%</td>,
 <td class="average">90,7%</td>,
 <td class="average">90,6%</td>,
 <td class="average">90,5%</td>,
 <td class="average">90,4%</td>,
 <td class="average">90,3%</td>,
 <td class="average">90,3%</td>,
 <td class="average">90,2%</td>]

In [153]:
hodnoceni = [aver.text for aver in soup.select('.average')]
hodnoceni

['95,3%',
 '94,5%',
 '92,8%',
 '92,5%',
 '92,4%',
 '92,3%',
 '91,8%',
 '91,3%',
 '91,4%',
 '91,4%',
 '91,2%',
 '90,8%',
 '90,8%',
 '90,7%',
 '90,6%',
 '90,5%',
 '90,4%',
 '90,3%',
 '90,3%',
 '90,2%']

In [121]:
odkazy = ['https://www.csfd.cz' + film['href'] for film in film_odkazy]
odkazy

['https://www.csfd.cz/film/2294-vykoupeni-z-veznice-shawshank/',
 'https://www.csfd.cz/film/10135-forrest-gump/',
 'https://www.csfd.cz/film/2292-zelena-mile/',
 'https://www.csfd.cz/film/2982-prelet-nad-kukaccim-hnizdem/',
 'https://www.csfd.cz/film/2671-sedm/',
 'https://www.csfd.cz/film/8653-schindleruv-seznam/',
 'https://www.csfd.cz/film/1644-kmotr/',
 'https://www.csfd.cz/film/306731-nedotknutelni/',
 'https://www.csfd.cz/film/6178-dvanact-rozhnevanych-muzu/',
 'https://www.csfd.cz/film/332773-le-mans-66/',
 'https://www.csfd.cz/film/4570-pelisky/',
 'https://www.csfd.cz/film/1645-kmotr-ii/',
 'https://www.csfd.cz/film/1248-terminator-2-den-zuctovani/',
 'https://www.csfd.cz/film/8852-pulp-fiction-historky-z-podsveti/',
 'https://www.csfd.cz/film/5911-tenkrat-na-zapade/',
 'https://www.csfd.cz/film/2356-mlceni-jehnatek/',
 'https://www.csfd.cz/film/4711-pan-prstenu-spolecenstvo-prstenu/',
 'https://www.csfd.cz/film/4712-pan-prstenu-navrat-krale/',
 'https://www.csfd.cz/film/24047

In [123]:
r = requests.get(odkazy[0], headers=headers)
film_soup = BeautifulSoup(r.text, 'html.parser')

In [135]:
film_soup.select_one('.origin').text

'USA, 1994, 142 min'

In [130]:
film_soup.find('span', {'itemprop': 'director'}) 

<span data-truncate="60" itemprop="director">
<a href="/tvurce/2869-frank-darabont/">Frank Darabont</a>
</span>

In [137]:
film_soup.find('span', {'itemprop': 'director'}).a.text

'Frank Darabont'

In [145]:
from time import sleep
import re

In [148]:
zeme = []
roky = []
delky = []
reziseri = []
for odkaz in odkazy:
    r = requests.get(odkaz, headers=headers)
    film_soup = BeautifulSoup(r.text, 'html.parser')
    txt = film_soup.select_one('.origin').text
    puvod, rok, cas, *zbytek = re.split(',|\(', txt) 
    # potřebujeme vyřešit případy typu 166 min (Director's cut: 175 min, Alternativní: 152 min),
    # proto dělíme text podle znaků "," a "("
    reziser = film_soup.find('span', {'itemprop': 'director'}).a.text
    zeme.append(puvod)
    roky.append(rok)
    delky.append(cas)
    reziseri.append(reziser)
    sleep(1) # chováme se lidsky :-)
    

USA, 1994, 142 min
USA, 1994, 142 min
USA, 1999, 188 min
USA, 1975, 133 min
USA, 1995, 127 min
USA, 1993, 195 min
USA, 1972, 175 min
Francie, 2011, 112 min
USA, 1957, 96 min
USA, 2019, 152 min
Česko, 1999, 116 min
USA, 1974, 202 min
USA / Francie, 1991, 137 min (SE: 154 min)
USA, 1994, 154 min
Itálie / USA, 1968, 166 min (Director's cut: 175 min, Alternativní: 152 min)
USA, 1991, 119 min
USA / Nový Zéland, 2001, 172 min (SE: 208 min, Director's cut: 228 min)
USA / Nový Zéland, 2003, 201 min (SE: 263 min)
Německo / USA, 2008, 116 min
USA / Velká Británie, 2008, 152 min


In [154]:
filmy_df = pd.DataFrame(zip(nazvy, zeme, roky, reziseri, delky, hodnoceni), 
                        columns=['Název', 'Původ', 'Rok', 'Režie', 'Délka', 'ČSFD'])
filmy_df

Unnamed: 0,Název,Původ,Rok,Režie,Délka,ČSFD
0,Vykoupení z věznice Shawshank,USA,1994,Frank Darabont,142 min,"95,3%"
1,Forrest Gump,USA,1994,Robert Zemeckis,142 min,"94,5%"
2,Zelená míle,USA,1999,Frank Darabont,188 min,"92,8%"
3,Přelet nad kukaččím hnízdem,USA,1975,Miloš Forman,133 min,"92,5%"
4,Sedm,USA,1995,David Fincher,127 min,"92,4%"
5,Schindlerův seznam,USA,1993,Steven Spielberg,195 min,"92,3%"
6,Kmotr,USA,1972,Francis Ford Coppola,175 min,"91,8%"
7,Nedotknutelní,Francie,2011,Eric Toledano,112 min,"91,3%"
8,Dvanáct rozhněvaných mužů,USA,1957,Sidney Lumet,96 min,"91,4%"
9,Le Mans '66,USA,2019,James Mangold,152 min,"91,4%"


## Jak na JavaScript

Pokud webová stránka používá JavaScript k generování obsahu, máme dvě možnosti:

1. Pochopit, co JavaScript dělá
2. Chovat se jako browser

### Možnost 1: Developer tools

### Možnost 2: Headless browsers