Knihovna `requests` se používá pro HTTP dotazy. Během tohoto workshopu ji budeme použivat pro ziskání zdrojového kódu webové stránky.

In [1]:
import requests
from bs4 import BeautifulSoup

Ziskání zdrojového kódu stránky

In [2]:
r = requests.get('https://www.seznam.cz/')

Ukázat [status HTTP požadávku](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status)

In [3]:
r

<Response [200]>

Ukázat zdrojový kód stránky.

In [4]:
r.text

'<!DOCTYPE html><html lang="cs" class="html-no-js html-no-flex html-no-column-count html-no-hover"><head><meta charSet="utf-8"/><title data-react-helmet="true">Seznam – najdu tam, co neznám</title><meta http-equiv="X-UA-Compatible" content="IE=edge"/><meta content="width=device-width, initial-scale=1, minimal-ui" name="viewport"/><meta name="application-name" content="Seznam.cz"/><meta name="apple-itunes-app" content="app-id=950278657, app-argument=https://www.seznam.cz"/><meta content="/media/img/logo-share-square_v2.png" property="og:image"/><meta http-equiv="x-dns-prefetch-control" content="on"/><link rel="dns-prefetch" href="https://www.novinky.cz/"/><link rel="dns-prefetch" href="https://www.super.cz/"/><link rel="dns-prefetch" href="https://www.sport.cz/"/><link rel="dns-prefetch" href="https://www.stream.cz/"/><link rel="dns-prefetch" href="https://www.prozeny.cz/"/><link rel="dns-prefetch" href="https://tv.seznam.cz/"/><link rel="dns-prefetch" href="https://www.firmy.cz/"/><lin

Použití variabilních parametrů u URL adresy.

In [5]:
# Vybereme recepty hlavních chodů české kuchyně na Vánoce s bramborami
params = {'druh[]': '2', 'kuchyne[]': '5', 'prilezitost[]': '8', 'kategorie[]': '6'}

r = requests.get('https://recepty.vareni.cz/vyhledavani/', params=params)
print(r.url)

https://recepty.vareni.cz/vyhledavani/?druh%5B%5D=2&kuchyne%5B%5D=5&prilezitost%5B%5D=8&kategorie%5B%5D=6


Stažení JSONu

In [6]:
json_url = 'http://www.mapakriminality.cz/?do=findNamesIndexesForIdsRange&zoomLevel=1&versionId=1&timeFrom=197&timeTo=197&language=cz&minTime=&maxTime=&crimeTypes=%27101-106%27%2C%27201%27%2C%27141%2C142%2C143%2C151%2C161%2C171%2C173%2C181%2C611%2C612%2C614%27%2C%27131%2C132%27%2C%27371%2C373%27%2C%27372%27%2C%27431%27%2C%27433%2C434%27%2C%27435%27%2C%27635%2C641%2C642%2C643%27%2C%27771%27%2C%27-999%27&crimeType='
r = requests.get(json_url)
r.json()

[{'Code': '0000',
  'Name': 'KŘP HL. M. PRAHY',
  'Population': 1235036,
  'Message': False,
  'FK_Area_Lookup': '0000',
  'FoundSum': 3924,
  'I': 31.772353194563},
 {'Code': '0100',
  'Name': 'KŘP STŘEDOČESKÉHO KRAJE',
  'Population': 1268916,
  'Message': False,
  'FK_Area_Lookup': '0100',
  'FoundSum': 1578,
  'I': 12.435811353943},
 {'Code': '0200',
  'Name': 'KŘP JIHOČESKÉHO KRAJE',
  'Population': 634443,
  'Message': False,
  'FK_Area_Lookup': '0200',
  'FoundSum': 796,
  'I': 12.546438371926},
 {'Code': '0300',
  'Name': 'KŘP PLZEŇSKÉHO KRAJE',
  'Population': 571357,
  'Message': False,
  'FK_Area_Lookup': '0300',
  'FoundSum': 885,
  'I': 15.489440052367},
 {'Code': '0400',
  'Name': 'KŘP ÚSTECKÉHO KRAJE',
  'Population': 828335,
  'Message': False,
  'FK_Area_Lookup': '0400',
  'FoundSum': 1361,
  'I': 16.430550441548},
 {'Code': '0500',
  'Name': 'KŘP KRÁLOVÉHRADECKÉHO KRAJE',
  'Population': 554155,
  'Message': False,
  'FK_Area_Lookup': '0500',
  'FoundSum': 616,
  'I':

# Cvičení 5.1

Zjistěte na stránkach `https://www.seznam.cz/`, kdo má dnes svátek.

## CSS selektory

Knihovna `BeautifulSoup` umožňuje používat CSS selektory pomocí funkcí `select` (najde všechny prvky) a `select_one` (nade první prvek).

In [7]:
url = 'http://quotes.toscrape.com/'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

In [8]:
soup.select_one('div .tag')

<a class="tag" href="/tag/change/page/1/">change</a>

In [9]:
soup.select('div .tag')

[<a class="tag" href="/tag/change/page/1/">change</a>,
 <a class="tag" href="/tag/deep-thoughts/page/1/">deep-thoughts</a>,
 <a class="tag" href="/tag/thinking/page/1/">thinking</a>,
 <a class="tag" href="/tag/world/page/1/">world</a>,
 <a class="tag" href="/tag/abilities/page/1/">abilities</a>,
 <a class="tag" href="/tag/choices/page/1/">choices</a>,
 <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>,
 <a class="tag" href="/tag/life/page/1/">life</a>,
 <a class="tag" href="/tag/live/page/1/">live</a>,
 <a class="tag" href="/tag/miracle/page/1/">miracle</a>,
 <a class="tag" href="/tag/miracles/page/1/">miracles</a>,
 <a class="tag" href="/tag/aliteracy/page/1/">aliteracy</a>,
 <a class="tag" href="/tag/books/page/1/">books</a>,
 <a class="tag" href="/tag/classic/page/1/">classic</a>,
 <a class="tag" href="/tag/humor/page/1/">humor</a>,
 <a class="tag" href="/tag/be-yourself/page/1/">be-yourself</a>,
 <a class="tag" href="/tag/inspirational/page/1/">inspirational</a>,
 

# Cvičení 5.2

Najděte které filmy se promítaly 8.8.2019 v kině Aero (první v seznamu abecedně seřazených kinech).

`Je mi fajn s.r.o.`

# Web scraping ve smyčce

## Příklad: seznam českých měst s počtem obyvatel a počtem částí obcí

In [10]:
import pandas as pd

In [11]:
url = 'https://cs.wikipedia.org/wiki/Seznam_m%C4%9Bst_v_%C4%8Cesku'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
cities_links = soup.select('table table a:not(a[href*="Soubor"])', href=True)
cities_links

[<a href="/wiki/Praha" title="Praha">Praha</a>,
 <a href="/wiki/Brno" title="Brno">Brno</a>,
 <a href="/wiki/Ostrava" title="Ostrava">Ostrava</a>,
 <a href="/wiki/Plze%C5%88" title="Plzeň">Plzeň</a>,
 <a href="/wiki/Liberec" title="Liberec">Liberec</a>,
 <a href="/wiki/Olomouc" title="Olomouc">Olomouc</a>,
 <a href="/wiki/%C4%8Cesk%C3%A9_Bud%C4%9Bjovice" title="České Budějovice">České Budějovice</a>,
 <a href="/wiki/%C3%9Ast%C3%AD_nad_Labem" title="Ústí nad Labem">Ústí nad Labem</a>,
 <a href="/wiki/Hradec_Kr%C3%A1lov%C3%A9" title="Hradec Králové">Hradec Králové</a>,
 <a href="/wiki/Pardubice" title="Pardubice">Pardubice</a>,
 <a href="/wiki/Zl%C3%ADn" title="Zlín">Zlín</a>,
 <a href="/wiki/Hav%C3%AD%C5%99ov" title="Havířov">Havířov</a>,
 <a href="/wiki/Kladno" title="Kladno">Kladno</a>,
 <a href="/wiki/Most_(m%C4%9Bsto)" title="Most (město)"><b>Most</b></a>,
 <a href="/wiki/Opava" title="Opava">Opava</a>,
 <a href="/wiki/Fr%C3%BDdek-M%C3%ADstek" title="Frýdek-Místek">Frýdek-Místek</a>

In [12]:
cities = []
for city in cities_links:
    cities.append(city.text.strip())
cities

['Praha',
 'Brno',
 'Ostrava',
 'Plzeň',
 'Liberec',
 'Olomouc',
 'České Budějovice',
 'Ústí nad Labem',
 'Hradec Králové',
 'Pardubice',
 'Zlín',
 'Havířov',
 'Kladno',
 'Most',
 'Opava',
 'Frýdek-Místek',
 'Karviná',
 'Jihlava',
 'Teplice',
 'Děčín',
 'Karlovy Vary',
 'Chomutov',
 'Jablonec nad Nisou',
 'Mladá Boleslav',
 'Prostějov',
 'Přerov']

In [13]:
pop_nums_list = soup.select('table table td[align="right"]', href=True)
pop_nums = []
for pop in pop_nums_list:
    pop_nums.append(pop.text.strip())
pop_nums

['1 294 513',
 '379 527',
 '290 450',
 '170 936',
 '103 979',
 '100 494',
 '93 863',
 '93 040',
 '92 917',
 '90 335',
 '74 947',
 '72 382',
 '68 804',
 '66 644',
 '57 019',
 '56 334',
 '53 522',
 '50 724',
 '49 563',
 '49 226',
 '48 776',
 '48 666',
 '45 771',
 '44 167',
 '43 798',
 '43 565']

In [14]:
cities_df = pd.DataFrame(zip(cities, pop_nums), columns=['City', 'Population'])
cities_df

Unnamed: 0,City,Population
0,Praha,1 294 513
1,Brno,379 527
2,Ostrava,290 450
3,Plzeň,170 936
4,Liberec,103 979
5,Olomouc,100 494
6,České Budějovice,93 863
7,Ústí nad Labem,93 040
8,Hradec Králové,92 917
9,Pardubice,90 335


In [15]:
municipalities = []
for city in cities_links:
    url = 'https://cs.wikipedia.org/{}'.format(city['href'])
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'html.parser')
    municipalities.append(soup.select_one('.infobox a[title*="Část obce"]').find_next('td').contents[0].strip())
cities_df['Municipalities number'] = municipalities
cities_df

Unnamed: 0,City,Population,Municipalities number
0,Praha,1 294 513,146
1,Brno,379 527,48
2,Ostrava,290 450,37
3,Plzeň,170 936,31
4,Liberec,103 979,33
5,Olomouc,100 494,26
6,České Budějovice,93 863,7
7,Ústí nad Labem,93 040,22
8,Hradec Králové,92 917,21
9,Pardubice,90 335,32


# Cvičení 5.3

Vytvořte tabulku z [http://quotes.toscrape.com/](http://quotes.toscrape.com/), kde první sloupec bude jméno autora a druhý sloupec bude datum narození. autorů