Knihovna [`BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/) je pro ziskání dat ze souborů HTML a XML. Tato knihovna pracuje s různými `parsery` (program, která dělá syntaktickou analýzu textu) pro hledání a modifikování souborů. 

In [1]:
# Načteme knihovnu, pomocí které budeme pracovat s HTML
from bs4 import BeautifulSoup

In [2]:
# Tady je náš vzorový HTML
html_doc = """
<html><head><title>Web scraping pro datovou analýzu v Pythonu - sedlakovi.org</title></head>
<body>
<p class="title"><b>Web scraping pro datovou analýzu v Pythonu</b></p>

<p class="description">
    Náš kurz Vás naučí jak lze snadno získávat data z webových stránek, 
    které můžete používat k následné analýze anebo reportingu. 
    Příkladem může být analýza kurzu měn, recenzí kaváren nebo cen zboží. 
    Náš kurz Vám ukáže celý postup od identifikace datového zdroje, 
    navržení vhodného scrapingu a přípravy dat pro následnou analýzu. 
</p>

<p class="description">
    Naučíte se:
    <ul>
        <li>Strukturu HTML</li>
        <li>Jak získat obsah webových stránek (knihovna requests)</li>
        <li>Jak vybrat z tohoto obsahu jenom to, co nás zajímá (knihovna BeautifulSoup)</li>
        <li>Jak následně data zpracovat (knihovna pandas)</li>
    </ul>
</p>

<table>
<tr> <th class="table-header"> Naučím se pracovat s: </th>
<td class="table-data">
<a href="http://docs.python-requests.org/en/master/" class="library" id="link1">Requests</a>,
<a href="https://www.crummy.com/software/BeautifulSoup/"  class="library" id="link2">BeautifulSoup</a>,
<a href="https://pandas.pydata.org/" class="library" id="link3">Pandas</a>
</td>
</tr>
</table>
"""

Převedeme HTML dokument na `BeautifulSoup` objekt, který reprezentuje dokument jako vnořenou datovou strukturu.

In [3]:
soup = BeautifulSoup(html_doc, 'html.parser')
# Vytiskneme hezky zformatované HTML
print(soup.prettify())

<html>
 <head>
  <title>
   Web scraping pro datovou analýzu v Pythonu - sedlakovi.org
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    Web scraping pro datovou analýzu v Pythonu
   </b>
  </p>
  <p class="description">
   Náš kurz Vás naučí jak lze snadno získávat data z webových stránek, 
    které můžete používat k následné analýze anebo reportingu. 
    Příkladem může být analýza kurzu měn, recenzí kaváren nebo cen zboží. 
    Náš kurz Vám ukáže celý postup od identifikace datového zdroje, 
    navržení vhodného scrapingu a přípravy dat pro následnou analýzu.
  </p>
  <p class="description">
   Naučíte se:
   <ul>
    <li>
     Strukturu HTML
    </li>
    <li>
     Jak získat obsah webových stránek (knihovna requests)
    </li>
    <li>
     Jak vybrat z tohoto obsahu jenom to, co nás zajímá (knihovna BeautifulSoup)
    </li>
    <li>
     Jak následně data zpracovat (knihovna pandas)
    </li>
   </ul>
  </p>
  <table>
   <tr>
    <th class="table-header">
     Naučím s

In [4]:
type(soup)

bs4.BeautifulSoup

In [5]:
soup.title

<title>Web scraping pro datovou analýzu v Pythonu - sedlakovi.org</title>

In [6]:
soup.title.name

'title'

In [7]:
soup.title.string

'Web scraping pro datovou analýzu v Pythonu - sedlakovi.org'

In [8]:
soup.title.parent.name

'head'

In [9]:
# Ukáže první tag typu odstavec
soup.p

<p class="title"><b>Web scraping pro datovou analýzu v Pythonu</b></p>

In [10]:
soup.p['class']

['title']

In [11]:
soup.a

<a class="library" href="http://docs.python-requests.org/en/master/" id="link1">Requests</a>

In [12]:
soup.find_all('a')

[<a class="library" href="http://docs.python-requests.org/en/master/" id="link1">Requests</a>,
 <a class="library" href="https://www.crummy.com/software/BeautifulSoup/" id="link2">BeautifulSoup</a>,
 <a class="library" href="https://pandas.pydata.org/" id="link3">Pandas</a>]

In [13]:
links = soup.find_all('a')
links

[<a class="library" href="http://docs.python-requests.org/en/master/" id="link1">Requests</a>,
 <a class="library" href="https://www.crummy.com/software/BeautifulSoup/" id="link2">BeautifulSoup</a>,
 <a class="library" href="https://pandas.pydata.org/" id="link3">Pandas</a>]

In [14]:
links[0].text

'Requests'

## Malá odbočka - list comprehensions

[Dokumetace](https://docs.python.org/3/tutorial/datastructures.html#list-comprehensions)

Elegantní způsob jak transformovat seznamy.

Všechno, co se dá udělat pomocí list comprehensions ( nebo dict comprehensions) lze udelat i pomocí for smyčky.

In [15]:
# Zahřívací příklad: 
# nový seznam obsahuje všechny prvky původního seznamu
my_list = [1,2,3,4,5,6]
[item for item in my_list]

[1, 2, 3, 4, 5, 6]

In [16]:
# Nový seznam obsahuje všechny prvky původního, 
# ale každý prvek je vynásoben 100
[item*100 for item in my_list]

[100, 200, 300, 400, 500, 600]

In [17]:
# Nový seznam obsahuje jenom ty prvky seznamu, které jsou sudé
[item for item in my_list if item%2 == 0]

[2, 4, 6]

In [18]:
links = soup.find_all('a')
links_text = []
for link in links:
    links_text.append(link.text)
links_text   

['Requests', 'BeautifulSoup', 'Pandas']

In [19]:
[link.text for link in links]

['Requests', 'BeautifulSoup', 'Pandas']

In [20]:
soup.find(id="link3")

<a class="library" href="https://pandas.pydata.org/" id="link3">Pandas</a>

In [21]:
soup.find(id="link3").text

'Pandas'

Když hledáme dle třídy, nemůžeme použit parametr `class`, jedná se o klíčové slovo v Pythonu. Proto musíme použit `class_`.

In [22]:
soup.find(class_="description")

<p class="description">
    Náš kurz Vás naučí jak lze snadno získávat data z webových stránek, 
    které můžete používat k následné analýze anebo reportingu. 
    Příkladem může být analýza kurzu měn, recenzí kaváren nebo cen zboží. 
    Náš kurz Vám ukáže celý postup od identifikace datového zdroje, 
    navržení vhodného scrapingu a přípravy dat pro následnou analýzu. 
</p>

Anebo napsat `class` jako klíč v parametru `attrs`.

In [23]:
soup.find(attrs={'class':'description'})

<p class="description">
    Náš kurz Vás naučí jak lze snadno získávat data z webových stránek, 
    které můžete používat k následné analýze anebo reportingu. 
    Příkladem může být analýza kurzu měn, recenzí kaváren nebo cen zboží. 
    Náš kurz Vám ukáže celý postup od identifikace datového zdroje, 
    navržení vhodného scrapingu a přípravy dat pro následnou analýzu. 
</p>

In [24]:
soup.find_all(class_="description")

[<p class="description">
     Náš kurz Vás naučí jak lze snadno získávat data z webových stránek, 
     které můžete používat k následné analýze anebo reportingu. 
     Příkladem může být analýza kurzu měn, recenzí kaváren nebo cen zboží. 
     Náš kurz Vám ukáže celý postup od identifikace datového zdroje, 
     navržení vhodného scrapingu a přípravy dat pro následnou analýzu. 
 </p>, <p class="description">
     Naučíte se:
     <ul>
 <li>Strukturu HTML</li>
 <li>Jak získat obsah webových stránek (knihovna requests)</li>
 <li>Jak vybrat z tohoto obsahu jenom to, co nás zajímá (knihovna BeautifulSoup)</li>
 <li>Jak následně data zpracovat (knihovna pandas)</li>
 </ul>
 </p>]

# Cvičení 3.1

Vyberte odstavec s třídou `title`.

`Web scraping pro datovou analýzu v Pythonu`

# Cvičení 3.2

Vyberte všechny položky seznamu

```
 <li>Strukturu HTML</li>
 <li>Jak získat obsah webových stránek (knihovna requests)</li>
 <li>Jak vybrat z tohoto obsahu jenom to, co nás zajímá (knihovna BeautifulSoup)</li>
 <li>Jak následně data zpracovat (knihovna pandas)</li>
```

** Bonus:** zbavte se HTML tagů (např. `Jak získat obsah webových stránek (knihovna requests)`). 