# Úvod do světa scrapingu: <br> polévky, pavouci, API

## Opakování HTML

<div class="alert alert-block alert-warning">
<b>Cvičení 1:</b> <br>Jaké má stránka elementy? <br> Jaké má stránka atributy?<br>Co je obsahem (textem) tagu h1?
</div>

In [11]:
jednoduche_html = """
<html>

<head>
  <style>
    li {font-size: 18px;}
  </style
</head>

<body>
  <div style="border-style: double; padding: 35px">
    <h1>Úkoly na začátku workshopu</h1>
    <ul>
      <li>připravit místnost</li>
      <li>přivítat lidi</li>
      <li>představit plán</li>
      <li>vrhnout se na to</li>
    </ul>
    <br>
  </div>
</body>

</html>
"""

<div class="alert alert-block alert-success">
<b>Bonus</b> Jak by HTML výše vypadalo, se můžeš podívat pomocí buňky níže:
</div>

In [12]:
from IPython.display import display, HTML
display(HTML(jednoduche_html)) 

# BeautifulSoup

In [14]:
#importuje knihovnu (bs je typicky používaná zkratka)
from bs4 import BeautifulSoup as bs

In [15]:
#načte naše HTML
soup = bs(jednoduche_html)

In [16]:
soup #na první pohled žádná změna

<html>
<head>
<style>
    li {font-size: 18px;}
  </style>
</head><body>
<div style="border-style: double; padding: 35px">
<h1>Úkoly na začátku workshopu</h1>
<ul>
<li>připravit místnost</li>
<li>přivítat lidi</li>
<li>představit plán</li>
<li>vrhnout se na to</li>
</ul>
<br/>
</div>
</body>
</html>

In [31]:
type(soup)

bs4.BeautifulSoup

In [18]:
type(jednoduche_html)

str

# Jak s pomocí BeautifulSoup porcovat HTML

## metoda *find*: nalezení prvního prvku

In [32]:
#vyhledá první tag h1
soup.find('h1')

<h1>Úkoly na začátku workshopu</h1>

In [20]:
#výsledek v buňce výše je typu element - Tag (není to string/text)
type(soup.find('h1'))

bs4.element.Tag

In [19]:
#chceme-li získat pouze text, přidáme .text
soup.find('h1').text

'Úkoly na začátku workshopu'

In [21]:
type(soup.find('h1').text) 

str

## metoda *find_all*: nalezení všech prvků

In [22]:
#vyhledá všechny tady *li* na stránce
soup.find_all('li')

[<li>připravit místnost</li>,
 <li>přivítat lidi</li>,
 <li>představit plán</li>,
 <li>vrhnout se na to</li>]

In [38]:
#výsledek je typu element - ResultSet
#jak dává napovědět struktura, je to typ blízký seznamu, má i podobné metody, např. append
#jak se píše v dokumentaci: A ResultSet is just a list that...""
type(soup.find_all('li'))

bs4.element.ResultSet

In [23]:
#text z elementů získáme tak, že proiterujeme skrz seznam a u každého prvku zavoláme .text
for item in soup.find_all('li'):
    print(item.text)

připravit místnost
přivítat lidi
představit plán
vrhnout se na to


# Cvičení

In [27]:
workshop_html = """
<title></title>
<h1>Úvod do světa scrapingu: polévky, pavouci, API</h1>

<p>Víš, že Ti Python může pomoci stahovat si automaticky z internetu vybraná data? Pokud ti doposud taková možnost byla utajena, pojď si rozšířit obzory na tento začátečnický workshop. 🤓</p>

<h2>Program</h2>

<p>V průběhu workshopu se:</p>

<ul>
    <li><strong>navnadíme</strong>: řekneme si, oč jde a k čemu to může být dobré (a proč se vyplatí mít i jinou možnost než manuální klikání s duem CTRL + C & CTRL + V),</li>
    <li><strong>vyzbrojíme</strong>: seznámíme se se základními pojmy, pravidly pohybu v této oblasti i možnými nástrahami,</li>
    <li><strong>naučíme zvolit vhodný bojový plán</strong>: podíváme se webovým stránkám pod pokličku/kapotu a řekneme si, jak zvolit správný postup získání dat,</li>
    <li><strong>vrhneme do práce</strong>: podíváme se, jak vypadá scraping v Pythonu a napíšeme si jednoduchý scraper,</li>
    <li><strong>pokocháme výsledky naší práce</strong>: řekneme si, čím lze na samotný scraping dále navázat.</li>
</ul>

<h2>Co je potřeba</h2>

<h3>Úroveň Pythonu</h3>

<p>Umět psát základní skripty.</p>

<h3>O tématu</h3>

<p>Není potřeba žádná předchozí znalost, vše bude vysvětleno.</p>

<h2>Kde a kdy to bude</h2>

<ul>
    <li>kde: 17. září</li>
    <li>kdy: od 14 h</li>
    <li>jak dlouho: 3 hodiny</li>
    <li>kde: místnost 302, FIT ČVUT</li>
</ul>

"""

In [28]:
from IPython.display import display, HTML
display(HTML(workshop_html)) 


## Otázky: základní set

<div class="alert alert-block alert-warning">
<b>Cvičení 0: Použij knihovnu beautifulsoup k načtení proměnné "workshop_html", v níž je uložené html.</b>
</div>

<div class="alert alert-block alert-warning">
<b>Cvičení 1: Odstavce</b> <br>Jaké jsou na stránce odstavce? <br>Zobraz text všech těchto odstavců.
</div>

<div class="alert alert-block alert-warning">
<b>Cvičení 3: Tag "title"</b> <br>Jaký je obsah tagu title? (Jakou pravdivostní hodnotu má tento tag?)
</div>

In [37]:
soup.title

In [33]:
bool(soup.title)

False

<div class="alert alert-block alert-warning">
<b>Cvičení 3: Tag "h6"</b> <br>Co se stane, když vyhledáš tag "h6"? Jakého typu bude výsledek?
</div>

In [38]:
soup.h6

In [39]:
type(soup.find("h6"))

NoneType

## Otázky: další cvičení

In [25]:
utulek_html = """
<!DOCTYPE html>
<html lang="cs">

<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Kočičí Útulek</title>
    <style>
        body {
            font-family: Arial, sans-serif;
            margin: 0;
            padding: 0;
            background-color: #f3f4f6;
        }
        
        header {
            background-color: #4CAF50;
            color: white;
            text-align: center;
            padding: 1em 0;
        }
        
        .content {
            margin: 2em 10%;
        }
        
        .gallery {
            display: grid;
            grid-template-columns: repeat(auto-fill, minmax(200px, 1fr));
            gap: 1em;
        }
        
        .gallery img {
            width: 100%;
            border-radius: 10px;
            box-shadow: 2px 2px 10px rgba(0, 0, 0, 0.1);
        }
    </style>
</head>

<body>
    <header>
        <h1>Vítejte v Kočičím Útulku!</h1>
    </header>

    <div class="content">
        <h2>O nás</h2>
        <p>Kočičí útulek je domovem pro opuštěné a ztracené kočičky. Naším posláním je najít pro ně nový milující domov.</p>

        <h2>Kočičky k adopci</h2>
        <ul>
            <li>Mrňous</li>
            <li>Ťapka</li>
            <li>Flíček</li>
            <li>Mikes</li>
            <!-- Můžete přidat další jména kočiček -->
        </ul>

        <h2>Naše kočičky</h2>
        <div class="gallery">
            <img src="cesta_k_obrazku1.jpg" alt="Kočička 1">
            <img src="cesta_k_obrazku2.jpg" alt="Kočička 2">
            <!-- Můžete přidat další obrázky kočiček do galerie -->
        </div>

        <h2>Co potřebujete k adopci kočky?</h2>
        <ul>
            <li>Kočičí záchod s naplní</li>
            <li>Miska na vodu a krmivo</li>
            <li>Hračky pro kočky</li>
            <li>Přepravka pro převoz</li>
            <li>Vodítko a obojek (pokud plánujete kočku venčit)</li>
            <!-- Můžete přidat další potřebné věci -->
        </ul>

        <h2>Kontaktujte nás</h2>
        <p>Email: priklad@email.cz</p>
        <p>Telefon: 123 456 789</p>
    </div>
</body>

</html>

"""

In [26]:
from IPython.display import display, HTML
display(HTML(utulek_html)) 

<div class="alert alert-block alert-warning">
<b>Řetězení vyhledávání:</b> Získej z HTML nejdříve "header". Podívej se, co je výsledkem, a na výsledek poté znovu použij .find, abys získal(a) tag, který je obsahem.
</div>

In [45]:
soup = bs(utulek_html)
soup.find("header").find("h1").text

'Vítejte v Kočičím Útulku!'

<div class="alert alert-block alert-warning">
<b>Hraj si. :)</b> Zkus se dostat k těm částem HTML, které si vybereš.
</div>