# Web scraping

Naučíte se jak ve vašich Python programech vytáhnout data z webových stránek.

## HTML

Webové stránky jsou textové soubory psané ve speciálním jazyce zvaném `HTML` (_HyperText Markup Language_). 

`HTML` není jazyk programovací, nýbrž takzvaně značkovací. 

Pomocí `HTML` tvůrci webů definují samotný obsah stránek, tedy texty, obrázky, odkazy apod. 

Samotný vzhled stránky (barvičky, styl písma, rozmístění prvků na stránce apod.) se vytváří v jazyce zvaném `CSS`.

### HTML značky (tagy)

HTML elements reference:  https://developer.mozilla.org/en-US/docs/Web/HTML/Element

<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

   <ol type=a>
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>

```html
<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

    <ol type="a">
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>
```

Na adrese https://apps.kodim.cz/python-data/scrape najdete naši malou ukázkovou stránku z úvodu. 


Na adrese https://apps.kodim.cz/python-data/dhmo najdete také finální verzi stránky šířící poplach ohledně DHMO.

## Web scraping v Pythonu

In [72]:
# !pip3 install bs4

In [73]:
import requests
from bs4 import BeautifulSoup

In [74]:
# Načtení HTML souboru z lokálního úložiště
with open("assets/dhmo/index-fixed.html", encoding="utf-8") as file:
    html_content = file.read()

# Vytvoření BeautifulSoup objektu pro lokální HTML
soup = BeautifulSoup(html_content, 'html.parser')

In [75]:
# Načtení HTML ze vzdáleného zdroje
response = requests.get('https://apps.kodim.cz/python-data/dhmo/')
remote_html_content = response.text

# Vytvoření BeautifulSoup objektu pro vzdálené HTML
soup = BeautifulSoup(remote_html_content, 'html.parser')

In [76]:
# Tisk celého HTML, pokud je to potřeba
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="ie=edge" http-equiv="X-UA-Compatible"/>
  <link href="https://fonts.googleapis.com/css?family=Open+Sans:400,700,800&amp;subset=latin-ext" rel="stylesheet"/>
  <link href="style.css" rel="stylesheet"/>
  <title>
   DHMO šíří hrůzu
  </title>
 </head>
 <body>
  <div class="container">
   <div class="intro">
    <h1>
     Nebezpečný dihydrogen monoxid šíří hrůzu. Studenti jej chtějí zakázat.
    </h1>
    <p>
     Dihydrogen monoxid tvoří hlavní součást kyselých dešťů, způsobuje mnoho vážných silničních nehod, jeho vdechnutí může zabíjet. Přesto vlády celého světa ignorují tato fakta a nepřistoupily k zákazu této chemikálie.
    </p>
    <img alt="DHMO" class="my-2" src="img/dhmo.jpg"/>
   </div>
   <h2>
    Strašák DHMO
   </h2>
   <p>
    Tzv. dihydrogen monoxid je každoročně příčinou úmrtí mnoha lidí. Ve své plynné formě může způs

HTML značky můžeme vyhledávat podle jména. 

In [78]:
# Vyhledání všech paragrafů v HTML
paragraphs = soup.find_all('p')
for paragraph in paragraphs:
    print(paragraph.text)

Dihydrogen monoxid tvoří hlavní součást kyselých dešťů, způsobuje mnoho vážných silničních nehod, jeho vdechnutí může zabíjet. Přesto vlády celého světa ignorují tato fakta a nepřistoupily k zákazu této chemikálie.
Tzv. dihydrogen monoxid je každoročně příčinou úmrtí mnoha lidí. Ve své plynné formě může způsobit popáleniny, ve své kapalné formě zase přispívá k erozi nebo korozi. Možná nejvíce výmluvným je fakt, že dihydrogen monoxid tvoří hlavní součást kyselých dešťů. Po požití může způsobit pocení a pocit vlhkosti. A co je možná nejzáludnější: jde o látku návykovou. Ti, kdo si na ni vypěstují závislost, bez něj nemohou přežít.
Přesto se nemalé množství dihydrogen monoxidu (DHMO) nachází v každé řece, jezeru nebo nádrži pitné vody v České republice, a proudí tak denně vodovodními trubkami do tisíců domácností. Vláda je přesto nečinná, a nechce o krocích proti DHMO ani slyšet.
Toho, jak je dihydrogen monoxid ve výzkumných kruzích opomíjený, si všimli již studenti Eric Lechner, Lars Nor

Můžeme vyhledávání podle třídy (atribut class). Třídy se vyhledávají tak, že jejich název začneme tečkou.



In [79]:
# Vyhledání všech paragrafů v sekci s třídou "sekce1"
for section_paragraph in soup.select(".intro p"):
    print(section_paragraph.text)

Dihydrogen monoxid tvoří hlavní součást kyselých dešťů, způsobuje mnoho vážných silničních nehod, jeho vdechnutí může zabíjet. Přesto vlády celého světa ignorují tato fakta a nepřistoupily k zákazu této chemikálie.


In [80]:
links = soup.find_all('a')

for link in links:
    print(link)
    print(link.text)
    print(link.get('href'))

<a href="http://www.dhmo.org/">DHMO.org - webová iniciativa, snaha o osvětu (anglicky)</a>
DHMO.org - webová iniciativa, snaha o osvětu (anglicky)
http://www.dhmo.org/
<a href="http://www.matthew.at/dhm.pdf">Jeden z plakátů varujících před DHMO (anglicky)</a>
Jeden z plakátů varujících před DHMO (anglicky)
http://www.matthew.at/dhm.pdf
<a href="http://www.snopes.com/science/dhmo.asp">Historie všeho kolem DHMO (anglicky)</a>
Historie všeho kolem DHMO (anglicky)
http://www.snopes.com/science/dhmo.asp


In [81]:
images = soup.find_all('img')
for image in images:
    print(image.get('alt'))
    print(image.get('src'))

DHMO
img/dhmo.jpg
Zákaz DHMO
img/dhmo-ban.png


Můžeme přistupovat k atributům nalezených značek. 

In [82]:
# Vyhledání všech odkazů a jejich atributů href v HTML
links = soup.find_all('a')
for link in links:
    print(link.get('href'))

http://www.dhmo.org/
http://www.matthew.at/dhm.pdf
http://www.snopes.com/science/dhmo.asp


### Složitější pravidla vyhledávání

Můžeme vyhledávat podle více značek najednou.

In [84]:
# Vyhledání všech nadpisů h1 a h2 v HTML
headings = soup.find_all(['h1', 'h2'])
for heading in headings:
    print(heading.text)

Nebezpečný dihydrogen monoxid šíří hrůzu. Studenti jej chtějí zakázat.
Strašák DHMO
Další fakta
Petice proti DHMO
Odkazy


Můžeme vyhledávat podle atributů. 

In [85]:
soup.select('ol li a')
# soup.find('ol').find_all('li')

[<a href="http://www.dhmo.org/">DHMO.org - webová iniciativa, snaha o osvětu (anglicky)</a>,
 <a href="http://www.matthew.at/dhm.pdf">Jeden z plakátů varujících před DHMO (anglicky)</a>,
 <a href="http://www.snopes.com/science/dhmo.asp">Historie všeho kolem DHMO (anglicky)</a>]

Můžeme vyhledávat podle zanoření. 

Mezera ve vyhledávacím řetězci znamená libovolně hluboké zanoření. 

In [87]:
# Použití CSS selektoru pro nalezení odstavců, které jsou přímými potomky divu s třídou 'sekce1'
direct_child_paragraphs = soup.select(".intro > p")

# Výpis textu nalezených odstavců
for paragraph in direct_child_paragraphs:
    print(paragraph.text)

Dihydrogen monoxid tvoří hlavní součást kyselých dešťů, způsobuje mnoho vážných silničních nehod, jeho vdechnutí může zabíjet. Přesto vlády celého světa ignorují tato fakta a nepřistoupily k zákazu této chemikálie.


## Web scraping vs JavaScript

Velkým trendem v dnešní době je nepsat HTML kód stránky přímo, jako jsme to viděli výše. 

Místo toho se použije jazyk JavaScript, který kód stránky sám vygeneruje. 

Tím může být stránka mnohem flexibilnější a interaktivnější, což je hezké pro uživatele. 

Pro nás to však znamená, že když stránku stahujeme v Pythonu, neobdržíme značky HTML, ale JavaScriptový program. 

Ten nejdříve musíme v Pythonu spustit a nechat si výsledné HTML vygenerovat.

Podívejte se například na tuto stránku, která je psána přesně tímto způsobem. 

https://react-shopping-cart-67954.firebaseapp.com/

Pokud chceme takovou stránku scrapovat, musíme použít takovýto kód.



In [88]:
# %pip3 install selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
import time
# %pip install chromedriver-autoinstaller
import chromedriver_autoinstaller

chromedriver_autoinstaller.install()

'/Library/Frameworks/Python.framework/Versions/3.12/lib/python3.12/site-packages/chromedriver_autoinstaller/124/chromedriver'

In [89]:
# Cesta k WebDriver
# Upravte cestu k vaší instalaci chromedriver
chrome_driver_path = '/Library/Frameworks/Python.framework/Versions/3.12/lib/python3.12/site-packages/chromedriver_autoinstaller/124/chromedriver'

# Nastavení webdriveru
service = Service(executable_path=chrome_driver_path)
chrome_options = Options()
chrome_options.add_argument("--headless")  

# Inicializace WebDriveru
try:
    driver = webdriver.Chrome(service=service, options=chrome_options)
except Exception as e:
    print("Nastala chyba při inicializaci WebDriveru:", str(e))
    exit(1)

# Použití WebDriveru
try:
    driver.get("https://react-shopping-cart-67954.firebaseapp.com/")
    time.sleep(5)  # Počkáme, aby JavaScript načetl obsah

    # Vaše další kódy
    print(driver.page_source)  # Výpis zdrojového kódu stránky

finally:
    driver.quit()  # Ukončení WebDriveru

<html lang="en"><head><script async="" src="https://www.googletagmanager.com/gtag/js?id=UA-85006284-3"></script><script>function gtag(){dataLayer.push(arguments)}window.dataLayer=window.dataLayer||[],gtag("js",new Date),gtag("config","UA-85006284-3")</script><meta charset="utf-8"><link rel="icon" href="/favicon.ico"><meta name="viewport" content="width=device-width,initial-scale=1"><meta name="theme-color" content="#000000"><link href="https://react-shopping-cart-67954.firebaseapp.com/" rel="shortcut icon" type="image/x-icon"><meta name="google-site-verification" content="b3ZTH-20AJ_8zTxSKYQ3TpQVS8dBirMtVapuIXT70dg"><meta name="url" content="https://react-shopping-cart-67954.firebaseapp.com/"><meta name="keywords" content="typescript, react, shopping cart, hooks, context, javascript, ecommerce"><meta name="description" content="This simple shopping cart prototype shows how React with Typescript, React hooks, react Context and Styled Components can be used to build a friendly user exper

Notes:

- https://pypi.org/project/beautifulsoup4/
- https://pypi.org/project/requests/