# Web scraping

Web scraping je technika pro automatizované získávání dat z webových stránek. Umožňuje transformovat nestrukturované nebo polostrukturované data z webu do strukturovaného formátu, který lze snadno analyzovat a využít pro různé účely.

Použití web scrapingu:
- **Analýza dat:** Shromažďování dat pro výzkum trhu, sledování trendů nebo vědecké studie.
- **Agregace informací:** Slučování dat z různých zdrojů na jednom místě, například ceny produktů nebo zprávy.
- **Monitorování konkurence:** Sledování aktivit konkurentů, jako jsou nové produkty nebo změny cen.
- **Automatizace úloh:** Automatické stahování a aktualizace informací bez nutnosti ručního zásahu.

Knihovny a frameworky:
- *Beautiful Soup:* Python knihovna pro parsování HTML a XML dokumentů.
- *Scrapy:* Výkonný a škálovatelný framework pro web scraping v Pythonu.
- *Selenium:* Nástroj pro automatizaci webových prohlížečů, užitečný pro scraping dynamických stránek.
- *API přístupy:* Některé webové stránky poskytují API, které umožňuje legální a efektivní přístup k datům.

Při provádění web scrapingu je klíčové dodržovat právní předpisy a etické zásady:
- Podmínky užití: Vždy si přečtěte a respektujte podmínky užití dané webové stránky. Některé stránky zakazují nebo omezují automatizované stahování dat.
- Autorská práva: Ujistěte se, že nezneužíváte chráněný obsah a dodržujete zákony o duševním vlastnictví.
- Ochrana osobních údajů: Získávání osobních dat bez souhlasu může být nezákonné a neetické.
- Zátěž serveru: Nezatěžujte webové servery nadměrnými požadavky. Používejte časové prodlevy a respektujte limity.

## HTML

Webové stránky jsou textové soubory psané ve speciálním jazyce zvaném `HTML` (_HyperText Markup Language_). 

`HTML` není jazyk programovací, nýbrž takzvaně značkovací. 

Pomocí `HTML` tvůrci webů definují samotný obsah stránek, tedy texty, obrázky, odkazy apod. 

Samotný vzhled stránky (barvičky, styl písma, rozmístění prvků na stránce apod.) se vytváří v jazyce zvaném `CSS`.

### HTML značky (tagy)

HTML elements reference:  https://developer.mozilla.org/en-US/docs/Web/HTML/Element

| Tag     | Popis | Použití |
|---------|------------------------------------------------------------------------|-------------------------------------------------------------------------------|
| `<html>`  | Kořenový element HTML dokumentu.                                       | Obaluje celý obsah HTML stránky.                                              |
| `<head>`  | Obsahuje metainformace o dokumentu.                                    | Umisťuje se uvnitř `<html>`; obsahuje `<title>`, `<meta>`, odkazy na CSS a skripty. |
| `<body>`  | Obsahuje viditelný obsah webové stránky.                               | Umisťuje se uvnitř `<html>`; obsahuje text, obrázky, odkazy atd.                |
| `<title>` | Definuje titulek stránky zobrazený v záhlaví prohlížeče nebo na kartě. | Umisťuje se uvnitř `<head>`.                                                    |
| `<h1>`    | Nadpis úrovně 1 (nejvyšší úroveň nadpisu).                             | Pro hlavní nadpis stránky nebo sekce; `<h2>` až `<h6>` pro podnadpisy.            |
| `<p>`     | Definuje odstavec textu.                                               | Pro běžný textový obsah.                                                      |
| `<a>`     | Vytváří hypertextový odkaz na jinou stránku nebo část stránky.         | Atribut href určuje cílovou URL; může obsahovat text nebo jiné elementy.      |
| `<img>`   | Vkládá obrázek do stránky.                                             | Atributy src (cesta k obrázku) a alt (alternativní text).                     |
| `<ul>`    | Definuje neuspořádaný seznam (s odrážkami).                            | Používá se společně s `<li>` pro položky seznamu.                               |
| `<li>`    | Definuje položku seznamu v `<ul>` nebo `<ol>`.                             | Každá položka seznamu je obalena v `<li>`.                                                                              |
| `class` | Atribut pro přiřazení jedné nebo více tříd elementu pro účely stylování a skriptování. | Používá se u většiny HTML tagů pro aplikaci CSS stylů nebo manipulaci v JavaScriptu. Např.: `<div class="container">` |
| `href`  | Atribut určující cílovou URL pro odkaz nebo odkaz na zdroj.                            | Používá se hlavně s `<a>` pro odkazy. Např.: `<a href="https://www.priklad.cz">Odkaz</a>`                               |


<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Tohle je příklad nadpisu první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

   <ol type=a>
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>

```html
<html>
<head>
  <meta charset="UTF-8">
  <title>Ukázka</title>
</head>
<body>
  <h1>Nadpis první úrovně</h1>
  <p>
    Text nějakého odstavce, který obsahuje
    <em>zvýrazněný text</em> a také <strong>
    důležitý text.</strong>
  </p>

  <h2>Nadpis druhé úrovně</h2>
  <div class="sekce1">
    <p>
      Druhý odstavec je v takzvaném divu, což je
      značka, která nemá sama o sobě žádný význam.
      Také zde máme
      <a href="http;://www.czechitas.cz"> odkaz na
      stránky Czechitas</a>.
    </p>

    <ol type="a">
      <li>První položka seznamu</li>
      <li>Druhá položka seznamu</li>
      <li>Třetí položka seznamu</li>
    </ol>
  </div>
</body>
</html>
```

---

Na adrese https://apps.kodim.cz/python-data/scrape najdete naši malou ukázkovou stránku z úvodu. 


Na adrese https://apps.kodim.cz/python-data/dhmo najdete také finální verzi stránky šířící poplach ohledně DHMO.

## Web scraping v Pythonu s knihovnou Beautiful Soup

*“Beautiful Soup, so rich and green,  
Waiting in a hot tureen!”*

*-- “Alenka v říši divů” od Lewise Carrolla.*

In [105]:
# !pip3 install beautifulsoup4

In [106]:
from bs4 import BeautifulSoup
import requests

### Načtení HTML souboru

In [107]:
# Načtení HTML souboru z lokálního úložiště
with open("assets/dhmo/index-fixed.html", encoding="utf-8") as file:
    html_content = file.read()

# Vytvoření BeautifulSoup objektu pro lokální HTML
soup = BeautifulSoup(html_content, 'html.parser')

In [108]:
# Načtení HTML ze vzdáleného zdroje
response = requests.get('https://apps.kodim.cz/python-data/dhmo/')
remote_html_content = response.text

# Vytvoření BeautifulSoup objektu pro vzdálené HTML
soup = BeautifulSoup(remote_html_content, 'html.parser')

In [None]:
# Tisk celého HTML, pokud je to potřeba
print(soup.prettify())

## Vyhledávání v HTML

HTML značky můžeme vyhledávat podle jména. 

- *Vyhledávací metody:* `find()`, `find_all()`, `select()`, `select_one()` slouží k vyhledávání elementů na základě různých kritérií.
- *Navigační metody:* Metody jako `parent`, `children`, `next_sibling` atd. jsou užitečné pro pohyb v DOM stromu a získání kontextu.
- *Manipulační metody:* `decompose()`, `replace_with()` umožňují upravovat strukturu dokumentu přímo v paměti.
- *Textové metody:* `get_text()`, `find(text=True)` slouží k extrakci a vyhledávání textového obsahu.	

| Metoda              | Popis                                                  | Použití                                  | Výhody                                                                                  |
|---------------------|--------------------------------------------------------|------------------------------------------|-----------------------------------------------------------------------------------------|
| `find()`              | Najde první element odpovídající zadaným kritériím.    | `soup.find('div', class_='content')`       | Rychlé získání jednoho elementu; jednoduchá syntaxe.                                    |
| `find_all()`          | Najde všechny elementy odpovídající kritériím.         | `soup.find_all('a', href=True)`          | Umožňuje získat seznam všech odpovídajících elementů; možnost limitovat počet výsledků. |
| `select()`            | Najde všechny elementy pomocí CSS selektorů.           | `soup.select('ul.menu > li.active')`       | Umožňuje komplexní dotazy; využití známých CSS selektorů.                               |
| `select_one()`        | Najde první element pomocí CSS selektoru.              | `soup.select_one('div.content > ul > li')` | Kombinuje jednoduchost `select()` s rychlostí `find()`.                                     |
| `get_text()`          | Extrahuje textový obsah z elementu.                    | `element.get_text(strip=True)`             | Jednoduché získání čistého textu; možnost odstranění bílých znaků.                      |
| `find_parent()`       | Najde nejbližší rodičovský element podle kritérií.     | `element.find_parent('div')`               | Umožňuje navigaci směrem nahoru v DOM stromu; snadné vyhledání rodičů.                  |
| `find_next_sibling()` | Najde následující sourozenecký element podle kritérií. | `element.find_next_sibling('p')`           | Navigace mezi sourozeneckými elementy; užitečné pro lineární procházení.                |
| `contents`            | Seznam přímých potomků elementu.                       | `element.contents`                         | Přímý přístup k dětem; umožňuje indexování.                                             |


### Tipy a doporučení

- Výkon: Pokud pracujete s velkými dokumenty a výkon je kritický, preferujte `find_all()`.
- Čitelnost: Pokud váš tým nebo vy preferujete CSS selektory pro jejich čitelnost a flexibilitu, použijte `select()`.
- Kombinace metod: Není neobvyklé kombinovat obě metody v jednom projektu podle potřeby.
- Testování: Vždy testujte své selektory na vzorku dat, abyste se ujistili, že vracejí očekávané výsledky.


### `find_all()`

In [None]:
# Vyhledání všech paragrafů v HTML
paragraphs = soup.find_all('p')
for paragraph in paragraphs:
    print(paragraph)

## Atributy

Můžeme přistupovat k atributům nalezených značek. 

- Obsahové atributy: name, attrs, string, text, strings, stripped_strings poskytují informace o tagu a jeho obsahu.
- Navigační atributy: parent, parents, children, contents, descendants, next_sibling, previous_sibling umožňují pohyb v parse stromu.



In [None]:
for paragraph in paragraphs:
    print(paragraph.text)

Můžete k atributům HTML tagů jako `href`, `alt`, `scr`...

In [None]:
links = soup.find_all('a')

for link in links:
    print(link)
    print(link.text)
    print(link.get('href'))

In [None]:
images = soup.find_all('img')
for image in images:
    print(image.get('alt'))
    print(image.get('src'))

### Složitější pravidla vyhledávání

Můžeme vyhledávat podle více značek najednou.

In [None]:
# Vyhledání všech nadpisů h1 a h2 v HTML
headings = soup.find_all(['h1', 'h2'])
for heading in headings:
    print(heading.text)

### `select()` (pro CSS selektory)

Můžeme vyhledávat podle atributů. 

In [None]:
soup.select('ol li a')
# soup.find('ol').find_all('li')

Můžeme vyhledávat podle zanoření. 

Mezera ve vyhledávacím řetězci znamená libovolně hluboké zanoření. 

In [None]:
# Použití CSS selektoru pro nalezení odstavců, které jsou přímými potomky divu s třídou 'sekce1'
direct_child_paragraphs = soup.select(".intro > p")

# Výpis textu nalezených odstavců
for paragraph in direct_child_paragraphs:
    print(paragraph.text)

In [None]:
# Můžeme vyhledávání podle třídy (atribut `class`). Třídy se vyhledávají tak, že jejich název začneme tečkou.

# Vyhledání všech paragrafů v sekci s třídou "sekce1"
for section_paragraph in soup.select(".intro p"):
    print(section_paragraph.text)

# for section_paragraph in soup.find_all('p'):
#     if section_paragraph.find_parent(class_='intro'):
#         print(section_paragraph.text)

## Web scraping vs JavaScript

Selenium je nástroj pro automatizaci webových prohlížečů, který umožňuje programově ovládat prohlížeč pro účely testování nebo webového scrapingu. 

Umožňuje simulovat uživatelskou interakci s webovými stránkami, jako je klikání na tlačítka, vyplňování formulářů nebo navigace mezi stránkami. To je obzvláště užitečné při práci s dynamickými webovými aplikacemi, které využívají JavaScript k načítání obsahu, což by bylo obtížné nebo nemožné s tradičními nástroji jako je Beautiful Soup. 

Selenium podporuje různé prohlížeče, včetně Chrome, Firefox, Safari a Edge, a poskytuje rozhraní pro různé programovací jazyky, včetně Pythonu, Javy a C#. 

Použitím Selenium můžete automatizovat komplexní úlohy v prohlížeči a získávat data z webových stránek, které vyžadují interakci nebo čekání na načtení obsahu.



In [None]:
import time

# %pip3 install selenium
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

# %pip install chromedriver-autoinstaller
import chromedriver_autoinstaller
chromedriver_autoinstaller.install()

In [121]:
url = 'https://react-shopping-cart-67954.firebaseapp.com/'

In [None]:
# Cesta k WebDriver
# Upravte cestu k vaší instalaci chromedriver
chrome_driver_path = '/Library/Frameworks/Python.framework/Versions/3.12/lib/python3.12/site-packages/chromedriver_autoinstaller/130/chromedriver'

# Nastavení webdriveru
service = Service(executable_path=chrome_driver_path)
chrome_options = Options()
# Prohlížeč běží na pozadí bez otevření okna na obrazovce
chrome_options.add_argument("--headless")

# Inicializace WebDriveru
try:
    driver = webdriver.Chrome(service=service, options=chrome_options)
except Exception as e:
    print("Nastala chyba při inicializaci WebDriveru:", str(e))
    exit(1)

# Použití WebDriveru
try:
    driver.get(url)
    time.sleep(5)  # Počkáme, aby JavaScript načetl obsah

    # Vaše další kódy
    html_content = driver.page_source
    print(driver.page_source)  # Výpis zdrojového kódu stránky

finally:
    driver.quit()  # Ukončení WebDriveru

In [None]:
soup = BeautifulSoup(html_content, 'html.parser')

# print(soup.prettify())
paragraphs = soup.find_all('p')
for paragraph in paragraphs:
    print(paragraph.text)