# 01 - Stažení dat

## Cíl tohoto notebooku

V tomto kroku stáhneme HTML stránky s hokejovými statistikami z webu [Scrape This Site](https://www.scrapethissite.com/pages/forms/).

**Co se naučíte:**
- Použití Selenium pro automatizaci prohlížeče
- Analýzu struktury URL pro stránkování
- Ukládání HTML souborů na disk

**Výstup:** Složka `data/raw/` naplněná HTML soubory (jeden soubor pro každou stránku dat)

---

## Krok 1: Příprava prostředí

### 1.1 Import potřebných knihoven

In [None]:
# Doplňte importy potřebných knihoven:
# - selenium webdriver pro ovládání prohlížeče
# - time pro pauzy mezi požadavky
# - os pro práci se složkami




<details>
<summary>Nápověda - klikněte pro zobrazení</summary>

```python
from selenium import webdriver
import time
import os
```
</details>

### 1.2 Vytvoření adresářové struktury

Vytvořte složku `data/raw/`, pokud ještě neexistuje.

In [None]:
# Vytvořte složku pro surová data
# Použijte os.makedirs() s parametrem exist_ok=True




<details>
<summary>Nápověda</summary>

```python
os.makedirs('data/raw', exist_ok=True)
```
</details>

---

### 1.3 Analýza webu

Před psaním kódu si prohlédněte web:
1. Otevřete https://www.scrapethissite.com/pages/forms/
2. Prohlédněte si, jak vypadá tabulka s daty
3. Klikněte na stránkování dole a sledujte, jak se mění URL

**Otázky k zamyšlení:**
- Kolik stránek s daty je k dispozici?
- Jak vypadá URL pro druhou stránku? Třetí stránku?
- Jaký je vzor URL pro stránkování?

#### 1.3.1 Definice základní URL

Na základě analýzy webu definujte:
- Základní URL pro stránku s formuláři


In [None]:
# Definujte konstanty
# URL má tvar: https://www.scrapethissite.com/pages/forms/?page_num=X

# Doplňte základní URL - bez čísla na konci




<details>
<summary>Nápověda</summary>
Je to konstanta, správně by mělo být velkým
    
```python
ZAKLADNI_URL = "https://www.scrapethissite.com/pages/forms/?page_num="
```
</details>

---

### 1.4 Konfigurace a spuštění Selenium

Vytvořte instanci Chrome prohlížeče. Novější verze Selenium automaticky stáhnou potřebný driver.

In [None]:
# Spuštění prohlížeče Chrome


<details>
<summary>Nápověda</summary>

```python
browser = webdriver.Chrome()

# Pro Operu - Opera pouziva ChromeDriver:
from selenium.webdriver.chrome.options import Options
options = Options()
options.binary_location = 'cesta k souboru .... opera.exe' # tu musíte nastavit cestu k souboru opera.exe
browser = webdriver.Chrome(options=options)
```
</details>

In [None]:
# Otestujte připojení k stránce


<details>
<summary>Nápověda</summary>
Použijte browser.get(url) a vytiskněte titulek stránky - browser.title
</details>

---

## Krok 2: Funkce `je_tabulka_prazdna()` pro detekci prázdné stránky na konci cyklu

### 2.1 Analýza struktury tabulky

Prozkoumejte HTML strukturu stránky pomocí Developer Tools (F12):
- Jak je označena tabulka s daty?
- Jak jsou označeny řádky s týmy?
- Co se stane, když na stránce nejsou žádná data?

In [None]:
# Prozkoumejte strukturu - najděte řádky tabulky s třídou 'team'


<details>
<summary>Nápověda</summary>

Použijte find_elements() s parametrem 'class name' nebo 'css selector'

</details>

In [None]:
# Zkuste stránku bez dat - jakoze 100. v poradí, kolik tříd 'team' najde


### 2.2 Implementace funkce `je_tabulka_prazdna()`

Vytvořte funkci, která zkontroluje, zda aktuálně načtená stránka obsahuje data.

Funkce vrátí:
- `True` - pokud tabulka neobsahuje žádné řádky s daty
- `False` - pokud tabulka obsahuje data

In [None]:
def je_tabulka_prazdna(browser) -> bool:
    pass

<details>
<summary>Nápověda</summary>
    
    # v browseri najděte všechny elementy s třídou 'team' - cez metodu `find_elements()` s parametrem 'css selector' nebo 'class name'
    # Pokud je jejich počet 0, tabulka je prázdná
</details>

### 2.3 Test funkce

In [None]:
# Otestujte vytvořenou funkci na stránce s daty (1. strana) a bez dat (100. strana)


<details>
<summary>Nápověda</summary>
Využijte předchozí kód
- cez `browser.get()` nastavte stránku
- zavolejte `sleep()`
- zavolejte `je_tabulka_prazdna()`

</details>

---

## Krok 3: Funkce `uloz_html` - Stažení HTML stránek

### 3.1 Funkce pro uložení HTML

Nejprve vytvořte pomocnou funkci pro uložení HTML obsahu do souboru.

In [None]:
def uloz_html(html_obsah, cislo_stranky):
    """
    Uloží HTML obsah do souboru.
    
    Parametry:
        html_obsah: HTML kód stránky (string)
        cislo_stranky: Číslo stránky pro název souboru (int)
    
    Název souboru bude ve formátu: hockey_teams_page_01.html
    """
    
    pass

<details>
<summary>Nápověda</summary>
1) Ve funkci vytvořte řetězec(string) jako

* cestu do data/raw
* název souboru + číslo na 2 místa + .html

2) Otevřete soubor pro zápis

3) Zapište obsah v proměnné html_obsah
</details>

### 3.2 Hlavní smyčka pro stažení všech stránek

Napište `while` cyklus, který:
1. Načte stránku
2. Zkontroluje, zda tabulka obsahuje data
3. Pokud ano - uloží HTML a přejde na další stránku
4. Pokud ne - ukončí cyklus

**Důležité:** 
- Použijte podmínku `while not je_tabulka_prazdna(browser)`
- Nezapomeňte na pauzu mezi požadavky (respektujte FAQ webu!)
- Stránku je třeba nejprve načíst, než můžete zkontrolovat, zda je prázdná

In [None]:
# Stažení všech stránek
# Nezapomeňte na pauzu mezi požadavky pomocí time.sleep()




<details>
<summary>Nápověda</summary
    >
1) nastavte číslo na první stránku, načítejte a počkejte
2) v cyklu kým není `je_tabulka_prazdna()` stahujte postupne stranky, zvyšujte číslo a načtěte další, po načítaní vždy počkejte
3) počas stahování i na konci můžete vypisovat informace)
```
</details>

### 3.3 Zavření prohlížeče

Po dokončení stahování nezapomeňte zavřít prohlížeč.

In [None]:
# Zavřete prohlížeč




---

## Krok 5: Ověření výsledků

### 5.1 Kontrola stažených souborů

Zkontrolujte, kolik souborů bylo staženo a vypište jejich názvy.

In [None]:
import glob

# Najděte všechny HTML soubory ve složce data/raw/ a vypište jejich počet a názvy


<details>
<summary>Nápověda</summary>

použi funkci `glob.glob()`, 
seznam seřaď pomocí `sort()`

v cyklu vypište seznam souborů, případne délku seznamu
</details>

### 6.2 Kontrola obsahu prvního souboru

Načtěte první soubor a zobrazte prvních 500 znaků pro ověření, že obsahuje správná data.

In [None]:
# Načtěte a zobrazte začátek prvního HTML souboru


<details>
<summary>Nápověda</summary>

```python
with open('data/raw/hockey_teams_page_01.html', 'r', encoding='utf-8') as f:
    obsah = f.read()

print(obsah[:500])
```
</details>

---

## Shrnutí

V tomto notebooku jste zkusili:
- Používat Selenium pro automatizaci webového prohlížeče
- Analyzovat strukturu URL pro stránkování
- Stahovat a ukládat HTML soubory
- Respektovat limity webu pomocí pauz mezi požadavky

**Výstup:** Ve složce `data/raw/` máte nyní 24 HTML souborů s hokejovými statistikami.

**Další krok:** Přejděte k notebooku `02_ZpracovaniDat.ipynb`, kde z těchto HTML souborů extrahujeme strukturovaná data.

---

## Tipy pro vylepšení kódu

1. **Ošetření chyb:** Přidejte try-except blok pro případ, že některá stránka není dostupná

```python
try:
    browser.get(url)
    # ...
except Exception as e:
    print(f"Chyba při stahování stránky {i}: {e}")
```

2. **Kontrola existence souborů:** Před stažením zkontrolujte, zda soubor již neexistuje

```python
nazev_souboru = f"data/raw/hockey_teams_page_{str(i).zfill(2)}.html"
if os.path.exists(nazev_souboru):
    print(f"Soubor {nazev_souboru} již existuje, přeskakuji...")
    continue
```

3. **Progress bar:** Pro delší stahování použijte knihovnu tqdm pro zobrazení průběhu

```python
from tqdm import tqdm

for i in tqdm(range(1, POCET_STRANEK + 1), desc="Stahování"):
    # ...
```

4. Pokud chcete spustit prohlížeč bez zobrazení okna (headless režim):
```python
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
browser = webdriver.Chrome(options=options)
```