# 02 - Zpracování dat

## Cíl tohoto notebooku

V tomto kroku zpracujeme HTML soubory stažené v předchozím kroku a extrahujeme z nich strukturovaná data do formátu JSON.

**Co se naučíte /zopakujete si:**
- Použití modulu glob pro vyhledávání souborů
- Parsování HTML pomocí BeautifulSoup
- Extrakce dat z HTML tabulek
- Ukládání dat do formátu JSON

**Vstup:** HTML soubory ve složce `data/raw/`

**Výstup:** Soubor `data/interim/hockey_teams.json`

---

## Struktura výstupních dat

Každý záznam o týmu bude mít následující strukturu:

```python
{
    'Team Name': 'Boston Bruins',
    'Year': '1990',
    'Wins': '44',
    'Losses': '24',
    'OT Losses': '',
    'Win %': '0.55',
    'Goals For (GF)': '299',
    'Goals Against (GA)': '264',
    '+ / -': '35'
}
```

Všechny záznamy budou uloženy jako seznam slovníků v JSON souboru.

---

## Krok 1: Příprava prostředí

### 1.1 Import potřebných knihoven

In [1]:
# Doplňte importy:
# - glob pro vyhledávání souborů
# - BeautifulSoup pro parsování HTML
# - json pro práci s JSON formátem
# - os pro práci se složkami

import glob
import json
import os
from bs4 import BeautifulSoup

In [4]:
CESTA_RAW = '../data/raw'

<details>
<summary>Nápověda</summary>

```python
import glob
import json
import os
from bs4 import BeautifulSoup
```
</details>

### 1.2 Vytvoření složky pro výstup

Vytvořte složku `data/interim/`, pokud neexistuje.

In [2]:
# Vytvořte složku pro mezivýsledky

os.makedirs('../data/interim', exist_ok = True)

---

## Krok 2: Načtení seznamu HTML souborů

### 2.1 Vyhledání všech HTML souborů

Použijte modul `glob` k nalezení všech HTML souborů ve složce `data/raw/`.

In [14]:
# Najděte všechny HTML soubory pomocí glob
# Seřaďte je podle názvu pro konzistentní pořadí

soubory = glob.glob(CESTA_RAW + '/*.html')
soubory

['../data/raw\\hockey_teams_page_01.html',
 '../data/raw\\hockey_teams_page_02.html',
 '../data/raw\\hockey_teams_page_03.html',
 '../data/raw\\hockey_teams_page_04.html',
 '../data/raw\\hockey_teams_page_05.html',
 '../data/raw\\hockey_teams_page_06.html',
 '../data/raw\\hockey_teams_page_07.html',
 '../data/raw\\hockey_teams_page_08.html',
 '../data/raw\\hockey_teams_page_09.html',
 '../data/raw\\hockey_teams_page_10.html',
 '../data/raw\\hockey_teams_page_11.html',
 '../data/raw\\hockey_teams_page_12.html',
 '../data/raw\\hockey_teams_page_13.html',
 '../data/raw\\hockey_teams_page_14.html',
 '../data/raw\\hockey_teams_page_15.html',
 '../data/raw\\hockey_teams_page_16.html',
 '../data/raw\\hockey_teams_page_17.html',
 '../data/raw\\hockey_teams_page_18.html',
 '../data/raw\\hockey_teams_page_19.html',
 '../data/raw\\hockey_teams_page_20.html',
 '../data/raw\\hockey_teams_page_21.html',
 '../data/raw\\hockey_teams_page_22.html',
 '../data/raw\\hockey_teams_page_23.html',
 '../data/r

<details>
<summary>Nápověda</summary>
Pomocí `glob.glob(url maska)` získejte seznam souborů

pak je seřaďte
</details>

In [None]:
# Pro kontrolu si můžete zobrazit počet, první a poslední

---

## Krok 3: Analýza struktury HTML

### 3.1 Prozkoumání struktury stránky

Nejprve načtěte jeden HTML soubor a prozkoumejte jeho strukturu pomocí BeautifulSoup.

**Tip:** Otevřete jeden z HTML souborů v prohlížeči a pomocí Developer Tools (F12) prozkoumejte strukturu tabulky.

In [17]:
# Načtěte první HTML soubor a vytvořte BeautifulSoup objekt

with open(soubory[0], 'r', encoding = 'UTF-8') as f:
    html_obsah = f.read()

html_obsah[:500]

'<html lang="en"><head>\n    <meta charset="utf-8">\n    <title>Hockey Teams: Forms, Searching and Pagination | Scrape This Site | A public sandbox for learning web scraping</title>\n    <link rel="icon" type="image/png" href="/static/images/scraper-icon.png">\n\n    <meta name="viewport" content="width=device-width, initial-scale=1.0">\n    <meta name="description" content="Browse through a database of NHL team stats since 1990. Practice building a scraper that handles common website interface compone'

In [19]:
soup = BeautifulSoup(html_obsah, 'html.parser')

<details>
<summary>Nápověda</summary>
    
1. načtete soubor jako textový soubor - `with open() ...`
2. obsahem je jednoduchý string
3. vytvořte objekt BeautifulSoup
   
</details>

### 3.2 Nalezení tabulky s daty

Najděte tabulku obsahující data o týmech. Tabulka má třídu `table`.

In [29]:
# Najděte tabulku s daty, Tabulka má třídu "table"
# tabulka = soup.find(class_, 'table')
tabulka = soup.select_one('.table')

<details>
<summary>Nápověda</summary>

```python
tabulka = soup.find(class_='table')
```
</details>

In [30]:
print(tabulka.prettify())

<table class="table">
 <tbody>
  <tr>
   <th>
    Team Name
   </th>
   <th>
    Year
   </th>
   <th>
    Wins
   </th>
   <th>
    Losses
   </th>
   <th>
    OT Losses
   </th>
   <th>
    Win %
   </th>
   <th>
    Goals For (GF)
   </th>
   <th>
    Goals Against (GA)
   </th>
   <th>
    + / -
   </th>
  </tr>
  <tr class="team">
   <td class="name">
    Boston Bruins
   </td>
   <td class="year">
    1990
   </td>
   <td class="wins">
    44
   </td>
   <td class="losses">
    24
   </td>
   <td class="ot-losses">
   </td>
   <td class="pct text-success">
    0.55
   </td>
   <td class="gf">
    299
   </td>
   <td class="ga">
    264
   </td>
   <td class="diff text-success">
    35
   </td>
  </tr>
  <tr class="team">
   <td class="name">
    Buffalo Sabres
   </td>
   <td class="year">
    1990
   </td>
   <td class="wins">
    31
   </td>
   <td class="losses">
    30
   </td>
   <td class="ot-losses">
   </td>
   <td class="pct text-danger">
    0.388
   </td>
   <td class=

Najděte všechny řádky tabulky (tag `tr`), které mají třídu `team`.

In [31]:
# Najděte všechny řádky tabulky s třídou "team"
# radky = soup.find_all('tr', class_ = 'team')
radky = tabulka.select('tr.team')

In [32]:
len(radky)

25

In [34]:
print(radky[0].prettify())

<tr class="team">
 <td class="name">
  Boston Bruins
 </td>
 <td class="year">
  1990
 </td>
 <td class="wins">
  44
 </td>
 <td class="losses">
  24
 </td>
 <td class="ot-losses">
 </td>
 <td class="pct text-success">
  0.55
 </td>
 <td class="gf">
  299
 </td>
 <td class="ga">
  264
 </td>
 <td class="diff text-success">
  35
 </td>
</tr>



<details>
<summary>Nápověda</summary>
použi `tabulka.find_all(class_ =)` nebo `tabulka.select('.')`

</details>

Každá buňka (`td`) má specifickou třídu, např.:
- `name` pro název týmu
- `year` pro rok
- `wins` pro výhry
- atd.

In [39]:
# Prozkoumejte první řádek a extrahujte data z jednotlivých buněk
r = 1
radky[r].select_one('.name')

<td class="name">
                            Buffalo Sabres
                        </td>

In [40]:
radky[r].select_one('.name').text.strip()

'Buffalo Sabres'

<details>
<summary>Nápověda</summary>

* pro element `radky[0]` použi `find()` nebo `select_one()` a selekce pro třídu
* vhodné je použít na výstup `text.strip()` 

</details>

---

## Krok 4: Definice mapování sloupců

### 4.1 Vytvoření slovníku pro mapování

Vytvořte slovník, který mapuje CSS třídy na názvy klíčů ve výstupním slovníku.

Toto je lepší přístup než tvrdé přiřazování hodnot, protože:
- Kód je přehlednější a snadněji se upravuje
- Snadno lze přidat nebo odebrat sloupce
- Názvy jsou na jednom místě

In [41]:
# Vytvořte slovník mapující CSS třídy na názvy výstupních klíčů
# Formát: 'css_trida': 'Nazev v JSON'

MAPOVANI_SLOUPCU = {
    'name': 'Team Name',
    'year': 'Year',
    'wins': 'Wins',
    'losses': 'Losses',
    'ot-losses': 'OT Losses',
    'pct': 'Win %',
    'gf': 'Goals For (GF)',
    'ga': 'Goals Against (GA)',
    'diff': '+ / -'
}

<details>
<summary>Nápověda</summary>

```python
MAPOVANI_SLOUPCU = {
    'name': 'Team Name',
    'year': 'Year',
    'wins': 'Wins',
    'losses': 'Losses',
    'ot-losses': 'OT Losses',
    'pct': 'Win %',
    'gf': 'Goals For (GF)',
    'ga': 'Goals Against (GA)',
    'diff': '+ / -'
}
```
</details>

---

## Krok 5: Funkce pro extrakci dat z jednoho řádku

### 5.1 Vytvoření funkce

Vytvořte funkci, která z jednoho HTML řádku extrahuje slovník s daty o týmu.

In [42]:
radky[r]

<tr class="team">
<td class="name">
                            Buffalo Sabres
                        </td>
<td class="year">
                            1990
                        </td>
<td class="wins">
                            31
                        </td>
<td class="losses">
                            30
                        </td>
<td class="ot-losses">
</td>
<td class="pct text-danger">
                            0.388
                        </td>
<td class="gf">
                            292
                        </td>
<td class="ga">
                            278
                        </td>
<td class="diff text-success">
                            14
                        </td>
</tr>

In [43]:
MAPOVANI_SLOUPCU

{'name': 'Team Name',
 'year': 'Year',
 'wins': 'Wins',
 'losses': 'Losses',
 'ot-losses': 'OT Losses',
 'pct': 'Win %',
 'gf': 'Goals For (GF)',
 'ga': 'Goals Against (GA)',
 'diff': '+ / -'}

In [45]:
MAPOVANI_SLOUPCU.items()

dict_items([('name', 'Team Name'), ('year', 'Year'), ('wins', 'Wins'), ('losses', 'Losses'), ('ot-losses', 'OT Losses'), ('pct', 'Win %'), ('gf', 'Goals For (GF)'), ('ga', 'Goals Against (GA)'), ('diff', '+ / -')])

In [60]:
def extrahuj_data_z_radku(radek, mapovani):
    zaznam = {}
    for html_class, key in MAPOVANI_SLOUPCU.items():
        bunka = radek.select_one(f".{html_class}")
        if bunka:
            zaznam[key] = bunka.text.strip()
        else:
            zaznam[key] = ''
    return zaznam        

<details>
<summary>Nápověda</summary>
    
1. vytvor prázdny slovník
2. v cyklu procházej mapovani
2. a) hledej css třídu (buňku v tabulce) z mapovani v aktualnim radku
2. b) když si ji našel, vyber hodnotu a zapiš do slovníka nazev klíče a hodnotu
2. c) když si takú třídu nenašel, zapiš do slovníka název klíče a prázdnu hodnotu
3. na konci vrať vytvořený slovník
</details>

### 5.2 Test funkce na prvním řádku

In [62]:
# Otestujte funkci pro radky[0]
extrahuj_data_z_radku(radky[0], MAPOVANI_SLOUPCU)

{'Team Name': 'Boston Bruins',
 'Year': '1990',
 'Wins': '44',
 'Losses': '24',
 'OT Losses': '',
 'Win %': '0.55',
 'Goals For (GF)': '299',
 'Goals Against (GA)': '264',
 '+ / -': '35'}

<details>
<summary>Nápověda</summary>

zavolej funkci `extrahuj_data_z_radku(radky[0], MAPOVANI_SLOUPCU)`
a zkontroluj vystup

</details>

### 5.3 Funkce pro zpracování jednoho HTML souboru

Vytvořte funkci, která zpracuje celý HTML soubor a vrátí seznam záznamů.

In [66]:
def zpracuj_html_soubor(cesta_k_souboru, mapovani):
    """
    Zpracuje jeden HTML soubor a extrahuje data o všech týmech.
    
    Parametry:
        cesta_k_souboru: Cesta k HTML souboru
        mapovani: Slovník mapující CSS třídy na názvy klíčů
    
    Vrací:
        Seznam slovníků s daty o týmech
    """
    # nacteni souboru
    with open(cesta_k_souboru, 'r', encoding = 'UTF-8') as f:
        html_obsah = f.read()
    # soup objekt
    soup = BeautifulSoup(html_obsah, 'html.parser')

    # trida table
    tabulka = soup.select_one('.table')

    # seznam tymu
    seznam_tymu = []
    
    # radky
    radky = tabulka.select('tr.team')
    for r in radky:
        seznam_tymu.append(extrahuj_data_z_radku(r, mapovani)) # vraci slovnik pro jeden tym

    return seznam_tymu

<details>
<summary>Nápověda</summary>

1. otevři soubor a načti jeho obsah jako text
2. sparsuj ho do soup objektu
3. najdi třídu `table` (když si nenašel, vráť prázdny list) - viz 3.2
4. najdi všechni řádky - viz 3.2
5. pro všechny rádky `extrahuj_data_z_radku(radek, mapovani)`
6. vystup z extrakce ukládaj do seznamu - výsledkem bude seznam slovníků
7. vráť ten seznam 

```python
def zpracuj_html_soubor(cesta_k_souboru, mapovani):
    # Načtení souboru
    
    # Parsování HTML
    
    # Nalezení tabulky
    
    # Nalezení všech řádků s daty
    
    # Extrakce dat z každého řádku
    
    return ...
```
</details>

In [67]:
# otestuj funkci
zpracuj_html_soubor(subory[0], MAPOVANI_SLOUPCU)

[{'Team Name': 'Boston Bruins',
  'Year': '1990',
  'Wins': '44',
  'Losses': '24',
  'OT Losses': '',
  'Win %': '0.55',
  'Goals For (GF)': '299',
  'Goals Against (GA)': '264',
  '+ / -': '35'},
 {'Team Name': 'Buffalo Sabres',
  'Year': '1990',
  'Wins': '31',
  'Losses': '30',
  'OT Losses': '',
  'Win %': '0.388',
  'Goals For (GF)': '292',
  'Goals Against (GA)': '278',
  '+ / -': '14'},
 {'Team Name': 'Calgary Flames',
  'Year': '1990',
  'Wins': '46',
  'Losses': '26',
  'OT Losses': '',
  'Win %': '0.575',
  'Goals For (GF)': '344',
  'Goals Against (GA)': '263',
  '+ / -': '81'},
 {'Team Name': 'Chicago Blackhawks',
  'Year': '1990',
  'Wins': '49',
  'Losses': '23',
  'OT Losses': '',
  'Win %': '0.613',
  'Goals For (GF)': '284',
  'Goals Against (GA)': '211',
  '+ / -': '73'},
 {'Team Name': 'Detroit Red Wings',
  'Year': '1990',
  'Wins': '34',
  'Losses': '38',
  'OT Losses': '',
  'Win %': '0.425',
  'Goals For (GF)': '273',
  'Goals Against (GA)': '298',
  '+ / -': '-

---

## Krok 6: Zpracování všech souborů

### 6.1 Hlavní smyčka pro zpracování

Projděte všechny HTML soubory a shromážděte data ze všech stránek.

In [None]:
# Zpracujte všechny HTML soubory
# Shromážděte všechny záznamy do jednoho seznamu



<details>
<summary>Nápověda</summary>
    
1) vytvor prázdny finální seznam souborů
2) procházej v cyklu html_soubory a každý prvek vlož do finálního
3) průběžne vypisuj jaký soubor spracovávaš
! ne `append()` ale `extend()`

```python
a = [1, 2]
a.append([3, 4])
# a -> [1, 2, [3, 4]]   (nested list, length 3)

a = [1, 2]
a.extend([3, 4])
# a -> [1, 2, 3, 4]     (flat list, length 4)
```
</details>

### 6.2 Kontrola dat

Zobrazte prvních několik záznamů pro kontrolu.

In [None]:
# Zobrazte první 3 záznamy



---

## Krok 7: Uložení dat do JSON

### 7.1 Uložení do souboru

Uložte všechny záznamy do souboru `data/interim/hockey_teams.json`.

In [None]:
# Uložte data do JSON souboru


<details>
<summary>Nápověda</summary>

1. Otevřete soubor na zápis
2. Funkce `json.dump()`
2. a) Použijte `ensure_ascii=False` pro správné zobrazení speciálních znaků
2. b) Použijte `indent=2` pro čitelné formátování
2. c) vložte obsah `vsechny_zaznamy`
3. vypište informaci o uložení
   
```python
vystupni_soubor = '../data/interim/hockey_teams.json'

```
</details>

### 7.2 Ověření uloženého souboru

Načtěte soubor zpět a ověřte, že data byla správně uložena.

In [None]:
# Načtěte JSON soubor zpět a ověřte počet záznamů


<details>
<summary>Nápověda</summary>

```python
with open(vystupni_soubor, 'r', encoding='utf-8') as f:
    nactena_data = json.load(f)
...
```
</details>

---

## Shrnutí

V tomto notebooku jste se naučili:
- Používat modul glob pro vyhledávání souborů
- Parsovat HTML pomocí BeautifulSoup
- Extrahovat data z HTML tabulek pomocí CSS tříd
- Používat slovníky pro flexibilní mapování dat
- Ukládat strukturovaná data do formátu JSON

**Výstup:** Soubor `data/interim/hockey_teams.json` obsahující všechna data o hokejových týmech.

**Další krok:** Přejděte k notebooku `03_AnalyzaDat.ipynb`, kde provedeme explorativní analýzu těchto dat.

---

## Tipy pro vylepšení kódu

1. **Použití slovníku místo tvrdého přiřazení:**

```python
# Špatně - tvrdé přiřazení
zaznam = {
    'Team Name': radek.find('td', class_='name').text.strip(),
    'Year': radek.find('td', class_='year').text.strip(),
    # ... mnoho dalších řádků
}

# Dobře - použití slovníku pro mapování
for css_trida, nazev in MAPOVANI_SLOUPCU.items():
    zaznam[nazev] = radek.find('td', class_=css_trida).text.strip()
```

2. **Ošetření chybějících hodnot:**

```python
bunka = radek.find('td', class_=css_trida)
hodnota = bunka.text.strip() if bunka else ''
```

3. **Logging místo print:**

```python
import logging

logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

logger.info(f"Zpracovávám soubor: {soubor}")
```

4. **Validace extrahovaných dat:**

```python
def validuj_zaznam(zaznam):
    """Zkontroluje, zda záznam obsahuje všechny povinné hodnoty."""
    povinne_klice = ['Team Name', 'Year', 'Wins', 'Losses']
    for klic in povinne_klice:
        if not zaznam.get(klic):
            return False
    return True
```