# Workshop: Analýza hokejových dat pro sázkovou kancelář

## Popis projektu

Vítejte u závěrečného workshopu modulu "Python - Analýza dat". V tomto projektu se vžijete do role datového analytika v nově založené online sázkové kanceláři. Vaším úkolem bude:

1. Získat historická data o výsledcích hokejové ligy z veřejně dostupných zdrojů
2. Zpracovat a vyčistit tato data
3. Provést explorativní analýzu dat
4. Na základě analýzy navrhnout počáteční sázkové kurzy

Tento workshop propojuje znalosti z celého kurzu - web scraping, práci s JSON, analýzu dat pomocí pandas a vizualizaci pomocí matplotlib.

## Potrebné knižnice

1.  **Selenium** - to download information about currently existing job offers,
2.  **BeautifulSoup** - to process unstructured data (HTML code) into tabular data (DataSet),
3.  **Pandas** - to perform data transformations,
4.  **Matplotlib** - to present results.

## Review before the Workshop

The workshop will build on knowledge from the entire course. However, some things are worth reviewing. These include:
*   Downloading page code using Selenium and saving this code to a file.
*   Reading the saved file from the disk.
*   Searching folders (the glob module covered during Python classes).
*   Iterating over data structures (lists, dictionaries, etc.).
*   Finding elements in the page code using BeautifulSoup.


Additional Comment
------------------

The presented structure is called cookiecutter for Data Science, but to avoid additional confusion, it has been simplified for workshop purposes. More information about this approach can be found [here](https://cookiecutter-data-science.drivendata.org/).


## Struktura projektu

Projekt je rozdělen do následujících kroků:

| Notebook | Název | Popis |
|----------|-------|-------|
| 01 | DataDownload | Stažení HTML stránek pomocí Selenium |
| 02 | DataProcessing | Parsování HTML do JSON pomocí BeautifulSoup |
| 03 | DataAnalysis | Explorativní analýza dat pomocí pandas a matplotlib |
| 04 | BusinessRecommendations | Návrh sázkových kurzů a diskuze |

### Adresářová struktura

```
projekt/
├── data/
│   ├── raw/           # Surová data - stažené HTML soubory, best practise je neupravovat tyhle syrove zdroje
│   ├── interim/       # Mezivýsledky - JSON soubor
│   └── processed/     # Finální data - vyčištěný CSV soubor
└── notebooks/         # Jupyter notebooky s řešením
└── drivers(deleted)/  # není potřeba
└── env(optional)/ # volitelné
```

**Poznámka k adresářové struktuře:**
- `data/raw/` - sem ukládáme původní HTML soubory bez jakýchkoliv úprav
- `data/interim/` - mezikrok obsahující zparsovaná data ve formátu JSON
- `data/processed/` - finální vyčištěná data připravená pro analýzu

## Zdroj dat

Data budeme stahovat z webu [Scrape This Site](https://www.scrapethissite.com/pages/forms/), který je určen pro procvičování web scrapingu.

**Důležité:** Před stahováním si přečtěte sekci [FAQ](https://www.scrapethissite.com/faq/) ohledně limitů na počet požadavků.

Web obsahuje statistiky NHL týmů za jednotlivé sezóny včetně:
- Počtu výher, proher a proher v prodloužení
- Procenta výher
- Počtu vstřelených a obdržených gólů

---

# Opakování klíčových témat

Než začnete s workshopem, projděte si následující témata, která budete potřebovat.

## 1. Selenium - automatizace prohlížeče

Selenium slouží k automatizaci webového prohlížeče. Použijeme ho pro stažení HTML stránek.

### Základní použití Selenium (zjednodušená verze)

In [None]:
# Importy pro Selenium
from selenium import webdriver
# from selenium.webdriver.common.by import By

# Vytvoření instance prohlížeče (Chrome)
browser = webdriver.Chrome()

# Načtení webové stránky
browser.get('https://www.amazon.com/')

# Získání HTML obsahu stránky
html_obsah = browser.page_source


In [None]:
# Zavření prohlížeče
browser.quit()

### Hledání elementů na stránce

In [None]:
element = browser.find_element('id', 'nav-flyout-icp')

In [None]:
# Různé způsoby hledání elementů
element = browser.find_element('id', 'nav-flyout-icp')
element = browser.find_element('class name', 'nazev_tridy')
element = browser.find_element('tag name', 'a')
element = browser.find_element('css selector', '.nav-a')

# Kliknutí na element
element.click()

# Vypsání textu elementu
print(element.text)

## 2. BeautifulSoup - parsování HTML

BeautifulSoup slouží k extrakci dat z HTML a XML dokumentů.

In [None]:
from bs4 import BeautifulSoup

# Ukázkový HTML kód
html = """
<html>
<body>
    <table class="data">
        <tr>
            <td>Boston Bruins</td>
            <td>44</td>
            <td>24</td>
        </tr>
        <tr>
            <td>New York Rangers</td>
            <td>36</td>
            <td>31</td>
        </tr>
    </table>
</body>
</html>
"""

# Vytvoření BeautifulSoup objektu
soup = BeautifulSoup(html, 'html.parser')

# Hledání všech řádků tabulky
radky = soup.find_all('tr')

In [None]:
radky

In [None]:
for radek in radky:
    bunky = radek.find_all('td')
    if bunky:
        tym = bunky[0].text
        vyhry = bunky[1].text
        prohry = bunky[2].text
        print(f"{tym}: {vyhry} výher, {prohry} proher")

### Užitečné metody BeautifulSoup

In [None]:
# Hledání podle tagu
soup.find('div')           # První výskyt
soup.find_all('div')       # Všechny výskyty

# Hledání podle třídy
soup.find('div', class_='nazev-tridy')
soup.find_all('tr', class_='team')

# Hledání podle atributu
soup.find('a', {'href': '/link'})

# Získání textu
element.text              # Text elementu
element.get_text(strip=True)  # Text bez mezer

# Získání atributu
element['href']           # Hodnota atributu href
element.get('class')      # Hodnota atributu class

## 3. JSON - formát pro strukturovaná data

JSON (JavaScript Object Notation) je textový formát pro výměnu dat.

In [None]:
import json

# Data jako Python seznam slovníků
data = [
    {"Team Name": "Boston Bruins", "Wins": 44, "Losses": 24},
    {"Team Name": "New York Rangers", "Wins": 36, "Losses": 31}
]

# Uložení do JSON souboru
with open('data.json', 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=2)

# Načtení z JSON souboru
with open('data.json', 'r', encoding='utf-8') as f:
    nactena_data = json.load(f)

print(nactena_data)

In [None]:
type(nactena_data)

## 4. Modul glob - vyhledávání souborů

Modul glob slouží k vyhledávání souborů podle vzoru (pattern matching).

In [None]:
import glob

# Najde všechny HTML soubory ve složce
html_soubory = glob.glob('../data/raw/*.html')

# Najde všechny soubory začínající na "hockey"
soubory = glob.glob('../data/raw/hockey*.html')

# Iterace přes nalezené soubory
for soubor in html_soubory:
    print(soubor)

## 5. Pandas - základní operace

Pandas je knihovna pro práci s tabulkovými daty.

In [None]:
import pandas as pd

# Načtení dat z různých formátů
df = pd.read_json('data.json')                    # Z JSON
df = pd.read_csv('data.csv', sep=';')             # Z CSV se středníkem

# Základní informace o DataFrame
df.head()          # Prvních 5 řádků
df.info()          # Informace o sloupcích a typech
df.describe()      # Statistický souhrn
df.shape           # Rozměry (řádky, sloupce)

### Přejmenování sloupců pomocí slovníku

In [None]:
# Definice mapování starých názvů na nové
mapovani_sloupcu = {
    'Team Name': 'team',
    'Year': 'season',
    'Wins': 'victories',
    'Losses': 'defeats'
}

# Přejmenování pomocí rename()
df.rename(columns=mapovani_sloupcu, inplace = True)

# Alternativa: přímé přiřazení seznamu názvů
# df.columns = ['team', 'season', 'victories', 'defeats']

### Práce s chybějícími hodnotami

In [None]:
# Kontrola chybějících hodnot
df.isnull().sum()              # Počet NaN v každém sloupci

# Nahrazení prázdných řetězců hodnotou
df['sloupec'] = df['sloupec'].replace('', 0)
df.loc[df['sloupec'] == '', 'sloupec'] = 0

# Vyplnění NaN hodnot
df['sloupec'] = df['sloupec'].fillna(0)

# Převod datového typu
df['sloupec'] = df['sloupec'].astype(int)

### Agregace a grupování

In [None]:
# Grupování podle sloupce a výpočet statistik
df.groupby('team')['victories'].mean()       # Průměrné výhry podle týmu
df.groupby('team')['victories'].sum()        # Celkové výhry
df.groupby('season').agg({'victories': 'sum', 'defeats': 'mean'})

# Počet unikátních hodnot
df['team'].nunique()                         # Počet unikátních týmů
df['team'].value_counts()                    # Počet výskytů každého týmu

## 6. Matplotlib - vizualizace dat

In [None]:
import matplotlib.pyplot as plt

# Histogram
plt.figure(figsize=(8, 4))

plt.hist(df['avg_temp'], 
         bins=range(-5, 31, 5)
        )

plt.ylabel('Počet výskytů')
plt.xlabel('Teplota (°C)')
plt.title('Histogram rozložení teplot v Polsku v roce 2020')

plt.show()

In [None]:
# Bodový graf (scatter plot)
plt.figure(figsize=(8,4))

# jednoduchy scatter
plt.scatter(df.index, df['avg_temp'],
            c=df['avg_temp'],
            cmap='plasma')
plt.colorbar()

plt.xticks(ticks = MONTHS_CHANGE, labels = MONTHS, rotation = 45)
plt.show()

## 7. Práce se soubory v Pythonu

In [None]:
# Čtení celého souboru
with open('soubor.html', 'r', encoding='utf-8') as f:
    obsah = f.read()

# Zápis do souboru
with open('soubor.html', 'w', encoding='utf-8') as f:
    f.write(html_obsah)

# Vytvoření složky, pokud neexistuje
import os
os.makedirs('../data/raw', exist_ok=True)

## 8. Užitečné funkce Pythonu

In [7]:
# Formátování čísel s vedoucími nulami
cislo = 'ccc'
formatovane = cislo.zfill(10)   # '05'
formatovane

'0000000ccc'

In [None]:
# Alternativně pomocí f-stringu
formatovane = f"{cislo:02d}"        # '05'
# 0 Vyplň prázdne miesta nulami (nie medzerami)
# 2 Minimálna šírka 2 znaky
# d Formátuj ako celé číslo (d=integer/f=float)

# Range pro iteraci
for i in range(1, 25):    # 1 až 24
    print(f"Stránka {i}")

# Čekání mezi požadavky
import time
time.sleep(1)   # Čeká 1 sekundu

---

## Další kroky

Nyní přejděte k notebooku `01_DataDownload.ipynb`, kde začnete se stahováním dat z webu.

### Doporučený postup

1. Projděte si web [Scrape This Site](https://www.scrapethissite.com/pages/forms/) a prohlédněte strukturu dat
2. Prostudujte HTML strukturu stránky pomocí Developer Tools v prohlížeči (F12)
3. Zjistěte, kolik stránek s daty je k dispozici
4. Všimněte si struktury URL při přechodu mezi stránkami