# Cvičenie 11: Web scraping

Web scraping je proces automatického získavania dát zo stránok na internete. Na tomto cvičení ukážeme, ako môžete pomocou Pythonu automaticky získavať údaje z webových stránok, a ako môžete pridať vlastnú funkcionalitu. Naším cieľom je načítať ponuku jedál z web stránky TUKE [jedalen.tuke.sk](https://jedalen.tuke.sk/denne-menu). Táto stránka síce poskytuje pekný prehľad denného menu, neumožňuje filtrovať ponuku podľa alergénov alebo iných stravovacích obmedzení. Práve preto na dnešnom cvičení napíšeme program, ktorý načíta údaje o jedlách, aj s uvedenými alergénmi a vypíše iba tie, ktoré spĺňajú kritériá definované používateľom (neobsahujú zadané alergény). [Zoznam alergénov a ich kódy nájdete na tejto stránke](https://jedalen.tuke.sk/alergeny).

Na tieto účely existuje niekoľko knižníc, my budeme používať `BeautifulSoup`, ktorá umožňuje jednoducho analyzovať HTML kód a vyberať z neho požadované informácie. Okrem toho v kombinácii s knižnicou `requests` vieme pohodlne načítať obsah stránok bez potreby ručného sťahovania. Ak počas vypracovania úlohy budete mať otázky alebo neistoty, môžete si prečítať viac o použitých funkciách [v dokumentácii knižnice `BeautifulSoup`](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

Na úvod si však potrebujete nainštalovať potrebné knižnice, napríklad cez príkazový riadok
```
pip install beautifulsoup4
pip install requests
```
```:


## 1. Analýza webovej stránky

Aby sme mohli spracovať ponuku jedál, najskôr potrebujeme získať údaje zo stránky jedálne. Stránka `jedalen.tuke.sk` obsahuje denný jedálny lístok, ktorý je zvyčajne usporiadaný v tabuľke alebo zozname. Každé jedlo je v samostatnom riadku a obsahuje aj zoznam alergénov. Na to, aby sme vedeli tieto údaje správne spracovať, musíme analyzovať HTML štruktúru stránky, nájsť vhodné elementy (napr. tabuľku alebo div kontajner s jedlami) a identifikovať, kde presne sú názvy jedál a ich alergény.

Otvorte si stránku v ľubovoľnom prehliadači, a analyzujte zdrojový kód stránky, aby ste zistili, ako môžete pristupovať k potrebným údajom.

**Poznámka**: Zoznam alergénov zatiaľ nemusíte načítať priamo z web stránky, budeme predpokladať, že používateľ ich pozná, a zadá už rovno ich číselné kódy.

## 2. Získanie html kódu

Keď už vieme, aké údaje chceme zo stránky načítať, musíme najprv získať samotný HTML kód stránky. Na tento účel môžeme použiť knižnicu `requests`, ktorá umožňuje jednoducho odoslať HTTP požiadavku a získať obsah stránky ako text. Alternatívne je možné použiť aj knižnicu `urllib`, ktorá je súčasťou štandardnej knižnicovej výbavy Pythonu. Výsledný HTML text si neskôr spracujeme pomocou knižnice `BeautifulSoup`.

Implementujete funkciu `get_menu_html(url)`, ktorá načíta HTML obsah stránky s ponukou jedál. Funkcia má jeden parameter (`url`) – adresu webovej stránky. Funkcia odošle HTTP požiadavku, načíta odpoveď a vráti ju vo forme textového reťazca. Ak pri načítavaní dôjde k chybe (napr. stránka je nedostupná), funkcia vyvolá výnimku.

**Poznámka**: Pri riešení sa môžete inšpirovať dokumentáciou [knižnice `requests`](https://requests.readthedocs.io/en/latest/), prípadne [knižnice `urllib`](https://docs.python.org/3/library/urllib.html).

In [None]:
def get_menu_html(url):
    # Sends an HTTP request to the given URL and returns the HTML content of the page as a string.
    return ""

## 3. Úprava reprezentácie

Síce teoreticky by sme mohli pracovať s načítam HTML kódom ako s textom, nebolo by to veľmi praktické. Pre reprezentáciu web stránky so zachovaním pôvodnej štruktúry preto použijeme knižnicu `BeautifulSoup`.

Implementujte funkciu `parse_menu(html)`, ktorá z načítaného HTML obsahu vytvorí parsovanú reprezentáciu `BeautifulSoup`, a vráti iba sekciu denného menu pre každú jedáleň (vracia teda zoznam HTML tagov).

In [None]:
def parse_menu(html):
    # Parses the given HTML content and returns the div element containing the daily menu.
    return []

## 4. Načítanie jedál

Keď máme načítaný správny kontajner s denným menu, ďalším krokom je získať konkrétne údaje o jednotlivých jedlách. Každé jedlo je uložené v tabuľke, kde každý riadok reprezentuje jednu položku. V rámci riadku sa názov jedla a alergény nachádzajú v samostatných stĺpcoch. Aby sme mohli tieto informácie spracovať programovo, musíme prejsť všetky riadky tabuľky, z každého riadku načítať názov jedla a zoznam alergénov, a uložiť ich do vhodnej dátovej štruktúry.

Implementujte funkciu `load_meals(daily_menu)` tak, aby prešla všetky riadky denného menu a pre každé jedlo vytvorila dvojicu (*tuple*). Prvým prvkom dvojice bude názov jedla ako reťazec, druhým prvkom bude zoznam alergénov (*list*), kde každý alergén bude reprezentovaný ako celé číslo. Funkcia nakoniec vráti zoznam všetkých týchto dvojíc. Parameter funkcie je rovnaký, ako výsledok funkcie `parse_menu()`.

In [None]:
def load_meals(daily_menu):
    # Parses the daily menu (passed as a parameter) and returns a list of tuples.
    # Each tuple contains the meal name and a list of allergens represented as integers.
    return []

## 5. Výber vhodných jedál

Po získaní informácií môžeme prejsť k implementácii našej aplikácie. Používateľom chceme umožniť vybrať iba jedlá, ktoré neobsahujú zakázané alergény, a to na základe načítaných údajov.

V tomto kroku implementujete funkciu `filter_meals_by_allergens()`, ktorá bude filtrovať zoznam jedál podľa zadaných alergénov. Funkcia má dva parametre:

* `meals`: Zoznam dvojíc (*tuple*), kde každá dvojica obsahuje názov jedla a zoznam alergénov (každý alergén je celé číslo).
* `forbidden_allergens`: Zoznam čísel alergénov, ktoré používateľ nechce vo svojom jedle. Tento zoznam sa použije na filtrovanie jedál, ktoré neobsahujú žiadny z týchto alergénov.

Funkcia nakoniec vráti zoznam jedál, ktoré spĺňajú podmienky — teda tie, ktoré neobsahujú žiadny zo zakázaných alergénov. V návratovej hodnote majte len názvy jedál.

In [None]:
def filter_meals_by_allergens(meals, forbidden_allergens):
    # Filters the list of meals to only include those that do not contain any allergens
    # from the forbidden_allergens list. The returned list contains the selected meals' name.
    return []

## 6. Výsledná aplikácia

V tejto úlohe implementujete hlavnú funkciu `main()`, ktorá bude riadiť celý program. Program načíta HTML stránku s ponukou jedál, spracuje ju, načíta potrebné údaje o jedlách a alergénoch a následne vyfiltruje jedlá podľa zadaných alergénov. Umožnite používateľovi zadať alergény cez štandardný vstup vami zvolenou formou. Na záver funkcia vypíše výsledok.

In [None]:
def main():
    """
    Main function that coordinates the entire process:
    - Fetches the daily menu HTML
    - Extracts the meal data
    - Filters meals based on user-provided allergens
    - Displays the filtered meals to the user
    """
    pass

Po implementácii môžete vaše riešenie otestovať.

In [None]:
main()

## Doplnkové úlohy

1. Naše riešenie zatiaľ nepovie používateľom, kde dané jedlá môžu nájsť. Rozšírte riešenie tak, aby vypísalo aj to, ktorá jedáleň dané jedlo ponúka.
2. Umožnite používateľom zadať aj deň, pre ktorý hľadajú obed.
3. Rozšírte riešenie tak, aby používateľ mohol zadať alergény slovom, následne ich podľa zoznamu na web stránke preveďte na čísla a vyfiltrujte akceptovateľné jedlá.