# Návštěvnost turistických cílů v Olomouckém kraji

In [None]:
import pandas

Načteme si data, která udávají návštěvnost různých turistických cílů v Olomouckém kraji. Zde je  odkaz na zdroj dat: https://data.gov.cz/datov%C3%A1-sada?iri=https%3A%2F%2Fdata.gov.cz%2Fzdroj%2Fdatov%C3%A9-sady%2F60609460%2F671456014 (tlačítko Stáhnout). 

Všimni si, že data jsou oddělená středníky, a také jsou uložená v jiném kódování, než jsme zvyklí, proto musíme toto kódování specifikovat, aby byla čeština čitelná s veškerou diakritikou:

In [None]:
df = pandas.read_csv("navstevnost-tur-cilu.csv", sep=";", encoding="cp1250")
df

Podle prvního sloupce to vypadá, že se jedná o víc tabulek spojených dohromady. Typ objektu je udaný vždy jen v první řádce, a pak následují prázdné hodnoty až do sekce s dalším objektem. Nám by se hodilo si data doplnit, abychom mohli jednoduše filtrovat podle typu objektu.

### Cvičení

* V první řadě přejmenuj první sloupec na něco vypovídajícího, třeba `"Typ objektu"`.
* Dále vyplň chybějící hodnoty: Aplikuj metodu `fillna` na sloupec `"Typ objektu"` v kombinaci s parametrem `method="ffill"`. Podívej se na dokumentaci metody `fillna` pro příklad použití: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

In [None]:
df = ...
df.columns

In [None]:
df["Typ objektu"] = ...
df

Teď můžeme jednoduše pomocí dotazu vyfiltrovat všechny objekty jednoho typu. Můžeš si vybrat jaký chceš, třeba zámky:

In [None]:
zamky = ...
zamky

In [None]:
zamky.info()

Trochu matoucí může být, že návštěvnost je udaná jako typ řetězce, místo číselného typu. Představ si to jako kdybychom měli hodnotu načtenou od uživatele `"28 407"`. Jednalo by se o řetězec, který bychom chtěli převést na číselný typ.

### Cvičení

* Napiš funkci `convert_object_series_to_float`, která vezme jeden parametr, tím bude série (v našem případě sloupec). Provede následující operace a upravený řádek vrátí:
  * `str.split().str.join('')` - takto se zbavíme různých mezer
  * `astype(float)` - takto převedeme řetězce v sérii na čísla. Schválně používáme typ `float`, který nám umožní zachovat chybějící hodnoty `NaN`. 

In [None]:
def convert_object_series_to_float(series: pandas.Series) -> pandas.Series:
    series = ...
    series = ...
    return series

Vyzkoušej svojí funkci - vytvoříme si testovací sérii, která obsahuje řetězce (typ je tedy `object`):

In [None]:
test_series = pandas.Series(["1 000", "12 345", "1.0"])
test_series

Po zavolání by nám funkce měla vrátit sérii se stejnou délkou a stejným obsahem, akorát tentokrát se jedná o číselné hodnoty - typ `float64`:

In [None]:
convert_object_series_to_float(test_series)

Pojďme využít funkci na návštěvnost zámků.

### Cvičení

* Zbav se sloupce `Typ objektu`. Pro naší tabulku zámků je nevypovídající.
* Nastav sloupec `Objekt` jako index. Tím zajistíme, že obsah tabulky jsou jen data o návštěvnosti.

In [None]:
zamky = ...
zamky.head()

In [None]:
zamky = ...
zamky.head()

Teď můžeme bezpečně aplikovat naší funkci `convert_object_series_to_float` na všechny sloupce:

In [None]:
zamky = ...
zamky.info()

In [None]:
zamky.head()

### Cvičení

* Spočítej pro každý zámek průměrnou návštěvnost (ze všech dat, která jsou k dispozici).
* Který zámek má nejvyšší a který má nejnižší průměrnou návštěvnost na základě dostupných dat?

In [None]:
...

Trochu si upravíme data, aby indexem byl rok, a sloupce aby byly názvy objektů. Pomůže nám to pro přehlednost při vykreslování grafu.

In [None]:
zamky = zamky.transpose()
zamky.index = zamky.index.rename("Rok")

In [None]:
zamky = zamky.sort_index()
zamky

### Cvičení

* Vykresli graf (např. čarový nebo sloupcový) návštěvnosti jednotlivých zámků v čase.

In [None]:
...

### Cvičení

* Do nového sloupce `Průměr` spočítej průměrnou návštěvnost zámků za každý rok.
* Vykresli znovu graf i s tímto sloupcem.

In [None]:
zamky["Průměr"] = ...

In [None]:
...