# 🧑‍💻 Ukázka typů dat 

Balíček `pandas` umožňuje práci s několika datovými typy, které jsou datům přiřazeny automaticky při jejich čtení.

☝️ Ne vždy se ale jedná o správně přidělený typ dat! Během úvodního průzkumu dat je tak na nás tento formát zkontrolovat a případně upravit - tzv. konverze/přetypování datového typu (angl. data conversion). Tento krok je součástí předzpracování dat, kdy se věnujeme jejich čištění - to je proces, kdy hledáme a následně opravujeme poškozené nebo nepřesné záznamy. Pod opravou dat se skrývá jak modifikace, tak jejich nahrazení nebo smazání.

## 🐼 Datové typy v `pandas`

V `pandas` rozlišujeme mezi numerickými (tj. číselnými) a textovými datovými typy.

🔢 **Numerické** datové typy zahrnují: 
- `integer` - čísla bez desetinné čárky, tzn. že jsou čísla uložena jako celočíselná (např. '1.3' jako '1'). V `pandas` se často jedná o 64 bitový integer `int64`. Nicméně existuje i 32 bitová varianta `int32`.
- `float` - čísla s desetinnou čárkou, včetně celých čísel (např. '0' je uložena jako '0.0'). I zde se jedná o 64 bitový float `float64` a 32 bitovou variantu `float32`.

Pokud se ve sloupci nachází kombinace integerů a floatů, `pandas` celý sloupec označí za float, takže žádná desetinná čísla nejsou ztracena.

🔤 **Textové** datové typy představují:
- `string` - tak je text je reprezentován v Pythonu. Řetězec může obsahovat znaky i čísla, může se jednat o slovo, větu nebo dokonce několik vět.
- `object` - tak se nazývá řetězec/text v `pandas` a může mít stejnou reprezentaci jako `string`. Navíc může být objektem i graf. 

❗️Tzn. že jako `string` můžeme uložit i '123' nebo '1.23', ale nemůžeme s ním provádět **žádné matematické operace**. ❌

Posledním datovým typem, který můžete defaultně potkat, patří:
- `datetime` - reprezentovaný v `pandas` jako `datetime64` nebo `timedelta` v [ns]. Jedná se o formát, který je vyhrazený pro časové záznamy (datum, čas, rozdíl časových údajů). Nejčastěji se s ním setkáte u časových řad a jeho formátování občas skýtá mnoho radostí. Pro reprezentaci v nativním Pythonu se podívejte na [dokumentaci](https://docs.python.org/2/library/datetime.html).

My se při konverzi dat setkáme ještě s datovým typem `category`. Více si povíme níže. 🔜

## 🕵🏼 Průzkum datových typů

Ukažme si práci s datovými typy na vzorových datech o pizze. 🍕

In [None]:
# import knihoven
import pandas as pd

In [None]:
# vytvoření datasetu
data = {"Pizza": ["Margherita", "Diavola", "Quattro Formaggi", "Hawai", "Tonno"],
        "Sugo": ["tomato", "tomato", "cream", "tomato", "tomato"],
        "Difficulty": ["1", "3", "3", "1", "5"],
        "Menu": ["Monday", "Tuesday", "Wednesday", "Friday", "Thursday"],
        "Price": ["125", "155.5", "148", "130.9", "185"],
        "Sold": ["78", "56", "67", "42", "54"],
        "Updated": ["29/06/2011", "30/12/2020", "31/07/2013", "28/11/2000", "25/12/2020"]}

In [None]:
# vytvoření DataFrame
df = pd.DataFrame(data)
df1 = df.copy()
# typ objektu
type(df1)

In [None]:
# 5 prvních řádků
df1.head()

In [None]:
# datový typ každé proměnné
df1.dtypes

In [None]:
# datový typ jedné proměnné
df1["Price"].dtype

Typ ‘O’ představuje `object`. 

🔎 Mezi další způsob, jak zobrazit datové typy, patří metoda [pandas.DataFrame.select_dtypes()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.select_dtypes.html), které musíme zadat, jaký datový typ chceme prohlížet:

In [None]:
# všechny příznaky typu `int64`
df1.select_dtypes(include=['int64']).head()

In [None]:
# podrobnější info o DataFrame
df1.info()

Z výpisu výše vidíme, že ne všechna data mají přiřazený správný datový typ. Čekají nás tedy následující úpravy:
- "Pizza" jako nominální příznak,
- "Sugo" binární,
- "Difficulty" jako ordinální, ale reprezentován číselně,
- "Menu" ordinální,
- "Price" je `float`, jenže byl zadán pomocí uvozovek jako `string`,
- "Sold" je `integer`, -||-,
- "Updated" by měl být reprezentován jako `datetime`.

## 👀 Motivace

Proč se tím vůbec zaobíráme v předmětu o vizualizaci dat? Abychom byli schopni data korektně vykreslit a interpretovat, musíme se nejdříve věnovat jejich **správnému načtení a vyčištění**. Předzpracování dat tak není záležitostí jen pro modelování! ☝️

In [None]:
# ukázka chybného grafu
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.bar(df1.Pizza, df1.Sold)
ax.set_ylabel('Number of pizzas sold')
ax.set_xlabel('Pizza')

## 🛠 Přetypování pomocí astype()

Jedním ze způsobů, jak přetypovat data, je použít funkci [pandas.DataFrame.astype()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html).

### 🔢 Přetypování numerických dat

In [None]:
# přetypování numerického příznaku Sold
df1["Price"] = df1["Price"].astype("float64")
df1["Price"].dtype

Tímto způsobem jsme schopni přetypovat většinu zbývajících příznaků na jakýkoliv z dostupných datových typů. Nicméně pokud data nevyhovují zvolenému datovému typu, obdržíme `ValueError`. ⛔️

In [None]:
df1["Pizza"] = df1["Pizza"].astype("int64")

In [None]:
df1["Pizza"].dtype

Operaci `df["column_name"].astype()` lze použít na následující konverze (bavíme se teď pouze o přetypování numerických dat ☝️):
- pokud převádíme stringovou reprezentaci integeru na integer,
- pokud převádíme stringovou reprezentaci floatu na float,
- pokud převádíme stringovou reprezentaci integeru na float,
- pokud převádíme float na integer,
- pokud převádíme integer na float.

❗️ Pokud převádíme stringové reprezentace, pak `astype()` používáme na každý sloupec zvlášť, případně využijeme dictionary s více názvy sloupců a třeba i různými datovými typy:

`df = df.astype({"column_name1":"data_type1", "column_name2":"data_type2"})`

Pokud bychom chtěli změnit více numerických příznaků na jiný číselný typ, můžeme použít:

`df = df.astype("int64", errors='ignore')`

Tento příkaz přetypuje všechny numerické příznaky na `integer`. V našem případě se jedná pouze o "Price", kterou jsme již přetypovali na `float64`. Ostatní příznaky by měly zůstat nezměněné (včetně čísel reprezentovaných stringem, bohužel), aniž bychom obdrželi chybovou hlášku (díky `errors='ignore'`).

In [None]:
df1 = df1.astype("int64", errors='ignore')
df1.info()

Nicméně u příznaku "Price" takto přijdeme o desetinné místo, takže tahle ukázka je v našem případě zcestná... 🙅 S numerickými daty budeme pokračovat později. 🔜

### 🔤 Přetypování kategorických dat

☝️ Pomocí metody `astype()` jsme schopni přetypovat i kategorické příznaky. Začněme nominálním příznakem "Pizza":

In [None]:
# přetypování nominálního příznaku Pizza
df1["Pizza"] = df1["Pizza"].astype("category")
df1["Pizza"].dtype

In [None]:
df1.info()

Žádná věda! 💪 

V příkladu výše jsme využili výchozího chování `dtype='category'`:
- kategorie jsou odvozeny z dat,
- kategorie nejsou uspořádané.

🧚🏻‍♂️ Pokud bychom chtěli toto chování ovlivnit, použijeme místo `category` instanci typu `CategoricalDtype`. Pozn.: Pokud bychom použili `ordered=False`, pak bychom získali nominální data - je to jeden z možných způsobů.

In [None]:
# přetypování ordinálního příznaku Menu (dny v týdnu)

from pandas.api.types import CategoricalDtype

cat_dtypeMenu = CategoricalDtype(categories=["Monday", "Tuesday", "Wednesday", "Thursday", "Friday"], 
                                 ordered=True)

df1["Menu"] = df1["Menu"].astype(cat_dtypeMenu)
df1["Menu"]

⭐️ **Vyzkoušejte si sami:**
Stejným způsobem můžete přetypovat ordinální příznak 'Difficulty', který vyjadřuje obtížnost přípravy pokrmu. ⭐️

In [None]:
# TODO - prostor pro váš kód

Pro další práci s kategorickými daty se můžete podívat do [dokumentace](https://pandas.pydata.org/docs/user_guide/categorical.html).

## 🛠 Přetypování pomocí to_DataType()

Dalším způsobem je použít funkci [pandas.DataFrame.to_numeric()](https://pandas.pydata.org/docs/reference/api/pandas.to_numeric.html#pandas.to_numeric) nebo [pandas.DataFrame.to_datetime()](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html#pandas.to_datetime).

Při použití `to_numeric()` dojde k automatickému přetypování numerických příznaků na `float64` nebo `int64`.

In [None]:
df2 = df.copy()
df2.info()

In [None]:
df2["Sold"]=pd.to_numeric(df2["Sold"])

In [None]:
df2.info()

⚡️Pro přetypování více sloupců můžeme využít metodu `apply()`:

In [None]:
df2[["Difficulty", "Price"]] = df2[["Difficulty","Price"]].apply(pd.to_numeric)
df2.info()

Vidíte, že oba sloupce byly přetypovány správně na `int64` a `float64`. Pojďme ještě vyzkoušet `to_datetime()` na příznaku "Updated" ⏰:

In [None]:
df2["Updated"]=pd.to_datetime(df2["Updated"], dayfirst=True)
df2.info()

### Přetypování binárního příznaku

Konečně se blížíme do cíle!💥 Jako poslední nám zbývá přetypování binárního příznaku "Sugo", který vypovídá o typu základu - rajčatový 🍅 nebo smetanový 🐄.

⭐️ **Vyzkoušejte si sami:**
Existuje více způsobů, jak tento příznak převést na binární. Jedním z nich může být sestrojení nového příznaku "Tomato", který bude typu `boolean` (tzn. `dtype: bool`) a bude tak nabývat hodnot `True/False`, pokud se bude nebo nebude jednat o rajčatový základ. ⭐️

In [None]:
# TODO - prostor pro váš kód

## 🫣 Závěr

Závěrem si ukažme motivační graf na přetypovaných datech:

In [None]:
# ukázka správného (i když ne úplně pěkného) grafu
import matplotlib.pyplot as plt

fig, ax = plt.subplots()
ax.bar(df2.Pizza, df2.Sold)
ax.set_ylabel('Number of pizzas sold')
ax.set_xlabel('Pizza')

# 🎉 A to je vše! 🎉 