## Úvod do cvičení: Práce s daty v R pomocí `tidyverse`

V tomto cvičení se naučíte základní práci s daty v jazyce **R** pomocí moderní sady nástrojů `tidyverse`. Budeme pracovat s jednoduchými, ale velmi známými datasety `cars` a `mtcars`, které jsou v R přímo dostupné.  

Součástí cvičení bude hotový příklad pro jednodušší z datasetů `cars` a následně obdobný úkol ve složitějším datasetu `mtcars`.

## 🎯 Cíl cvičení
- Naučit se základní příkazy pro prohlížení, filtrování a úpravu dat.
- Vyzkoušet si doplňování kódu místo psaní všeho od začátku.

### 🧾 Popis datasetu `cars`

Dataset `cars` obsahuje 50 řádků a 2 sloupce, které zachycují výsledky měření brzdné dráhy automobilů.

| Sloupec | Popis                                 | Jednotka         |
|--------|----------------------------------------|------------------|
| `speed` | Rychlost vozidla před bržděním         | míle za hodinu (mph) |
| `dist`  | Délka brzdné dráhy | stopy (feet)     |

Data byla poprvé publikována v roce 1920 a i když jsou staršího data, slouží výborně k demonstraci práce s daty a pro základní analýzy.

### 🧾 Dataset `mtcars`

Dataset `mtcars` obsahuje technické parametry 32 modelů automobilů z roku 1974. Každý řádek představuje jeden vůz a sloupce popisují různé vlastnosti motoru a výko.ců

| Název   | Popis                                      | Jednotka / Hodnoty               |
|---------|---------------------------------------------|----------------------------------|
| `mpg`   | Spotřeba                                     | míle na galon                   |
| `cyl`   | Počet válců                                  | celé číslo                      |
| `disp`  | Objem motoru                                 | kubické palce                   |
| `hp`    | Výkon motoru                                 | koňské síly (horsepower)        |
| `drat`  | Převodový poměr zadní nápravy                | poměr (bez jednotky)            |
| `wt`    | Hmotnost vozidla                             | tisíce liber                    |
| `qsec`  | Čas na čtvrt míle                            | sekundy                         |
| `vs`    | Typ motoru                                   | 0 = V-motor, 1 = řadový         |
| `am`    | Typ převodovky                               | 0 = automat, 1 = manuál         |
| `gear`  | Počet rychlostních stupňů                    | celé číslo                      |
| `carb`  | Počet karburátorů                            | celé číslo                   |

🔍 Tento dataset je ideální pro nácvik práce s číselnými proměnnými, filtrování, seskupoání a vizualizaci.


Nyní se můžete pustit do samotného zpracování dat! Nezapomeňte průběžně spouštět kód a kontrolovat výsledky.

## 📝 1. Načítání balíčků a přiřazení dat

V jazyce **R** se balíčky (tzv. *packages*) používají k rozšíření možností jazyka. Obsahují předdefinované funkce a testovací data. Pro práci s daty budeme používat moderní balíček `tidyverse`, který obsahuje nástroje jako `dplyr` nebo `ggplot2`.

Před použitím balíčku ho musíme nejprve **nainstalovat** (stačí jednou) a poté **načíst**:

```
# Instalace balíčku – spusťte jen poprvé
install.packages("nazev_balicku")

# Načtení balíčku – před každou prací s daty
library(nazev_balicku)
```

Přiřazení dat do proměnné se provádí pomocí stylizované šipky `<-`. Takže například:

```
a <- 3
```

přiřadí hodnotu 3 do proměnné `a`.

▶️ Ukázka načtení a přiřazení dat

In [None]:
# Načtení pomocných funkcí
source("functions.r", encoding = "UTF-8")

# Načtení knihovny
# install.packages("tidyverse")
library("tidyverse")

# Přiřazení dat
df_cars <- cars

# Funkce head() zobrazuje prvních n řádků tabulky.
head(df_cars, n=3)

## 🧠 Úkol 1 - Načítání

1. Načtěte balík funkcí `tidyverse` pomocí funkce `library()`.
2. Do proměnné `df` načtěte informace z `mtcars` pomocí přířazení `<-`.
3. Pomocí funkce `head()` vypište první 4 řádky tabulky `df`.

Místo `____` doplňte:

In [None]:
# DOPLŇTE: 
## načtěte knihovnu tidyverse
library("____")

## načtěte dataset mtcars do proměnné df
df <- ____

## Funkce head() zobrazuje prvních n řádků tabulky.
head(df, n =____)

### 🔍 Kontrola

Pokud vidíte tabulku s 11 sloupci a 4 řádky, je vše v pořádku. Pro kontrolu můžete spustit následující kód.

▶️ Test

In [None]:
# Kontrola
check_answers_1()

## 📝 2. Základní přehled o datech

Pro základní orientaci v datovém rámci můžeme použít dvě užitečné funkce: `glimpse()` a `summary()`.

Funkce `glimpse()` zobrazí náhled dat v přehledné formě – každý sloupec na jednom řádku.
Funkce `summary()` zobrazí základní popisné statistiky pro každý sloupec – např. minimum, průměr, kvartily.

Po spuštění `glimpse()` například uvidíte, že dataset `cars` má 50 řádků nebo že brzdná dráha prvního a druhého auta při stejné rychlosti 4 mph byla velmi rozdílná (2 a 10 stop).
Z výstupu `summary()` je například patrné, že maximální testovaná rychlost byla 25 mph a medián brzdné dráhy byl 36 stop.

▶️ Ukázka

In [None]:
# struktura dat
glimpse(df_cars)

▶️ Ukázka

In [None]:
# základní statistiky
summary(df_cars)

## 🧠 Úkol 2 - základní přehled o datech

1. Zjistěte kolik řádků má dataset `mtcars` mačtený v proměnné `df`.
2. Zjistěte, jaký byl maximální výkon motoru a medián počtu válců.
3. Hodnoty pro kontrolu přiřaďte do proměnných `n_rows`, `max_hp` a `med_cyl` pod následujícím odstavcem 🔍  **Kontrola**.

In [None]:
# Rychlý přehled
____(df)

In [None]:
# Základní popisné statistiky
____(____)

### 🔍  Kontrola

Proběhlo spuštění předchozího kódu bez chyb? Pokud ano, doplňte odpovědi a spusťte následující test.

▶️ Test

In [None]:
# počet řádků datasetu mtcars
n_rows <- ____

# maximální výkon motoru
max_hp ____ ____

# medián počtu válců
____ ____ ____

# Kontrola
check_answers_2()

## 📝 3. Filtrování a výběr dat

Při práci s daty často potřebujeme zobrazit jen určité řádky nebo sloupce. Pomocí balíčku `dplyr` (součást `tidyverse`) můžeme jednoduše psát příkazy formou textu a nemusíme se trápit s programátorskými řetězci komplikovaných znaků.

- **filtrovat řádky** pomocí funkce `filter()`
- **vybírat sloupce** pomocí funkce `select()`

Následující kód filtruje pouze záznamy (řádky) s rychlostí větší než 15 a vypíše sloupce s rychlostí a brzdnou dráhou. K řetězení příkazů se pouzívá takzvaná `pipe`, která se zapisuje takto: `%>%`. S její pomocí je kód přehlednější. Čitelnost a přehlednost srovnejte na následujících třech jednoduchých variantách, které mají stejný výstup.

▶️ Ukázka

In [None]:
# přehledná varianta s dplyr
var1 <- df_cars %>%
  filter(speed > 20, speed < 24) %>%
  select(speed, dist)

# kód pomocí dplyr bez řetězení příkazů
var2 <- select(filter(df_cars, speed > 20, speed < 24), speed, dist)

# základní R kód
var3 <- df_cars[df_cars$speed > 20 & df_cars$speed < 24, c("speed", "dist")]

In [None]:
# srovnání, zda jsou výstupy variant stejné pro všechny hodnoty
cat("Výstup var1:")
var1

if(all.equal(var2, var3, check.attributes = FALSE)) cat("var2 a var3 jsou stejné\n") else cat("var2 a var3 jsou rozdílné\n")
if(all.equal(var1, var2)) cat("var1 a var2 jsou stejné\n") else cat("var1 a var2 jsou rozdílné\n")

## 🧠 Úkol 3 - filtrování a výběr dat

1. Filtruj `df` tak, aby byl počet válců `cyl` roven 6. Do proměnné `max_mpg` přiřaď nejvyšší spotřebu aut se 6 válci.
2. Využij `filtr()` z bodu 1 a vyber pomocí `select()` pouze sloupce `wt`, `mpg` a `disp`. Ulož do proměnné `df_fil_sel`.
3. Rozšiř `filtr()` z bodu 1 o filtr aut vážících víc než 3 tisíce liber (hodnota `wt` je v tisících). Použij `select()` z bodu 2.

In [None]:
# úkol 3 část 1

df %>%
  filter(____ == ____)

In [None]:
# doplň nejvyšší spotřebu aut se 6 válci
max_mpg <- ____

In [None]:
# úkol 3 část 2

df_fil_sel_2 <- df %>%
   ____(____ == 6) %>%
   select(wt, ____, ____)

df_fil_sel_2

In [None]:
# úkol 3 část 3

df_fil_sel_3 <- ____ %>%
   ____(____ == ____, ____ > 3) %>%
   ____(wt, ____, ____)

df_fil_sel_3

### 🔍 Kontrola

Filtrovaný dataset z úkolu 1 má mít 7 řádků a 11 sloupců. Dataset z druhého úkolu 7 řádků a 3 sloupce a dataset ze třetího úkolu 4 řádky a 3 sloupce. 

▶️ Podrobnější test.

In [None]:
# Kontrola
check_answers_3()

## 📝 4. Přidání nového sloupce a výpočet

Pokud chceme dataset rozšířit o výpočet nebo pouze upravit data, která už ve sloupcích máme, poslouží nám funkce `mutate()`. 
Můžeme například vytvořit nový sloupec, ve kterém budou převedeny stopy na metry.


Pro lepší čitelnost výstupu přidáme ještě funkci `round()`, která provádí zaokrouhlení na zadaný počet desetinných míst.

▶️ Ukázka

In [None]:
ft_to_m <- 0.3048                # stopa na metry

# přidání nového sloupce
df_cars %>%
  mutate(dist_m = dist * ft_to_m) %>%    # přidá sloupec s brzdnou dráhou v metrech
  mutate(dist_m = round(dist_m, 2)) %>%  # zaokrouhlí výsledek na dvě desetinná místa
  head(4)                                # vypíše pouze první 4 řádky

## 🧠 Úkol 4 - přidání nového sloupce a výpočet

Operace přidání nového sloupce se mohou řetězit s použitím více příkazů `mutate()`, jako tomu bylo v předchozím příkladu, nebo mohou být součastí jednoho příkazu `mutate()`. Stačí je oddělit čárkou a pohlídat si, že následují v logickém pořadí.

1. Doplňte výpočet tak, aby ve sloupci `speed_mps` byla rychlost v metrech za vteřinu.
2. Doplňte výpočet tak, aby v proměnné `dist_m` byla brzdná dráha v metrech.
3. Přidejte řádek `stop_time_s`, kde bude odhadovaná doba brždění s rovnoměrným zpomalení podle vzorce:
   $$t = \frac{2s}{v}$$
5. Vytvořte sloupec `stop_time_round`, kde bude výsledný čas zaokrouhlený na dvě desetinná místa.\]

In [None]:
mph_to_mps <- 1609.34 / 3600     # míle/hodina na metry/sekunda
ft_to_m <- 0.3048                # stopa na metry

# Výpočet
cars_converted <- df_cars %>%
  mutate(
    speed_mps = ____ * mph_to_mps,   # převod rychlosti
    dist_m = dist * ____,            # převod brzdné dráhy
    stop_time_s = 2 * ____ / ____,   # výpočet času brždění
    ____ = round(____, 2)            # zaokrouhlení
  )

cars_converted %>% head(6)

### 🔍  Kontrola:

Pokud na výstupu vidíte tabulku se čtyřmi novými sloupci, proběhlo vše v pořádku. Pokud chcet ověřit i správnost výpočtů, můžete spustit následující kontrolu.

▶️  Test

In [None]:
# Kontrola
check_answers_4()

## 📝 5. Řazení dat

Pokud chceme celý dataset seřadit podle hodnot ve vybraném sloupci, použijeme funkci `arrange()`. V základí variantě řadí funkce vzestupně (nejmenší je na prvním řádku). Pokud chceme data seřadit sestupně, použijeme vloženou funkci `desc()` uvnitř `arrange()`. Funkci lze použít i na více sloupců, přičemž řazení probíhá postupně.

▶️ Ukázka

In [None]:
# řazení podle rychlosti
df_cars %>%
   arrange(desc(speed), dist) %>% # podle speed sestupně, podle dist v rámci jedné hodnoty speed vzestupně
   head(6)

## 🧠 Úkol 5 - řazení dat

V dalším kódu je pro vás vypočtena spotřeba `l_per_100km`, váha modelu v kg `weight_kg` a výkon na tunu `power_per_ton`. Odpovědi na následující otázky získáte správnou úpravou `arrange()`.

❓ Otázky:
1. Jaký model v datasetu má nejvyšší hmotnost?
2. Jaký model má nejvyšší spotřebu na tunu?
3. Jaký model má nejvyšší výkon?
4. Má model s nejnižší hmotností také nejnižší spotřebu?

▶️ Před pokračováním je nutné spustit následující kód.

In [None]:
# výpočet nových sloupců
## tuto část kódu neupravujte ##
df_mtcars_ppt <- df %>%
  select(mpg, hp, wt) %>%     # výběr sloupců
  mutate(
    model = rownames(df),                            # přidání sloupce s názvy modelů
    l_per_100km = round(235.2 / mpg, 2),               # přepočet mpg na l/100km
    weight_kg = round(wt * 1000 * 0.453592, 0),        # přepočet váhy z 1000 liber na kg
    power_per_ton = round(hp / (weight_kg / 1000), 0)  # výkon na 1 tunu
  )

In [None]:
# kód pro úpravy

df_mtcars_ppt %>%
  arrange(____) %>%
  head()

In [None]:
# Doplňte své odpovědi
## Jaký model v datasetu má nejvyšší hmotnost?
q1_model_max_weight <- "____"

## Jaký model má nejvyšší spotřebu na tunu?
q2_model_max_consumption <- "____"

## Jaký model má nejvyšší výkon?
q3_model_max_hp <- "____"

## Má model s nejnižší hmotností také nejnižší spotřebu?
q4_yes_no <- "____"  # "ano" nebo "ne"

# Spusťte kontrolu
check_answers_5()

## 📝 5. Agregace

Agregace je proces **shrnutí nebo zjednodušení** dat podle určitých skupin. Často se používá k získání souhrnných statistik, jako jsou průměry, součty nebo počty pozorování pro jednotlivé skupiny v datech.

V jazyku R a balíčku `dplyr` se agregace provádí kombinací funkcí `group_by()` a `summarise()`.

* `group_by()` – rozdělí data podle hodnot ve zvoleném sloupci.
* `summarise()` – pro každou skupinu vypočítá požadované souhrnné hodnoty.

V následující ukázce je vypočtena průměrná brzdná dráha pro jednotlivé rychlosti. Také je přidán výpočet počtu měření v každé skupině `speed` pomocí funkce `n()`.

▶️ Ukázka

In [None]:
# Výpočet brzdné dráhy pro jednotlivé rychlosti
df_cars %>%
  group_by(speed) %>%                               # agregace
  summarise(dist_mean = mean(dist), n = n()) %>%    # výpočet dist_mean a počtu měření ve skupině
  head(4)

In [None]:
# Kontrola pro rychlost 4
## Můžete měnit hodnotu za rovnítkem a kontrolovat další rychlosti
df_cars %>%
  filter(speed == 4)

## 🧠 Úkol 6 - Agregace

**Cíl:** Prozkoumejte, jak se liší průměrná spotřeba aut podle počtu válců `cyl` a typu převodovky `am`.

1. Z datasetu `df` vyberte pouze tyto sloupce:  `mpg`, `cyl`, `am`.
2. Pomocí `mutate()` vytvořte nový sloupec `am_type`, kde:
   - `0` bude nahrazeno textem `"automat"`,  
   - `1` bude nahrazeno textem `"manual"`.
3. Pomocí `group_by()` seskupte data podle:
   - počtu válců (`cyl`) a  
   - typu převodovky (`am_type`).
4. Pomocí `summarise()` vypočítejte průměrnou spotřebu (`mean_mpg`) a počet modelů ve skupině (`n`) pro každou kombinaci ve skupině.
5. Výstup seřaďte vzestupně podle počtu válců (`cyl`).

❓ Následně zkuste zodpovědět otázky:

1. Kolik je skupin podle počtu válců a typu převodovky?
2. Kolik modelů bylo v nejpočetnější skupině?
3. Lze jednoznačně říci, že v testovaném datasetu měly automaty při stejném počtu válců nižší průměrnou spotřebu?

In [None]:
# výpočet průměrné spotřeby podle počtu válců a převodovky

df %>%
  select(____, ____, ____) %>%                                  # Výběr relevantních sloupců
  ____(am_type = if_else(am == 0, "____", "manual")) %>%        # Vytvoření nového sloupce s typem převodovky
  group_by(____, ____) %>%                                      # Sloučení podle sloupců se stejným cyl a typem převodovky
  ____(mean_mpg = mean(____), n = ____, .groups = "drop") %>%   # Výpočet průměrné spotřeby a počtu modelů ve skupině
  arrange(____)                                                 # Seřazení podle průměrné spotřeby

In [None]:
# Odpovědi:
## Kolik je skupin podle počtu válců a typu převodovky?
q1_n_groups <- ____

## Kolik modelů bylo v nejpočetnější skupině?
q2_n_max_groups <- ____

## Lze jednoznačně říci, že testovaném datasetu měly automaty při stejném počtu válců nižší průměrnou spotřebu?
q3_yes_no <- "____"  ## "ano" nebo "ne"

check_answers_6()