# TUL-ORID-2

## Načítání a zpracování dat v R

Autor: Vratislav Žabka

Datum: 20. 6. 2025

## 📋 Forma kurzu

Tento kurz je zaměřen na praktické využití datové analýzy v prostředí jazyka R. Je určen pro všechny, kteří chtějí lépe porozumět datům, zefektivnit jejich prezentaci a získat základní dovednosti pro modelování závislostí mezi proměnnými.

Kurz probíhá formou kombinace ukázkového kódu, výstupů a úloh k doplnění, které umožní účastníkům aktivně si procvičit danou problematiku. Není vyžadována předchozí zkušenost s programováním v R, stačí základní orientace v datové analýze.

Cílem je porozumět základním principům a být schopen je aplikovat na vlastní data.

## 📦 Použitá data

Během kurzu budeme využívat známé volně dostupné datové sady `cars` a `mtcars`. V druhé části pak _poškozená_ data z fyzických analýz odpadu od INCIEN. Na těchto datových sadách si vyzkoušíte mimo jiné:

- jak prozkoumávat a upravovat data pomocí funkcí z balíku `tidyverse`,
- jak vytvářet přehledné a účelné grafy pomocí `ggplot2`,
- jak sestavit a vyhodnotit jednoduché regresní modely,
- jak porovnat různé modely z hlediska vhodnosti pro daná data.

## 🛠️ Použité nástroje a technologie

Pro práci v tomto kurzu využíváme moderní a volně dostupné nástroje, které podporují interaktivní práci s daty, vizualizace a modelování v jazyce R:

- **Jupyter Notebook**  
  Interaktivní prostředí pro kombinaci kódu, textu a výstupů. Umožňuje přehledně dokumentovat analytický postup a výsledky v jednom souboru. V našem případě je nakonfigurováno pro jazyk **R**.

- **R**  
  Programovací jazyk zaměřený na statistické výpočty a analýzu dat. V kurzu jej mimo jiné využijeme pro zpracování dat, tvorbu grafů a budování regresních modelů.

- **Tidyverse**  
  Je kolekce vzájemně propojených balíků v jazyce R, které sdílejí jednotnou filozofii práce s daty a konzistentní způsob zápisu. V centru této filozofie stojí tzv. *tidy data*, kde:

    - každý sloupec představuje jednu proměnnou,  
    - každý řádek jeden záznam (pozorování),  
    - každý soubor nebo tabulka jeden datový rámec.

    Tidyverse podporuje plynulou práci s daty formou tzv. *pipeline* (řetězení kroků pomocí operátoru `%>%`), která zvyšuje čitelnost a udržovatelnost kódu. Díky jednotnému stylu je práce v Tidyverse přirozená, čitelná a snadno naučitelná, i pro uživatele bez hlubšího programátorského zázemí.

- **Binder**  
  Online nástroj, který umožňuje spustit interaktivní Jupyter Notebooky přímo z repozitáře na GitHubu – bez nutnosti instalace jakéhokoli softwaru na vlastním počítači. Díky tomu můžete pracovat v prostředí R a Jupyter odkudkoli z pohodlí svého oblíbeného webového prohlížeče.

> Všechny materiály a potřebné knihovny jsou připraveny tak, aby bylo možné kurz spustit pomocí odkazu na Binder bez jakýchkoli předchozích instalací.

## Součásti kurzu

**Tento úvodní dokument**
[![open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Vratja/TUL-ORID-2/HEAD?filepath=Uvod.ipynb)

  - Jeho cílem je představit obsah kurzu a základy práce s jednotlivými použitými technologiemi.
---
**Cvičení 01a - cars**
[![open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Vratja/TUL-ORID-2/HEAD?filepath=01a-cars.ipynb)

  - Dokument obsahuje návody a jednoduchá cvičení na průzkym datových sad, jejich filtrování, třídění a agregaci.
---
**Cvičení 01b - cars**
[![open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Vratja/TUL-ORID-2/HEAD?filepath=01b-cars.ipynb)

  - Rozšíření předchozího cvičení o vizualizace a základy regresní analýzy.
---
**Cvičení 02 - FAO**
[![open in Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/Vratja/TUL-ORID-2/HEAD?filepath=02-FAO.ipynb)

  - Načtení a prvotní úprava zdrojových dat.
---
> Kliknutím na ikonu _launch binder_ spustíte příslušnou část ve svém prohlížeči. Načítání může trvat dále, ale práce s dokumentem je pak už rychlá.


## 📓 Práce v Jupyter Notebooku

Jupyter Notebook je interaktivní prostředí, které umožňuje kombinovat text (včetně formátovaného pomocí Markdownu), kód a výstupy na jednom místě. Je ideální pro analýzu dat, vytváření reportů a výuku.

### Základní ovládání

- **Buňky**: Notebook je rozdělen na buňky, které mohou obsahovat buď kód, nebo text.
- **Spuštění buňky**: Označ buňku a stiskni `Shift + Enter`.
- **Přepínání typu buňky**: V horním menu nebo klávesou `Esc`, pak `M` pro text (Markdown), nebo `Y` pro kód.
- **Ukládání**: Notebook se většinou ukládá automaticky, ale lze použít `Ctrl + S`.

In [None]:
# načtení balíčku funkcí
library(tidyverse)

# výpočet


In [None]:
# Vytvoření jednoduchého vektoru a výpočet průměru
ceny <- c(100, 200, 150)
mean(ceny)

In [None]:
# ukázka řetězení kódu pomocí pipy z balíku dplyr
mtcars %>%
  select(mpg, cyl, hp, wt) %>%
  filter(cyl == 6) %>%
  filter(mpg > 20) %>%
  arrange(wt)

In [None]:
# ukázka tvorby grafu pomocí ggplot
gg <- ggplot(data = mtcars, aes(x = hp, y = wt, col = mpg, size = mpg)) +
  geom_point(alpha = 0.7) +
  scale_color_viridis_c(option = "plasma") +
  guides(color = guide_legend(), size = guide_legend()) +  # spojí legendu pokud size a col vychází z jenoho sloupce
  scale_size(range = c(2, 10)) +
  labs(
    title = "Závislost výkonu a hmotnosti na spotřebě",
    x = "Výkon (hp)",
    y = "Hmotnost (1000 lbs)",
    color = "Spotřeba (mpg)",
    size = "Spotřeba (mpg)"
  ) +
  theme_minimal()

gg

In [None]:
# interaktivní varianta
library(plotly)
ggplotly(gg)