# Úvod do práce s jazykem R
***
**Mgr. Adéla Vrtková** (adela.vrtkova@vsb.cz)

Lékařská fakulta, Ostravská univerzita

Katedra aplikované matematiky, Fakulta elektrotechniky a informatiky, VŠB - Technická univerzita Ostrava
***
**Tento materiál byl vytvořen pro zvanou přednášku v rámci projektu CeBMI.**
***
**Zvláštní poděkování míří ke kolegům z Katedry aplikované matematiky, Fakulty elektrotechniky a informatiky, VŠB - Technické univerzity Ostrava - Ing. Martině Litschmannové, Ph.D. a Ing. Michalovi Bérešovi za jejich nápady a rady.**
***

## Knihovny
V podstatě vše je v R organizováno do knihoven (balíčků - *packages*). Spousta knihoven je k dispozici hned při základní instalaci R, další je potřeba si nejprve do počítače doinstalovat. Knihovny obsahují širokou škálu nástrojů - od funkcí pro efektní (i efektivní) vizualizace, přes základní statistické metody, až po metody strojového učení.

In [1]:
# Instalaci knihovny je potřeba provést pouze jednou na daném počítači (není-li již nainstalována).
# install.packages("dplyr") # knihovna s funkcemi pro práci s datovou maticí
# install.packages("ggplot2") # knihovna s funkcemi pro pokročilou grafiku

In [3]:
# Aktivaci knihovny je potřeba provést při každém spuštění R (příp. RStudia)
library(dplyr) # knihovna s funkcemi pro práci s datovou maticí
library(ggplot2) # knihovna s funkcemi pro pokročilou grafiku

## Základní početní operace, logické operátory, ukládání proměnných

In [None]:
# Početní operace
2+4
6-9
4*2.5
5/2
3^7

In [None]:
# Logické operátory - výstupem je TRUE/FALSE
5 >= 3  # neostrá nerovnost, analogicky <=
5 < 3   # ostrá nerovnost, analogicky >
5 == 3  # rovnost - porovnávání (neplést si s jedním "=", které se používá pro ukládání proměnných)
5 != 3  # nerovnost

5 >= 3  &  6<2   # logická konjukce "a zároveň"
5 >= 3  |  6<2   # logická disjunkce "nebo"

In [None]:
# Ukládání proměnných - číselný datový typ
a = 5
a

In [None]:
# Ukládání proměnných - řetězec
b = "nějaký text"
b

## Datové struktury
- vector (vektor/pole - jednorozměrná struktura s prvky stejného datového typu)
- factor (speciální případ vektoru - hodnoty interpretovány jako příslušnost k dané kategorii)
- matrix (matice - dvourozměrná struktura s prvky stejného datového typu)
- data.frame (datový rámec - dvourozměrná struktura, různé sloupce mohou obsahovat prvky různého dat. typu)
- list (seznam - může obsahovat různé datové struktury)

## Práce s vektory

In [None]:
# Číslený vektor
c(3, 8, 5, -1, 0)

In [None]:
# Vektor řetězců
c("super text", "skvělý text", "fajný text")

In [None]:
# Zadávání číselných posloupností
1:10

In [None]:
10:1

In [None]:
seq(from = 1, to = 20, by = 2)

In [None]:
seq(from = 1, to = 20, length = 30)

In [None]:
# Výběr prvků z vektoru
x = seq(from = 1, to = 20, by = 2)
x

In [None]:
x[2] # druhý prvek vektoru x

In [None]:
x[c(2, 6, 8)] # druhý, šestý a osmý prvek vektoru x

In [None]:
x[-5] # všechny prvky kromě pátého

In [None]:
x[x > 11 & x < 19] # prvky splňující danou podmínku

## Práce s datovým rámcem
Data (xlsx, csv, txt, ...) lze importovat přímo ze souboru na disku, příp. přes odkaz na soubor na webu, nebo lze využít některého datasetu, který je přímo součástí některé z knihoven.

In [1]:
# Inicializace datového souboru iris, který je součástí základního R
data(iris)

In [None]:
# Náhled na prvních šest řádků 
head(iris)

In [None]:
# Názvy sloupců datasetu
colnames(iris)

In [3]:
# Nápověda k datasetu
?iris

Každý řádek datasetu obsahuje informace o jedné statistické jednotce (zde květina - kosatec). Ve sloupcích jsou uvedeny jednotlivé údaje k dané statistické jednotce - tzv. proměnné (znaky, atributy). Proměnné rozlišujeme dle jejich typu - kvantitativní (též numerická) a kvalitativní (též kategoriální), dle tohoto typu je vhodné proměnné i zakódovat.

In [None]:
# Znova si prohlédněte dataset a všimněte si kódování pod názvy jednotlivých proměnných
head(iris)

Každou kvalitativní (kategoriální) proměnnou je vhodné mít pod typem **factor**, který jednotlivé hodnoty vnímá jako příslušnosti k definovaným kategoriím. Na místě je také vždy zvážit pořadí jednotlivých kategorií, které lze samozřejmě změnit, je-li potřeba.

In [None]:
# Věnujte pozornost sloupci Species - obzvlášť dolní části výstupu (Levels)
iris$Species

In [None]:
class(iris$Species)

In [None]:
is.factor(iris$Species)

Každou kvantitativní (numerickou) proměnnou je vhodné mít pod typem **double** nebo **numeric**. I toto je vhodné zkontrolovat, obzvlášť jsou-li data importována např. ze souboru csv nebo xlsx, kdy nesprávným nastavením importu může dojít k tomu, že čísla budou importována jako řetězce (text).

In [None]:
class(iris$Sepal.Length)

In [None]:
is.double(iris$Sepal.Length)
is.numeric(iris$Sepal.Length)

Tzv. **preprocessing dat** bývá jednou z nejdůležitějších a často nejdéle trvajících věcí. Dostat data do standardního datového rámce (datové matice), provést očištění od zjevně chybných hodnot, vypořádat se s chybějícími nebo odlehlými hodnotami, provést transformaci, normalizaci či standardizaci (je-li potřeba) - to vše jsou naprosto nezbytné kroky, které musí být provedeny naprosto uvědoměle a transparentně, aby jakákoliv další analýza byla vůbec relevantní.

**Až po řádném preprocessingu dat můžou začít ta pravá kouzla s daty!**