# Základy jazyka R

R není jenom obyčejný statistický program, ale zároveň i plnohodnotný programovací jazyk. V tomto tutoriálu si ukážeme to nejzákladnější, co budeme z tohoto jazyka potřebovat pro psaní vlastních programů. 

## Operátory

Dříve už jsme si tak trochu ukázali, jak v R asi provádět základní výpočty. Pojďme teď na to trochu systematičtěji:

In [1]:
# základní matematické operátory
3 + 3 # sčítání
1 - 5 # odčítání
3 * 4 # násobení
25 / 2 # dělení

# další číselné operátory
2 ^ 8 # mocnina
3 %% 2 # modulo (zbytek po dělení)
5 %/% 2 # dělení beze zbytku
-5 # unární mínus (násobení mínus jedničkou)

Výsledky programu výše asi nikoho nepřekvapí a pokud jste již někdy používali nějaký matematický program, tak vás ani synatxe nijak zvlášť nevyvede z míry. 

Mimochodem veškerý obsah, který se nachází za znakem `#`, je až do konce řádky při interpretaci vašeho kódu ignorován. Této vlastnosti se doporučuje často využívat, neboť po čase budete mít i vy sami problém číst váš vlastní kód a každá indicie, která vám pomůže rozšifrovat, co jste vlastně při psaní vašeho programu zamýšleli, se vám bude hodit. Minimálně tak alespoň můžete pobavit někoho, kdo bude číst kód po vás, jako například některé [komentáře](https://openvz.org/Kernel_code_quotes) v jádře systému Linux.

Jako každý jiný programovací jazyk, R též zvládá i porovnávací a logické operátory:

In [2]:
3 > 2 # větší
3 < 2 # menší
3 == 3 # rovno
!TRUE # negace
T && F # and
T || FALSE # or

Jak je demonstrováno v programu výše, jazyk též nabízí zkrácené verze konstant `TRUE` a `FALSE`, `T` a `F`. Pro exkluzivní or v R operátor neexistuje, avšak lze použít funkci `xor`:

In [3]:
xor(TRUE, TRUE) # exkluzivní or

Při psaní složitějších výrazů je též třeba dbát na [pořadí a asociativitu](https://www.programiz.com/r-programming/precedence-associativity) operátorů a popřípadě si pomoci závorkami. Například:

In [4]:
256 ^ 1/8
256 ^ (1/8)

nebo

In [5]:
15 / 5 / 3
15 / (5 / 3)

V budoucnu se ještě setkáme s dalšími operátory, které se používají s komplexnějšími datovými strukturami, ale ty zatím necháme být.

## Proměnné a datové typy

Jak přiřazovat proměnné jsme si už dříve také ukázali:

In [6]:
x <- 1
x

Toto je preferovaný a nejčastější způsob, avšak přiřazovacích operátorů je více:

In [7]:
x = x + 1
x
x <<- x + 1
x

Operátor `=` byl do R přidán později a má stejný význam jako `<-`. Doporučuje se však používat starší variantu, ze které je vždy zřejmé co a kam přiřazujete, neboť tento operátor má 'směr'. Lze jej spolu s operátorem `<<-` totiž použít i takto: 

In [8]:
x + 1 -> x
x
x + 1 ->> x
x

Operátory `<<-` a `->>` mají speciální význam a souvisí s pokročilejší znalostí jazyka R a budou vysvětleny později. Ve většině případů je však nebudete potřebovat. Mohou vám jen někdy trochu usnadnit práci.

Každá proměnná i konstanta v R má daný nějaký datový typ, který určuje její vnitřní uspořádání v paměti počítače. My jsme zatím pracovali jen s těmi nejzákladnějšími:

In [9]:
typeof("ahoj")
typeof(1)
typeof(1L)
typeof(1.5)
typeof(T)
typeof(1 + 4i)

Funkce `typeof` se nám vždy pokusí co nejpřesněji sdělit, o jaký datový typ se jedná. Podobně lze též použít i funkci `class`, která dělá to samé ale na trochu vyšší (více lidské) úrovni:

In [10]:
class("ahoj")
class(1)
class(1L)
class(1.5)
class(T)
class(1 + 4i)

Z příkladů výše je vidět, že všechna čísla v R jsou implicitně reprezentována jako datový typ `double`. Pokud z nějakého důvodu chcete, aby bylo vaše číslo reprezentováno jinak, musíte si to explicitně vyžádat (například písmeno `L` za literálem vašeho čísla z něj udělá obyčejný `integer`; stejně funguje i funkce `as.integer`). R umí též přímo počítat s komplexními čísly, kdybyste někdy měli tu potřebu.

### Vektory

Skoro v každém moderním programovacím jazyce existují nějaké lineární datové struktury, které uživateli umožňují agregovat data primitivních typů. Většinou jsou to pole, seznamy, vektory a další. Jelikož je program R zaměřen především na analýzu dat, obsahuje tento jazyk velice širokou škálu datových struktur. My si jich velkou část představíme v dalších tutoriálech, ale představme si nyní tu nejjednodušší z nich, vektory. Vektor si můžeme připravit například následujícími způsoby:

In [11]:
vektor_čísla <- 1:100 # inicializace operátorem
vektor_čísla_opačně <- seq(100, 1) # inicializace pomocí funkce 'seq'
vektor_řetězce <- c("jedna", "dvě", "tři") # inicializace pomocí funkce 'c'
print(vektor_čísla)
print(vektor_čísla_opačně)
print(vektor_řetězce)

  [1]   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
 [19]  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35  36
 [37]  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54
 [55]  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72
 [73]  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90
 [91]  91  92  93  94  95  96  97  98  99 100
  [1] 100  99  98  97  96  95  94  93  92  91  90  89  88  87  86  85  84  83
 [19]  82  81  80  79  78  77  76  75  74  73  72  71  70  69  68  67  66  65
 [37]  64  63  62  61  60  59  58  57  56  55  54  53  52  51  50  49  48  47
 [55]  46  45  44  43  42  41  40  39  38  37  36  35  34  33  32  31  30  29
 [73]  28  27  26  25  24  23  22  21  20  19  18  17  16  15  14  13  12  11
 [91]  10   9   8   7   6   5   4   3   2   1
[1] "jedna" "dvě"   "tři"  


Operátor `:` jsme si zatím ještě nepředstavili. Ten může v různých kontextech znamenat různé věci, ale v tomto případě jen zastupuje funkci `seq`, která se pokusí v jednotkových inkrementech vygenerovat vektor obsahující sekvenci čísel v intervalu specifikovaném jejími argumenty. Tato funkcionalita se často hodí pokud například potřebujete rychle vygenerovat nějaká data pro testování nebo jednoduché unikátní identifikátory.

Inicializace pomocí funkce `c` (combine) a dělá přesně to, co byste čekali. V defaultním módu se pokusí vzít vaše argumenty a vrátit vám je jako vektor. Takto lze kombinovat téměř cokoliv včetně vektorů samotných:

In [12]:
vektor_vektory <- c(c("jedna_1", "dvě_1", "tři_1"), c("jedna_2", "dvě_2", "tři_3"))
print(vektor_vektory)

[1] "jedna_1" "dvě_1"   "tři_1"   "jedna_2" "dvě_2"   "tři_3"  


Všimněte si, že vektor se i při inicializaci z více vektorů tváří jednorozměrně. V R je totiž vektor vždy pouze řada čísel nebo jiných objektů. Po dotazu na dimenze vektoru pomocí funkce `dim` dokonce ani nedostaneme žádnou odpověď:

In [13]:
dim(vektor_vektory)

NULL

Vektor má totiž pouze délku:

In [14]:
length(vektor_vektory)

Jak je zvykem i v jiných programovacích jazycích, lze k položkám ve vektoru snadno přistupovat pomocí indexů a operátoru `[]` (všimněte si, že R indexuje od jedničky):

In [15]:
vektor_vektory[1]
vektor_vektory[2]

Indexovat lze i vektory samotnými:

In [16]:
vektor_vektory[1:3]
vektor_vektory[4:6]
vektor_vektory[c(2, 4, 6)]
vektor_vektory[c(3, 2, 1)]

V takovém případě se položky vektoru automaticky interpretují jako indexy a výsledkem je opět vektor. Ten se skládá z objektů, které odpovídají indexům v původním vektoru a to v takovém pořadí, v jakém byly uvedeny dané indexy. 

Indexovat je možné i pomocí vektorů s logickými hodnotami:

In [17]:
maska <- c(T, T, T, F, F, F)
vektor_vektory[maska]

Na vektory lze dokonce aplikovat i aritmetické operátory:

In [18]:
vektor_čísla
vektor_čísla + 1
2 * vektor_čísla
vektor_čísla %/% 2
vektor_čísla * vektor_čísla
vektor_čísla * c(1, 2)

Logické vektory je navíc možné kombinovat pomocí operátorů `&` a `|`:

In [19]:
maska
maska | c(F, F, F, T, T, T) # or
maska & c(F, F, F, T, T, T) # and

To se velice hodí, pokud potřebujete vybrat hodnoty z vektoru na základě určitých kritérií:

In [20]:
vektor_čísla
vektor_čísla[(vektor_čísla > 10) & (vektor_čísla < 90)]

Objekty uložené ve vektoru mohou mít vždy pouze jeden datový typ. Pokud funkci `c` předhodíte data různých typů, automaticky všechny hodnoty převede na 'nejobjemnější z nich'. V následujícím případě je to řetězec znaků:

In [21]:
vektor_kombinovaný <- c(1:5, 10.5, "bla bla")
print(vektor_kombinovaný)
class(vektor_kombinovaný)

[1] "1"       "2"       "3"       "4"       "5"       "10.5"    "bla bla"


Každý prvek vektoru tedy má v paměti stejnou velikost.

S vektory toho jde dělat skutečně mnoho a lze dokonce jejich položkám i přiřazovat jména a pak je používat místo indexu:

In [22]:
pět <- 1:5
names(pět) <- c("jedna", "dvě", "tři", "čtyři", "pět")
pět["dvě"]

Naposledy ještě krátká poznámka k tomu, proč v R zdánlivě není datový typ vektor:

In [23]:
typeof(vektor_čísla)
class(vektor_čísla)

Ve filozofii jazyka R totiž vlastně neexistuje nic jako atomická hodnota, ale vše je vždy primárně interpretováno jako vektor. Proto funkce `print` vytiskne v následujícím volání jedničku, protože se vlastně jedná o vektor, který obsajuje jednu položku:

In [24]:
print(1)

[1] 1


## Funkce

Co dělá R tak užitečným, je právě široký výběr funkcí, které můžete ve svých programech využít. Díky funkcím je možné snadno zapouzdřovat kód pro opakované použití. Když v R zavoláte funkci (např. `print`), děje se na pozadí hodně věcí, o kterých většinou [raději ani nechcete vědět](http://sourceware.org/git/?p=glibc.git;a=blob;f=stdio-common/vfprintf.c;h=fc370e8cbc4e9652a2ed377b1c6f2324f15b1bf9;hb=3321010338384ecdc6633a8b032bb0ed6aa9b19a). 

Bylo by tedy neefektivní, kdybyste například při každém pokusu o zápis obsahu vaší proměnné na výstup programu museli řešit věci jako otevření a zavření textového bufferu a formátování na konzoli pořád dokola. Je mnohem praktičtější napsat kód jednou a předem definovat proměnné, které se budou měnit v závislosti na kontextu, ve kterém se kód bude vykonávat. V R se funkce definují následujícím způsobem (samotnou syntaxi definice funkce napravo od operátoru `<-` si probereme později):

In [25]:
odmocnina <- function(cislo, odmocnitCim) {
    # spočítá odmocninu z daného čísla

    cislo ^ (1 / odmocnitCim)
}

odmocnina(2, 2)

Jelikož se v R k funkcím přistupuje jako k tzv. 'first-class citizens', není funkce ve výsledku nic jiného, než vytvoření nového objektu a jeho přiřazení do proměnné. Následující kód tedy též funguje, jenom je třeba uzavřít definici funkce do závorek (proč, to zatím necháme být):

In [26]:
(function(cislo, odmocnitCim) {
    # spočítá odmocninu z daného čísla
    
    cislo ^ (1 / odmocnitCim)
}) -> odmocnina_jinak

odmocnina_jinak(2, 2)

Pro nikoho tedy asi již není záhadou následující kód (všimněte si, že funkce se chová jinak při zavolání a jinak pokud k ní přistupujeme jako k proměnné):

In [27]:
class(print)
spit_out <- print
spit_out("hello")

[1] "hello"


Můžeme si takto ovšem i hodně zavařit:

In [28]:
odmocnina <- "Ooops..."
odmocnina(2, 2)

ERROR: Error in eval(expr, envir, enclos): could not find function "odmocnina"


Kupodivu se nám nic takového nestane, pokud uděláme toto:

In [29]:
print <- "Ooops..."
print("Ahoj")

[1] "Ahoj"


Interní funkce v R se totiž řídí trochu jinou politikou. Souvisí to s tím, jakým způsobem jsou jednotlivé objekty navzájem uspořádány a jak probíhá vyhledevání funkcí a proměnných, ale o tom si řekneme více trochu později. Pro nedočkavce lze vřele doporučit [tento článek](http://blog.obeautifulcode.com/R/How-R-Searches-And-Finds-Stuff/).

Vraťme se teď k syntaxi samotné definice funkce, tedy ke konstruktu:

```R
function(x, y) {
    # tělo funkce
}
```

Klíčovým slovem `function` říkáme programu R, že chceme definovat funkci. Závorky jsou vždy povinné a zapisují se do nich jména jejích parametrů. Parametry tvoří kontext, ve kterém se kód bude vykonávat. Ten se píše do složených závorek a je interpretován stejným způsobem jako jakýkoliv jiný kód, který v R napíšeme, ale vyhodnotí se ve speciálně vytvořeném prostředí s hodnotami parametrů, které se nastaví při volání. Kód ve složených závorkách se často označuje jako tzv. tělo funkce.

Není vždy nutné uzavírat tělo funkce do složených závorek, takže následující kód je též v pořádku:

In [30]:
moje_kecy <- function()
    print("Ahoj, já jsem ukecaná funkce a tohle je moje tělo.")
    print("Tohle už není tělo funkce.")

moje_kecy()

[1] "Tohle už není tělo funkce."
[1] "Ahoj, já jsem ukecaná funkce a tohle je moje tělo."


V tomto případě se totiž první příkaz po použití klíčového slova `function` automaticky interpretuje jako její tělo. Druhé volání funkce `print` už se vykoná jako normální příkaz hned po definici funkce a je tedy ve výstupu na prvním místě, i když se díky našemu formátování tváří jako součást funkce `moje_kecy`. Pokud tedy potřebujete definovat funkci, která obsahuje více než pouze jeden příkaz, musíte je uzavřít do složených závorek. Takto uzavřený blok kódu se pak interpretuje jako jeden celek. I když nemusíte složené závorky vždy používat, je dobré je při definicích vašich funkcí vždy uvést, aby bylo jasné, kde přesně tělo začíná a končí.

Toto chování též vysvětluje, proč je třeba uzavřít výraz s definicí funkce do závorek, pokud se pokoušíme o její obskurní přiřazení do proměnné operátorem `->`. Tento operátor je v tomto případě interpretován jako součást těla funkce, i v případě že leží mimo složené závorky. Následující kód totiž taky platí:

In [31]:
{
    print("ahoj")
    1 + 1
    5
} -> y

[1] "ahoj"


In [32]:
y

Kód uzavřený do složených závorek má totiž zajímavou vlastnost. Příkazy uvnitř se všechny vykonají a hodnota posledního z nich se intepretuje jako výsledek celého bloku. Díky tomu lze získat výsledek funkce a uložit jej do proměnné:

In [33]:
odmocnina <- function(cislo, odmocnitCim) {
    # spočítá odmocninu z daného čísla

    cislo ^ (1 / odmocnitCim)
}

výsledek <- odmocnina(4, 2)
výsledek

Tomu, co z funkce 'vypadne', se říká návratová hodnota a pokud není explicitně řečeno jinak, interpretuje se tak vždy výsledek posledního příkazu z bloku kódu, který tvoří její tělo. V tomto případě tedy výsledek výrazu `cislo ^ (1 / odmocnitCim)`.

Pokud chceme specifikovat jinou návratovou hodnotu, můžeme tak učinit funkcí `return`:

In [34]:
{
    print("hi")
    return(42)
    print("ahoj")
}

[1] "hi"


Jak vidíte, funkce `return` též ukončí vykonávání aktuálního bloku kódu a použije námi specifikovaný argument (zde pouze číslo 42) jako návratovou hodnotu. Návratovou hodnotu však nemusíme vždy specifikovat. Funkci 'return' lze totiž použít i bez parametrů:

In [35]:
{
    print("hi")
    return()
    print("ahoj")
}

[1] "hi"


NULL

V tomto případě je návratová hodnota rovna `NULL`, což je v R a jiných programovacích jazycích univerzální objekt pro reprezentaci 'ničeho'. Nulovou návratovou hodnotu má i následující funkce:

In [36]:
nic <- function() {
    # prázdný blok
}

nic()

NULL

Praktické využití funkce `return` a hodnoty `NULL` vám teď zřejmě uniká, ale vše se vyjasní v další kapitole, kde si představíme [řídící struktury](#%C5%98%C3%ADd%C3%ADc%C3%AD-struktury).

### Parametry a volání

Na závěr ještě několik poznámek k volání funkcí. Už jsme si ukázali, že pokud chceme vykonat blok funkce, musíme vždy specifikovat kontext v podobě jejích parametrů (pokud tedy funkce nějaké má): 

In [37]:
odmocnina(3, 2)

Parametry (nebo také argumenty) můžeme řadit do dvou kategorií:

1. poziční
2. pojmenované

My jsme zatím v našem kódu používali pouze agrumenty poziční, ale naší funkci `odmocnina` bychom mohli též zavolat následujícím způsobem pomocí pojmenovaných argumentů:

In [38]:
odmocnina(odmocnitCim = 2, cislo = 3)

Všimněte si, že v případě pojmenovaných argumentů není třeba, aby byly argumenty uvedeny ve stejném pořadí jako v definici funkce. Vidíme zde i další význam operátoru `=`, který zde slouží jako operátor pro přiřazení hodnoty do parametru funkce. Parametry funkce totiž žijí pouze v kontextu dané funkce, na rozdíl od běžných proměnných.

Pojmenované a poziční argumenty lze též kombinovat:

In [39]:
odmocnina(3, odmocnitCim = 2)

V jazyce R dokonce ani není třeba zadávat poziční argumenty před pojmenovanými jako v jiných jazycích. V následujícím případě program sám uhodne, co jste chtěli daným voláním říci:

In [40]:
odmocnina(odmocnitCim = 2, 3)

Pro přehlednost je však vždy dobré nejprve uvést poziční argumenty a až potom argumenty pojmenované, neboť poziční argumenty jsou zpravidla ty nejdůležitější, které je vždy třeba při volání funkce dodat. Funkce totiž mohou být definovány i s implicitními hodnotami argumentů. Naší funkci `odmocnina` bychom totiž mohli definovat a volat i takto:

In [41]:
odmocnina <- function(cislo, odmocnitCim = 2) {
    # spočítá odmocninu z daného čísla

    cislo ^ (1 / odmocnitCim)
}

odmocnina(2)
odmocnina(2, 3)
odmocnina(2, odmocnitCim = 3)

Pokud tedy má funkce nastavenou implicitní hodnotu parametru a tento parametr není při jejím volání nastaven uživatelem, použije se při vykonávání právě tato implicitní hodnota.

Pokud chceme, můžeme i definovat funkce, které berou v podstatě libovolný počet parametrů:

In [42]:
args_as_vector <- function(...) {
    argumenty <- c(...)
    
    argumenty
}

args_as_vector(1, 2, 3, 4, 5)

Funkci lze takto volat i s pojmenovanými argumenty a výsledný vektor má pak položky pojmenované:

In [43]:
vektor_argumentu <- args_as_vector(x = 1, y = 1, z = 1, 42)
vektor_argumentu
names(vektor_argumentu)

### Kontext

Poslední věc, kterou si o funkcích řekneme, bude k samotnému kontextu vykonávávní. Dříve bylo řečeno, že funkce se vždy vykonává v kontextu jejích argumentů, ale v R to není úplně pravda. Následující funkci totiž můžeme v klidu nadefinovat a zavolat:

In [44]:
show_x <- function () {print(x)}

In [45]:
show_x()

[1] 5


Možná jste to již zapomněli, ale v [předchozí kapitole](#Prom%C4%9Bnn%C3%A9-a-datov%C3%A9-typy) jsme si nadefinovali proměnnou `x` a postupně do ní ukládali různé hodnoty. R se tedy při vyhledávání proměnných neomezuje pouze na svoje parametry a kontext, ale pokud nějakou proměnnou nenajde zkusí to i tzv. 'výše', což v tomto případě znamená kontext našeho celého programu.

Kontext není v R pouze nějaký abstraktní pojem, ale lze si na něj i přímo 'sáhnout':

In [46]:
kontext = environment() # získej aktuálně aktivní prostředí
print(kontext)
ls(envir = kontext) # vypiš proměnné

<environment: R_GlobalEnv>


Proměnné totiž v R 'žijí' vždy v nějakém prostředí (environment). Pro všechny proměnné v našem programu je to vždy implicitně globální prostředí (`R_GlobalEnv`). Když zavoláme funkci, tak se pro blok jejího kódu vytvoří prostředí nové, které je podřazené prostředí, ze kterého byla funkce zavolána. Díky tomu se R při interpretaci vašich příkazů může pohybovat skrz různé kontexty a podaří se mu tak naléz i proměnné, které funkce nemá přímo k dispozici ve svém vlastním prostředí. Díky stejné vlastnosti lze ve funkci `show_x` též použít funkci `print` bez toho, aniž bychom jí museli v těle funkce nějak definovat. Vzájemná organizace prostředí je poměrně složitá a my se jí zde nebudeme podrobně věnovat, ale opět lze vřele doporučit rozsáhlý [článek](http://blog.obeautifulcode.com/R/How-R-Searches-And-Finds-Stuff/), který se funkcemi detailně zabývá. Na závěr ještě jeden příklad:

In [47]:
a <- "a (globální)"
c_ <- "c_ (globální)"

muj_printer <- function() {
    a <- "a (ve funkci)"
    print(a)
    b <- "b (ve funkci)"
    c_ <<- "c_ (ve funkci)"
}

print(a)
print(c_)
muj_printer()
print(a)
print(c_)
b

[1] "a (globální)"
[1] "c_ (globální)"
[1] "a (ve funkci)"
[1] "a (globální)"
[1] "c_ (ve funkci)"


ERROR: Error in eval(expr, envir, enclos): object 'b' not found


Proměnné se tedy vždy zapisují pouze do kontextu, ve kterém k přiřazení dochází. Hierarchie prostředí se prohledává pouze při čtení. Všechny proměnné, které vytvoříte ve funkci, jsou dostupné pouze v jejím těle (proto poslední příkaz skončí chybou). Vyjímkou je pouze operátor `<<-`, kterým R o vyhledání proměnné v hierarchii explicitně požádáte. Hodnota je pak přiřazena do nalezené proměnné a nikoliv do proměnné v kontextu bloku funkce.

O funkcích a o tématech s nimi souvisejícími by se dalo mluvit ještě dlouho, ale na to v našem tutoriálu již není prostor. Pro zvídavé lze doporučit [tento detailní článek](http://adv-r.had.co.nz/Functions.html).

## Řídící struktury

TODO

## Dokumentace

R má rozsáhlou dokumentaci a kdykoliv si nevíte rady s nějakou funkcí, je veliká šance, že odpověď najdete právě tam. Pokud přesně víte, jak se vaše funkce jmenuje stačí vám dotázat se funkce `help`:

In [None]:
help("typeof")

In [None]:
help("class")

In [None]:
apropos("svd")