# Cvičení 1: Úvod do jazyka R

Interpret jazyka R spustíme snadno z příkazové řádky:
```
[jp@riemann ~]$ R

R version 4.2.0 alpha (2022-04-01 r82059)
Copyright (C) 2022 The R Foundation for Statistical Computing
Platform: x86_64-pc-linux-gnu (64-bit)

R is free software and comes with ABSOLUTELY NO WARRANTY.
You are welcome to redistribute it under certain conditions.
Type 'license()' or 'licence()' for distribution details.

  Natural language support but running in an English locale

R is a collaborative project with many contributors.
Type 'contributors()' for more information and
'citation()' on how to cite R or R packages in publications.

Type 'demo()' for some demos, 'help()' for on-line help, or
'help.start()' for an HTML browser interface to help.
Type 'q()' to quit R.

[Previously saved workspace restored]

> 
```

Je patrné, že R umí nějaká dema, nápovědu, doplňování syntaxe apod. Navíc umí ukládat a obnovovat workspace, tj. proměnné. Nápovědu lze velmi jednoduše vyvolat i pomocí prefixového otazníku:
```
> ?c()
```

Pokud nevíme, jak se funkce jmenuje, ale víme, co by měla dělat, můžeme použít příkaz `apropos()`:

In [None]:
apropos('iqr')

: 

eventuálně `help.search()`:

In [None]:
help.search('iqr')

: 

My budeme pracovat v prostředí `jupyter notebook` resp. `jupyter lab`. Populárními alternativami jsou [RStudio](https://www.rstudio.com/), [RKWard](https://rkward.kde.org/), [rattle](https://rattle.togaware.com/), fajnšmekři mohou využívat [ViM](https://www.freecodecamp.org/news/turning-vim-into-an-r-ide-cd9602e8c217).

## Prostředí R (R environment)
Podívejme se na některé vlastnosti prostředí jazyka R.

### Co v noteboocích nevyužijeme
Pokud bychom pracovali přímo v interpretu jazyka R, potřebovali bychom mít přehled o existujících proměnných:

```
> ls()
 [1] "Date"        "DayOfWeek"   "fitted"      "household"   "hrs_yr"     
 [6] "ind"         "logreg"      "MonthOfYear" "newdata.pr"  "newsvm"     
[11] "reg"         "res"         "residues"    "rounded"     "svm"        
[16] "time"        "y"    
```

Proměnné můžeme mazat pomocí `rm()`. Celý existující workspace můžeme uložit příkazem `save.image()`, který vytvoří soubor `.RData`, pokud neřekneme jinak. Tento soubor je automaticky natažen při startu R. Pokud bychom vytvářeli alternativní soubory pomocí `save.image()`, jejich opětovné natažení provedeme příkazem `load()`.

### Skriptování
Namísto psaní příkazů řádek po řádku si můžeme připravit skripty, podobně jako to děláme v jiných interpretovaných jazycích (python, perl...). Skript spustíme pomocí `source()`.

## R jako lepší kalkulačka

Podobně jako v příkazovém interpretu pythonu, perlu apod. i s R můžeme pracovat jako s jednoduchou kalkulačkou:

In [None]:
pi

: 

In [None]:
sin(2*pi)

: 

Následující kód realizuje náhodný výběr o rozsahu ```k``` z normálního rozdělení, vytiskne první hodnoty a vykreslí histogram:

In [None]:
k <- 50
z <- rnorm(k)
head(z)
hist(z)

: 

Konvence pro pojmenování proměnných jsou poměrně volné, nicméně vyhrazena jsou písmenka ```c, q, t, C, D, F, I``` a ```T```. Je běžné potkávat se s proměnnými obsahujícími tečku, např. ```salary.1yr```.

Asi nejčastěji pracujeme s vektory. Nejsou-li dlouhé, můžeme je zadat pomocí ```c()```. Pár funkcí pro začátek:

In [None]:
lunch.price <- c(110, 140, 99, 167, 139, 150, 117, 123, 118, 203, 117, 231)
print(lunch.price)
lunch.price <- c(lunch.price, 111, 112, 113)
print(lunch.price)

: 

In [None]:
lunch.price[c(1,2,3)]           # selection by indexing
lunch.price[-c(1,2,3)]          # selection by exclusion
lunch.price[lunch.price > 130 & lunch.price < 150]  # conditional selection

: 

In [None]:
summary(lunch.price)

: 

In [None]:
range(lunch.price)

: 

In [None]:
mean(lunch.price)
var(lunch.price)
sd(lunch.price)

: 

In [None]:
lunch.price_squared <- lunch.price^2
lunch.price_squared

: 

<font color="blue">**Nyní je čas udělat úkoly 1.a a 1.b v druhém notebooku**</font>

---

## R jako programovací jazyk

R je programovací jazyk, má tedy nástroje pro vytváření podmínek, cyklů, podporu OOP atd. Na úzkou množinu se podívejme blíže.

### `if` - podmíněné vykonávání kódu

In [None]:
x <- runif(1)
print(x)
if(x < 0.3) {
    print("Value is less than 0.3")
} else if(x < 0.5) {
    print("Value is between 0.3 and 0.5")
} else {
    print("Value is between 0.5 and 1")
}

: 

### `for`, `while` a `repeat`
Podíváme se jen na `for` cyklus:

In [None]:
for (x in 1:5) {
    print(x**2)
} 

: 

<font color="blue">**Nyní je čas udělat úkoly 2.a a 2.b v druhém notebooku**</font>

---

## R jako statisticky orientovaný software

Nyní trochu předběhneme a ukážeme si, proč R chceme umět: udělá za nás spoustu práce ve statistice! Coby absolventi BI-PST zkuste rozklíčovat následující řádek:

In [None]:
t.test(lunch.price, mu=150, conf.level=0.9, alternative="two.sided")

: 

> **Úloha: Obědy zdražily o 10%. Otestujte na standardní hladině významnosti, zda je nově střední hodnota 150Kč oproti alternativě, že je menší.**

In [None]:
t.test(lunch.price * 1.1, mu=150, alternative="less")

: 

<font color="blue">**Nyní je čas udělat úkol 3.a v druhém notebooku**</font>

---
## Ponořme se hlouběji do datových struktur

Některé užitečné předdefinované proměnné, jejichž použití demonstrujeme níže:

In [None]:
letters
LETTERS
month.name
month.abb

: 

### Matice

Kromě konstrukce pomocí `matrix` a spojování vektorů pomocí `rbind()` a `cbind()` jsou užitečné zejména:
- `t()` - transpozice
- `dim()` - tisk či změna dimenze
- `rownames()` a `colnames()` - pojmenování řádků/sloupců

In [None]:
matrix_a <- matrix(data=1:15, nrow=3, byrow=T)
print(matrix_a)

: 

In [None]:
print(t(matrix_a))

: 

In [None]:
matrix_b <- cbind(1:5, 6:10, 11:15)
print(matrix_b)

: 

U sekvencí typu `1:5` či ekvivalentně `seq(1,5)` je zjevně důležité mít na paměti rozdílnost oproti pythonu!

In [None]:
rownames(matrix_a) <- month.abb[1:3]
colnames(matrix_a) <- LETTERS[1:5]
print(matrix_a)

: 

### Typ `list`

Tento datový typ se trochu podobá pythonímu dictionary:

In [None]:
lunch_prices <- list(old=lunch.price, new=lunch.price*1.1)
print(lunch_prices)

: 

In [None]:
print(lunch_prices$old)

: 

In [None]:
lunch_prices$new_extended <- c(lunch_prices$new, 122, 123, 124, 125)
print(lunch_prices)

: 

Pojďme na data aplikovat nějakou funkci. `lapply()` vrátí **l**ist, `sapply()` se pokusí udělat **s**implified output:

In [None]:
print(lapply(lunch_prices, mean))

: 

In [None]:
print(sapply(lunch_prices, mean))

: 

<font color="blue">**Nyní je čas udělat úkoly 4.a a 4.b v druhém notebooku**</font>

---

### Data frames

Zatímco `list` nemusí být nutně vnitřně provázaný (jak ukazuje buňka výše s nestejnými počty prvků listu), `data.frame` už je vlastně tabulka s vazbami pro jednotlivé řádky. To mimo jiné znamená, že všechny sloupce mají stejnou délku.

In [None]:
df <- data.frame(lunch_prices$old, lunch_prices$new)
print(df)

: 

In [None]:
print(df$lunch_prices.new)

: 

In [None]:
summary(df)

: 

Protože přístup k vnitřním proměnným v data framu může být poněkud těžkopádný, s oblibou využíváme funkce `attach()` a `detach()`:

In [None]:
attach(df)
print(lunch_prices.old)
detach(df)

: 

## Factors

Kategorické proměnné jako diagnóza, stádium apod. jsou typ *factor*. Tento typ de facto slovně pojmenovává jednotlivé kategorie. Vytvoříme si dva vektory, v jednom budou hodnoty, v druhém faktor a slepíme je do jednoho data framu:

In [None]:
student.avg <- c(1.2, 1.4, 3.2, 2.8, 3.4, 2.2, 2.7)    # average mark
student.cls <- c(1, 1, 3, 2, 3, 2, 2)                  # classification group
student.cls <- factor(student.cls, levels=1:3, order=T)
levels(student.cls) <- c("excellent", "average", "poor")

student_df <- data.frame(student.avg, student.cls)
print(student_df)

: 

Interně jsou faktory reprezentovány čísly, takže funguje třídění apod.:

Pro faktory existuje funkce podobná `lapply()` a `sapply()`, a sice `tapply()`, vrací **t**abulku:

In [None]:
print(tapply(student_df$student.avg, student_df$student.cls, mean))

: 

<font color="blue">**Nyní je čas udělat úkoly 5.a až 5.c v druhém notebooku**</font>

---
---