 # Table of Contents
<div class="toc" style="margin-top: 1em;"><ul class="toc-item" id="toc-level0"><li><span><a href="http://localhost:8888/notebooks/04/04.ipynb#Matice" data-toc-modified-id="Matice-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Matice</a></span></li></ul></div>

# Datové struktury v R

Tato lekce se zaměřuje na to, co pravděpodobně budete potřebovat na začátku každé datové analýzy, tj. znát jaké možnosti reprezantace vašeho datového souboru vám R nabízí a jakou nejlépe zvolit.

V [předchozí lekci](../03/) jsme si již představili vektory, které představují asi nejpřímočařejší cestu k reprezentaci analyzovaných dat, neboť ve statistice nejsou jednolivá měření nebo vzorky nic víc než jen pouhá řada čísel. Někdy ale budete muset načíst i data strukturovaná trochu jinak (například vzorky měřené současně na několika přístrojích). V této lekci si tedy ukážeme další struktury, které na vektorech staví ale nabízí rozšířenou funkcionalitu pro pohodlnější práci s různými typy dat. 

## Matice

S maticemi jste se určitě už setkali v matematice, takže víte, že to jsou vlastně vektory naskládané pod sebe. V R si můžete matice představit jako vektor, který má nevíc ještě dva parametry, kterými jsou počet řádek a počet sloupců. Že je tomu skutečně tak ukazuje následující kód:

In [1]:
x <- 1:12
dim(x) <- c(4, 3) # převedení vektoru na matici
class(x)
x
attributes(x) # některé objekty v R mohou mít atributy, co přesně

0,1,2
1,5,9
2,6,10
3,7,11
4,8,12


Toto je sice netradiční způsob vytvoření matice, ale ukazuje nám, co vlastně matice pro R znamená. V tomto případě je třeba vždy zadat počet řádků i počet sloupců, protože vlastně nastavujeme přímo konkrétní atribut výsledného vektoru. Použití funkce `matrix` už takové omezení nemá:

In [2]:
m_x <- matrix(x, nrow = 4)
dim(m_x)
class(m_x)
m_x
attributes(m_x)

0,1,2
1,5,9
2,6,10
3,7,11
4,8,12


Tento postup je tedy čitelnější a o něco jednodušší, neboť rozdělení na sloupce již R vyřeší za vás. Stejného výsledku byste docíli i takto:

In [3]:
m_x <- matrix(x, ncol = 3)
print(m_x)
m_x <- matrix(x, nrow = 4, ncol=3)
print(m_x) 

     [,1] [,2] [,3]
[1,]    1    5    9
[2,]    2    6   10
[3,]    3    7   11
[4,]    4    8   12
     [,1] [,2] [,3]
[1,]    1    5    9
[2,]    2    6   10
[3,]    3    7   11
[4,]    4    8   12


Je třeba si též uvědomit, že rozdíl mezi použitím postupu s funkcí `matrix` oproti funkci `dim` je též v tom, že pomocí funkce `dim` je modifikován stávající objekt, ale funkce matrix vrací objekt nový. Při použití funkce `dim` tedy nedochází ke kopírování, což znamená rychlejší vykonávání, avšak za ztráty struktury původního objektu.

Jak jste si asi všimli, při vytváření matice z vektoru se postupuje podle sloupců nikoliv řádků. Pokud to chcete naopak můžete nastavit parametr `byrow` na `TRUE`:

In [4]:
m_x <- matrix(x, ncol = 3, byrow = T)
print(m_x)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9
[4,]   10   11   12


V příkladech nahoře též vidíte, že funkce `print` vám kromě samotné matice ukáže navíc i další informace. Ty se týkají souřadnic (indexů) jednotlivých prvků. Je to v podstatě i návod, jak k jednotlivým prvkům přistupovat:

In [5]:
m_x[1,1]
m_x[2,2]
m_x[3,3]
m_x[4,3]

Pokud jeden z indexů vynecháte, dostanete vektor reprezentující celý řádek nebo sloupec:

In [6]:
m_x[,1]
m_x[1,]

Jako indexy můžete samozřejmě používat i vektory:

In [7]:
print(
    m_x[c(3, 4), 2:3] # numerické
)
print(
    m_x[c(F, F, T, T), c(F, T, T)] # nebo logické
)

     [,1] [,2]
[1,]    8    9
[2,]   11   12
     [,1] [,2]
[1,]    8    9
[2,]   11   12


nebo dokonce matice samotné:

In [8]:
print(m_x)
maska <- matrix(
    c(
        T, T, T,
        F, F, F,
        T, T, T,
        F, F, F
    )
    , nrow = 4
    , byrow = T
)
print(maska)
m_x[maska]

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9
[4,]   10   11   12
      [,1]  [,2]  [,3]
[1,]  TRUE  TRUE  TRUE
[2,] FALSE FALSE FALSE
[3,]  TRUE  TRUE  TRUE
[4,] FALSE FALSE FALSE


Všimněte si, že zde je výsledkem vektor čísel, která odpovídají vybraným hodnotám v naší masce a to opět podle sloupců.

Do matic lze samozřejmě pomocí indexů i zapisovat:

In [9]:
print(m_x)
m_x[,1] <- c(1, 2, 3, 4) # nastav obsah prvniho sloupce na daný vektor
print(m_x)
m_x[,1] <- c(1, 2)
print(m_x) # i zde funguje recyklace hodnot vektoru

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    4    5    6
[3,]    7    8    9
[4,]   10   11   12
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    5    6
[3,]    3    8    9
[4,]    4   11   12
     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    5    6
[3,]    1    8    9
[4,]    2   11   12


In [10]:
m_x[c(3, 4), 2:3] <- matrix(numeric(4), nrow = 2)
print(m_x)
m_x[c(3, 4), 2:3] <- c("a", "b", "c", "d") # je možné rovnoou i zapsat vektor správné délky
print(m_x)

     [,1] [,2] [,3]
[1,]    1    2    3
[2,]    2    5    6
[3,]    1    0    0
[4,]    2    0    0
     [,1] [,2] [,3]
[1,] "1"  "2"  "3" 
[2,] "2"  "5"  "6" 
[3,] "1"  "a"  "c" 
[4,] "2"  "b"  "d" 


Všimněte si, že i matice mohou být pouze jednoho typu, stejně jako vektory. Po přiřazení vektoru dat jiného typu (zde `character`) se všechny prvky převedou na největší společný typ, tedy opět `character`.

Stejně jako s vektory je možné i s maticemi provádět různé operace:

In [11]:
m_y <- matrix(1:4, nrow = 2, byrow = T)
m_y

print(
    m_y * 2
)
print(
    m_y > 2
)

# maticové operace
print(
    m_y + m_y
)
print(
    m_y %*% m_y # speciální operátor pro maticové násobení
)

0,1
1,2
3,4


     [,1] [,2]
[1,]    2    4
[2,]    6    8
      [,1]  [,2]
[1,] FALSE FALSE
[2,]  TRUE  TRUE
     [,1] [,2]
[1,]    2    4
[2,]    6    8
     [,1] [,2]
[1,]    7   10
[2,]   15   22


TODO: napsat k cemu vsemu jsou matice dobre