### Vektory a matice

Většina programovacích jazyků má nějaké povědomí o vektorových a maticových datech, nejčastěji v nějaké formě datového typu `pole` (`array`). Ve Fortranu je to `dimension`, v C se definují pomocí `[]` pro libovolný typ. Python přímo v základním jazyce podporuje několik "polních" datových typů, `sekvencí` (`posloupností`, `sequences`), které práci s vektorovými daty umožňují. Hned na začátek je ale dobré si říct, že tyto vestavěné datové typy mají velmi omezenou použitelnost pro efektivní práci s většími objemy dat. Základní problém s poli v Pythonovské pojetí je, že můžou obsahovat cokoliv, tedy nejen čísla, ale jakýkoliv objekt. Přesto jsou velmi užitečné a základní koncepty pro práci se sekvencemi fungují i u jiných polí.

U sekvencí můžeme přistupovat k jednotlivým částem pomocí hranatých závorek `[]` a indexu jednoho prvku nebo rozsahu prvků (tzv. `slice`). **První index je vždycky `0` a poslední `n-1`, kde n je délka sekvence** (tu nám řekne funkce `len`). Indexovat můžeme ale také od konce, pokud použijeme záporná čísla, přičemž poslední prvek sekvence má index `-1`.

S jedním typem sekvence jsme se už setkali: řetězec je sekvence znaků v kódování `Unicode`, přičemž patří k neměnitelným (`immutable`) objektům, jejichž obsah nelze změnit. Můžeme ale použít *slicing* pro vyseparování podřetězců nebo řetězcové metody pro různé transformace vytvářející upravenou kopii.

In [None]:
name = 'Monty Python is the 🐐!'
print(name[0], name[1], name[-1], name[len(name)-1])
print(name[6:12].upper())
print(name[:5], name[6:])
print(name[-9:-1].capitalize())
print(name[6:12:2])

##### Seznamy, n-tice

Sekvence obecných hodnot (pole objektů) jsou potom buďto měnitelný `seznam` (`list`) nebo neměnitelná `n-tice` (`tuple`). Oba se definují jako soupis hodnot oddělených čárkou, pro vytvoření `listu` ho uzavřeme do hranatých závorek a `tuple` do kulatých závorek. Všechna pravidla pro *slicing* platí i zde.

In [None]:
list_of_values = [1.5, 2, '-', sum, -1*12.5, print, [15, 6, '9'], 16]
print(list_of_values)
print(list_of_values[0])

tuple_of_values = (1.5, 2, '... --- ...', sum, -1*12.5)
print(tuple_of_values)
print(tuple_of_values[-3][4:7])
print(tuple_of_values[2].split(' '))

Obsah listu můžeme změnit přiřazením do konkrétního indexu nebo slicu. Další operace na listech jsou definované jako metody, např. `append`, `insert`, `pop`. Naproti tomu snaha o změnu hodnoty prvku tuplu skončí chybovou hláškou...

In [None]:
list_of_values[2] = -999.
print(list_of_values)

list_of_values[1:3] = 5, 6
print(list_of_values)

list_of_values.append(10)
print(list_of_values)

list_of_values.insert(1, None)
print(list_of_values)

list_of_values.pop()
print(list_of_values)

list_of_values[7][2] = 100
print(list_of_values)

# tuple_of_values[2] = -999.

#### Číselná vektorová data

Pro efektivní práci s poli čísel existují v Pythonu lepší řešení než `list`, přímo v základní distribuci je třeba knihovna `array`. I ta má ale svoje velká omezení, radši se poohlédneme někam mimo standardní distribuci. K těmto účelům mnohem lépe slouží externí knihovna NumPy, která se stala de-facto standardem pro vědecké výpočty v Pythonu. Tato knihovna zavádí datový typ `N-dimenzionální pole` (`N-dimensional array`), které obsahuje pouze prvky stejného typu a rozsahu (a většinou má fixní velikost). Tyto `ndarrays` jsou potom ekvivalentem polí v C nebo Fortranu a mají tu výhodu, že práce s nimi je nejen jednodušší pro programátora, ale také výpočty s nimi jsou řádově rychlejší...

In [None]:
import numpy as np

data = np.array([13.5, 1.5, 6, 6, -12.5, 1.5, 16, 10, 3, -8], dtype=np.float32)
print("Data: ", data)
print('Sum: ', data.sum(), " mean: ", data.mean())
print('Sorted: ', sorted(data))
print('Q1: ', np.percentile(data, 25), 'Q3: ', np.percentile(data, 75, method='nearest'))

Vícedimenzionální pole v `NumPy` se adresují přes seznam indexů, sliců nebo jejich kombinaci.

In [None]:
data_2d = np.random.randint(-5, 5, size=(5, 10))
print(data_2d)
print(data_2d[0, 0], data_2d[4, 9]) # jako u funkcí nedělám dvě závorky jako u listu
print(data_2d[3:5])
print(data_2d[:, 1:5:2])

In [None]:
data_5d = np.random.randint(-5, 5, size=(2, 3, 4, 3, 2))
print(data_5d[0, ..., 0])

*Námět na cvičení: vyzkoušejte si, co všechno z toho, co jsme si ukazovali pro seznamy, platí pro `ndarrays`.*

Práci s `ndarrays` usnadňuje nejen celá řada předpřipravených funkcí, ale i vektorová aritmetika používající vestavěné aritmetické operátory.

In [None]:
vec1 = np.array([1., 2., 3.])
vec2 = np.array([-2, -3, 0.5])
print(vec1 + vec2)
print(vec1 * vec2)
print(10*vec1 - vec2/2)
print(np.dot(vec1, vec2))
print(np.cross(vec1, vec2))

Podobně bohaté možnosti nabízí pro práci s maticemi (`np.matrix`) a obecnými n-dimensionálními poli (`np.array`). Je ale potřeba si dávat pozor na interpretaci "řádků a sloupců". Pro lepší přehlednost si můžeme vypomoct rozložením jednoho logického řádku kódu na více "fyzických" řádků, které funguje v závorkách implicitně. Mimo závorky můžeme využít znak `\`.

In [None]:
mat1 = np.matrix([[2., -1., 1.], [0., -1., 2.], [1., 2., 0.]])
mat2 = np.matrix([[1., 1., 1.],
                  [1., 0., 1.],
                  [0., 1., 1.]])

mat3 = mat1 + \
       mat2

print("mat1\n", mat1, "\nmat2\n", mat2)
print("mat3 = mat1 + mat2:\n", mat3)
print("vec1 * mat1\n", vec1 * mat1)
print("vec1 * mat1.T\n", vec1 * mat1.T)
print("vec1 * np.array(mat1)\n", vec1 * np.array(mat1))
print("mat1 * mat2\n", mat1 * mat2)
print("np.array(mat1) * np.array(mat2)\n", np.array(mat1) * np.array(mat2))

#### Posloupnosti

Speciálním typem sekvence je číselná posloupnost, která je natolik užitečná, že pro ni Python definuje speciální objekt `range`. Ten je omezený na celočíselné posloupnosti, zobecnění na reálná čísla potom opět přínáší knihovna `numpy` a její funkce `arange` a `linspace`. Jejich použití je podobné, ale implementace a chování v programu je trochu jiné. Zatímco `np.arange` generuje pole hodnot, `range` vytváří pouze tzv. iterátor/generátor, tedy objekt, který členy posloupnosti generuje za běhu programu...

In [None]:
# Iterate over numbers in <0, 10) with step 1
int_seq = range(10)
print(int_seq)
print(list(int_seq))

# Generate numbers from 3 to 10 (not included) with step 0.5
float_seq = np.arange(3, 10, 0.5)
print(float_seq)

# Generate an array of 16 numbers evenly spaced between 3 and 10 (included)
print(np.linspace(3, 10, 16))

*Námět na cvičení: vyzkoušejte si, jaký je rozdíl mezi výstupem `range` a `np.arange`. Jaké objekty vrací?*