# 🔢 Úvod do NumPy
`NumPy` (**Num**erical **Py**thon) je Python balíček, který se využívá téměř vždy, když je potřeba pracovat s numerickými daty. Využívají jej i jiné známé balíčky jako jsou `Pandas`, `SciPy`, `scikit-learn`, `Matplotlib`, ...

`NumPy` toho umí udělat opravdu hodně, a proto nemáme možnost pokrýt všechny jeho oblasti. Na internetu naleznete velké množství návodů. Vše se můžete dočíst i v 📚 [dokumentaci](https://numpy.org/doc/stable/reference/index.html) nebo v 👩‍💻 [user guide](https://numpy.org/doc/stable/user/index.html).

Tento balíček se standardně importuje pomocí aliasu `np`.

In [None]:
import numpy as np

## ☝️ NumPy pole
NumPy implementuje datovou strukturu ndarray - homogenní (každý element je stejného typu) n-dimenzionální pole. Rovněž poskytuje metody, pomocí kterých můžeme nad ndarray efektivně provádět různé operace. V dalším textu budeme NumPy pole nazývat zkráceně pole.

Python seznam může obsahovat různé elementy, např.:

In [None]:
pythonList = [1, "one", True]

Homogennost pole je nutná pro optimalizaci matematických operací 📉. Díky ní je práce s polem efektivnější (výpočty trvají kratší dobu) a pole také zabírá méně místa v paměti.

### ✨ Inicializace
Pole můžeme inicializovat různými způsoby. Jedním z nich je inicializace ze seznamu. K elementům pole přistupujeme pomocí hranatých závorek. Tvar (angl. shape) n-dimenzionálního pole je n-tice čísel, která udávají velikost každé dimenze.

In [None]:
# creates 1D (rank 1) array from list
a = np.array([1, 2, 3])   
print(type(a))            
print(a.shape)            
print(a[0], a[1], a[2])   
a[0] = 5                  
print(a)                    

In [None]:
# creates 2D (rank 2) array from 2D list
b = np.array([[1,2,3],[4,5,6]])    
b

In [None]:
print(b.shape) # 2x3 elements                     
print(b[0, 0]) # the element of b in the *first* row, *first* column
print(b[0, 0], b[0, 1], b[1, 0])

NumPy ale poskytuje také velké množství jiných funkcí, pomocí kterých lze inicializovat ndarray. Toto jsou některé z nich 👇

In [None]:
# creates an array filled with zeros
np.zeros((2,2))

In [None]:
# creates an array filled with ones
np.ones((1,2))    

In [None]:
# creates a constant array
np.full((3,4), 9)  

In [None]:
# creates a 2x2 "identity matrix" (it's still an array)
np.eye(2)

In [None]:
# creates an array filled with random values
np.random.random((2,2)) 

Funkce `arange` vrátí pole naplněné rovnoměrně rozmístěnými čísly na námi zvoleném intervalu. Přesněji `arange(start, stop, step)` vygeneruje čísla z polootevřeného intervalu <`start`, `stop`) tak, že rozdíl každých dvou po sobě jdoucích čísel je roven konstantě `step`. Defaultní hodnoty pro `start` a `step` jsou v pořadí 0 a 1.

In [None]:
np.arange(5)

In [None]:
np.arange(3,7)

In [None]:
np.arange(2, 27, 3)

Funkce `linspace` funguje velmi podobně - také generuje rovnoměrně rozmístěná čísla na zadaném intervalu (defaultně je interval uzavřen, ale můžeme vyloučit koncový bod). Rozdíl je v tom, že místo parametru `step` (vzdálenost vygenerovaných čísel) jí zadáváme počet čísel, která má vygenerovat.

In [None]:
# generates 5 evenly spaced number from interval <0,1>
np.linspace(0,1,5)

In [None]:
# generates 5 evenly spaced number from interval <0,1)
np.linspace(0,1,5, endpoint=False)

Jak jsme si již říkali, ndarray je homogenní pole. Určení jednotného datového typu pro všechny elementy lze nechat na NumPy (to jsme dělali ve všech předchozích příkladech), nebo jej můžeme definovat explicitně:

In [None]:
# let's numpy infer data type
a_float = np.ones(2)
print(a_float.dtype)
print(a_float)

# explicitly specifies data type
a_int = np.ones(2, dtype=int)
print(a_int.dtype)
print(a_int)

### 🫵 Indexování
Numpy nabízí několik způsobů, jak indexovat v poli. Už jsme si ukázali klasickou indexaci pomocí celočíselných indexů. Ukážeme si ještě slicing a indexaci pomocí boolovského pole.
#### ✂️ Slicing

In [None]:
# create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# uses slicing to get the subarray consisting of the first 2 rows and columns 1 and 2
b = a[:2, 1:3]

print("original array")
print(a)
print("sliced array")
print(b)

❗Pozor na to, že výsledný slice **není** hlubokou kopií. Modifikace se projeví i v původním poli.❗

In [None]:
# modifying a slice of an array will modify the original array
print(a[0, 1])
b[0, 0] = 99
print(a[0, 1])

#### ☯️ Indexace pomocí boolovského pole
Tímto způsobem můžeme z libovolného pole obdržet 1D pole, které obsahuje pouze elementy, pro které je splněna zadaná podmínka.

Pojďme si například vyfiltrovat jen elementy pole a, které jsou sudé.

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
bool_idx = (a % 2 == 0)   

print(bool_idx)

Vidíme, že výsledkem je pole stejných dimenzí jako původní pole. Elementy tohoto pole jsou booleany `True` a `False`, které v sobě nesou informaci, zda byl element původního pole na stejné pozici sudý.

In [None]:
# uses boolean indexing to construct rank 1 array
# new array consists of the elements of a corresponding to the True values of bool_idx
print(a[bool_idx])

# we can do all of the above in a single concise statement:
print(a[a % 2 == 0])

### ➕ Přidávání, odebírání a řazení elementů
Na přidávání, odebírání a řazení elementů pole můžeme použít například funkce `np.append`, `np.delete` a `np.sort`. Všechny tři funkce vytvářejí hlubokou kopii – původní pole jimi neměníme. S polem je ale možné manipulovat různými způsoby, všechny naleznete v 📚 [dokumentaci](https://numpy.org/doc/stable/reference/routines.array-manipulation.html).

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])
# appends elements 1 and 2 to the copy of original array
b = np.append(a, [1,2])

# original array is the same as before appending
print(a)
# new copy with appended elements
print(b)

In [None]:
# creates a copy of original array with first element deleted
c = np.delete(a, 0)

print(a)
print(c)

In [None]:
a = np.array([2, 1, 5, 3, 7, 4, 6, 8])
# creates a sorted copy of original array
a_sorted = np.sort(a)

print(a)
print(a_sorted)

### 🧮 Matematické operace

V buňce níže jsou ukázky některých základních matematických operací nad poli. Všechny matematické operace, které NumPy nabízí, můžete najít v 📚 [dokumentaci](https://numpy.org/doc/stable/reference/routines.math.html). Matematické operace je často možné použít jako přetížené operátory nebo funkce.

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# elementwise sum
print(x + y)
print(np.add(x, y))

In [None]:
# elementwise difference
print(x - y)
print(np.subtract(x, y))

In [None]:
# elementwise product
print(x * y)
print(np.multiply(x, y))

In [None]:
# elementwise division
print(x / y)
print(np.divide(x, y))

In [None]:
# elementwise square root
print(np.sqrt(x))

Maticové násobení implementuje funkce `dot`. Má dvě varianty, které produkují stejný výsledek. Buď ji voláme jako funkci modulu NumPy nebo instanční metodu pole.

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# inner product of vectors
print(v.dot(w))
print(np.dot(v, w))

# product of matrix and vector
print(x.dot(v))
print(np.dot(x, v))

# product of two matrices
print(x.dot(y))
print(np.dot(x, y))

#### 📻 Broadcasting
Pojem bradcasting popisuje, jak NumPy zachází s poli různých tvarů během aritmetických operací. Menší pole je "broadcast-nuto" napříč větším polem, aby mělo kompatibilní tvar.
Více se můžete dočíst v 📚 [dokumentaci](https://numpy.org/doc/stable/user/basics.broadcasting.html).

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8])
print(a + 1)

b = np.array([[1,2],[3,4]])
print(b + [1, 0])

## 🔮 Generování dat
Metody pro generování syntetických dat z určitého rozdělení jsou součástí modulu `random`.

Na internetu se můžete setkat s mnoha návody, které používají legacy verzi náhodného generátoru. Nově vždy začneme tím, že si vytvoříme instanci náhodného generátoru pomocí funkce `default_rng()` a čísla generujeme pomocí dané instance:

In [None]:
# do this (new version)
from numpy.random import default_rng
rng = default_rng()
# generated 10 numbers from standard normal distribution
vals = rng.standard_normal(10)
more_vals = rng.standard_normal(10)

# instead of this (legacy version)
# from numpy import random
# vals = random.standard_normal(10)
# more_vals = random.standard_normal(10)

Pokud chceme dostat reprodukovatelné výsledky (tzn. při každém spuštění notebooku generátor vygeneruje stejná čísla), můžeme generátoru zadat seed 🌱:

In [None]:
# creates random generator with specified seed
rng = default_rng(123)
rng2 = default_rng(123)
rng3 = default_rng(456)

# random generators with the same seed generate same numbers
print(rng.standard_normal(2))
print(rng2.standard_normal(2))
# random generator with different seed will probably produce different numbers
print(rng3.standard_normal(2))

Zkusme si vygenerovat několik ukázkových dat z různých rozdělení. Syntaxe je pro každé rozdělení velmi podobná, pomocí správné funkce určíme, o jaké rozdělení se jedná, zadáme počet požadovaných vygenerovaných dat a v případě potřeby upřesníme parametry daného rozdělení.

Ukážeme si jen některá rozdělení. Všechny naleznete v 📚 [dokumentaci](https://numpy.org/doc/stable/reference/random/generator.html).

In [None]:
rng = default_rng(123)

In [None]:
r = rng.random(1000)
integers = rng.integers(1000)

# standard normal distribution
z = rng.standard_normal(1000)

# normal distribution with mean=10 and standard deviation=3
normal = rng.normal(size=1000, loc=10, scale=3)

# standard exponential distribution
e_standard = rng.standard_exponential(1000)

# exponential distribution with rate (intensity) 1/5
e = rng.exponential(size=1000, scale=5)

## 📊 Statistiky a agregační funkce
Mezi agregační funkce patří například `sum`, `min`, či `max`. Často máme možnost zvolit osu (angl. axis), nad kterou se budou data agregovat. Ukažme si to na příkladu:

In [None]:
# numbers from 0 to 29 reshaped to 5 rows and 6 columns
a = np.arange(30).reshape(5,6)
print(a)

In [None]:
# maximum of the whole array
a.max()

In [None]:
# maximal values of each column
a.max(axis=0)

In [None]:
# maximal values of each row
a.max(axis=1)

Vypočítat odhad střední hodnoty či rozptylu nebo získat percentil a medián je s NumPy velmi jednoduché. A to nejsou jediné statistiky, které můžeme získat. Více lze zjistit v 📚 [dokumentaci](https://numpy.org/doc/stable/reference/routines.statistics.html).

In [None]:
# generates 1000 samples from normal distribution with mean=10 and standard deviation=3
normal = rng.normal(size=1000, loc=10, scale=3)
print("min value: {}".format(normal.min()))
print("max value: {}".format(normal.max()))

In [None]:
np.mean(normal)

In [None]:
np.std(normal)

In [None]:
np.var(normal)

In [None]:
np.median(normal)

In [None]:
np.percentile(normal, 99)

# 🎉 A to je k NumPy vše! 🎉