# Importujeme numpy

Chceme-li použít `numpy`, je samozřejmě nutné modul importovat. Obvykle se použivá zkratka `np`: 


In [None]:
import numpy as np


## Zpracování dat

Numpy obsahuje mnoho funkcí pro zpracování dat. Některé z nich jsou:
- `np.sort` - seřadí pole
- `np.unique` - vrátí unikátní prvky pole
- `np.mean` - vypočítá průměr
- `np.std` - vypočítá směrodatnou odchylku
- `np.sum` - vypočítá součet
- `np.cumsum` - vypočítá kumulativní součet
- `np.prod` - vypočítá součin
- `np.cumprod` - vypočítá kumulativní součin
- `np.diff` - vypočítá rozdíly mezi sousedními prvky
- ... a mnoho dalších viz [matematické funkce](https://docs.scipy.org/doc/numpy/reference/routines.math.html) a [statistické funcke](https://docs.scipy.org/doc/numpy/reference/routines.statistics.html) 

In [None]:
data = np.random.randint(0, 20, (15))
print(data)


Setřízené a unikátní prvky pole získáme pomocí `np.sort` a `np.unique`.

In [None]:
print(np.sort(data))
print(np.unique(data))
# pokud bychom chtěli indexy setříděných prvků
print(np.argsort(data))


#### mean (aritmetický průměr)

In [None]:
print(np.mean(data))

#### směrodatná odchylka a rozptyl

In [None]:
print(np.std(data))
print(np.var(data))


#### min a max

In [None]:
print(data.min())
print(data.max())


#### sum, prod, trace

In [None]:
print(np.sum(data))
print(np.prod(data))


In [None]:
# lze dělat i řádkové a sloupcové součty
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A)
print(np.sum(A, axis=0))
print(np.sum(A, axis=1))


In [None]:
# stopa matice = součet prvků na diagonále
print(np.trace(A))

In [None]:
print(data)

In [None]:
# kumulativní součet
np.cumsum(data)


In [None]:
# kumulativní násobení
np.cumprod(data)


## Iterace

Obecně se iteraci vyhýbáme a přednost dáváme vektorovým operacím (viz níže). Někdy je ale iterace nevyhnutelná.

In [None]:
v = np.array([1, 2, 3, 4])

for element in v:
    print(element)


Iteruje se přes první index (po řádcích).

In [None]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print(f"row: {row}")


# Vektorové funkce

Jak jsme již říkali, vektorové (vektorizované) funkce jsou obecně daleko rychlejší než iterace. Numpy nám naštěstí cestu od skalární po vektorovou funkci usnadňuje.

In [None]:
def Theta(x):
    """
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0


In [None]:
# toto bychom chtěli, ale asi to nebude fungovat
# Theta(np.array([-3, -2, -1, 0, 1, 2, 3]))


Pro vektorizaci naší funkce nám Numpy nabízí `vectorize`.

In [None]:
Theta_vec = np.vectorize(Theta)


In [None]:
Theta_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))


To bylo celkem snadné ... Můžeme také (a pokud to jde tak bychom měli) přepsat naši funkci tak, aby fungovala jak pro skaláry tak pro pole.

In [None]:
def Theta_numpy(x):
    """
    Vector-aware implemenation of the Heaviside step function.
    """
    return 1.0 * (x >= 0)


In [None]:
Theta_numpy(np.array([-3, -2, -1, 0, 1, 2, 3]))


In [None]:
# funguje i pro skalár
Theta_numpy(-1.2), Theta_numpy(2.6)


Pojďme zkusit porovnat rychlost vektorizovaných funkcí. Tipnete si která bude rychlejší, případně jak moc rychlejší?

In [None]:
randvec = np.random.random_sample((10000)) * 2000 - 1000


In [None]:
%timeit Theta_vec(randvec)


In [None]:
%timeit Theta_numpy(randvec)


# Používání polí v podmínkách
Pokud chceme testovat po prvcích, v podmínkách pak použijeme metody `all` nebo `any`.

In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])


In [None]:
# výsledkem M > 5 je pole boolovských hodnot
M > 5


In [None]:
if (M > 5).any():
    print("M obsahuje alespoň jeden prvek větší než 5")
else:
    print("M neobsahuje žádný prvek větší než 5")


In [None]:
if (M > 5).all():
    print("všechny prvky v M jsou větší než 5")
else:
    print("M obsahuje alespoň jeden prvek menší rovno 5")


## Další čtení

* https://numpy.org/
* https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/index.html