# 1. Funkce nad poli v NumPy

Nejdřív importujeme `numpy` pod obvyklou zkratkou `np`.


In [None]:
import numpy as np


## 1.1 Základní zpracování dat

NumPy nabízí mnoho funkcí pro práci s daty. Často používané jsou například:
- `np.sort` seřadí pole,
- `np.unique` vrátí unikátní prvky,
- `np.mean` spočítá průměr,
- `np.std` a `np.var` spočítají směrodatnou odchylku a rozptyl,
- `np.sum` a `np.prod` spočítají součet a součin,
- `np.cumsum` a `np.cumprod` vrátí kumulativní součet a součin,
- `np.diff` spočítá rozdíly sousedních prvků.

Přehled je v dokumentaci:
- https://numpy.org/doc/stable/reference/routines.math.html
- https://numpy.org/doc/stable/reference/routines.statistics.html


In [None]:
data = np.random.randint(0, 20, (15))
print(data)


Setřízené a unikátní prvky pole získáme pomocí `np.sort` a `np.unique`.

In [None]:
print(np.sort(data))
print(np.unique(data))
# pokud bychom chtěli indexy setříděných prvků
print(np.argsort(data))


### 1.1.1 Průměr (mean)

In [None]:
print(np.mean(data))

### 1.1.2 Směrodatná odchylka a rozptyl

In [None]:
print(np.std(data))
print(np.var(data))


### 1.1.3 Minimum a maximum

In [None]:
print(data.min())
print(data.max())


### 1.1.4 Součet, součin a stopa

In [None]:
print(np.sum(data))
print(np.prod(data))


In [None]:
# lze dělat i řádkové a sloupcové součty
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A)
print(np.sum(A, axis=0))
print(np.sum(A, axis=1))


In [None]:
# stopa matice = součet prvků na diagonále
print(np.trace(A))

In [None]:
print(data)

In [None]:
# kumulativní součet
np.cumsum(data)


In [None]:
# kumulativní násobení
np.cumprod(data)


## 1.2 Iterace

Obecně je lepší preferovat vektorové operace. Někdy je ale potřeba iterovat i explicitně.


In [None]:
v = np.array([1, 2, 3, 4])

for element in v:
    print(element)


Iteruje se přes první index (po řádcích).

In [None]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print(f"row: {row}")


## 1.3 Vektorizace vlastních funkcí

Vektorizované funkce bývají výrazně rychlejší než explicitní iterace. NumPy nabízí několik cest, jak ze skalární funkce udělat funkci pracující i s polem.


In [None]:
def heaviside_scalar(x):
    """
    Scalar implementation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    return 0

In [None]:
# Toto bychom chtěli, ale pro čistě skalární funkci to nefunguje:
# heaviside_scalar(np.array([-3, -2, -1, 0, 1, 2, 3]))

Jedna možnost je použít `np.vectorize`.

In [None]:
heaviside_vectorized = np.vectorize(heaviside_scalar)

In [None]:
heaviside_vectorized(np.array([-3, -2, -1, 0, 1, 2, 3]))

Lepší je funkci přepsat tak, aby přirozeně pracovala se skalárem i polem.

In [None]:
def heaviside_numpy(x):
    """
    Vector-aware implementation of the Heaviside step function.
    """
    return 1.0 * (x >= 0)

In [None]:
heaviside_numpy(np.array([-3, -2, -1, 0, 1, 2, 3]))

In [None]:
# funguje i pro skalár
heaviside_numpy(-1.2), heaviside_numpy(2.6)

Porovnejme rychlost obou přístupů.

In [None]:
randvec = np.random.random_sample((10000)) * 2000 - 1000


In [None]:
%timeit heaviside_vectorized(randvec)

In [None]:
%timeit heaviside_numpy(randvec)

## 1.4 Podmínky nad poli

Pokud testujeme podmínku nad celým polem, použijeme typicky `.any()` nebo `.all()`.


In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])


In [None]:
# výsledkem M > 5 je pole boolovských hodnot
M > 5


In [None]:
if (M > 5).any():
    print("M obsahuje alespoň jeden prvek větší než 5")
else:
    print("M neobsahuje žádný prvek větší než 5")


In [None]:
if (M > 5).all():
    print("všechny prvky v M jsou větší než 5")
else:
    print("M obsahuje alespoň jeden prvek menší rovno 5")


## 1.5 Sčítání do pole podle indexů

V řadě úloh máme příspěvky a indexy, kam se mají přičíst. Bez smyčky to v NumPy řeší `np.add.at`.


In [None]:
n = 10
m = 1_000_000
idx = np.random.randint(0, n, m)
hodnoty = np.random.rand(m)

In [None]:
y = np.zeros((n,))
for i in range(m):
    y[idx[i]] += hodnoty[i]
    
y

In [None]:
x = np.zeros((n,))
np.add.at(x, idx, hodnoty)
x

## 1.6 Další čtení

* https://numpy.org/
* https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/index.html