# Importujeme numpy

Chceme-li použít `numpy`, je samozřejmě nutné modul importovat. Obvykle se použivá zkratka `np`: 


In [2]:
import numpy as np


## Zpracování dat

Numpy obsahuje mnoho funkcí pro zpracování dat. Některé z nich jsou:
- `np.sort` - seřadí pole
- `np.unique` - vrátí unikátní prvky pole
- `np.mean` - vypočítá průměr
- `np.std` - vypočítá směrodatnou odchylku
- `np.sum` - vypočítá součet
- `np.cumsum` - vypočítá kumulativní součet
- `np.prod` - vypočítá součin
- `np.cumprod` - vypočítá kumulativní součin
- `np.diff` - vypočítá rozdíly mezi sousedními prvky
- ... a mnoho dalších viz [matematické funkce](https://docs.scipy.org/doc/numpy/reference/routines.math.html) a [statistické funcke](https://docs.scipy.org/doc/numpy/reference/routines.statistics.html) 

In [15]:
data = np.random.randint(0, 20, (15))
print(data)


[13  4  1 13 15  8  6  7 16 13  2  8  3 19 15]


Setřízené a unikátní prvky pole získáme pomocí `np.sort` a `np.unique`.

In [4]:
print(np.sort(data))
print(np.unique(data))
# pokud bychom chtěli indexy setříděných prvků
print(np.argsort(data))


[ 1  3  3  3  4  5  6  8 13 13 15 16 18 19 19]
[ 1  3  4  5  6  8 13 15 16 18 19]
[12  0  1  3 11  7  4 10  5  6 14  9  2  8 13]


#### mean (aritmetický průměr)

In [None]:
print(np.mean(data))

#### směrodatná odchylka a rozptyl

In [None]:
print(np.std(data))
print(np.var(data))


#### min a max

In [None]:
print(data.min())
print(data.max())


#### sum, prod, trace

In [5]:
print(np.sum(data))
print(np.prod(data))


146
6831446169600


In [8]:
# lze dělat i řádkové a sloupcové součty
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A)
print(np.sum(A, axis=0))
print(np.sum(A, axis=1))


[[1 2 3]
 [4 5 6]
 [7 8 9]]
[12 15 18]
[ 6 15 24]


In [6]:
# stopa matice = součet prvků na diagonále
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
#print(np.trace(A))


a = np.arange(24).reshape((2,2,2,3))
print(a)
print(np.trace(a))

[[[[ 0  1  2]
   [ 3  4  5]]

  [[ 6  7  8]
   [ 9 10 11]]]


 [[[12 13 14]
   [15 16 17]]

  [[18 19 20]
   [21 22 23]]]]
[[18 20 22]
 [24 26 28]]


In [16]:
print(data)

[13  4  1 13 15  8  6  7 16 13  2  8  3 19 15]


In [20]:
# kumulativní součet
np.cumsum(data)


array([ 13,  17,  18,  31,  46,  54,  60,  67,  83,  96,  98, 106, 109,
       128, 143])

In [21]:
# kumulativní násobení
np.cumprod(data)


array([           13,            52,            52,           676,
               10140,         81120,        486720,       3407040,
            54512640,     708664320,    1417328640,   11338629120,
         34015887360,  646301859840, 9694527897600])

## Iterace

Obecně se iteraci vyhýbáme a přednost dáváme vektorovým operacím (viz níže). Někdy je ale iterace nevyhnutelná.

In [22]:
v = np.array([1, 2, 3, 4])

for element in v:
    print(element)


1
2
3
4


Iteruje se přes první index (po řádcích).

In [24]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print(f"row: {row[1]}")


row: 2
row: 4


# Vektorové funkce

Jak jsme již říkali, vektorové (vektorizované) funkce jsou obecně daleko rychlejší než iterace. Numpy nám naštěstí cestu od skalární po vektorovou funkci usnadňuje.

In [26]:
def Theta(x):
    """
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0


In [None]:
# toto bychom chtěli, ale asi to nebude fungovat
Theta(np.array([-3, -2, -1, 0, 1, 2, 3]))


1

Pro vektorizaci naší funkce nám Numpy nabízí `vectorize`.

In [32]:
Theta_vec = np.vectorize(Theta)
print(Theta_vec)

<numpy.vectorize object at 0x7eca1224a390>


In [31]:
Theta_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))


array([0, 0, 0, 1, 1, 1, 1])

To bylo celkem snadné ... Můžeme také (a pokud to jde tak bychom měli) přepsat naši funkci tak, aby fungovala jak pro skaláry tak pro pole.

In [33]:
def Theta_numpy(x):
    """
    Vector-aware implemenation of the Heaviside step function.
    """
    return 1.0 * (x >= 0)


In [34]:
Theta_numpy(np.array([-3, -2, -1, 0, 1, 2, 3]))


array([0., 0., 0., 1., 1., 1., 1.])

In [35]:
# funguje i pro skalár
Theta_numpy(-1.2), Theta_numpy(2.6)


(0.0, 1.0)

Pojďme zkusit porovnat rychlost vektorizovaných funkcí. Tipnete si která bude rychlejší, případně jak moc rychlejší?

In [36]:
randvec = np.random.random_sample((10000)) * 2000 - 1000


In [37]:
%timeit Theta_vec(randvec)


1.93 ms ± 66.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [38]:
%timeit Theta_numpy(randvec)


79 µs ± 912 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


# Používání polí v podmínkách
Pokud chceme testovat po prvcích, v podmínkách pak použijeme metody `all` nebo `any`.

In [45]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])


In [46]:
# výsledkem M > 5 je pole boolovských hodnot
M > 5
print(M)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [47]:
if (M > 5).any():
    print("M obsahuje alespoň jeden prvek větší než 5")
else:
    print("M neobsahuje žádný prvek větší než 5")

print((M < 0).any())

M obsahuje alespoň jeden prvek větší než 5
False


In [None]:
if (M > 5).all():
    print("všechny prvky v M jsou větší než 5")
else:
    print("M obsahuje alespoň jeden prvek menší rovno 5")


## Sumace do pole na základě indexů

V mnoha matematických metodách narazíme na problém kdy máme částečné příspěvky do vektoru a indexy do kterých přispívají. Doposud jsme však neukázali jak takovýto problém vyřešit bez použití smyček. 

Naštěstí v NumPy toto lze provést pomocí `np.add.at`.

In [3]:
n = 10
m = 100
idx = np.random.randint(0, n, m)
print(idx)
hodnoty = np.random.rand(m)
print(hodnoty)


[8 9 3 2 2 4 3 9 5 4 5 0 9 0 2 9 2 3 3 1 7 7 3 0 9 0 6 0 1 7 0 1 8 4 4 8 2
 4 7 1 1 3 4 5 2 9 5 2 1 1 7 8 7 7 5 2 5 1 6 1 1 6 5 1 8 5 0 5 5 2 2 7 3 0
 9 7 6 3 7 8 8 7 7 7 6 2 7 3 1 1 3 3 5 1 2 4 2 3 8 7]
[0.82616272 0.35740144 0.93455951 0.41403908 0.85826941 0.66258992
 0.04359871 0.33495527 0.06982071 0.62516256 0.49910047 0.53277992
 0.324336   0.80222244 0.45386353 0.17924662 0.21719762 0.41306692
 0.01986612 0.89068634 0.22188502 0.64867642 0.16265117 0.89931539
 0.2039921  0.3999617  0.60712013 0.71189597 0.65974204 0.1638449
 0.00797905 0.08240159 0.62647104 0.28626865 0.70140675 0.91894787
 0.01700367 0.3314489  0.13864183 0.43475226 0.94267483 0.63999015
 0.43357714 0.29283731 0.65289427 0.04893137 0.51407851 0.61665763
 0.14959356 0.70090138 0.58207111 0.28542483 0.21408564 0.16622197
 0.7380092  0.1243288  0.84696992 0.44944266 0.20807842 0.15340629
 0.73055499 0.52320071 0.78735231 0.97150095 0.16627696 0.18598449
 0.62008231 0.1036706  0.32708374 0.56219378 0.76516524 0.61

In [4]:
y = np.zeros((n,))
print(y)
for i in range(m):
    y[idx[i]] += hodnoty[i]
    
y

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


array([4.94628213, 7.56919879, 5.99107392, 5.48093748, 3.69831269,
       4.71237367, 2.29112012, 6.08843111, 3.95758999, 2.01075416])

In [7]:
import numpy as np
x = np.zeros((n,))
np.add.at(x, idx, hodnoty)
x

b = np.zeros(5,)
np.add.at(a, [0, 1], 1)
a

array([[[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[ 7,  8,  9],
         [10, 11, 12]]],


       [[[13, 14, 15],
         [16, 17, 18]],

        [[19, 20, 21],
         [22, 23, 24]]]])

## Další čtení

* https://numpy.org/
* https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/index.html