# Týden 1. Pokročilá práce s balíčkem NumPy.
V minulém semestru jsme se seznámili s výkonným balíkem Numpy. V tomto cvičení si ukážeme, jak Numpy používat ještě efektivněji.

## Univerzální funkce
Připomeňme si, že kdybychom chtěli například sečíst všechny prvky dvou seznamů, museli bychom pole procházet ve smyčce. Protože se jedná o opakované operace, čas potřebný k výpočtu se zvyšuje vzhledem k velikosti dat. 

In [3]:
multiplier = 10000000 # try a big number to make a long list
a = [1, 2, 3, 4, 5] * multiplier 
b = [1, 3, 5, 7, 6] * multiplier
c = []

In [13]:
for i in range(len(a)):
    c.append(a[i] + b[i])

Naštěstí NumPy tuto činnost zrychluje pomocí vektorizovaných operací, které jsou implementovány prostřednictvím univerzálních funkcí NumPy (ufuncs).

In [4]:
import numpy as np
a = np.array(a)
b = np.array(b)

In [15]:
c = a + b

Všechny aritmetické operace jsou obaly (wrappers) kolem vestavěných funkcí NumPy. Například operátor `+` je obal funkce `add`.

In [16]:
c = np.add(a, b)

Mezi nejužitečnější funkce NumPy patří trigonometrické, logaritmické a exponenciální funkce.

In [18]:
alpha = np.linspace(0, 2 * np.pi, 8)
print('alpha = ', alpha)
print('sin(alpha) = ', np.sin(alpha))
print('cos(alpha) = ', np.cos(alpha))
print('tan(alpha) = ', np.tan(alpha))

alpha =  [0.         0.8975979  1.7951958  2.6927937  3.5903916  4.48798951
 5.38558741 6.28318531]
sin(alpha) =  [ 0.00000000e+00  7.81831482e-01  9.74927912e-01  4.33883739e-01
 -4.33883739e-01 -9.74927912e-01 -7.81831482e-01 -2.44929360e-16]
cos(alpha) =  [ 1.          0.6234898  -0.22252093 -0.90096887 -0.90096887 -0.22252093
  0.6234898   1.        ]
tan(alpha) =  [ 0.00000000e+00  1.25396034e+00 -4.38128627e+00 -4.81574619e-01
  4.81574619e-01  4.38128627e+00 -1.25396034e+00 -2.44929360e-16]


In [19]:
x = np.arange(0, 5)
print('x = ', x)
print('e^x = ', np.exp(x))
print('2^x = ', np.exp2(x))
print('3^x = ', np.power(3, x))

x =  [0 1 2 3 4]
e^x =  [ 1.          2.71828183  7.3890561  20.08553692 54.59815003]
2^x =  [ 1.  2.  4.  8. 16.]
3^x =  [ 1  3  9 27 81]


In [20]:
x = np.arange(1, 6)
print('x = ', x)
print('ln(x) = ', np.log(x))
print('log2(x) = ', np.log2(x))
print('log10(x) = ', np.log10(x))

x =  [1 2 3 4 5]
ln(x) =  [0.         0.69314718 1.09861229 1.38629436 1.60943791]
log2(x) =  [0.         1.         1.5849625  2.         2.32192809]
log10(x) =  [0.         0.30103    0.47712125 0.60205999 0.69897   ]


## Agregace

Proč používat agregační funkce NumPy, když tyto funkce jsou již zabudovány v Pythonu (`sum()`, `min()`, `max()` atd.)? Funkce NumPy jsou mnohem rychlejší, ale hlavně funkce NumPy zohledňují dimenze. Funkce Pythonu se na vícerozměrných polích chovají jinak.

Například chceme získat součet všech prvků v poli o velikosti 2x5.

In [21]:
array = np.arange(10).reshape(2,5)
print(array)
print('Sum:', sum(array))

[[0 1 2 3 4]
 [5 6 7 8 9]]
Sum: [ 5  7  9 11 13]


Očekávali jsme, že výsledek bude 45 (0+1+2+3+4+5+6+7+8+9), ale výsledkem je součet sloupců. Pokud chceme v numpy získat součet (nebo jinou agregační funkci) všech prvků pole, stačí zavolat funkci:

In [22]:
np.sum(array)

45

Pokud chceme zjistit součet v každém sloupci nebo v každém řádku, zadáme `axis = 0` pro operaci po sloupcích a `axis=1` pro operaci po řádcích. Výsledkem bude 1-d pole.

In [25]:
print(np.sum(array, axis=0))
print(np.sum(array, axis=1))

[ 5  7  9 11 13]
[10 35]


Další agregační funkce NumPy: 

- np.prod (součin prvků)
- np.mean (střední hodnota)
- np.std (směrodatná odchylka)
- np.var (rozptyl)
- np.argmin (zjištění indexu minimální hodnoty)
- np.argmax (zjištění indexu maximální hodnoty)
- np.median (medián)
- np.percentile (výpočet pořadové statistiky prvků).

## Vysílání (Broadcasting)

Vysílání je dalším způsobem použití ufuncs, ale na polích různých velikostí. Broadcasting není nic jiného než soubor pravidel, která NumPy aplikuje pro provádění ufuncs na polích různých velikostí.

Například, když uvažujme sčítání dvou polí o velikosti 3x3 a 1x3, tuto operaci si můžeme představit tak, že menší pole je roztaženo nebo vysíláno tak, aby odpovídalo velikosti většího pole. 

In [27]:
A = np.ones((3, 3))
b = np.array([1, 2, 3])
 
print('matrix A:\n', A)
print('vector b:', b)

matrix A:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
vector b: [1 2 3]


In [28]:
A + b

array([[2., 3., 4.],
       [2., 3., 4.],
       [2., 3., 4.]])

Pokud je třeba vysílat obě pole, měli bychom to dělat opatrně.

In [34]:
c = np.arange(3).reshape(3, 1) # column vector
print(c)

[[0]
 [1]
 [2]]


In [35]:
b + c

array([[1, 2, 3],
       [2, 3, 4],
       [3, 4, 5]])

Můžeme pole roztáhnout pouze v případě, že hodnota jedné z jeho dimenzí je 1. Pro jinou hodnotu dimenze než 1 to udělat nemůžeme. Pokud se tvary obou polí neshodují anebo některý rozměr žádného z nich není 1, měla by být vyvolána chyba.

In [36]:
m = np.arange(4)
n = np.ones((2, 2))
m + n

ValueError: operands could not be broadcast together with shapes (4,) (2,2) 

## Maskování (Masking)

Maskování je metoda běžně používaná při zpracování dat. Umožňuje nám vybírat, počítat, upravovat nebo manipulovat s hodnotami v poli na základě určitých kritérií, přičemž tato kritéria jsou zadávána pomocí operátorů porovnávání a logických operátorů.

Předpokládejme, že máme dvourozměrné pole o velikosti (3, 4), z něhož bychom chtěli získat podmnožinu, jejíž hodnoty jsou menší než pět.

In [38]:
np.random.seed(1)
x = np.random.randint(10, size = (10,))
print(x)
print(x[x<5])

[5 8 9 5 0 0 1 7 6 9]
[0 0 1]


Použili jsme operátor porovnání `<` na poli `x`. Výsledkem je pole logických operátorů: `True`, pokud je prvek na příslušné pozici menší než `5`, jinak `False`.

In [39]:
[x<5]

[array([False, False, False, False,  True,  True,  True, False, False,
        False])]

Když zadáme `x[x<5]`, výše vrácené logické hodnoty se aplikují na původní pole `x` a vrátí se prvky pole, jejichž indexy jsou `True`, tedy hodnoty menší než `5`. Podobným způsobem můžeme použít všechny porovnávací nebo logické operátory, které jsou v Pythonu k dispozici. Můžeme dokonce kombinovat dvě operace, třeba `x[(x>3) & (x<6)]`, abychom získali hodnoty mezi `3` a `6`, akorát výsledek operací by měl být logický.

In [40]:
x[(x>3) & (x<6)]

array([5, 5])

Poznámka: klíčové slovo `and` a `or` provádí jednu logickou operaci na celém poli, zatímco bitové `&` a `|` provádí více logických operací na prvcích pole. Při maskování vždy používejte bitové operátory.

## Elegantní indexování

Elegantní indexování je podobné normálnímu indexování, jak již víme. Jediným rozdílem je, že zde předáváme pole indexů. Tato pokročilá verze indexování umožňuje rychlý přístup a/nebo modifikaci složitých podmnožin pole.

Předpokládejme, že chceme přistupovat k prvkům na indexech `1`, `3` a `7` pole, stará metoda by byla [x[1], x[3], x[7]]. To můžeme zjednodušit pomocí elegantního indexování.

In [41]:
x = np.random.randint(20, size=10)
print(x)
print(x[[1, 3, 7]])

[18  5 18 11 10 14 18  4  9 17]
[ 5 11  4]


Stejně tak můžeme elegantně indexovat dvourozměrné pole. Podívejme se na ekvivalentní operace s `x[0, 2]`, `x[2, 1]` a `x[3, 3]` při elegantním indexování.

In [48]:
np.random.seed(0)
x = np.random.randint(100, size=(5, 5))
print(x)
row = [0, 2, 3]
col = [2, 1, 3]
print(x[row, col])

[[44 47 64 67 67]
 [ 9 83 21 36 87]
 [70 88 88 12 58]
 [65 39 87 46 88]
 [81 37 25 77 72]]
[64 88 46]


To lze dále zjednodušit, pokud je hodnota řádku nebo sloupce konstantní. Například chceme získat hodnoty s indexy x[2, 1], x[2, 3] a x[2, 4].

In [49]:
print(x[2, [1, 3, 4]])

[88 12 58]


Pokud chceme získat dílčí matici z matice, můžeme použít funkci ix_():

In [50]:
x[np.ix_([3, 1, 0], [0, 2])]

array([[65, 87],
       [ 9, 21],
       [44, 64]])

## Třídění pole

Funkce `np.sort` je efektivnější třídicí funkce než vestavěná třídicí funkce jazyka Python. Kromě toho si `np.sort` uvědomuje dimenze. Podívejme se na několik variant třídicí funkce NumPy.

In [52]:
x = np.random.randint(100, size=10)
print(x)
print(np.sort(x))

[88 49 29 19 19 14 39 32 65  9]
[ 9 14 19 19 29 32 39 49 65 88]


Někdy potřebujeme indexy setříděného pole:

In [53]:
print(np.argsort(x))

[9 5 3 4 2 7 6 1 8 0]


Když použijeme metodu `sort()`, změní se hodnota samotného pole `x`. To znamená, že původní pořadí pole `x` se ztratí. Říká se tomu třídění na místě (in-place):

In [55]:
x.sort()
print(x)

[ 9 14 19 19 29 32 39 49 65 88]


## Lineární algebra

NumPy nabízí rozsáhlou sadu funkcí lineární algebry pro provádění maticových operací, řešení lineárních soustav rovnic, výpočty vlastních hodnot a další.

### Skalární součin
Pomocí skalárního součinu a eklidovské normy můžeme najít úhel mezi dvěma vektory:

In [5]:
x = np.array([3, 4, 1])
y = np.array([2, -3, 4])
np.dot(x, y) / (np.linalg.norm(x) * np.linalg.norm(y))

-0.07283570407292297

### Násobení matic

In [8]:
A = np.diag([1, 2, 3])
B = np.ones((3, 3))

C = np.matmul(A, B)
print(C)

[[1. 1. 1.]
 [2. 2. 2.]
 [3. 3. 3.]]


### Transpozice

In [9]:
C.T

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [10]:
C.transpose()

array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

### Determinant

In [11]:
A = np.array([[1, 2, 4], [-2, 0, 3], [5, -1, -2]])
np.linalg.det(A)

33.000000000000014

### Inverze

In [12]:
np.linalg.inv(A)

array([[ 0.09090909,  0.        ,  0.18181818],
       [ 0.33333333, -0.66666667, -0.33333333],
       [ 0.06060606,  0.33333333,  0.12121212]])

### Soustava lineárních rovnic

In [13]:
A = np.array([[2, 1, 1], [6, 2, 1], [-2, 2, 1]])
b = np.array([1, -1, 7])
x = np.linalg.solve(A, b)
print(x)

[-1.  2.  1.]


### Vlastní čísla a vektory

In [17]:
lam, v = np.linalg.eig(A)
print('Eigenvalues: lam', lam)
print('Eigenvectors: v', v)

Eigenvalues: lam [4.92379129+0.j         0.03810435+1.27409273j 0.03810435-1.27409273j]
Eigenvectors: v [[-0.38942041+0.j          0.05658558+0.19868558j  0.05658558-0.19868558j]
 [-0.88565017+0.j          0.44644255-0.3177051j   0.44644255+0.3177051j ]
 [-0.25293382+0.j         -0.8106014 +0.j         -0.8106014 -0.j        ]]
