# Numerické výpočty s Pythonem a Numpy

V této části se seznámíme s:

- Práce s numerickými daty v Pythonu
- Přechod z Python seznamů na Numpy pole
- Vícerozměrná pole v Numpy a jejich výhody
- Operace s poli, broadcasting, indexování a slicing
- Práce se CSV soubory pomocí Numpy

## Práce s numerickými daty

"Daty" v datové analýze jsou většinou myšlena numericka data, např: ceny akcií, údaje o prodeji, měření senzorů, sportovní výsledky, databázové tabulky atd. [Numpy](https://numpy.org) knihovna poskytuje specializované datové struktury, funkce a další nástroje pro numerické výpočty v Pythonu. Uveďme si příklad, abychom si ukázali, proč a jak můžeme používat Numpy pro práci s číselnými daty.

> Předpokládejme, že chceme zpracovat údaje o klimatu, jako je teplota, srážky a vlhkost, abychom zjistili, zda se daný region hodí pro pěstování jablek. Jednoduchým postupem by bylo formulovat vztah mezi ročním výnosem jablek (tuny na hektar) a klimatickými podmínkami, jako je průměrná teplota (ve stupních Fahrenheita), srážky (v milimetrech) a průměrná relativní vlhkost (v procentech) jako lineární rovnici.

>
> `výnos_jablek = w1 * teplota + w2 * srážky + w3 * vlhkost`

Výnos jablek vyjadřujeme jako vážený součet teploty, srážek a vlhkosti. Tato rovnice je přibližná, protože skutečný vztah nemusí být nutně lineární a mohou se na něm podílet i další faktory. Jednoduchý lineární model, jako je tento, ale v praxi často funguje dobře.

Na základě statistické analýzy historických dat můžeme přijít na rozumné hodnoty pro váhy `w1`,` w2` a `w3`. Zde je příklad sady hodnot:

In [4]:
w1, w2, w3 = 0.3, 0.2, 0.5

Vzhledem k některým klimatickým údajům pro region nyní můžeme předpovědět výnos jablek. Tady je několik ukázkových dat:

| Region | Teplota (`F`) | srážky (`mm`) | vlhkost  (`%`) | 
|------|--------------------------|------------------|------------------------|
| Kanto|       73                |       67         |          43           |
| Johto|      91                |       88         |          64           |
| Hoenn|       87                |       134         |          58           |
| Sinnoh|      102                |       43         |          37           |         
| Unova|      69                |       96         |          70           |   

Nejprve můžeme definovat některé proměnné pro záznam klimatických údajů pro region.

In [2]:
kanto_teplota = 73
kanto_srážky = 67
kanto_vlhkost = 43

Nyní můžeme tyto proměnné dosadit do lineární rovnice a předpovědět tak výnos jablek.

In [3]:
kanto_výnos_jablek = w1*kanto_teplota + w2*kanto_srážky + w3*kanto_vlhkost
kanto_výnos_jablek

56.8

In [4]:
print("Předpokládaný výnos jablek za rok je {} tun na hektar.".format(kanto_výnos_jablek))

Předpokládaný výnos jablek za rok je 56.8 tun na hektar.


Abychom o něco zjednodušili výše uvedený výpočet pro více oblastí, můžeme reprezentovat klimatické údaje pro každou oblast jako vektor, tj. seznam čísel.

In [5]:
kanto = [73, 67, 43]
johto = [91, 88, 64]
hoenn = [87, 134, 58]
sinnoh = [102, 43, 37]
unova = [69, 96, 70]

In [6]:
váhy = [w1, w2, w3]

Tři čísla v každém vektoru představují data o teplotě, srážkách a vlhkosti.

Můžeme si také představit množinu vah použitých ve vzorci jako vektor.

Nyní můžeme napsat funkci `výnos plodiny` pro výpočet výnosu jablek (nebo jakékoli jiné plodiny) s ohledem na klimatické údaje a příslušné váhy.

In [7]:
def výnos_plodiny(region, váhy):
    výsledek = 0
    for x, w in zip(region, váhy):
        výsledek += x * w
    return výsledek

In [8]:
výnos_plodiny(johto, váhy)

76.9

In [9]:
výnos_plodiny(hoenn, váhy)

81.9

In [10]:
výnos_plodiny(unova, váhy)

74.9

## Přechod z Python seznamů na Numpy pole


Výpočet provedený funkcí `výnos_plodiny` (elementární násobení dvou vektorů a součet výsledků) se nazývá *skalární součin*.

Knihovna Numpy nám pro tuhle příležitost poskytuje funkci, která přímo spočítá skalární součin dvou vektorů. Nejprve ale musíme převést naše Python seznamy na Numpy pole.

Když importujeme knihovnu `numpy`, je běžnou praxí ji importovat pod aliasem `np`.

In [2]:
import numpy as np

Nyní můžeme využít funkce `np.array` pro vytvoření Numpy polí.

In [12]:
kanto = np.array([73, 67, 43])

In [13]:
kanto

array([73, 67, 43])

In [5]:
váhy = np.array([w1, w2, w3])

In [15]:
váhy

array([0.3, 0.2, 0.5])

Numpy pole mají typ `ndarray`.

Stejně jako Python seznamy i Numpy pole podporují indexování pomocí `[]`.

## Operace s Numpy poli

Teď můžeme vypočítat skalární součin našich dvou vektorů za použití funkce `np.dot`. 

In [16]:
np.dot(kanto, váhy)

56.8

Stejného výsledku dosáhneme, i pokud použijeme nízkoúrovňové operace podporované poli Numpy.

In [17]:
(kanto * váhy).sum()

56.8

Operátor `*` provede elementární násobení dvou polí, pokud mají stejnou velikost. Metoda `sum` vypočítá součet čísel v poli.

In [18]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

In [19]:
arr1 * arr2

array([ 4, 10, 18])

In [20]:
arr2.sum()

15

## Výhody používání Numpy polí

Numpy pole nám nabízejí následující výhody oproti Python seznamům:

- **Jednoduchost použití**: Pomocí Numpy polí můžete psát malé, stručné a intuitivní matematické výrazy jako `(kanto * váhy).sum()`, místo  abyste použili smyčky a vlastní funkce jako `výnos_plodiny`.
- **Výkon**: Numpy operace a funkce se implementují interně v C++, což znamená, že jsou mnohem rychlejší než použití příkazů a smyček Pythonu, které se interpretují za běhu.

Srovnejme si skalární součin prováděný pomocí Pythonových smyček a Numpy polí na dvou vektorech, každý s milionem prvků.

In [21]:
# Python seznamy
arr1 = list(range(1000000))
arr2 = list(range(1000000, 2000000))

# Numpy pole
arr1_np = np.array(arr1)
arr2_np = np.array(arr2)

In [22]:
%%time
výsledek = 0
for x1, x2 in zip(arr1, arr2):
    výsledek += x1*x2
výsledek

CPU times: user 181 ms, sys: 0 ns, total: 181 ms
Wall time: 181 ms


833332333333500000

In [23]:
%%time
np.dot(arr1_np, arr2_np)

CPU times: user 2.46 ms, sys: 304 µs, total: 2.76 ms
Wall time: 1.71 ms


833332333333500000

Jak vidíme, použití funkce `np.dot` je 100x rychlejší než použití smyčky `for`. 

Díky tomu je knihovna Numpy obzvláště užitečná při práci se skutečně velkými datovými sadami s desítkami tisíc nebo milionů datových bodů.

## Vícerozměrná pole Numpy

Můžeme udělat ještě další krok a zobrazit si údaje o klimatu pro všechny regiony pomocí jediného dvourozměrného pole Numpy.

In [24]:
climate_data = np.array([[73, 67, 43],
                         [91, 88, 64],
                         [87, 134, 58],
                         [102, 43, 37],
                         [69, 96, 70]])

In [25]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [6]:
váhy = np.array([w1, w2, w3])

In [27]:
váhy

array([0.3, 0.2, 0.5])

Výše uvedené 2D pole si můžete představit jako matici s pěti řádky a třemi sloupci. Každý řádek představuje jednu oblast a sloupce představují teplotu, srážky a vlhkost.

Numpy pole mohou mít libovolný počet rozměrů a různé délky podél každé dimenze. Délku podél každé dimenze můžeme zkontrolovat pomocí vlastnosti `.shape`.

In [26]:
climate_data.shape

(5, 3)

In [28]:
váhy.shape

(3,)

In [29]:
arr3 = np.array([
    [[11, 12, 13], 
     [13, 14, 15]], 
    [[15, 16, 17], 
     [17, 18, 19.5]]])

In [30]:
arr3.shape

(2, 2, 3)

Všechny prvky v Numpy poli mají stejný datový typ. Datový typ pole můžete zkontrolovat pomocí vlastnosti `.dtype`.

In [31]:
váhy.dtype

dtype('float64')

In [32]:
climate_data.dtype

dtype('int64')

Pokud pole obsahuje jediné číslo s desetinnou čárkou, všechny ostatní prvky se rovněž převedou na float hodnoty.

In [33]:
arr3.dtype

dtype('float64')

Nyní můžeme vypočítat předpokládané výnosy jablek ve všech regionech pomocí jediného násobení matic mezi `climate_data` (matice 5x3) a `váhy` (vektor délky 3).

K násobení matic můžeme použít funkci `np.matmul` nebo operátor `@`.

In [34]:
np.matmul(climate_data, váhy)

array([56.8, 76.9, 81.9, 57.7, 74.9])

In [35]:
climate_data @ váhy

array([56.8, 76.9, 81.9, 57.7, 74.9])

## Práce se soubory CSV v Numpy

Numpy nám rovněž dovoluje číst data ze souborů a také je do těchto souborů zpátky zapisovat. Otevřeme si soubor climate.csv, který obsahuje 10 000 záznamů o klimatu v následujícím formátu:

```
teplota,srážky,vlhkost
25.00,76.00,99.00
39.00,65.00,70.00
59.00,45.00,77.00
84.00,63.00,38.00
66.00,50.00,52.00
41.00,94.00,77.00
91.00,57.00,96.00
49.00,96.00,99.00
67.00,20.00,28.00
...
```

Tento formát ukládání dat je známý jako *hodnoty oddělené čárkami* (comma separated values) neboli CSV.

Pro načtení tohoto souboru do Numpy pole můžeme použít funkci `genfromtxt`. Tato funkce nám načte data ze složky Data a udělá nám ze CSV souboru Numpy pole.

In [43]:
climate_data = np.genfromtxt("Data/climate.csv", delimiter=',', skip_header=1)

In [42]:
climate_data

array([[25., 76., 99.],
       [39., 65., 70.],
       [59., 45., 77.],
       ...,
       [99., 62., 58.],
       [70., 71., 91.],
       [92., 39., 76.]])

In [44]:
climate_data.shape

(10000, 3)

Nyní můžeme provést násobení matic pomocí operátoru `@` a předpovědět výnos jablek pro celou datovou sadu pomocí dané sady vah.

In [45]:
váhy

array([0.3, 0.2, 0.5])

In [46]:
výnosy = climate_data @ váhy

In [47]:
výnosy

array([72.2, 59.7, 65.2, ..., 71.1, 80.7, 73.4])

In [48]:
výnosy.shape

(10000,)

`výnosy` přidáme do našeho Numpy pole `climate_data` jako čtvrtý sloupec pomocí funkce [`np.concatenate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html).

In [49]:
climate_výsledky = np.concatenate((climate_data, výnosy.reshape(10000, 1)), axis=1)

In [50]:
climate_výsledky

array([[25. , 76. , 99. , 72.2],
       [39. , 65. , 70. , 59.7],
       [59. , 45. , 77. , 65.2],
       ...,
       [99. , 62. , 58. , 71.1],
       [70. , 71. , 91. , 80.7],
       [92. , 39. , 76. , 73.4]])

Několika drobnostem je třeba věnovat pozornost:

* Protože chceme přidat nové sloupce, předáme argument `axis=1` do funkce `np.concatenate`. `Axis` argument určuje rozměr pro konkatinaci.

* Pole by měla mít stejný počet dimenzí a stejnou délku podél každé dimenze kromě dimenze použité pro konkatinaci. Abychom změnili `výnosy` z `(10000,)` na `(10000,1)`, používáme funkci [`np.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html).

Pojďme si zapsat konečné výsledky z výše uvedeného výpočtu zpět do souboru pomocí funkce `np.savetxt`.

In [51]:
climate_výsledky

array([[25. , 76. , 99. , 72.2],
       [39. , 65. , 70. , 59.7],
       [59. , 45. , 77. , 65.2],
       ...,
       [99. , 62. , 58. , 71.1],
       [70. , 71. , 91. , 80.7],
       [92. , 39. , 76. , 73.4]])

In [53]:
np.savetxt('Data/climate_výsledky.csv', 
           climate_výsledky, 
           fmt='%.2f', 
           delimiter=',',
           header='teplota,srážky,vlhkost,výnos jablek', 
           comments='')

Výsledky byly zapsány zpět do nového CSV souboru `climate_výsledky.csv`. 

```
teplota,srážky,vlhkost,výnos jablek
25.00,76.00,99.00,72.20
39.00,65.00,70.00,59.70
59.00,45.00,77.00,65.20
84.00,63.00,38.00,56.80
...
```


Numpy podporuje stovky funkcí pro provádění operací na polích. Uveďme si ty nejběžšnější:


* Matematika: `np.sum`, `np.exp`, `np.round`, aritmetické operátory 
* Manipulace polí: `np.reshape`, `np.stack`, `np.concatenate`, `np.split`
* Lineární algebra: `np.matmul`, `np.dot`, `np.transpose`, `np.eigvals`
* Statistika: `np.mean`, `np.median`, `np.std`, `np.max`

> **Jak najít funkci, kterou potřebujete?** Nejjednodušší způsob, jak najít správnou funkci pro konkrétní operaci, je vyhledávání na webu.

Úplný seznam funkcí pole si můžete zobrazit zde: https://numpy.org/doc/stable/reference/routines.html

## Aritmetické operace, broadcasting a porovnávání

Numpy pole podporují aritmetické operátory jako `+`, `-`,` * `atd. Aritmetickou operaci můžete provést s jediným číslem (nazývaným také skalárem) nebo s jiným polem stejného tvaru.

In [54]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [55]:
arr3 = np.array([[11, 12, 13, 14], 
                 [15, 16, 17, 18], 
                 [19, 11, 12, 13]])

In [56]:
arr2 + 3

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12,  4,  5,  6]])

In [57]:
arr3 - arr2

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [58]:
arr2 / 2

array([[0.5, 1. , 1.5, 2. ],
       [2.5, 3. , 3.5, 4. ],
       [4.5, 0.5, 1. , 1.5]])

In [59]:
arr2 * arr3

array([[ 11,  24,  39,  56],
       [ 75,  96, 119, 144],
       [171,  11,  24,  39]])

In [60]:
arr2 % 4

array([[1, 2, 3, 0],
       [1, 2, 3, 0],
       [1, 1, 2, 3]])

### Broadcasting

Numpy pole podporují také *broadcasting*, který umožňuje aritmetické operace mezi dvěma poli s různým počtem dimenzí ale s kompatibilními tvary. Ukažme si na příkladu, jak to funguje.

In [61]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [62]:
arr2.shape

(3, 4)

In [63]:
arr4 = np.array([4, 5, 6, 7])

In [64]:
arr4.shape

(4,)

In [65]:
arr2 + arr4

array([[ 5,  7,  9, 11],
       [ 9, 11, 13, 15],
       [13,  6,  8, 10]])

Když se vyhodnotí výraz `arr2 + arr4`, pole ` arr4` (které má tvar `(4,)`) se třikrát replikuje tak, aby odpovídalo tvaru `(3, 4)` `arr2`. Knihovna Numpy provádí replikaci, aniž by ve skutečnosti vytvořila tři kopie pole s menší dimenzí, čímž zlepšuje výkon a využívá méně paměťi.

Broadcasting funguje, pouze pokud lze jedno z polí replikovat tak, aby odpovídalo tvaru druhého pole.

In [66]:
arr5 = np.array([7, 8])

In [67]:
arr5.shape

(2,)

In [68]:
arr2 + arr5

ValueError: operands could not be broadcast together with shapes (3,4) (2,) 

Přestože je pole `arr5` v příkladu výše třikrát replikováno, nebude odpovídat tvaru` arr2`. Z tohoto důvodu nelze úspěšně vyhodnotit `arr2 + arr5`.

### Porovnávání Numpy polí

Numpy pole také podporují srovnávací operace jako `==`, `! =`, `>` atd. Výsledkem je pole boolean hodnot.

In [69]:
arr1 = np.array([[1, 2, 3], [3, 4, 5]])
arr2 = np.array([[2, 2, 3], [1, 2, 5]])

In [70]:
arr1 == arr2

array([[False,  True,  True],
       [False, False,  True]])

In [71]:
arr1 != arr2

array([[ True, False, False],
       [ True,  True, False]])

In [72]:
arr1 >= arr2

array([[False,  True,  True],
       [ True,  True,  True]])

In [73]:
arr1 < arr2

array([[ True, False, False],
       [False, False, False]])

Porovnání polí se často používá k součtu stejných prvků ve dvou polích pomocí metody `sum`. Nezapomeňte, že pokud se v aritmetických operacích použijí hodnotz boolean, hodnota `True` se vyhodnotí na` 1` a `False` na hodnotu` 0`. 

In [74]:
(arr1 == arr2).sum()

3

## Indexing a slicing Numpy polí

Knihovna Numpy intuitivně rozšiřuje notaci indexování seznamu Pythonu pomocí `[]` na více dimenzí. Zadejte seznam indexů nebo rozsahů oddělených čárkami, abyste mohli vybrat konkrétní prvek nebo podoblast (také nazývanou řez) z pole Numpy.

In [75]:
arr3 = np.array([
    [[11, 12, 13, 14], 
     [13, 14, 15, 19]], 
    
    [[15, 16, 17, 21], 
     [63, 92, 36, 18]], 
    
    [[98, 32, 81, 23],      
     [17, 18, 19.5, 43]]])

In [76]:
arr3.shape

(3, 2, 4)

In [77]:
arr3[1, 1, 2]

36.0

In [78]:
arr3[1:, 0:1, :2]

array([[[15., 16.]],

       [[98., 32.]]])

In [79]:
arr3[1:, 1, 3]

array([18., 43.])

In [80]:
arr3[1:, 1, :3]

array([[63. , 92. , 36. ],
       [17. , 18. , 19.5]])

In [81]:
arr3[1]

array([[15., 16., 17., 21.],
       [63., 92., 36., 18.]])

In [82]:
arr3[:2, 1]

array([[13., 14., 15., 19.],
       [63., 92., 36., 18.]])

In [83]:
arr3[1,3,2,1]

IndexError: too many indices for array

## Jiné způsoby vytváření Numpy polí 

Knihovna Numpy také poskytuje užitečné funkce pro vytváření polí požadovaných tvarů s pevnými nebo náhodnými hodnotami.

In [84]:
np.zeros((3, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [85]:
np.ones([2, 2, 3])

array([[[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]]])

In [86]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [87]:
np.random.rand(5)

array([0.26195969, 0.39684674, 0.53391399, 0.07895904, 0.65525377])

In [88]:
np.random.randn(2, 3)

array([[-0.07850045, -0.22130864,  0.50488556],
       [ 0.30747249, -0.24292464, -0.34977062]])

In [89]:
np.full([2, 3], 42)

array([[42, 42, 42],
       [42, 42, 42]])

In [90]:
np.arange(10, 90, 3)

array([10, 13, 16, 19, 22, 25, 28, 31, 34, 37, 40, 43, 46, 49, 52, 55, 58,
       61, 64, 67, 70, 73, 76, 79, 82, 85, 88])

In [91]:
np.linspace(3, 27, 9)

array([ 3.,  6.,  9., 12., 15., 18., 21., 24., 27.])