# Vícedimenzionální pole v NumPy

Knihovna *NumPy* se zaměřuje na kompaktní representaci vektorů a vícedimenzionálních polí (matic a tensorů) včetně tzv. vektorových operací (tj. operací s celými vícedimenzionálními poli).

NumPy dodává jazyku *NumPy* funkčnost, které mnohé programovací jazyky nabízejí již ve své základní syntaxi. Přikladem může být jazyk `R` nebo známé prostředí `Matlab`. NumPy je navíc základem velkého množství dalších balíků pro vědeckotechnické a ekonomické výpočty (např. Pandas).

## Nd-array

Základním objektem knihovny NumPy je vícedimenzionální pole označované v NumPy slangu jako *nd-array* (zkratka za n-dimensional array), česky *nd-pole*. 

Nd-pole je kolekcí, která se podobá seznamu. Je homogenní (položky jsou stejného typu), je sekvencí (položky jsou indexovatelné) a je měnitelná. Má však i mnoho jedinečných rysů:


* velikost nd-pole (= počet položek) je dán už při vytváření a během života pole se nemění (existuje zde sice možnost rozšíření, v praxi se však příliš často nevyužívá). 

* nd-pole podporuje složitější metody indexace včetně vícerozměrné indexace. Položky jsou uloženy lineárně za sebou, pro přístup k nim však lze využít n-tice indexů.

* nd-pole je optimalizováno pro ukládání čísel resp. logických hodnot. Čísla jsou v poli ukládána jako v nízkoúrovňových jazycích (např. v jazyku C), jedno za druhým v souvislé oblasti paměti. Nd-pole jsou proto dostupná i zpracovatelná v jiných programovacích jazyků (včetně jazyka C, částečně i Java, C#, Matlab, R,  Julia, apod.), resp. lze naopak pomocí nd-polí zpracovávat pole (= souvislá homogenní oblasti paměti) vytvářená i v jiných programovacích jazycích. V NumPy lze vytvářet i pole pythonských objektů např. řetězců, ty se však svou podstatou neliší od seznamů (ukládají odkazy na objekty) a jejich zpracování mimo Pytho je složité.

* nad poli jsou implementovány vektorové operace tj. operace nad všemi prvky vektoru. Některé implementace (např. Intel Python) tyto operace výrazně optimalizují (jsou např. prováděny pomocí tzv. SSE rozšíření paralelně tj. v jeden okamžik se provádí operace s více prvky)

### Vytváření polí

NumPy podporuje několik funkcí pro vytváření nd-polí, neboť požadavky ne jejich počáteční obsah se výrazně liší.

#### Vektor (jednodimenzionální pole)

Nejjednodušším příkladem nd-pole je jednorozměrný vektor.

In [8]:
import numpy as np

p1 = np.zeros(100, dtype=np.float64)
p1

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,
        0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

Modul numpy se typicky importuje pomocí aliasu `np`. Přirozeně však lze využít i další typy importů, například `from numpy import zeros, float` (v tomto případě není nutné uvádět prefix `np` při volání). 

Funkce `numpy.zeros` vytváří číselná pole vyplněná nulami. Má jako většina funkcí pro vytváření polí dva parametry:

**shape**: určující tvar pole v požadovaných dimenzích. U jednorozměrného pole je to jediné číslo určující počet položek (může to být i jednice obsahující toto číslo). Tento parametr se typicky předává pozičně (je vždy první).

**dtype**: datový typ položek. NumPy podporuje více číselných typů než Python. Důvodem je skutečnost, že procesory (CPU) podporují číselné representace různých délek a s různou interpretací. To umožňuje zvolit optimální typ z hlediska výkonu i prostorových nároků. Pokud se typ neurčí, pak je implicitně `np.float64`

Podívejme se nejdříve na čísla s pohyblivou řadovou čárkou. Ty jsou v dispozici ve velikosti 2,4,8 a někde i 16 bytů. Liší se podporovaným rozsahem (v tabulce je přibližné nejmenší a největší kladné číslo, podporovány jsou i odpovídající čísla záporná, nula a speciální hodnoty +inf, -inf a NaN) a počtem platných číslic.  

| označení | velikost (byty) | rozsah          | platné číslice | poznámka                                                         |
|----------|-----------------|-----------------|----------------|------------------------------------------------------------------|
| float16  | 2               | 6.1e-5, 65504   | 3.3            | zatím pomalé, hardware pro přímou podporu se začíná objevovat    |
| float32  | 4               | 3e-38, 3e38     | 7.2            | nejrychlejší, podpora v CPU i GPU                                |
| float64  | 8               | 2e-308, 2e308   | 15.9           | podporováno většinou CPU a některými GPU, rychlé, = Python float |
| float128 | 10              | 3e-4932, 1e4932 | 19.2           | pomalejší, není podporováno na všech platformách        |

V praxi se nejvíce používá `float64` (tzv. *double precision*). Proto pro něj existuje zkrácení jméno `np.float`.

Pouze v případě, že je potřeba šetřit pamětí resp. mírně (cca 2×) urychlit výpočty, je používán i `float32` (tzv. *single precision*). Má však už relativně malou přesnost (výsledek nedostatečně přesný i u jenoduchých výpočtů). Dvojbajtové (*half*) a 16-bytové (*quad precision*) representace nejsou zatím příliš podporovány v hardwaru a mohou tak být o něco pomalejší.

Half precision representace je však velmi úsporná a s podporou hardwaru (ta se již objevuje s podporou strojového učení) i enormně rychlá. Quad precision naopak nabízí skvělou přesnost (podporu v CPU resp. GPU však nelze prozatím očekávat).

>**Úkol**: Vytvořte jednorozměrné pole položek typu `float16` obsahující $2^{24}$ nul.

In [11]:
np.zeros(2**24, dtype=np.float16)

array([ 0.,  0.,  0., ...,  0.,  0.,  0.], dtype=float16)

Nabídka typů celých čísel je komplikována tím, že pro každou šířku jsou k dispozici dva typy: znaménkový (representuje záporná i kladná čísla) a neznaménkový representuje jen čísla kladná (počínaje nulou).

Rozsah čísel znaménkových čísel je $-2^\frac{n}{2} \ldots -2^\frac{n}{2} -1$ (kde $n$ je počet bytů), neznaménková pak $0 \ldots 2^n-1$. U vyšších typů stačí znát rozsah přibližně.

Základním typem jsou znaménková čísla, s rozsahem daným velikostí přístupných registrů. U 64-bitových operačních systémů je to typicky 64 bitů u 32-bitových pak 32. Ostatní typy volte jen tehdy, pokud máte speciální požadavky (ušetření paměti nebo naopak větší podporovaný obsah).

| znaménkový typ | rozsah                                                  | neznaménkový typ | rozsah                         |
|----------------|---------------------------------------------------------|------------------|--------------------------------|
| np.int8        |                        -128 – 127                       | np.uint8         |             0 – 255            |
| np.int16       |                      -32768 – 32767                     | np.uint16        |            0 – 65535           |
| np.int32       |              -2 147 483 648 – 2 147 483 647             | np.uint32        |        0 – 4 294 967 295       |
| np.int64       | -9 223 372 036 854 775 808 – 9 223 372 036 854 775 807  | np.uint64        | 0 – 18 446 744 073 709 551 615 |

Speciálním typem je `np.int`, který označuje celá čísla v šířce typické pro danou platformu (tj. 32 nebo 64). Použitím tohoto typu si usnadníte volbu nejpřirozenější representace celých čísel, skript se však může stát méně přenositelný (při spuštění na jiném počítači se může zvolit jiný typ).

Nyní můžeme přistoupit k dalším způsobům vytváření polí.

In [17]:
np.ones(1024, dtype=np.int8)  # pole 1O24 jedniček typu int8 (znaménkový byte)

array([1, 1, 1, ..., 1, 1, 1], dtype=int8)

In [72]:
np.full(100, -1, dtype=np.float16) # pole 100 hodnot -1 typu `float16`

array([-1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1., -1.,
       -1., -1., -1., -1., -1., -1., -1., -1., -1.], dtype=float16)

In [16]:
p3 = np.array([1,0,1] * 100) # pole ze seznamu (typ je np.int s šířkou podle platformy)
p3

array([1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0, 1, 1, 0,
       1])

Vytváření pole ze seznamů je pohodlné (stačí použít funkci `array`), měli byste se mu však vyhýbat, neboť je náročné na paměť. Po určitou dobu totiž v paměti musí existovat jak původní seznam tak nově vytvářené pole.
Pro malá pole je však mnohdy tou nejjednoduššá cestou (například zde, kde seznam vzniká opakováním vzoru, který je využívá běžný konstruktor seznamů).

In [18]:
np.arange(0.0, 2.0, 0.1) # dtyp je `np.float neboť meze jsou neceločíselné konstanty

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ,
        1.1,  1.2,  1.3,  1.4,  1.5,  1.6,  1.7,  1.8,  1.9])

Vrací pole vyplněné hodnotami od startovní (včetně) po koncovou (vyjma) s daným krokem. Všimněte si, že koncový prvek není obsažen. Celkový počet prvků by měl být $(max-min)/krok$. 

V některých příkladech je vhodnější použít funkci `linspace`, která rovnoměrně rozdělí interval, tak aby obsahoval $n$ dělících bodů (včetně počátečného a koncového bodu původního intervalu). 

In [36]:
np.linspace(0.0, 1.0, 10)  # výsledkem je 10 rovnoměrně rozmístěných bodů od 0.0 do 1.0 včetně ()

array([ 0.        ,  0.11111111,  0.22222222,  0.33333333,  0.44444444,
        0.55555556,  0.66666667,  0.77777778,  0.88888889,  1.        ])

Tento výsledek je správny, ale pravděpodobně neočekávaný. Pokud chceme rozdělení s krokem 0.1, pak musíte počítat s tím, že se do výsledků zahrne i koncový bod.

In [37]:
np.linspace(0.0, 1.0, 11) # výsledkem je 11 čísel!

array([ 0. ,  0.1,  0.2,  0.3,  0.4,  0.5,  0.6,  0.7,  0.8,  0.9,  1. ])

Pokud hodláte pole vyplnit až později, pak je nejvhodnější alokovat pole bez vyplnění (bude typicky obsahovat nuly nebo náhodná čísla daná původním bytovým obsahem paměti).

In [44]:
np.empty(10000, dtype=np.uint8)

array([28,  0,  0, ..., 49, 44, 32], dtype=uint8)

V Linux mi pro menší rozsahy vrací pole nulované, pro větší počet pole s podivným obsahem (de facto jsou to odpadky z jiných uvolněných bloků paměti). Vyzkoušejte si zadat různé rozsahy.

Důležité upozornění: I když se může jevit, že odpadky je náhodná posloupnost čísel, není tomu tak! V poli se mohou vyskytovat dlouhé posloupnosti stejné hodnoty a rozdělení rozhodně není rovnoměrné.

In [57]:
p = np.empty(1000, dtype=np.float64)
print(p[:10]) # vypíš prvních deset
print(p.min(), p.max(), p.mean())

[  4.94065646e-324   2.15142348e-316   1.38338381e-322   6.92337644e-310
   6.92322347e-310   6.92337644e-310   4.94065646e-324   1.38338381e-322
   6.92337192e-310   6.92322347e-310]
-4.64267070575e+17 3.16224606696e+281 6.32521965076e+278


V Linuxu vypíše zdánlivě náhodná čísla, která se však na začátku pohybují těsně kole nuly, maximum je řádu 3e281, minimu -4e17 a průměr je 6e278. To neodpovídá rovnoměrnému rozdělení (průměr by měl ležet v polovině mezi minimem a maximem, podposloupnost 10 nulových čísel je nepravděpodobná, apod.).

Pro generování náhodných čísel je možno využít funkce z modulu `numpy.random`.

In [64]:
from numpy.random import uniform # uniform = rovnoměrné rozdělení

uniform(0.0,1.0,100) # generuje 100 čísel v rozsahu 0.0 až 1.0 

array([ 0.94297252,  0.11016571,  0.66853299,  0.02126112,  0.04712289,
        0.74512244,  0.13405471,  0.01673796,  0.99215853,  0.87068539,
        0.41165957,  0.56381673,  0.63049471,  0.66447207,  0.1758051 ,
        0.22140164,  0.0195121 ,  0.15633363,  0.61082973,  0.71438342,
        0.22804889,  0.51030382,  0.85069976,  0.28910246,  0.92769602,
        0.78635614,  0.69208791,  0.8182663 ,  0.53649046,  0.10832725,
        0.19255559,  0.9078615 ,  0.90102169,  0.02266634,  0.13901228,
        0.8151203 ,  0.92802334,  0.34973111,  0.68485535,  0.37563312,
        0.83498964,  0.17935328,  0.49542913,  0.96050549,  0.42358621,
        0.28780531,  0.41943836,  0.69852691,  0.57177212,  0.87186434,
        0.44972924,  0.13157124,  0.62184744,  0.28408516,  0.51950409,
        0.73333222,  0.59965301,  0.08523781,  0.51504025,  0.50487781,
        0.21030087,  0.38594633,  0.75581602,  0.34576024,  0.39907104,
        0.8265349 ,  0.3989897 ,  0.82403983,  0.17897944,  0.19

V tomto případě nelze určit výsledný typ položek (je vždy `float64`). Lze jej však převést na jiné typy přetypováním pole (viz dále).

Celočíselné hodnoty lze získat použitím funkce `numpy.random.randint`). V této funkci se zadá minimální (včetně) a maximální (vyjma) hodnota. Navíc zde lze určit typ položek (musí být celočíselný).

In [69]:
from numpy.random import randint

randint(1,6, 100, dtype=np.uint8)

array([1, 4, 1, 3, 1, 5, 2, 1, 5, 2, 2, 4, 4, 4, 4, 1, 4, 4, 4, 3, 5, 3, 5,
       5, 3, 5, 4, 1, 2, 2, 2, 1, 1, 1, 4, 4, 2, 5, 3, 5, 1, 1, 4, 5, 4, 2,
       3, 5, 2, 1, 4, 3, 3, 3, 3, 5, 5, 4, 3, 3, 4, 3, 4, 2, 5, 1, 5, 1, 5,
       5, 5, 2, 4, 4, 1, 5, 1, 4, 3, 5, 2, 2, 2, 1, 5, 4, 5, 4, 2, 4, 3, 2,
       1, 4, 2, 1, 4, 2, 5, 3], dtype=uint8)

#### Vícerozměrná pole

Vytváření vícerozměrných polí se v zásadě neliší od vytváření polí jednorozměrných. Ve většině případů stačí specifikovat tvar matice pomocí dvojic (dvourozměrné pole), či delších n-tic:

In [74]:
np.full((10,10), 2) # matice o velikosti 10×10 vyplněná hodnotou 2 (dtype je int64 podle typu hodnoty 2)

array([[2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2],
       [2, 2, 2, 2, 2, 2, 2, 2, 2, 2]])

In [76]:
np.random.uniform(-1.0, 1.0, (3,3,3))  # náhodné trojrozměrné pole 3x3 (rovnoměrné rozdělené od -1 do 1)

array([[[-0.43483579,  0.52818509, -0.64513755],
        [-0.43179342, -0.30369106,  0.72636285],
        [ 0.12209077, -0.29644951, -0.47268586]],

       [[-0.54575958, -0.20655328, -0.09253202],
        [-0.00419426, -0.24073618,  0.56739354],
        [-0.69812078,  0.9794645 ,  0.70285543]],

       [[ 0.27892175,  0.64086446,  0.28993373],
        [-0.8117512 ,  0.01646257,  0.84951886],
        [ 0.66649653, -0.30473356, -0.9310908 ]]])

Zajímavější je použití funkcí `array` a především `arange` či `linspace`.

Pokud chceme vytvořit vícerozměrné pole ze seznamů, je nutno využít víceúrovňové vnořené seznamy seznamů. Nejčastěji se používají dvojúrovňové seznamy seznamů, které se převádějí na matice (dvoudimenzionální pole).

In [78]:
np.array([[1,2], [3, 4]], dtype=np.float64) # matice 2x2 položek typu `float64`

array([[ 1.,  2.],
       [ 3.,  4.]])

> **Úkol**: Vytvořte jednotkovou matici 5×5 (typu `float64`) pomocí funkce `np.array`.

In [80]:
np.array([
    [1, 0, 0, 0, 0],
    [0, 1, 0, 0, 0],
    [0, 0, 1, 0, 0],
    [0, 0, 0, 1, 0],
    [0, 0, 0, 0, 1]
], dtype=np.float64) # typ je zde povinný (implicitně by byla matice celočíselná)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

Vytváření jednotkových matic tímto způsobem je dosti nepohodlné (hlavně pro větší matice). Není proto překvapením, že existuje i jednodušší postup:

In [81]:
np.eye(5) # položky jsou implicitně typu `float64`.

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

Funkce `numpy.arange` resp. `numpy.linspace` jsou ve své podstatě omezena na tvorbu jednorozměrných polí. Někdy se však hodí vytvářet matice, které jsou tvořeny posloupností prvků (typicky postupně přes jednotlivé řádky). V tomto případě lze využít funkce `reshape`, která změní rozměry (a často i dimenzi), při zachování počtu prvků.

In [83]:
np.linspace(0, 15, 16).reshape(4,4)

array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.],
       [ 12.,  13.,  14.,  15.]])

Při "přetvarování" nedochází k žádnému kopírování či přesunu prvků. Původní datový obsah pole se nemění  jen se změní jeho interpretace (tj. indexování).

> **Úkol**: Vytvořte tutéž matici pomocí funkce `np.arange`. Jak se liší výsledek (předokládejme použití celočiselných mezí a kroku rozsahu)?

In [85]:
np.arange(0,16,1).reshape(4,4)

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

Výsledkem je pole celých čísel (`dtype` je `np.int`).

### Čtení a ukládání polí do souborů

Pro ukládání polí do souborů lze v zásadě použít běžný textově orientovaný výstup vytvořený, vestavěnou metodou `open`. Je to však nepohodlné, protože je nutno parsovat text a především provádět převod seznamů (výsledků parsovaní) na pole.

Z tohoto důvodu *NumPy* přináší vlastní metody pro čtení některých textově orientovaných formátů. Nejjednodušší je čtení souborů, která representují dvourozměrná pole pomocí řádků textu, v nichž jsou jednotlivé číslice odděleny jednoduchým oddělovacím znakem (+ případné nevýznamné mezery). Tyto soubory jsou jednoduchou verzí CSV souborů, se kterými jsme se již seznámili.

Nejdříve si takový soubor vytvoříme.

In [6]:
import numpy as np

array = np.random.randint(0,10,(10, 5))
print(array)

np.savetxt("random_ints.txt", array, delimiter=",")

[[7 4 7 1 2]
 [6 4 0 7 0]
 [3 9 3 1 5]
 [5 4 4 1 1]
 [6 5 8 6 8]
 [5 3 4 2 0]
 [7 7 8 4 6]
 [7 4 0 6 1]
 [7 8 3 2 7]
 [7 4 8 3 8]]


Je zřejmé, že první parametr určuje jméno vytvářeného souboru a druhý ukládané dvojrozměrné pole. Pojmenovaná parametr `delimiter` definuje oddělovací znak.

Uložený soubor si můžeme vypsat pomocí standardních vstupně výstupních funkcí.

In [8]:
with open("random_ints.txt", "rt") as f: # otevře textový soubor
    print(f.read()) # a vypíše jeho obsah jako jeden dlouhý řetězec

7.000000000000000000e+00,4.000000000000000000e+00,7.000000000000000000e+00,1.000000000000000000e+00,2.000000000000000000e+00
6.000000000000000000e+00,4.000000000000000000e+00,0.000000000000000000e+00,7.000000000000000000e+00,0.000000000000000000e+00
3.000000000000000000e+00,9.000000000000000000e+00,3.000000000000000000e+00,1.000000000000000000e+00,5.000000000000000000e+00
5.000000000000000000e+00,4.000000000000000000e+00,4.000000000000000000e+00,1.000000000000000000e+00,1.000000000000000000e+00
6.000000000000000000e+00,5.000000000000000000e+00,8.000000000000000000e+00,6.000000000000000000e+00,8.000000000000000000e+00
5.000000000000000000e+00,3.000000000000000000e+00,4.000000000000000000e+00,2.000000000000000000e+00,0.000000000000000000e+00
7.000000000000000000e+00,7.000000000000000000e+00,8.000000000000000000e+00,4.000000000000000000e+00,6.000000000000000000e+00
7.000000000000000000e+00,4.000000000000000000e+00,0.000000000000000000e+00,6.000000000000000000e+00,1.000000000000000000e+00


Formát není příliš přehledný a zabírá zbytečně mnoho místa. Proto je mnohdy vhodnější uvádět při ukládání i požadovaný formát (formátovací znaky tvoří podmnožinu znaků používanách v popisovačích formátovacích řetězců).

In [12]:
np.savetxt("random_ints.txt", array, delimiter=",", fmt="%.0f")

In [13]:
with open("random_ints.txt", "rt") as f: # opět vypíšeme textová obsah
    print(f.read())

7,4,7,1,2
6,4,0,7,0
3,9,3,1,5
5,4,4,1,1
6,5,8,6,8
5,3,4,2,0
7,7,8,4,6
7,4,0,6,1
7,8,3,2,7
7,4,8,3,8



Pro načtení do pole použijeme funkci `numpy.loadtxt`. Parametry jsou zřejmé. Všimněte si, že je nutno uvést požadovaný typ položek (pokud by nebyl uveden byl by to `float`).

In [14]:
duplicate = np.loadtxt("random_ints.txt", delimiter=",", dtype=np.int)
print(duplicate)

[[7 4 7 1 2]
 [6 4 0 7 0]
 [3 9 3 1 5]
 [5 4 4 1 1]
 [6 5 8 6 8]
 [5 3 4 2 0]
 [7 7 8 4 6]
 [7 4 0 6 1]
 [7 8 3 2 7]
 [7 4 8 3 8]]


> **Úkol**: Úkol uložte do textového souboru čísla od jedné do 20, tak aby bylo každé na zvláštním řádku.
> Rada: musíte použít metodu reshape, abyste pole přeorganizovali do správného tvaru

In [15]:
cisla = np.arange(1,21)
print(cisla)

[ 1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20]


Pole má nesprávný tvar. Po uložený by tvořily jeden řádek. Proto jej upravíme do matice s 20 řádky a jedním sloupcem.

In [16]:
cisla = cisla.reshape(20,1)
print(cisla)

[[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]
 [13]
 [14]
 [15]
 [16]
 [17]
 [18]
 [19]
 [20]]


Nyní je již uložení snadné (nemusíme ani definovat oddělovač sloupcí, stejně se žádný nepoužije)

In [18]:
np.savetxt("cisla.txt", cisla)

In [20]:
with open("cisla.txt", "rt") as f:
    print(f.read())

1.000000000000000000e+00
2.000000000000000000e+00
3.000000000000000000e+00
4.000000000000000000e+00
5.000000000000000000e+00
6.000000000000000000e+00
7.000000000000000000e+00
8.000000000000000000e+00
9.000000000000000000e+00
1.000000000000000000e+01
1.100000000000000000e+01
1.200000000000000000e+01
1.300000000000000000e+01
1.400000000000000000e+01
1.500000000000000000e+01
1.600000000000000000e+01
1.700000000000000000e+01
1.800000000000000000e+01
1.900000000000000000e+01
2.000000000000000000e+01



### Indexace

Indexace jednorozměrných polí se v zásadě neliší od indexace seznamů. První index je vždy 0 a poslední velikost pole -1 (lze samozřejmě použít i záporné indexy).

In [88]:
vector = np.arange(1, 10)

print(vector)
print(len(vector))  # vypíše velikost vektoru
print(vector[0])   # první položka
print(vector[-1])  # poslední položka

[1 2 3 4 5 6 7 8 9]
9
1
9


Využít lze samozřejmě i výřezy. Ty však na rozdíl od seznamu  nevrací kopie, ale alternativní pohledy na stejná data! Jinak řečeno při indexaci výřezem se nikdy nic nekopíruje.

In [92]:
tail_of_vector = vector[-3:] # poslední tři prvky původního vektoru
print(tail_of_vector)

tail_of_vector[0] = -1 # změníme první prvek výřezu
print(tail_of_vector)

# tím však změníme i předpředposlední prvek původního vektoru!
print(vector)

[-1  8  9]
[-1  8  9]
[ 1  2  3  4  5  6 -1  8  9]


> **Úkol**: Vytvořte pole obsahující čísla 0 až 10 (včetně) s krokem 0.5. Pak získejte výřez ukazující jen celočíselné prvky původního pole (= ty se sudým indexem). Nakonec ověřte, že i tento nesouvislý výřez je jen jiným pohledem do původního pole, tím, že všechny hodnoty výřezu nahradíte opačnými čísly (tj. hodnotou -x).

In [96]:
steps = np.arange(0.0, 10.5, 0.5) # vytváření pole
print(steps)
integer_steps = steps[::2] # využijeme výřez s krokem 2 (0,2,4, … 10 index)
print(integer_steps)

[  0.    0.5   1.    1.5   2.    2.5   3.    3.5   4.    4.5   5.    5.5
   6.    6.5   7.    7.5   8.    8.5   9.    9.5  10. ]
[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.]


In [99]:
for i in range(len(integer_steps)):
    integer_steps[i] *= -1     # změníme všechny hodnoty pole výřezu na opačné
print(integer_steps)           # a vypíšeme
print(steps)                   # o ověříme co se stalo s původním polem

[ -0.  -1.  -2.  -3.  -4.  -5.  -6.  -7.  -8.  -9. -10.]
[ -0.    0.5  -1.    1.5  -2.    2.5  -3.    3.5  -4.    4.5  -5.    5.5
  -6.    6.5  -7.    7.5  -8.    8.5  -9.    9.5 -10. ]


#### Vícerozměrná indexace

Vícerozměrná indexace je v zásadě jednoduchým rozšířením té jednorozměrné. Namísto jednoduchého indexu (či výřezu) se použije n-tice indexů (kde $n$ je dimenze), či n-tice výřezů.  N-tice se píší přímo uvnitř hranatých závorek (kulaté závorky, které ohraničují n-tici lze stejně jako v mnoha dalších kontextech vynechat. 

Připravíme si jednoduchou matici 10×10. Vytvoříme ji ze seznamu seznamů, které vzniknou použitím vnořené komprehenze. Prvek s řádkovým indexem `i` a sloupcovým `j` má hodnotu `i + j*0.1`. Z hodnoty tak snadno odvodíme její pozici v matici a naopak.

In [24]:
m = np.array([[i + j*0.1 for j in range(0,10)] for i in range(0,10)])
print(m)

[[ 0.   0.1  0.2  0.3  0.4  0.5  0.6  0.7  0.8  0.9]
 [ 1.   1.1  1.2  1.3  1.4  1.5  1.6  1.7  1.8  1.9]
 [ 2.   2.1  2.2  2.3  2.4  2.5  2.6  2.7  2.8  2.9]
 [ 3.   3.1  3.2  3.3  3.4  3.5  3.6  3.7  3.8  3.9]
 [ 4.   4.1  4.2  4.3  4.4  4.5  4.6  4.7  4.8  4.9]
 [ 5.   5.1  5.2  5.3  5.4  5.5  5.6  5.7  5.8  5.9]
 [ 6.   6.1  6.2  6.3  6.4  6.5  6.6  6.7  6.8  6.9]
 [ 7.   7.1  7.2  7.3  7.4  7.5  7.6  7.7  7.8  7.9]
 [ 8.   8.1  8.2  8.3  8.4  8.5  8.6  8.7  8.8  8.9]
 [ 9.   9.1  9.2  9.3  9.4  9.5  9.6  9.7  9.8  9.9]]


Začneme jednoduchými číselnými indexy.

In [26]:
print(m[0,0]) # pevní řádek, první sloupec

0.0


In [33]:
print(m[2,4]) # třetí řádek, pátý sloupec

2.4


In [28]:
print(m[-2, 1]) # předposlední žádek, druhýpeint sloupec

8.1


In [29]:
print(m[-1, -1]) # poslední řádek, poslední sloupec (= dolní pravý roh)

9.9


Situace se trochu zkomplikuje použitím výřezů:

In [35]:
m[1:4,3:5]

array([[ 1.3,  1.4],
       [ 2.3,  2.4],
       [ 3.3,  3.4]])

Výsledkem je podmatice tvořená řádky s s indexy 1, 2 3 (= 4 vyjma) a sloupci s indexy 3, 4. 

Výřezem mohou být i jednotlivé řádky a sloupce. 

In [37]:
m[5:6, 7:8]

array([[ 5.7]])

Výsledkem je matice tvořená jediným řádkem a jediným sloupcem na pozici s indexem 5, 7.

V jednom indexu lze samozřejmě spojovat jak výřezy tak číselné indexy.

In [42]:
m[5, 2:8]

array([ 5.2,  5.3,  5.4,  5.5,  5.6,  5.7])

In [None]:
Výsledkem je jednorozměrné pole tvořené částí šestého řádku od třetího sloupce po osmý (tj. se šesti prvky).

In [43]:
m[2:8, 5]

array([ 2.5,  3.5,  4.5,  5.5,  6.5,  7.5])

Zde je to naopak jednorozměrné pole tvoření částí šestého sloupce od třetího po osmý řádek.

Všimněte si, že výslednou dimenzi získáte tím, že od původní dimenze odečtete jedničku za každý fixní index (zde tedy 2-1 = 1).

Speciálním případem smíšeného indexu jsou indexy vracející celý řádek resp. sloupec.

In [45]:
m[2, :]  # celý třetí řádek (s indexem 2)

array([ 2. ,  2.1,  2.2,  2.3,  2.4,  2.5,  2.6,  2.7,  2.8,  2.9])

In [47]:
m[:,-1]  # celý poslední sloupec (s indexem 9)

array([ 0.9,  1.9,  2.9,  3.9,  4.9,  5.9,  6.9,  7.9,  8.9,  9.9])

> **Úkol**: Zaměňte v matici [[1,2], [3,4]] první a poslední sloupec přímým přiřazením sloupců. 


> Rada: použijte pomocné jednorozměrné pole pro dočasné uchování jednoho ze sloupců (paralelní přiřazení nefunguje). Pro kopírování sloupce do pole použijte metodu `np.copy`. Bez kopírování to nejde.

In [59]:
matice = np.array([[1,2], [3,4]])
print(matice)

[[1 2]
 [3 4]]


In [60]:
p = np.copy(matice[:,0])      # kopírování prvního sloupce do pomocného ole
matice[:,0] = matice[:,-1]    # přepsání celého prvního sloupce posledním
matice[:, -1] = p             # a pak posledního kopií prvního (v pomocném poli)
print(matice)

[[2 1]
 [4 3]]


I ve vícerozměrných polích lze používat výřezy s jiným krokem, než je 1.  I v tomto případě se mění jen výpočet indexace, žádná data se nekopírují či nepřesouvají.

In [62]:
m[::-1, ::2] # řádky v opačném pořadí, každý 

array([[ 9. ,  9.2,  9.4,  9.6,  9.8],
       [ 8. ,  8.2,  8.4,  8.6,  8.8],
       [ 7. ,  7.2,  7.4,  7.6,  7.8],
       [ 6. ,  6.2,  6.4,  6.6,  6.8],
       [ 5. ,  5.2,  5.4,  5.6,  5.8],
       [ 4. ,  4.2,  4.4,  4.6,  4.8],
       [ 3. ,  3.2,  3.4,  3.6,  3.8],
       [ 2. ,  2.2,  2.4,  2.6,  2.8],
       [ 1. ,  1.2,  1.4,  1.6,  1.8],
       [ 0. ,  0.2,  0.4,  0.6,  0.8]])

Využitá indexace za použitá netriviálních výřezů spolu s operacemi nad celými poli často umožňuje elagantně řešit problémy, které by jinak vyžadovali použití cyklu.

Příkladem je vytvoření matice 12×12 obsahující hodnoty 1 s výjimkou okrajových řádků a sloupců:

In [71]:
zero_margin = np.ones((12,12),dtype=np.int)
zero_margin[0,:] = 0   # nastavuje na nulu všechny položky prvního řádku
zero_margin[-1,:] = 0  # nastavuje na nulu všechny položky posledního řádku
zero_margin[:, 0] = 0  # nastavuje na nulu první sloupec
zero_margin[:, -1] = 0 # nastavuje na nulu poslední sloupec
zero_margin

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

V jenorozměrném vektoru přičtěte k prvků se sudým indexem (prvnímu, třetímu, pátému) hodnoty následujícího prvku, a tento prvek vynulujte.

In [80]:
v = np.arange(0,10)
print(v)
v[0::2] += v[1::2] # k výřezu obsahující prvek s indexem 0,2,4,… přičteme výřez obsahující indexy 1,3,5,…
v[1::2] = 0
print(v)

[0 1 2 3 4 5 6 7 8 9]
[ 1  0  5  0  9  0 13  0 17  0]


#### Speciální indexace

Kromě zobecněné základní indexace a výřezů podporuje nd-array i dva speciální typy indexace. Na rozdíl od běžné indexace je výsledkem obou speciálních indexací kopie příslušné části pole (tj. nikoliv alternativní náhled na část původního pole). To má dva důsledky:

1) nelze je použít pro (hromadnou) změnu původního pole
2) vyžadují paměť navíc (v paměti je jak původní pole tak jeho kopie)

**Indexace sekvencí indexů**

Index může být pole či seznam čísel z intervalu 0 až $n-1$. Každá položka pole indexů určuje jednu položku výsledného pole.

In [113]:
v = 2 ** np.arange(0,10) # seznam hodnot 2^i, kde i = 0 až 10 (vyjma)
print(v)

[  1   2   4   8  16  32  64 128 256 512]


In [114]:
v[[3,6,8]] # vrací pole s indexy 3, 6 a 8

array([  8,  64, 256])

In [115]:
v[[1,9,1,9]] # indexy nemusí být vzestupné a mohou se opakovat

array([  2, 512,   2, 512])

In [116]:
v[np.random.randint(0,10,30)] # indexem může být pole

array([  8, 512,   1,  32, 256,  32,  32,  16,   1,   8, 256, 128, 256,
        64,   1,  16,   1, 256, 512, 128,   4,  16,  32,   4, 128,   4,
         1,  16, 512,   8])

Předchozí příklad poskytuje jednoduchý zápis pro provádění náhodného výběru s opakováním (čísla se po vylosování vrací do "osudí").

> **Úkol**: Vytvořte funkci, která přijímá jednorozměrné pole a vrací pole, v němž je každý prvek původního pole opakován dvakrát za sebou.

In [138]:
def double_items(a):
    n = len(a)  # délka pole
    indexes = np.array([[i] * 2 for i in range(len(v))]) # matice [[0,0], [1,1], [2,2], ...]
    indexes = indexes.reshape(2*n) # zploštíme pole do jednoho indexu
    return a[indexes]

In [139]:
double_items(v)

array([  1,   1,   2,   2,   4,   4,   8,   8,  16,  16,  32,  32,  64,
        64, 128, 128, 256, 256, 512, 512])

Indexaci polem lze využít i u dvojrozměrných polí:

In [154]:
matice = np.random.randint(-1,2,(5,5))
print(matice)
print()
print(matice[[0,0,0], 0]) # první sloupce třikrát opakovaného prvního řádku

[[ 1 -1  0  0 -1]
 [ 0 -1  1  1 -1]
 [ 1 -1  1 -1 -1]
 [-1  1  0  0 -1]
 [ 0 -1  1  1 -1]]

[1 1 1]


**Indexová maska**

Indexem může být i pole/seznam logických hodnot o velikosti daného rozměru. Vybrány jsou ty prvky, které mají v odpovídajícím poli indexu hodnotu `true`.

In [162]:
test = np.random.randint(-1,2,8)
print(test)
test[np.array([True, False, False, True, False, False, False, True])]

[ 1  0  1 -1  1 -1 -1  1]


array([ 1, -1,  1])

Výsledkem je pole obsahující první, čtvrtou a osmou položku.

Na první pohled se tento zápis nejeví jako příliš užitečný. Lze jej totiž snadněji napsat pomocí indexu v podobě pole čísel. Navíc nelze prvky přeuspořádávat či opakovat. Pokud by se navíc hodnoty `true` opakovali pravidelně, šlo by použít výřez s explicitním krokem (což je navíc výrazně efektivnější).

V praxi se však indexová maska používá v jednom z klasických NumPy ideomů (existuje však i v jiných jazycích orientovaných na zpracování polí).

Podívejme se co se stane, pokud použijeme relační operátor (třeba větší než) mezi polem a číslem (skalárem).

In [163]:
test > 0

array([ True, False,  True, False,  True, False, False,  True], dtype=bool)

Tento zápis se interpretuje jako porovnání každého prvku s nulou, tj. i zde se operace aplikuje postupně na jednotlivé prvky. Výsledkem je pak přirozeně pole s výsledky jednotlivých porovnání tj. pole booleovských hodnot.

Nyní by vám mělo být standardní použití indexové masky zřejmé.

In [164]:
test[test>0]

array([1, 1, 1, 1])

Výraz vracející pole logických hodnot může být i složitější (mezivýsledky jsou opět pole stejné velikosti).

In [171]:
temperatures = np.array([16, 23, 10, 8, -12, 5, 14, 27, 67, 18, 4])
# odstranění outliers = odlehlých hodnot (typicky chyby měření)

mean = temperatures.mean() # průměr hodnota
stddev = np.std(temperatures) # standardní odchylka
print(mean)
print(stddev)

temperatures[np.abs(temperatures - mean) < stddev] # vybere jen hodnoty ležící +- standardní odchylky od průměru

16.3636363636
18.8933500917


array([16, 23, 10,  8,  5, 14, 27, 18,  4])

Všimněte si, že pro funkci absolutní hodnoty je potřeba využít verzi nabízenou modulem `numpy` nikoliv např. `math`. Jen ta je vektorizovatelná, tj. po aplikaci na pole je volána na každý prvek zvlášť.

> **Úkol**: Pro pole náhodných 1 000 000 náhodných `float` čísel v rozsahu -0.1 až 0.1 s rovnoměrným rozdělením, zjistěte indexy všech nulových položek (tj.položek ležících v itervalu $(-10^{-6}, 10^{-6})$. 

> Rada: Indexovou masku můžete použít i na jiné pole, než je to ze kterého byla odvozena (například pole získané funkcí `numpy.arange`).

> Řešení pomocí masky není efektivní. Proč? Navrhněte efektivnější řešení.

In [178]:
# nejdříve si si vytvoříme náhodné pole
numbers = np.random.uniform(-0.1, 0.1, 1_000_000)

# pak vytvoříme masku (true jou na pozici (skoro)nul)
mask = np.abs(numbers) < 1e-6  

# pro kontrolu si skoronuly vypíšeme
print(numbers[mask])

# a nyní indexy těchto položek
print(np.arange(0,1_000_000)[mask])

[  5.57200189e-07   5.16366151e-07  -5.67220047e-08   9.57766653e-07
  -4.99611951e-07   6.01370942e-07  -7.12793066e-07   6.37325515e-07]
[ 61796 344165 380757 396370 644410 716595 822702 993977]


Důvod neefektivity, je zřejmý pro získání pole o pár číslech (počet nalezených čísel je náhodný, ale s vysokoPu pravděpodobností jsou to jen jednotky) vznikají dvě pomocná pole o milionu položek (pole boolovských hodnot a pole čísel v od 0 do 999 999).

Při takto malém počtu nalezených prvků je efektivnější jednoduše procházet pole cyklem a nalezené indexy ukládat do seznamu. S využitím komprehenze a vestavěné funkce `enumerate` (vrací postupně dvojice (index, položka pole)) to navíc není o mnoho složitější.

In [179]:
[index for index, value in enumerate(numbers) if abs(value) < 1e-6]

[61796, 344165, 380757, 396370, 644410, 716595, 822702, 993977]