[NumPy](http://www.numpy.org) je základní Python knihovna pro práci s numerickými daty, konkrétně s 1- až n-rozměrnými maticemi. Implementace (pro CPython) je z velké části napsána v C a Fortranu a používá BLAS knihovny. Numpy tak umožňuje pracovat s numerickými daty ve stylu Python kontejnerů (existují samozřejmě rozdíly) a zároveň zachovat rychlost kompilovaných jazyků.

V této lekci projdeme:
- Co je to `numpy` ndarray?
- Vytváření `numpy` polí.
- Indexování a slicing `numpy` polí.
- Co je to `numpy` array view?
- Broadcasting.
- Elementwise operace.
- Maticové operace.

Tento notebook s úctou vykrádá:  [Lectures on scientific computing with Python](http://github.com/jrjohansson/scientific-python-lectures) a [numerical_python_course](https://gitlab.com/coobas/numerical_python_course)

# Importujeme numpy

Chceme-li použít `numpy`, je samozřejmě nutné modul importovat. Obvykle se použivá zkratka `np`: 


In [2]:
import numpy as np


## Proč NumPy?

* Python seznamy jsou příliš obecné. Mohou obsahovat jakýkoliv druh objektu. Jsou dynamicky typované. Nepodporují matematické funkce, jako maticové násobení. 

* NumPy pole jsou staticky typovaná a homogenní. Typ prvků je určen při vytvoření pole.
* NumPy pole jsou efektivně uložena v paměti.
* Díky těmto vlastnostem lze implementovat matematické operace, jako je násobení nebo sčítání, v rychlém, kompilovaném jazyce (C/Fortran).

# `NumPy` pole: `ndarray`

`ndarray` je základní datový typ v `numpy`. Jedná se o n-rozměrné pole (vektor, matice, tensor) se záznamy stejného typu (typicky) čísly (integers, floats, complex numbers).

In [11]:
# numpy.ndarray
help(np.ndarray)


Help on class ndarray in module numpy:

class ndarray(builtins.object)
 |  ndarray(shape, dtype=float, buffer=None, offset=0,
 |          strides=None, order=None)
 |  
 |  An array object represents a multidimensional, homogeneous array
 |  of fixed-size items.  An associated data-type object describes the
 |  format of each element in the array (its byte-order, how many bytes it
 |  occupies in memory, whether it is an integer, a floating point number,
 |  or something else, etc.)
 |  
 |  Arrays should be constructed using `array`, `zeros` or `empty` (refer
 |  to the See Also section below).  The parameters given here refer to
 |  a low-level method (`ndarray(...)`) for instantiating an array.
 |  
 |  For more information, refer to the `numpy` module and examine the
 |  methods and attributes of an array.
 |  
 |  Parameters
 |  ----------
 |  (for the __new__ method; see Notes below)
 |  
 |  shape : tuple of ints
 |      Shape of created array.
 |  dtype : data-type, optional
 |

In [6]:
# konstruktor můžeme použít pro vytvoření pole
# hlavní povinný parametr je shape = velikost v jednotlivých dimenzích
A = np.ndarray(shape=(2, 3, 2))
A


array([[[7.80286981e-312, 2.81617418e-322],
        [0.00000000e+000, 0.00000000e+000],
        [1.20953760e-312, 2.46567317e+179]],

       [[4.51252700e-090, 4.66148514e-033],
        [8.46268183e+164, 2.78934081e+179],
        [6.48224659e+170, 4.93432906e+257]]])

Toto ale není běžný způsob, jakým bychom si `numpy` pole vytvářeli. Většinou budeme chtít pole s nějakými konkétními hodnotami. Zde se pouze alokovala paměť ale její hodnota není definována = je taková jaké bity byly na daném místě v paměti předtím.


## Vlastnosti `ndarray`

`ndarray` má mnoho zajímavách metod a atributů. Některé z nich jsou:
- `ndarray.ndim` - počet rozměrů
- `ndarray.shape` - velikost pole v jednotlivých rozměrech
- `ndarray.size` - celkový počet prvků v poli
- `ndarray.dtype` - typ prvků v poli
- `ndarray.itemsize` - velikost jednoho prvku v bajtech
- `ndarray.nbytes` - celková velikost pole v bajtech
- `ndarray.strides` - posuny v bajtech mezi jednotlivými prvky v jednotlivých rozměrech
- `ndarray.data` - buffer obsahující samotná data
- ...


In [7]:
# seznam všech atributů a metod
dir(A)


['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__o

In [8]:
print(A.ndim)
print(A.shape)
print(A.size)

print(A.dtype)

print(A.itemsize)
print(A.nbytes)
print(A.strides)

print(A.data)


3
(2, 3, 2)
12
float64
8
96
(48, 16, 8)
<memory at 0x0000016FB91E65C0>


Běžně se používá pořadí prvků v paměti jako C (row-major), je možné nastavit pořadí jako Fortran (column-major) a to pomocí atributu `order`.

In [None]:
# vytvoření pole s jiným vnitřním pořadím
A = np.ndarray(shape=(2, 3, 2), order='F')
print(A.strides)


## Typy prvků v numpy poli
Obecný objekt pro reprezentaci datového typu v `numpy` je `dtype`, který obsahuje veškeré informace o datovém typu.

Nicméně, vetšinou nám stačí velmi jednoduchý typ jako je například `int`, `float` a v těchto případech nemusíme typ zadávat pomocí objektu `dtype`.


**Základní typy:**

Celá čísla:
- `numpy.int8` - 8-bit integer
- `numpy.int16` - 16-bit integer
- `numpy.int32` - 32-bit integer
- `numpy.int64` - 64-bit integer
- třídu `int` (bez `numpy.`) - zvolí velikost integeru podle platformy (32-bit integer na 32-bit platformě, 64-bit integer na 64-bit platformě)

Desetinná čísla:
- `numpy.float16` - 16-bit floating point
- `numpy.float32` - 32-bit floating point
- `numpy.float64` - 64-bit floating point
- `numpy.float128` - 128-bit floating point
- třída `float` (bez `numpy.`) - zvolí velikost floating point podle platformy (32-bit floating point na 32-bit platformě, 64-bit floating point na 64-bit platformě)

Komplexní čísla:
- `numpy.complex64` - 64-bit complex number
- `numpy.complex128` - 128-bit complex number
- `numpy.complex256` - 256-bit complex number
- třídu `complex` (bez `numpy.`) - zvolí velikost complex number podle platformy (64-bit complex number na 32-bit platformě, 128-bit complex number na 64-bit platformě)

Boolean:
- `bool` (bez `numpy.`)  - boolean

In [9]:
A = np.ndarray(shape=(1), dtype=np.int8)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=int)
print(A)
print(A.itemsize)


[1]
1
---
[1024]
2
---
[0]
4
---
[8462385098680267893]
8
---
[0]
4


In [None]:
A = np.ndarray(shape=(1), dtype=np.float16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=float)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=np.complex64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex256)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=complex)
print(A)
print(A.itemsize)


In [24]:
A = np.ndarray(shape=(1), dtype=bool)
print(A)
print(A.itemsize)


[ True]
1


**Komplikovanější typy:**

Je jich mnoho, může se hodit například
- `numpy.datetime64` - datetime64

Pokročilejší typy definujeme pomocí objektu `dtype`. Více viz [dokumentace 1](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html) a [dokumentace 2](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [None]:
A = np.array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype=np.datetime64)
print(A)
print(A.itemsize)
print(A.dtype)


Komplikovanější typy definujeme pomocí objektu `dtype`. Například pro ukázku:

```python 
my_dt = np.dtype([('název prvního sloupce', 'i4'), ('název druhého sloupce', 'f8'), ('název třetího sloupce', 'S5')])
```

Argumentem funkce np.dtype je seznam n-tic, kde každá n-tice reprezentuje "sloupec" v poli NumPy. V tomto příkladu máme tři sloupce.

První prvek každé n-tice je název sloupce a druhý prvek je řetězec, který reprezentuje datový typ pro tento sloupec. V tomto příkladu máme:

`np.int32` neboli `'i4'`: datový typ celého čísla o velikosti 4 bytů
`np.float64` neboli `'f8'`: datový typ s pohyblivou řádovou čárkou o velikosti 8 bytů
`np.string_, 5` neboli `'S5'`: datový typ řetězce s maximální délkou 5 bytů

In [12]:
# ukazka, kde prvkem je trojice integer, float, string s delkou 5
my_dt = np.dtype([('sloupec s číslem', np.int32),
                  ('sloupec s floatem', np.float64),
                  ('sloupec s pěti znaky', np.string_, 5)])

# vytvoříme 2x2 matici se záznami daného typu
A = np.array([[(1, 2.0, "hello"), (3, 4.0, "world")],
              [(5, 6.0, "numpy"), (5, 6.0, "numpy")]], dtype=my_dt)

print(A)
print(A.itemsize)
print(A[0, 0])
print(A['sloupec s pěti znaky'])


[[(1, 2., b'hello') (3, 4., b'world')]
 [(5, 6., b'numpy') (5, 6., b'numpy')]]
17
(1, 2., b'hello')
[[b'hello' b'world']
 [b'numpy' b'numpy']]


In [None]:
A[1, 1] = (10, 20.0, "hello world")
print(A)


## Vytváření numpy polí
Existuje několik základních způsobů, jak vytvořit nové numpy pole:

- Z nějakého kontejneru typu seznam (`list`) nebo `tuple`.
    - např. `np.array([1, 2, 3])`
- Pomocí funkce numpy, která generuje `ndarray` s konkrétními hodnotami
    - např. `np.zeros((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 0
    - např. `np.ones((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 1
    - např. `np.full((2, 3), 5)` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 5
    - např. `np.arange(10)` vytvoří pole o velikosti 10, kde jsou všechny prvky rovny 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
    - např. `np.linspace(0, 1, 5)` vytvoří pole o velikosti 5, kde jsou všechny prvky rovny 0, 0.25, 0.5, 0.75, 1
    - např. `np.logspace(0, 1, 5)` vytvoří pole o velikosti 5, kde jsou všechny prvky rovny 1, 1.778, 3.162, 5.623, 10
    - např. `np.random.random((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným číslům z intervalu [0, 1)
    - např. `np.random.normal(0, 1, (2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným číslům z normálního rozdělení s průměrem 0 a směrodatnou odchylkou 1
    - např. `np.random.randint(0, 10, (2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným celým číslům z intervalu [0, 10)
    - Z jiného numpy pole
        - např. pomocí výběru (slicing), pozor na to, že se vytvoří nové pole, které sdílí data s původním polem (view)
        - např. pomocí `np.diag` pro vytvoření pole z diagonály jiného pole
        - např. pomocí `np.diagflat` pro vytvoření pole s diagonálou z jiného pole
        - např. pomocí `np.triu` pro vytvoření pole s horní trojúhelníkovou maticí z jiného pole
        - např. pomocí `np.tril` pro vytvoření pole s dolní trojúhelníkovou maticí z jiného pole
        - např. pomocí slepení (concatenation) pomocí `np.concatenate`, `np.vstack`, `np.hstack`
        - např. pomocí `np.repeat` a `np.tile` pro opakování pole
- Načtením ze souboru
    - např. `np.loadtxt('filename.txt')` načte pole ze souboru `filename.txt`
    - např. `np.genfromtxt('filename.txt', delimiter=',')` načte pole ze souboru `filename.txt` s oddělovačem čárka


### Vytváření numpy polí z python kontejnerů

In [10]:
muj_list = [1, 2, 3, 4, 5]
A = np.array(muj_list)
print(A)
print(A.dtype)


[1 2 3 4 5]
int32


Vícerozměrné pole (matice) se vytvoří z vnořeného seznamu.

In [11]:
matrix = np.array([[1, 2], [3, 4]])
matrix


array([[1, 2],
       [3, 4]])

In [13]:
muj_touple = (1, 2, 3, 4, 5)
A = np.array(muj_touple)
print(A)
print(A.dtype)


[1 2 3 4 5]
int32


Ze `set` a `dict` se vytvoří něco jiného než bychom asi očekávali.

In [14]:
muj_set = {1, 2, 3, 4, 5}
A = np.array(muj_set)
print(A)
print(type(A))
print(A.dtype)
print(A.shape)
print(A.size)
print(A.ndim)
print(A.itemsize)


{1, 2, 3, 4, 5}
<class 'numpy.ndarray'>
object
()
1
0
8


In [15]:
muj_dict = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
A = np.array(muj_dict)
print(A)
print(type(A))
print(A.dtype)
print(A.shape)
print(A.size)
print(A.ndim)
print(A.itemsize)


{'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
<class 'numpy.ndarray'>
object
()
1
0
8


### Numpy funkce pro vytváření ndarray
Zejména velká pole by bylo nepraktické inicializovat pomocí seznamů. Naštěstí v numpy existují [funkce](http://docs.scipy.org/doc/numpy/reference/routines.array-creation.html), které generují typická pole.

**`arange`** vygeneruje posloupnost, syntaxe je stejná jako `range`, ale funguje i pro desetinná a záporná čísla.

In [16]:
np.arange(0, 10, 1)  # argumenty: start, stop, step


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [17]:
np.arange(-1, 0, 0.1)

array([-1. , -0.9, -0.8, -0.7, -0.6, -0.5, -0.4, -0.3, -0.2, -0.1])

**`linspace`** a **`logspace`** vytváří posloupnosti s daným počtem prvků.

In [8]:
# první a poslední prvek jsou obsaženy ve výsledku
# argumenty jsou odkud, kam, kolik prvků
np.linspace(0, 10, 5)


array([ 0. ,  2.5,  5. ,  7.5, 10. ])

In [19]:
# podobně jako linspace, ale výsledek je base**x
np.logspace(0, 10, 11, base=10)


array([1.e+00, 1.e+01, 1.e+02, 1.e+03, 1.e+04, 1.e+05, 1.e+06, 1.e+07,
       1.e+08, 1.e+09, 1.e+10])

**`ones`** a **`zeros`** vytvoří pole ze samých nul nebo jedniček.

In [20]:
np.ones(3)


array([1., 1., 1.])

In [21]:
# pokud chceme 2 a více rozměrů, musíme zadat rozměr jako tuple
np.zeros((2, 3))


array([[0., 0., 0.],
       [0., 0., 0.]])

In [22]:
# matice s string hodnotami pomocí np.full
np.full((2, 3), "hello world")

array([['hello world', 'hello world', 'hello world'],
       ['hello world', 'hello world', 'hello world']], dtype='<U11')

- **`meshgrid`** je funkce která tvoří pravidelnou mřížku bodů dle dělení v jednotlivých dimenzích 
- **`mgrid`** je jakási "zkratka" pro **`meshgrid`**, jedná se o objek třídy `MGridClass` který má metodu **`__getitem__`** která umožňuje zadání pomocí indexů (např. `mgrid[0:5, 0:5]`) - **velmi nestandardní syntaxe**!
    - Navíc: z dokumentace třídy: "However, if the step length is a **complex number** (e.g. 5j), then
    the integer part of its magnitude is interpreted as specifying the
    number of points to create between the start and stop values, where
    the stop value **is inclusive**."
    - oproti `mashgrid` jsou argumenty (oddělené čárkou), v jiném pořadí protože osa `x` jsou sloupce a osa `y` jsou řádky (při indexování v `[ ]`)
- **`ogrid`** funguje stejně jako **`mgrid`**, ale vrací pouze 1D pole reprezentující hrany mřížky (např. `ogrid[0:5, 0:5]` vrací 2 pole o velikosti 5, které obsahují hodnoty 0, 1, 2, 3, 4)

In [9]:
# mashgrid
x = np.linspace(-1, 1, 4)
y = np.linspace(1, 2, 3)
X, Y = np.meshgrid(x, y)
print(x)
print(y)
print(X)
print(Y)

[-1.         -0.33333333  0.33333333  1.        ]
[1.  1.5 2. ]
[[-1.         -0.33333333  0.33333333  1.        ]
 [-1.         -0.33333333  0.33333333  1.        ]
 [-1.         -0.33333333  0.33333333  1.        ]]
[[1.  1.  1.  1. ]
 [1.5 1.5 1.5 1.5]
 [2.  2.  2.  2. ]]


In [None]:
# všimněte si syntaxe s hranatými závorkami, mgrid se nevolá jako funkce
X, Y = np.mgrid[0:0.6:0.2, 0:0.6:0.2]
print(X)
print(Y)
Y, X = np.mgrid[1:2:3j, -1:1:4j]
print(X)
print(Y)

In [12]:
# výstupy jsou řádkové a sloupcové vektory
y, x = np.ogrid[1:2:3j, -1:1:4j]
print(x)
print(y)


AttributeError: module 'numpy' has no attribute 'max'

Náhodná data vytvoří funkce z modulu **`random`**, základní z nich je **`rand`**.

In [None]:
# několik náhodných čísel [0, 1] s rovnoměrným rozdělením
print(np.random.rand(4,2))
# několik náhodných čísel s normálním rozdělením
print(np.random.randn(4,2))
# několik náhodných celých čísel
print(np.random.randint(0, 10, (4,2)))

**`diagflat`** vytvoří diagonální matici, **`diagonal`** vrátí diagonálu matice.

In [32]:
# diagonální matice
diag = np.diagflat([1, 2, 3], k=-1)
print(diag)


[[0 0 0 0]
 [1 0 0 0]
 [0 2 0 0]
 [0 0 3 0]]


In [None]:
# vrátí diagonálu jako vektor
print(np.diagonal(diag))


Definované výřezy z manice `triu` a `tril` vrací horní a dolní trojúhelníkovou matici. 
- parametr `k` určuje, o kolik se má diagonála posunout od hlavní diagonály (k=0 je hlavní diagonála, k>0 je diagonála nad hlavní diagonálou, k<0 je diagonála pod hlavní diagonálou)
- pozor na `k` při použití s `tril` a `triu` číslování je absolutní = tj. pokud nám jde o vynechání vedlejší diagonály tak musíme použít `k=1` pro triu a `k=-1` pro tril

In [30]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A)
print(np.triu(A, k=1))
print(np.tril(A, k=1))


[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[0 2 3]
 [0 0 6]
 [0 0 0]]
[[1 2 0]
 [4 5 6]
 [7 8 9]]


Lepení matic pomocí `concatenate`, `vstack` a `hstack`. Dimenze skrze které lepíme musí být shodné.

In [None]:
A = np.array([[1, 2], [4, 5], [7, 8]])
B = np.array([[3, 4], [6, 7], [9, 10]])
print(A)
print(B)
print("----")
print(np.concatenate((A, B), axis=0))
print(np.concatenate((A, B), axis=1))
print("----")
print(np.vstack((A, B)))
print(np.hstack((A, B)))


### Opakování numpy polí

Na opakování máme funkce `repeat` a `tile`

In [26]:
a = np.array([[1, 2], [3, 4]])
a


array([[1, 2],
       [3, 4]])

In [27]:
# opakování po prvcích
np.repeat(a, 3)


array([1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4])

In [None]:
# skládání celých polí
np.tile(a, (3, 2))


# Num/y a práce se soubory

### ASCII soubory
S textovými (ASCII) soubory obsahující data se setkáváme stále často, přestože to z mnoha důvodů není ideální formát. Na čtení ASCII (spadá sem i CSV) máme v Numpy `genfromtxt` a `loadtxt`. V [dokumentaci](http://docs.scipy.org/doc/numpy/reference/routines.io.html) se dozvíte, jak přesně fungují a jaké mají argumenty.

Pomocí `%%file` vytvoříme soubor `ascii_data_1.txt`

In [None]:
%%file ascii_data_1.txt
1 -6.1 -6.1 -6.1 1
2 -15.4 -15.4 -15.4 1
3 -15.0 -15.0 -15.0 1
4 -19.3 -19.3 -19.3 1
5 -16.8 -16.8 -16.8 1
6 -11.4 -11.4 -11.4 1
7 -7.6 -7.6 -7.6 1
8 -7.1 -7.1 -7.1 1
9 -10.1 -10.1 -10.1 1
10 -9.5 -9.5 -9.5 1


Nyní se pokusíme soubor načíst pomocí `genfromtxt`.

In [None]:
data = np.genfromtxt('ascii_data_1.txt')
print(data)


`loadtxt` by mělo fungovat také:

In [None]:
data = np.loadtxt('ascii_data_1.txt')
print(data)

`savetxt` můžeme použít na uložení
- parametr `fmt` určuje formát, který se použije pro uložení dat
 - např. `fmt="%.2f"` uloží data s 2 desetinnými místy
 - např. `fmt="%6g"` uloží data s prázdnými místy doplněnými nulami na 6 míst

In [None]:
np.savetxt("ascii_data_1_new.txt", np.random.rand(5,3), fmt="%.2f")
np.savetxt("ascii_data_2_new.txt", data, fmt="%6g")


Soubor můžeme vypsat:

In [None]:
%less ascii_data_1_new.txt


In [None]:
%less ascii_data_2_new.txt


Obecně se snažte textovým souborům (včetně csv apod.) pro numerická data vyhýbat. Jejich formát je vždy do značné míry neurčitý a na disku zabírají zbytečně moc místa. Výhodou je pouze jednoduchost zobrazení v textovém editoru nebo příkazové řadce.

### Binární formáty

Pro numerická data se daleko více hodí binární soubory, které jsou dobře definované a úsporné na místo. Pokud použijeme vhodný a rozšířený formát, nemusíme se bát ani přenositelnosti.

Numpy má vlastní NPY formát. Ten je pochopitelně jednoduchý na používání v NumPy, s přenositelností (pro neuživatele Pythonu a obecně další systémy) je to ale už horší. Pomocí `save` a `load` můžete jednoduše ukládat a nahrávat Numpy objekty.

In [None]:
np.save("binary_data_1_new.npy", np.random.rand(5,3))


In [None]:
data = np.load("binary_data_1_new.npy")
print(data)

In [None]:
# pojďmě porovnat kolik místa zabírají jednotlivé soubory
data = np.random.rand(100, 100)
np.save("binary_data_1_new.npy", data)
np.savetxt("ascii_data_1_new.txt", data)
%ls -l

## HDF5 formát
Velice dobrým a rozšířeným standardem je pak [HDF5](https://www.hdfgroup.org/solutions/hdf5/). Pro Python je jednoduché tento foromát používat pomocí knihovny [h5py](https://www.h5py.org/).

In [None]:
# pokud nemáte h5py nainstalované, můžete jednoduše nainstalovat přímo z notebooku momocí
# %conda install h5py
# nebo pokud používáte pip prostředí
# %pip install h5py


In [None]:
# můžete instalovat přímo z notebooku, stačí odstranit komentář
# !pip install h5py -U

In [28]:
import h5py


ModuleNotFoundError: No module named 'h5py'

V HDF5 souborech jsou data ve stromové struktuře (obdoba aresářů a souborů). Soubor se dvěma datasety můžeme vytvořit např. takto:

In [None]:
data_pole = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=np.int32)
data_binary = np.array([True, False, True, False, True, False], dtype=bool)
with h5py.File("test_hdf5.h5", "w") as hdf5_file:
    hdf5_file.create_dataset("data1", data=data_pole)
    hdf5_file.create_dataset("data_nahodne", data=np.random.random_sample((3, 4)))
    hdf5_file.create_dataset("data_binarni", data=data_binary)


In [None]:
with h5py.File("test_hdf5.h5", "r") as hdf5_file:
    data_hdf5 = hdf5_file["data1"]
    print(data_hdf5)
    # musíme data "nahrát" pomocí [:], jinak by byl výsledek jen "ukazatel" na data
    data_pole = hdf5_file["data1"][:]
    data_binary = hdf5_file["data_binarni"][:]
    data_nahodne = hdf5_file["data_nahodne"][:]



In [None]:
# "ukazatel" na data přestane fungovat, pokud soubor zavřeme
data_hdf5


Jelikož v HDF5 souboru může být velké množství dat (mnoho datasetů, velká data), je čtení dat z HDF5 "lazy": Dokud data opravdu nepotřebujeme v paměti (např. v NumPy poli), data zůstávají jen v souboru a v paměti máme jen jejich popis, jakýsi ukazatel na data.

# Práce s NumPy poli


## Indexování a řezání
Řezání (tzv. slicing) jsme si již ukazovali při indexaci Listů. V NumPy polích funguje stejně. 

In [33]:
vector = np.linspace(0, 3, 7)
print(vector)
print(vector[1])
print(vector[1:4])
print(vector[1:4:2])


[0.  0.5 1.  1.5 2.  2.5 3. ]
0.5
[0.5 1.  1.5]
[0.5 1.5]


Pokud máme více dimenzionální pole (ndarray), adresujeme jednotlivé dimenze pomocí čárky. Např. `a[1,2]` je prvek na druhém řádku a třetím sloupci (indexujeme od 0).

In [3]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(matrix[0, 1])
print(matrix[0, :])
print(matrix[:, 1])



2
[1 2 3]
[2 5 8]


Pokud indexujeme výběr jak v řádcích, tak v sloupcích, dostáváme výřez, který splňuje obě podmínky.

In [4]:
print(matrix[0:2, 1:3])


[[2 3]
 [5 6]]


Pokud jeden index vynecháme, vrátí numpy N-1 rozměrný řez - zde vrací řádek:

In [5]:
matrix[1]


array([4, 5, 6])

Toho samého docílíme pomocí `:`

In [None]:
matrix[1, :]


První sloupec:

In [35]:
matrix[:, 1]


array([2, 0])

In [None]:
matrix[:]

Můžeme také přiřazovat honoty do indexovaných polí.

In [None]:
matrix[0, 0] = -10
print(matrix)


Funguje to i pro více prvků, pak máme dvě možnosti:
- přiřadíme hodnotu, která se bude všude vyskytovat
- přiřadíme pole stejných rozměrů jako je výřez

In [34]:
matrix[1, :] = 0
print(matrix)


[[1 2]
 [0 0]]


In [None]:
matrix[:, 2] = np.array([1, 2, 3])
print(matrix)

### Další možnosti řezání
Zatím jsme si ukázali řezání v syntaxi `a[od:do:step]`, kde jsme uvažovali každý z parametrů jako celé kladné číslo. Řezy však umožňují i využití záporných čísel. Například:
- `a[-1]` je poslední prvek
- `a[-2]` je předposlední prvek
- `a[:-1]` je vše kromě posledního prvku
Déle můžeme uvažovat také záporné kroky, např. `a[::-1]` je všechny prvky v opačném pořadí.
**Toto funguje i pro Listy.**

In [6]:
vector = np.arange(1, 10)
print(vector[-1])
print(vector[-3:])
print(vector[::-1])
print(vector[-5::-1])

9
[7 8 9]
[9 8 7 6 5 4 3 2 1]
[5 4 3 2 1]


### Indexace pomocí seznamu indexů a masek
Pro řezy můžeme použít nejen čísla nebo Slice, ale také přímo pole s indexy prvků, které chceme vybrat.

In [None]:
vector = np.arange(1, 10)
vyber = np.array([5, 2, 1, 8])
print(vector)
print(vector[vyber])


Tento list může obsahovat také záporné indexy, ty se pak počítají od konce pole. Indexy se samozřejmě mohou opakovat.

In [None]:
vyber = np.array([-3, -2, -1, 6, 7, 8])
print(vector)
print(vector[vyber])

Pokud ale indexace obsahuje index mimo rozsah, dostaneme chybu.

In [None]:
vyber = np.array([1, 2, 10])
print(vector)
print(vector[vyber])

Totéž funguje v případě indexace matice.

In [6]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
vyber_x = np.array([0, 1, 2])
vyber_y = np.array([1, 2, 0])
print(matrix)
print("---")
print(matrix[vyber_x, vyber_y])


[[1 2 3]
 [4 5 6]
 [7 8 9]]
---
[2 6 7]


Všimněte si, že výběrem nebyla matice, ale pouze vektor obsahující indexované prvky dle jejich x,y souřadnic.

Tedy indexační vektory musí mít stejný počet prvků.

In [None]:
vyber_x = np.array([0, 1, 2])
vyber_y = np.array([1, 0])
print(matrix[vyber_x, vyber_y])


#### Maskování
Můžeme také použít **maskování**. Tedy indexovat pole pomocí pole hodnot True/False o stejném rozměru jako je:
- původní pole
- jedna z dimenzí původního pole 

Výsledkem je vektor obsahující pouze prvky (těmi v druhém případě ale mohou být i řádky nebo sloupce), které odpovídají hodnotě True v masce.

In [36]:
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
mask = np.array([[True, False, True], [False, True, False], [True, False, True]])
print(mask)
print(matrix[mask])


[[ True False  True]
 [False  True False]
 [ True False  True]]
[1 3 5 7 9]


In [37]:
mask = np.array([True, False, True])
print(matrix[mask, :])
print(matrix[:, mask])

[[1 2 3]
 [7 8 9]]
[[1 3]
 [4 6]
 [7 9]]


# NumPy View a kopie
Při indexování a řezání můžeme přiřadit výřez do nové proměnné. NumPy však "standardní" řezy reprezentuje jako tzv. **view** na původní pole. To znamená, že nová proměnná obsahující řez původního pole ukazuje na stejná data v paměti. A tedy pokud změníme data v nové proměnné, změní se i data v původním poli.


In [7]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
B = A[:1,1:]
print(A)
print(B)
B[:,:] = -1
print(A)
print(B)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[2 3]]
[[ 1 -1 -1]
 [ 4  5  6]
 [ 7  8  9]]
[[-1 -1]]



Toto může být mnohdy velice užitečné. Potlačit to můžeme vždy pomocí metody `copy`.

**Né všechny metody výběru dat z matice však vrací view.**
Řezání pomocí `:` typicky vrací view. Kdežto řezání pomocí seznamu indexů vrací kopii. To zda vrací view nebo kopii lze zjistit pomocí atributu `flags` a jeho atributu `OWNDATA`.

To zda ndarray s flagem `OWNDATA : False` sdílí data s jiným ndarray objektem lze zjistit pomocí atributu `base`, který vrátí ndarray objekt, který je zdrojem dat.

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
B = A[:1,1:]
print(A.flags)
print(B.flags)

In [None]:
print(id(A))
print(id(B.base))
print(A is B.base)

Pokud si nejsme jisti, zda použitá indexace vrací view nebo kopii, je dobré konzultovat dokumentaci NumPy viz [tady](https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html), nebo si to ověřit na testovacím kódu pomocí `base` a `flags`.

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(id(A))
mask = np.array([True, False, True])
# slicing
B = A[:,1]
print("Slicing: ", id(B.base))
# masking
B = A[mask, :]
print("Masking: ", id(B.base))
# fancy indexing
B = A[:, [1]]
print("Fancy indexing: ", id(B.base))
# diag
B = np.diag(A, k=-1)
print("Diag: ", id(B.base))
# triu/tril
B = np.triu(A)
print("Triu: ", id(B.base))

# Lineární algebra
Numpy dokáže velice obratně a efektivně pracovat s vektory, maticemi a n-dimenzionálními poli obecně. Toho je potřeba využívat a kdekoli to je možné použít *vektorizovaný kód*, tj. co nejvíce formulovat úlohy pomocí vektorových a maticových operací, jako jsou např. násobení matic.

### Operace se skaláry
Jak bychom asi očekávali, skalárem můžeme násobit, dělit, můžeme ho přičítat nebo odečítat.

In [4]:
v1 = np.arange(0, 5)


In [None]:
v1 * 2


In [None]:
v1 + 2


In [None]:
np.ones((3, 3)) / 4


## Maticové operace po prvcích
Operace jako násobení, sčítání atd. jsou v numpy standardně *po prvcích*, není to tedy klasická maticová (vektorová) algebra.

In [8]:
m1 = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
m1


array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [9]:
m1 * m1


array([[   0,    1,    4,    9,   16],
       [ 100,  121,  144,  169,  196],
       [ 400,  441,  484,  529,  576],
       [ 900,  961, 1024, 1089, 1156],
       [1600, 1681, 1764, 1849, 1936]])

In [5]:
v1 * v1


array([ 0,  1,  4,  9, 16])

## Broadcasting
Termín `Broadcasting` popisuje, jak NumPy zachází s poli s různými tvary během aritmetických operací. S výhradou určitých omezení je menší pole „vysíláno“ přes větší pole, takže mají kompatibilní tvary. Broadcasting poskytuje prostředky pro vektorizaci operací pole tak, aby smyčkování probíhalo v C namísto Pythonu. Dělá to bez vytváření zbytečných kopií dat a obvykle vede k efektivní implementaci algoritmů.

Podrobnější popis broadcastingu je v dokumentaci NumPy viz [tady](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

In [None]:
v1.shape, m1.shape


Výsledek bude mít rozměr `m1.shape`

In [None]:
m1 * v1


## Maticová algebra
Klasickou maticovou algebru zajišťuje pro pole typu `ndarray` funkce `dot` nebo operátor `@` ([PEP-465](https://www.python.org/dev/peps/pep-0465/)):

In [None]:
v1 = np.arange(0, 5)
m1 = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
print(v1)
print(m1)


In [None]:
# maticové násobení dvou matic
np.dot(m1, m1)


In [None]:
m1 @ m1


In [None]:
# maticové násobení vektoru a matice
np.dot(m1, v1)


In [None]:
# skalární součin
v1 @ v1


## Transformace
Už jsme viděli `.T` pro transponování. Existuje také funkce a metoda `transpose`. Dále existuje třeba `conjugate` pro komplexní sdružení.

In [None]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A.T)
print(A.transpose())
print(np.transpose(A))

In [None]:
# transpozice je "view"
print(id(A))
B = A.T
print(id(B.base))

In [None]:
C = np.array([[1j, 2j], [3j, 4j]])
C


In [None]:
np.conjugate(C)      # nebo C.conjugate()


In [None]:
# Hermitovské sdružení
C.conjugate().T


In [None]:
# Hermitovské sdružení není! "view" kvůli conjugate()
print(id(C))
B = C.conjugate()
print(id(B.base))

Reálnou a imaginární část dostaneme pomocí `real` a `imag` nebo `.real` a `.imag` properties:

In [None]:
np.real(C)


In [None]:
C.imag


Komplexní číslo rozložíme na absolutní hodnotu a úhel pomocí `abs` a `angle`.

In [None]:
print(np.angle(C))
# výsledek je v radiánech a všechny hodnoty byly čistě komplexní
print(np.angle(C+1))


In [None]:
np.abs(C + 1)


## Základní funkce lineární algebry

V Numpy existuje modul `linalg`. Pokročilejší lineární algebru je ale třeba hledat jinde, např. ve SciPy. 

Invertovat matici můžeme pomocí `linalg.inv`.

In [None]:
m2 = np.array([[1., 1.5], [-1, 2]])
m2


In [None]:
np.linalg.inv(m2)


In [None]:
# toto by měla být jednotková matice
np.linalg.inv(m2) @ m2


`linalg.det` vypočítá determinant.

In [None]:
np.linalg.det(m2)


## Zpracování dat

Numpy obsahuje mnoho funkcí pro zpracování dat. Některé z nich jsou:
- `np.sort` - seřadí pole
- `np.unique` - vrátí unikátní prvky pole
- `np.mean` - vypočítá průměr
- `np.std` - vypočítá směrodatnou odchylku
- `np.sum` - vypočítá součet
- `np.cumsum` - vypočítá kumulativní součet
- `np.prod` - vypočítá součin
- `np.cumprod` - vypočítá kumulativní součin
- `np.diff` - vypočítá rozdíly mezi sousedními prvky
- ... a mnoho dalších viz [matematické funkce](https://docs.scipy.org/doc/numpy/reference/routines.math.html) a [statistické funcke](https://docs.scipy.org/doc/numpy/reference/routines.statistics.html) 

In [None]:
data = np.random.randint(0, 20, (15))
print(data)


Setřízené a unikátní prvky pole získáme pomocí `np.sort` a `np.unique`.

In [None]:
print(np.sort(data))
print(np.unique(data))
# pokud bychom chtěli indexy setříděných prvků
print(np.argsort(data))


#### mean (aritmetický průměr)

In [None]:
print(np.mean(data))

#### směrodatná odchylka a rozptyl

In [None]:
print(np.std(data))
print(np.var(data))


#### min a max

In [None]:
print(data.min())
print(data.max())


#### sum, prod, trace

In [None]:
print(np.sum(data))
print(np.prod(data))


In [None]:
# lze dělat i řádkové a sloupcové součty
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(A)
print(np.sum(A, axis=0))
print(np.sum(A, axis=1))


In [None]:
# stopa matice = součet prvků na diagonále
print(np.trace(A))

In [None]:
print(data)

In [None]:
# kumulativní součet
np.cumsum(data)


In [None]:
# kumulativní násobení
np.cumprod(data)


# Změny rozměrů polí

Rozměr Numpy polí může být měněn bez kopírování samotných dat, což výrazně tyto operace zrychluje.

Tedy je možné udělat novou proměnnou typu ndarray jakožto "view" na původní data, ale s jiným rozměrem.

In [None]:
m1 = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(m1)

In [None]:
n, m = m1.shape
print(m,n)

Např. takto můžeme vytvořit jednorozměrné pole (řádkový vektor):

In [None]:
m2 = m1.reshape((1, n * m))
print(m2)
print(m2.shape)

Nebo použít -1 pro automatické dopočítání

In [None]:
m1.reshape((1, -1))


Kdybychom chtěli skutečný 1D vector, můžeme použít:
- reshape
- ravel
- flatten, pozor jako jediná vrací kopii místo view

In [None]:
m2 = m1.reshape((n * m))
print(m2)
print(m2.shape)
print(m2.base is m1)
# nebo
m2 = m1.reshape((-1))
print(m2)
print(m2.shape)
print(m2.base is m1)
# nebo
m2 = m1.flatten() 
print(m2)
print(m2.shape)
print(m2.base is m1)
# nebo 
m2 = m1.ravel()
print(m2)
print(m2.shape)
print(m2.base is m1)


### Přidávání dimenzí: `newaxis`

Pomocí `newaxis` můžeme jednoduše pomocí řezů přidávat dimenze. Např. převod 1d vektoru na sloupcovou nebo řádkovou matici.

`newaxis` je pouze konstanta o hodnotě `None`, jedinným účelem je lepší čitelnost kódu.

Stále se bude jednat o view na původní data.

In [10]:
v = np.array([1, 2, 3])
v.shape


(3,)

In [11]:
# vytvoříme sloupec
vc = v[:, np.newaxis]
vc


array([[1],
       [2],
       [3]])

In [None]:
vc = v[:, None]
print(vc)
print(vc.base is v)


In [None]:
vc.shape


## Iterace

Obecně se iteraci vyhýbáme a přednost dáváme vektorovým operacím (viz níže). Někdy je ale iterace nevyhnutelná.

In [None]:
v = np.array([1, 2, 3, 4])

for element in v:
    print(element)


Iteruje se přes první index (po řádcích).

In [None]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print("row: {}".format(row))


# Vektorové funkce

Jak jsme již říkali, vektorové (vektorizované) funkce jsou obecně daleko rychlejší než iterace. Numpy nám naštěstí cestu od skalární po vektorovou funkci usnadňuje.

In [None]:
def Theta(x):
    """
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0


In [None]:
# toto bychom chtěli, ale asi to nebude fungovat
Theta(np.array([-3, -2, -1, 0, 1, 2, 3]))


Pro vektorizaci naší funkce nám Numpy nabízí `vectorize`.

In [None]:
Theta_vec = np.vectorize(Theta)


In [None]:
Theta_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))


To bylo celkem snadné ... Můžeme také (a pokud to jde tak bychom měli) přepsat naši funkci tak, aby fungovala jak pro skaláry tak pro pole.

In [None]:
def Theta_numpy(x):
    """
    Vector-aware implemenation of the Heaviside step function.
    """
    return 1 * (x >= 0)


In [None]:
Theta_numpy(np.array([-3, -2, -1, 0, 1, 2, 3]))


In [None]:
# funguje i pro skalár
Theta_numpy(-1.2), Theta_numpy(2.6)


Pojďme zkusit porovnat rychlost vektorizovaných funkcí. Tipnete si jaká bude rychlejší, případně jak moc rychlejší?

In [None]:
randvec = np.random.random_sample((10000)) * 2000 - 1000


In [None]:
%timeit Theta_vec(randvec)


In [None]:
%timeit Theta_numpy(randvec)


# Používání polí v podmínkách
Pokud chceme testovat po prvcích, v podmínkách pak použijeme metody `all` nebo `any`.

In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])


In [None]:
# výsledkem M > 5 je pole boolovských hodnot
M > 5


In [None]:
if (M > 5).any():
    print("M obsahuje alespoň jeden prvek větší než 5")
else:
    print("M neobsahuje žádný prvek větší než 5")


In [None]:
if (M > 5).all():
    print("všechny prvky v M jsou větší než 5")
else:
    print("M obsahuje alespoň jeden prvek menší rovno 5")


# Změna typů
Numpy pole jsou *staticky typovaná*. Pro změnu typu můžeme použít metodu `astype` (případně `asarray`).

In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
M.dtype


In [None]:
M2 = M.astype(float)
M2


In [None]:
# přetypování udělá kopii
print(M2.base is M)

In [None]:
# pokudd bychom chtěli "view", tedy vyhodnotit data jako float
# použijeme metodu view, ale pozor 1 jakožto int není 1.0 jakožto float
M2 = M.view(float)
print(M2)
print(M2.base is M)

In [None]:
M3 = M.astype(bool)
M3


## Další čtení

* https://numpy.org/
* https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/index.html