[NumPy](http://www.numpy.org) je základní Python knihovna pro práci s numerickými daty, konkrétně s 1- až n-rozměrnými maticemi. Implementace (pro CPython) je z velké části napsána v C a Fortranu a používá BLAS knihovny. Numpy tak umožňuje pracovat s numerickými daty ve stylu Python kontejnerů (existují samozřejmě rozdíly) a zároveň zachovat rychlost kompilovaných jazyků.

V této lekci projdeme:
- Co je to `numpy` ndarray?
- Vytváření `numpy` polí.
- Ukládání a načítání polí.

Tento notebook s úctou vykrádá:  [Lectures on scientific computing with Python](http://github.com/jrjohansson/scientific-python-lectures) a [numerical_python_course](https://gitlab.com/coobas/numerical_python_course)

# Importujeme numpy

Chceme-li použít `numpy`, je samozřejmě nutné modul importovat. Obvykle se použivá zkratka `np`: 


In [None]:
import numpy as np


## Proč NumPy?

* Python seznamy jsou příliš obecné. Mohou obsahovat jakýkoliv druh objektu. Jsou dynamicky typované. Nepodporují matematické funkce, jako maticové násobení. 

* NumPy pole jsou staticky typovaná a homogenní. Typ prvků je určen při vytvoření pole.
* NumPy pole jsou efektivně uložena v paměti.
* Díky těmto vlastnostem lze implementovat matematické operace, jako je násobení nebo sčítání, v rychlém, kompilovaném jazyce (C/Fortran).

# `NumPy` pole: `ndarray`

`ndarray` je základní datový typ v `numpy`. Jedná se o n-rozměrné pole (vektor, matice, tensor) se záznamy stejného typu (typicky) čísly (integers, floats, complex numbers).

In [None]:
# numpy.ndarray
help(np.ndarray)


In [None]:
# konstruktor můžeme použít pro vytvoření pole
# hlavní povinný parametr je shape = velikost v jednotlivých dimenzích
A = np.ndarray(shape=(2, 3, 2))
A


Toto ale není běžný způsob, jakým bychom si `numpy` pole vytvářeli. Většinou budeme chtít pole s nějakými konkétními hodnotami. Zde se pouze alokovala paměť ale její hodnota není definována = je taková jaké bity byly na daném místě v paměti předtím.


## Vlastnosti `ndarray`

`ndarray` má mnoho zajímavách metod a atributů. Některé z nich jsou:
- `ndarray.ndim` - počet rozměrů
- `ndarray.shape` - velikost pole v jednotlivých rozměrech
- `ndarray.size` - celkový počet prvků v poli
- `ndarray.dtype` - typ prvků v poli
- `ndarray.itemsize` - velikost jednoho prvku v bajtech
- `ndarray.nbytes` - celková velikost pole v bajtech
- `ndarray.strides` - posuny v bajtech mezi jednotlivými prvky v jednotlivých rozměrech
- `ndarray.data` - buffer obsahující samotná data
- ...


In [None]:
# seznam všech atributů a metod
dir(A)


In [None]:
print(A.ndim)
print(A.shape)
print(A.size)

print(A.dtype)

print(A.itemsize)
print(A.nbytes)
print(A.strides)

print(A.data)


Běžně se používá pořadí prvků v paměti jako C (row-major), je možné nastavit pořadí jako Fortran (column-major) a to pomocí atributu `order`.

In [None]:
# vytvoření pole s jiným vnitřním pořadím
A = np.ndarray(shape=(2, 3, 2), order='F')
print(A.strides)


## Typy prvků v numpy poli
Obecný objekt pro reprezentaci datového typu v `numpy` je `dtype`, který obsahuje veškeré informace o datovém typu.

Nicméně, vetšinou nám stačí velmi jednoduchý typ jako je například `int`, `float` a v těchto případech nemusíme typ zadávat pomocí objektu `dtype`.


**Základní typy:**

Celá čísla:
- `numpy.int8` - 8-bit integer
- `numpy.int16` - 16-bit integer
- `numpy.int32` - 32-bit integer
- `numpy.int64` - 64-bit integer
- třídu `int` (bez `numpy.`) - zvolí velikost integeru podle platformy (32-bit integer na 32-bit platformě, 64-bit integer na 64-bit platformě)

Desetinná čísla:
- `numpy.float16` - 16-bit floating point
- `numpy.float32` - 32-bit floating point
- `numpy.float64` - 64-bit floating point
- `numpy.float128` - 128-bit floating point
- třída `float` (bez `numpy.`) - zvolí velikost floating point podle platformy (32-bit floating point na 32-bit platformě, 64-bit floating point na 64-bit platformě)

Komplexní čísla:
- `numpy.complex64` - 64-bit complex number
- `numpy.complex128` - 128-bit complex number
- `numpy.complex256` - 256-bit complex number
- třídu `complex` (bez `numpy.`) - zvolí velikost complex number podle platformy (64-bit complex number na 32-bit platformě, 128-bit complex number na 64-bit platformě)

Boolean:
- `bool` (bez `numpy.`)  - boolean

In [None]:
A = np.ndarray(shape=(1), dtype=np.int8)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=int)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=np.float16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=float)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=np.complex64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex256)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=complex)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=bool)
print(A)
print(A.itemsize)


**Komplikovanější typy:**

Je jich mnoho, může se hodit například
- `numpy.datetime64` - datetime64

Pokročilejší typy definujeme pomocí objektu `dtype`. Více viz [dokumentace 1](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html) a [dokumentace 2](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [None]:
A = np.array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype=np.datetime64)
print(A)
print(A.itemsize)
print(A.dtype)


Komplikovanější typy definujeme pomocí objektu `dtype`. Například pro ukázku:

```python 
my_dt = np.dtype([('název prvního sloupce', 'i4'), ('název druhého sloupce', 'f8'), ('název třetího sloupce', 'S5')])
```

Argumentem funkce np.dtype je seznam n-tic, kde každá n-tice reprezentuje "sloupec" v poli NumPy. V tomto příkladu máme tři sloupce.

První prvek každé n-tice je název sloupce a druhý prvek je řetězec, který reprezentuje datový typ pro tento sloupec. V tomto příkladu máme:

`np.int32` neboli `'i4'`: datový typ celého čísla o velikosti 4 bytů
`np.float64` neboli `'f8'`: datový typ s pohyblivou řádovou čárkou o velikosti 8 bytů
`np.bytes_, 5` neboli `'S5'`: datový typ řetězce s maximální délkou 5 bytů

In [None]:
# ukazka, kde prvkem je trojice integer, float, string s delkou 5
my_dt = np.dtype([('sloupec s číslem', np.int32),
                  ('sloupec s floatem', np.float64),
                  ('sloupec s pěti znaky', np.bytes_, 5)])

# vytvoříme 2x2 matici se záznami daného typu
A = np.array([[(1, 2.0, "hello"), (3, 4.0, "world")],
              [(5, 6.0, "numpy"), (5, 6.0, "numpy")]], dtype=my_dt)

print(A)
print(A.itemsize)
print(A[0, 0])
print(A['sloupec s pěti znaky'])


In [None]:
A[1, 1] = (10, 20.0, "hello world")
print(A)


# Změna typů
Numpy pole jsou *staticky typovaná*. Pro změnu typu můžeme použít metodu `astype` (případně `asarray`).

In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
M.dtype


In [None]:
M2 = M.astype(float)
M2


In [None]:
# pokudd bychom chtěli "view", tedy vyhodnotit data jako float
# použijeme metodu view, ale pozor 1 v int není 1.0 ve float
M2 = M.view(float)
print(M2)

In [None]:
M3 = M.astype(bool)
M3
