# 1. NumPy a `ndarray`

[NumPy](http://www.numpy.org) je základní Python knihovna pro práci s numerickými daty. Hlavním datovým typem je `ndarray`, tedy n-rozměrné pole hodnot stejného typu.

V tomto notebooku se zaměříme na:
- co je `ndarray`,
- jaké má vlastnosti,
- jaké datové typy může obsahovat.


Notebook vychází z materiálů:
- [Lectures on scientific computing with Python](http://github.com/jrjohansson/scientific-python-lectures)
- [numerical_python_course](https://gitlab.com/coobas/numerical_python_course)


## 1.1 Import knihovny

Pro práci s knihovnou `numpy` ji obvykle importujeme pod aliasem `np`.


In [None]:
import numpy as np


## 1.2 Proč NumPy?

- Python seznamy jsou obecné: mohou obsahovat různé typy objektů a nejsou optimalizované pro numerické výpočty.
- `ndarray` je homogenní (má jeden datový typ), takže je paměťově úspornější.
- Operace nad poli jsou v NumPy implementované efektivně v kompilovaném kódu (C/Fortran).


## 1.3 Datový typ `ndarray`

`ndarray` je základní datový typ v `numpy`. Reprezentuje n-rozměrné pole prvků stejného typu.


In [None]:
# numpy.ndarray
help(np.ndarray)


In [None]:
# konstruktor můžeme použít pro vytvoření pole
# hlavní povinný parametr je shape = velikost v jednotlivých dimenzích
A = np.ndarray(shape=(2, 3, 2))
A


Přímé volání konstruktoru `np.ndarray` není běžný způsob tvorby polí. Typicky chceme pole rovnou naplnit konkrétními hodnotami.

V ukázce výše se pouze alokovala paměť, ale hodnoty se neinicializovaly. Proto mohou v poli být libovolná data, která v paměti zůstala z předchozí práce programu.


## 1.4 Základní vlastnosti `ndarray`

`ndarray` má řadu užitečných atributů. Nejčastěji se hodí:
- `ndarray.ndim` - počet rozměrů,
- `ndarray.shape` - velikost pole v jednotlivých rozměrech,
- `ndarray.size` - celkový počet prvků,
- `ndarray.dtype` - datový typ prvků,
- `ndarray.itemsize` - velikost jednoho prvku v bajtech,
- `ndarray.nbytes` - celková velikost pole v bajtech,
- `ndarray.strides` - posuny v bajtech mezi prvky,
- `ndarray.data` - buffer se samotnými daty.


In [None]:
# seznam všech atributů a metod
dir(A)


In [None]:
print(A.ndim)
print(A.shape)
print(A.size)

print(A.dtype)

print(A.itemsize)
print(A.nbytes)
print(A.strides)

print(A.data)


Výchozí pořadí prvků v paměti je C-order (row-major). Lze ale použít i Fortran-order (column-major), například přes parametr `order='F'`.


In [None]:
# vytvoření pole s jiným vnitřním pořadím
A = np.ndarray(shape=(2, 3, 2), order='F')
print(A.strides)


## 1.5 Datové typy v NumPy

Objekt `dtype` popisuje datový typ prvků v poli.

Běžné typy:
- celá čísla: `np.int8`, `np.int16`, `np.int32`, `np.int64`, `int`,
- desetinná čísla: `np.float16`, `np.float32`, `np.float64`, `float`,
- komplexní čísla: `np.complex64`, `np.complex128`, `complex`,
- logické hodnoty: `bool`.

Poznámka: některé rozšířené typy (například `float128` nebo `complex256`) nejsou dostupné na všech platformách.


In [None]:
for dtype in (np.int8, np.int16, np.int32, np.int64, int):
    A = np.ndarray(shape=(1,), dtype=dtype)
    print(dtype, A, A.itemsize)
    print('---')


In [None]:
for dtype in (np.float16, np.float32, np.float64, float):
    A = np.ndarray(shape=(1,), dtype=dtype)
    print(dtype, A, A.itemsize)
    print('---')

if hasattr(np, 'float128'):
    A = np.ndarray(shape=(1,), dtype=np.float128)
    print(np.float128, A, A.itemsize)
    print('---')


In [None]:
for dtype in (np.complex64, np.complex128, complex):
    A = np.ndarray(shape=(1,), dtype=dtype)
    print(dtype, A, A.itemsize)
    print('---')

if hasattr(np, 'complex256'):
    A = np.ndarray(shape=(1,), dtype=np.complex256)
    print(np.complex256, A, A.itemsize)
    print('---')


In [None]:
A = np.ndarray(shape=(1), dtype=bool)
print(A)
print(A.itemsize)


### 1.5.1 Další typy

NumPy nabízí i další datové typy, například:
- `numpy.datetime64`.

Pokročilejší přehled je v [dokumentaci dtype](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html) a v [přehledu datových typů](https://numpy.org/doc/stable/reference/arrays.dtypes.html).


In [None]:
A = np.array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype=np.datetime64)
print(A)
print(A.itemsize)
print(A.dtype)


### 1.5.2 Strukturovaný `dtype`

Složené (strukturované) typy definujeme pomocí `np.dtype`, kde pro každý "sloupec" zadáme jméno a datový typ.

```python
my_dt = np.dtype([
    ('cele_cislo', 'i4'),
    ('desetinne_cislo', 'f8'),
    ('kratky_text', 'S5')
])
```


In [None]:
# ukázka, kde jeden prvek obsahuje trojici: integer, float, text délky 5
my_dt = np.dtype([
    ('cele_cislo', np.int32),
    ('desetinne_cislo', np.float64),
    ('kratky_text', 'S5')
])

A = np.array([
    [(1, 2.0, 'hello'), (3, 4.0, 'world')],
    [(5, 6.0, 'numpy'), (7, 8.0, 'panda')]
], dtype=my_dt)

print(A)
print(A.itemsize)
print(A[0, 0])
print(A['kratky_text'])


In [None]:
# text delší než 5 znaků se ořízne podle dtype 'S5'
A[1, 1] = (10, 20.0, 'hello world')
print(A)


## 1.6 Změna datového typu

NumPy pole je typově homogenní. Pro převod typu použijeme nejčastěji metodu `astype`.


In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=np.int64)
M.dtype


In [None]:
M2 = M.astype(float)
M2


In [None]:
# pokud chceme "view", data se nepřetypují, jen se interpretují jinak
# pozor: stejné bity mohou po změně interpretace znamenat jiné hodnoty
M_view = M.view(np.float64)
print(M_view)


In [None]:
M3 = M.astype(bool)
M3
