[NumPy](http://www.numpy.org) je základní Python knihovna pro práci s numerickými daty, konkrétně s 1- až n-rozměrnými maticemi. Implementace (pro CPython) je z velké části napsána v C a Fortranu a používá BLAS knihovny. Numpy tak umožňuje pracovat s numerickými daty ve stylu Python kontejnerů (existují samozřejmě rozdíly) a zároveň zachovat rychlost kompilovaných jazyků.

V této lekci projdeme:
- Co je to `numpy` ndarray?
- Vytváření `numpy` polí.
- Indexování a slicing `numpy` polí.
- Co je to `numpy` array view?
- Broadcasting.
- Elementwise operace.
- Maticové operace.

Tento notebook s úctou vykrádá:  [Lectures on scientific computing with Python](http://github.com/jrjohansson/scientific-python-lectures) a [numerical_python_course](https://gitlab.com/coobas/numerical_python_course)

# Importujeme numpy

Chceme-li použít `numpy`, je samozřejmě nutné modul importovat. Obvykle se použivá zkratka `np`: 


In [None]:
import numpy as np


## Proč NumPy?

* Python seznamy jsou příliš obecné. Mohou obsahovat jakýkoliv druh objektu. Jsou dynamicky typované. Nepodporují matematické funkce, jako maticové násobení. 

* NumPy pole jsou staticky typovaná a homogenní. Typ prvků je určen při vytvoření pole.
* NumPy pole jsou efektivně uložena v paměti.
* Díky těmto vlastnostem lze implementovat matematické operace, jako je násobení nebo sčítání, v rychlém, kompilovaném jazyce (C/Fortran).

# `NumPy` pole: `ndarray`

`ndarray` je základní datový typ v `numpy`. Jedná se o n-rozměrné pole (vektor, matice, tensor) se záznamy stejného typu (typicky) čísly (integers, floats, complex numbers).

In [None]:
# numpy.ndarray
help(np.ndarray)


In [None]:
# konstruktor můžeme použít pro vytvoření pole
# hlavní povinný parametr je shape = velikost v jednotlivých dimenzích
A = np.ndarray(shape=(2, 3, 2))
A


Toto ale není běžný způsob, jakým bychom si `numpy` pole vytvářeli. Většinou budeme chtít pole s nějakými konkétními hodnotami. Zde se pouze alokovala paměť ale její hodnota není definována = je taková jaké bity byly na daném místě v paměti předtím.


## Vlastnosti `ndarray`

`ndarray` má mnoho zajímavách metod a atributů. Některé z nich jsou:
- `ndarray.ndim` - počet rozměrů
- `ndarray.shape` - velikost pole v jednotlivých rozměrech
- `ndarray.size` - celkový počet prvků v poli
- `ndarray.dtype` - typ prvků v poli
- `ndarray.itemsize` - velikost jednoho prvku v bajtech
- `ndarray.nbytes` - celková velikost pole v bajtech
- `ndarray.strides` - posuny v bajtech mezi jednotlivými prvky v jednotlivých rozměrech
- `ndarray.data` - buffer obsahující samotná data
- ...


In [None]:
# seznam všech atributů a metod
dir(A)


In [None]:
print(A.ndim)
print(A.shape)
print(A.size)

print(A.dtype)

print(A.itemsize)
print(A.nbytes)
print(A.strides)

print(A.data)


Běžně se používá pořadí prvků v paměti jako C (row-major), je možné nastavit pořadí jako Fortran (column-major) a to pomocí atributu `order`.

In [7]:
# vytvoření pole s jiným vnitřním pořadím
A = np.ndarray(shape=(2, 3, 2), order='F')
print(A.strides)


(8, 16, 48)


## Typy prvků v numpy poli
Obecný objekt pro reprezentaci datového typu v `numpy` je `dtype`, který obsahuje veškeré informace o datovém typu.

Nicméně, vetšinou nám stačí velmi jednoduchý typ jako je například `int`, `float` a v těchto případech nemusíme typ zadávat pomocí objektu `dtype`.


**Základní typy:**

Celá čísla:
- `numpy.int8` - 8-bit integer
- `numpy.int16` - 16-bit integer
- `numpy.int32` - 32-bit integer
- `numpy.int64` - 64-bit integer
- třídu `int` (bez `numpy.`) - zvolí velikost integeru podle platformy (32-bit integer na 32-bit platformě, 64-bit integer na 64-bit platformě)

Desetinná čísla:
- `numpy.float16` - 16-bit floating point
- `numpy.float32` - 32-bit floating point
- `numpy.float64` - 64-bit floating point
- `numpy.float128` - 128-bit floating point
- třída `float` (bez `numpy.`) - zvolí velikost floating point podle platformy (32-bit floating point na 32-bit platformě, 64-bit floating point na 64-bit platformě)

Komplexní čísla:
- `numpy.complex64` - 64-bit complex number
- `numpy.complex128` - 128-bit complex number
- `numpy.complex256` - 256-bit complex number
- třídu `complex` (bez `numpy.`) - zvolí velikost complex number podle platformy (64-bit complex number na 32-bit platformě, 128-bit complex number na 64-bit platformě)

Boolean:
- `bool` (bez `numpy.`)  - boolean

In [None]:
A = np.ndarray(shape=(1), dtype=np.int8)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.int64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=int)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=np.float16)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float32)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.float128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=float)
print(A)
print(A.itemsize)


In [None]:
A = np.ndarray(shape=(1), dtype=np.complex64)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex128)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=np.complex256)
print(A)
print(A.itemsize)
print("---")
A = np.ndarray(shape=(1), dtype=complex)
print(A)
print(A.itemsize)


In [20]:
A = np.ndarray(shape=(1), dtype=bool)
print(A)
print(A.itemsize)


[ True]
1


**Komplikovanější typy:**

Je jich mnoho, může se hodit například
- `numpy.datetime64` - datetime64

Pokročilejší typy definujeme pomocí objektu `dtype`. Více viz [dokumentace 1](https://numpy.org/doc/stable/reference/generated/numpy.dtype.html) a [dokumentace 2](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [None]:
A = np.array(['2007-07-13', '2006-01-13', '2010-08-13'], dtype=np.datetime64)
print(A)
print(A.itemsize)
print(A.dtype)


Komplikovanější typy definujeme pomocí objektu `dtype`. Například pro ukázku:

```python 
my_dt = np.dtype([('název prvního sloupce', 'i4'), ('název druhého sloupce', 'f8'), ('název třetího sloupce', 'S5')])
```

Argumentem funkce np.dtype je seznam n-tic, kde každá n-tice reprezentuje "sloupec" v poli NumPy. V tomto příkladu máme tři sloupce.

První prvek každé n-tice je název sloupce a druhý prvek je řetězec, který reprezentuje datový typ pro tento sloupec. V tomto příkladu máme:

`np.int32` neboli `'i4'`: datový typ celého čísla o velikosti 4 bytů
`np.float64` neboli `'f8'`: datový typ s pohyblivou řádovou čárkou o velikosti 8 bytů
`np.string_, 5` neboli `'S5'`: datový typ řetězce s maximální délkou 5 bytů

In [None]:
# ukazka, kde prvkem je trojice integer, float, string s delkou 5
my_dt = np.dtype([('sloupec s číslem', np.int32),
                  ('sloupec s floatem', np.float64),
                  ('sloupec s pěti znaky', np.string_, 5)])

# vytvoříme 2x2 matici se záznami daného typu
A = np.array([[(1, 2.0, "hello"), (3, 4.0, "world")],
              [(5, 6.0, "numpy"), (5, 6.0, "numpy")]], dtype=my_dt)

print(A)
print(A.itemsize)
print(A[0, 0])
print(A['sloupec s pěti znaky'])


In [None]:
A[1, 1] = (10, 20.0, "hello world")
print(A)


## Vytváření numpy polí
Existuje několik základních způsobů, jak vytvořit nové numpy pole:

- Z nějakého kontejneru typu seznam (`list`) nebo `tuple`.
    - např. `np.array([1, 2, 3])`
- Pomocí funkce numpy, která generuje `ndarray` s konkrétními hodnotami
    - např. `np.zeros((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 0
    - např. `np.ones((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 1
    - např. `np.full((2, 3), 5)` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny 5
    - např. `np.arange(10)` vytvoří pole o velikosti 10, kde jsou všechny prvky rovny 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
    - např. `np.linspace(0, 1, 5)` vytvoří pole o velikosti 5, kde jsou všechny prvky rovny 0, 0.25, 0.5, 0.75, 1
    - např. `np.logspace(0, 1, 5)` vytvoří pole o velikosti 5, kde jsou všechny prvky rovny 1, 1.778, 3.162, 5.623, 10
    - např. `np.random.random((2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným číslům z intervalu [0, 1)
    - např. `np.random.normal(0, 1, (2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným číslům z normálního rozdělení s průměrem 0 a směrodatnou odchylkou 1
    - např. `np.random.randint(0, 10, (2, 3))` vytvoří pole o velikosti 2x3, kde jsou všechny prvky rovny náhodným celým číslům z intervalu [0, 10)
    - Z jiného numpy pole
        - např. pomocí výběru (slicing), pozor na to, že se vytvoří nové pole, které sdílí data s původním polem (view)
        - např. pomocí `np.diag` pro vytvoření pole z diagonály jiného pole
        - např. pomocí `np.diagflat` pro vytvoření pole s diagonálou z jiného pole
- Načtením ze souboru
    - např. `np.loadtxt('filename.txt')` načte pole ze souboru `filename.txt`
    - např. `np.genfromtxt('filename.txt', delimiter=',')` načte pole ze souboru `filename.txt` s oddělovačem čárka


### Vytváření numpy polí z python kontejnerů

In [None]:
muj_list = [1, 2, 3, 4, 5]
A = np.array(muj_list)
print(A)
print(A.dtype)


Vícerozměrné pole (matice) se vytvoří z vnořeného seznamu.

In [None]:
matrix = np.array([[1, 2], [3, 4]])
matrix


In [None]:
muj_touple = (1, 2, 3, 4, 5)
A = np.array(muj_touple)
print(A)
print(A.dtype)


Ze `set` a `dict` se vytvoří něco jiného než bychom asi očekávali.

In [None]:
muj_set = {1, 2, 3, 4, 5}
A = np.array(muj_set)
print(A)
print(type(A))
print(A.dtype)
print(A.shape)
print(A.size)
print(A.ndim)
print(A.itemsize)


In [None]:
muj_dict = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
A = np.array(muj_dict)
print(A)
print(type(A))
print(A.dtype)
print(A.shape)
print(A.size)
print(A.ndim)
print(A.itemsize)


### Numpy funkce pro vytváření ndarray
Zejména velká pole by bylo nepraktické inicializovat pomocí seznamů. Naštěstí v numpy existují [funkce](http://docs.scipy.org/doc/numpy/reference/routines.array-creation.html), které generují typická pole.

**`arange`** vygeneruje posloupnost, syntaxe je stejná jako `range`, ale funguje i pro desetinná a záporná čísla.

In [8]:
np.arange(0, 10, 1)  # argumenty: start, stop, step


array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
np.arange(-1, 0, 0.1)

array([-1. , -0.9, -0.8, -0.7, -0.6, -0.5, -0.4, -0.3, -0.2, -0.1])

**`linspace`** a **`logspace`** vytváří posloupnosti s daným počtem prvků.

In [None]:
# první a poslední prvek jsou obsaženy ve výsledku
# argumenty jsou odkud, kam, kolik prvků
np.linspace(0, 10, 5)


In [None]:
# podobně jako linspace, ale výsledek je base**x
np.logspace(0, 10, 11, base=10)


**`ones`** a **`zeros`** vytvoří pole ze samých nul nebo jedniček.

In [None]:
np.ones(3)


In [None]:
# pokud chceme 2 a více rozměrů, musíme zadat rozměr jako tuple
np.zeros((2, 3))


In [25]:
# matice s string hodnotami pomocí np.full
np.full((2, 3), "hello world")

array([['hello world', 'hello world', 'hello world'],
       ['hello world', 'hello world', 'hello world']], dtype='<U11')

**`mgrid`** tvoří pravidelnou mříž.

In [12]:
# všimněte si syntaxe s hranatými závorkami, mgrid se nevolá jako funkce
x, y = np.mgrid[0:2, 0:3]
print(f"x = \n{x}")
print(f"y = \n{y}")


x = 
[[0 0 0]
 [1 1 1]]
y = 
[[0 1 2]
 [0 1 2]]


Náhodná data vytvoří funkce z modulu **`random`**, základní z nich je **`rand`**.

In [15]:
# několik náhodných čísel [0, 1] s rovnoměrným rozdělením
np.random.rand(4,2)


array([[0.48352943, 0.92177125],
       [0.26157178, 0.25383211],
       [0.53283155, 0.60083829],
       [0.83713735, 0.52587014]])

**`diagflat`** vytvoří diagonální matici, **`diagonal`** vrátí diagonálu matice.

In [16]:
# diagonální matice
diag = np.diagflat([1, 2, 3])
diag


array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

In [17]:
# vrátí diagonálu jako vektor
np.diagonal(diag)


array([1, 2, 3])

## Práce se soubory

### ASCII soubory
S textovými (ASCII) soubory obsahující data se setkáváme stále často, přestože to z mnoha důvodů není ideální formát. Na čtení ASCII (spadá sem i CSV) máme v Numpy `genfromtxt` a `loadtxt`. V [dokumentaci](http://docs.scipy.org/doc/numpy/reference/routines.io.html) se dozvíte, jak přesně fungují a jaké mají argumenty.

Pomocí `%%file` vytvoříme soubor `ascii_data_1.txt`

In [None]:
% % file ascii_data_1.txt
1 - 6.1 - 6.1 - 6.1 1
2 - 15.4 - 15.4 - 15.4 1
3 - 15.0 - 15.0 - 15.0 1
4 - 19.3 - 19.3 - 19.3 1
5 - 16.8 - 16.8 - 16.8 1
6 - 11.4 - 11.4 - 11.4 1
7 - 7.6 - 7.6 - 7.6 1
8 - 7.1 - 7.1 - 7.1 1
9 - 10.1 - 10.1 - 10.1 1
10 - 9.5 - 9.5 - 9.5 1


Nyní se pokusíme soubor načíst pomocí `genfromtxt`.

In [None]:
data = np.genfromtxt('ascii_data_1.txt')
print(data)


`loadtxt` by mělo fungovat také:

In [None]:
np.loadtxt('ascii_data_1.txt')


`savetxt` můžeme použít na uložení.

In [None]:
np.savetxt("ascii_data_1_new.txt", data, fmt="%6g")


Soubor můžeme vypsat:

In [None]:
print(open("ascii_data_1_new.txt", "r").read())


Obecně se snažte textovým souborům (včetně csv apod.) pro numerická datavyhýbat. Jejich formát je vždy do značné míry neurčitý a na disku zabírají zbytečně moc místa. Výhodou je pouze jednoduchost zobrazení v textovém editoru nebo příkazové řadce.

### Binární formáty

Pro numerická data se daleko více hodí binární soubory, které jsou dobře definované a úsporné na místo. Pokud použijeme vhodný a rozšířený formát, nemusíme se bát ani přenositelnosti.

Numpy má vlastní NPY formát. Ten je pochopitelně jednoduchý na používání v NumPy, s přenositelností (pro stále ještě neuživatele Pythonu a obecně další systémy) je to ale už horší. Pomocí `save` a `load` můžete jednoduše ukládat a nahrávat Numpy objekty.

In [None]:
np.save("ascii_data_1_new.npy", data)


In [None]:
np.load("ascii_data_1_new.npy")


Velice dobrým a rozšířeným standardem je pak [HDF5](https://www.hdfgroup.org/solutions/hdf5/). Pro Python je jednoduché tento foromát používat pomocí knihovny [h5py](https://www.h5py.org/).

In [None]:
# pokud nemáte h5py nainstalované, můžete jednoduše nainstalovat přímo z notebooku momocí
# %conda install h5py
# nebo pokud používáte pip prostředí
# %pip install h5py


In [None]:
import h5py


V HDF5 souborech jsou data ve stromové struktuře (obdoba aresářů a souborů). Soubor se dvěma datasety můžeme vytvořit např. takto:

In [None]:
with h5py.File("test_hdf5.h5", "w") as hdf5_file:
    hdf5_file.create_dataset("data", data=data)
    hdf5_file.create_dataset("random", data=np.random.random_sample((3, 4)))


In [None]:
with h5py.File("test_hdf5.h5", "r") as hdf5_file:
    # musíme data "nahrát" pomocí [:], jinak by byl výsledek jen "ukazatel" na data
    data_hdf5 = hdf5_file["data"][:]


In [None]:
data_hdf5


Jelikož v HDF5 souboru může být velké množství dat (mnoho datasetů, velká data), je čtení dat z HDF5 "lazy": Dokud data opravdu nepotřebujeme v paměti (např. v NumPy poli), data zůstávají jen v souboru a v paměti máme jen jejich popis, jakýsi ukazatel na data.

To můžete vyzkoušet vymazáním `[:]` z načítání data v předchozí ukázce.

## Práce s NumPy poli

### Indexování a řezání

In [None]:
vector = np.linspace(0, 3, 7)
vector


Numpy pole můžeme indexovat podobně jako list.

První prvek vektoru:

In [None]:
vector[0]


In [None]:
matrix = np.array([[1, 2], [3, 4]], dtype=int)
matrix


Pro matice můžeme použít rozšířeného indexování - více argumentů pro řez:

In [None]:
matrix[1, 1]


Pokud jeden index vynecháme, vrátí numpy N-1 rozměrný řez.

In [None]:
matrix[1]


Toho samého docílíme pomocí `:`

In [None]:
matrix[1, :]


První sloupec:

In [None]:
matrix[:, 1]


Můžeme také přiřazovat honoty do indexovaných polí.

In [None]:
matrix[0, 0] = -10
print(matrix)


Funguje to i pro více prvků:

In [None]:
matrix[1, :] = 0
print(matrix)


Řezy mají stejnou syntaxi jako pro seznamy (řezy jsou ostatně koncept Pythonu jako takového). Pro připomenutí, tato syntaxe je `[dolní_mez : horní_mez : krok]`.

In [None]:
my_array = np.arange(1, 10)
my_array


Jednoduchý řez s krokem 1:

In [None]:
my_array[1:3]


Řez s krokem 2

In [None]:
my_array[:-2:2]


**Řezy jsou mutable**: pokud do nich něco přiřadíme, projeví se to na původním objektu.

In [None]:
my_array[1:3] = [-2, -3]
my_array


Řezy fungují i pro vícerozměrné matice.

In [None]:
my_array = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
my_array


Část původní matice

In [None]:
my_array[3:, 1:-1]


Řez s krokem 2

In [None]:
my_array[::2, ::2]


### Jetě elegantnější vyřezávání
Pro řezy můžeme použít nejen čísla, ale také přímo pole. Např. pro výběr některých řádků

In [None]:
row_indices = [1, 2]
my_array[row_indices]


Můžeme indexovat i dvěma poli:

In [None]:
my_array[[1, 2, 3], [1, -1, 0]]


Můžeme také použít **maskování**. Např. vytvoříme masku dělitelnosti třemi.

In [None]:
mask3 = my_array % 3 == 0
print(mask3)


Tuto masku pak můžeme použít pro vytvoření řezu.

In [None]:
my_array[mask3]


### Cvičení

1. Z pole 8x8 samých nul vyvořte pomocí řezů co nejelegantnějším způsobem 8x8 matici, která vypadá jako šachovnice.
```
0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0
0 1 0 1 0 1 0 1
1 0 1 0 1 0 1 0
```
2. Pomocí `np.random.randint` vytvořte vektor dvouciferných kladných celých čísel. Poté pomocí indexu typu masky nahraďte liché hodnoty jejich opačnou hodnotou. Např. [11, 20, 42, 33] -> [-11, 20, 42, -33].

## Lineární algebra
Numpy dokáže velice obratně a efektivně pracovat s vektory, maticemi a n-dimenzionálními poli obecně. Toho je potřeba využívat a kdekoli to je možné použít *vektorizovaný kód*, tj. co nejvíce formulovat úlohy pomocí vektorových a maticových operací, jako jsou např. násobení matic.

### Operace se skaláry
Jak bychom asi očekávali, skalárem můžeme násobit, dělit, můžeme ho přičítat nebo odečítat.

In [None]:
v1 = np.arange(0, 5)


In [None]:
v1 * 2


In [None]:
v1 + 2


In [None]:
np.ones((3, 3)) / 4


## Maticové operace po prvcích
Operace jako násobení, sčítání atd. jsou v numpy standardně *po prvcích*, není to tedy klasická maticová (vektorová) algebra.

In [None]:
m1 = np.array([[n + m * 10 for n in range(5)] for m in range(5)])
m1


In [None]:
m1 * m1


In [None]:
v1 * v1


Pokud se dají pole rozšířit na společný rozměr, numpy to za nás udělá.

In [None]:
v1.shape, m1.shape


Výsledek bude mít rozměr `m1.shape`

In [None]:
m1 * v1


## Maticová algebra
Klasickou maticovou algebru zajišťuje pro pole typu `ndarray` funkce `dot` nebo operátor `@` ([PEP-465](https://www.python.org/dev/peps/pep-0465/)):

In [None]:
# maticové násobení dvou matic
np.dot(m1, m1)


In [None]:
m1 @ m1


In [None]:
# maticové násobení vektoru a matice
np.dot(m1, v1)


In [None]:
# skalární součin
v1 @ v1


## Transformace
Už jsme viděli `.T` pro transponování. Existuje také funkce a metoda `transpose`. Dále existuje třeba `conjugate` pro komplexní sdružení.

In [None]:
C = np.array([[1j, 2j], [3j, 4j]])
C


In [None]:
np.conjugate(C)      # nebo C.conjugate()


In [None]:
# Hermitovské sdružení
C.conjugate().T


Reálnou a imaginární část dostaneme pomocí `real` a `imag` nebo `.real` a `.imag` properties:

In [None]:
np.real(C)


In [None]:
C.imag


Komplexní číslo rozložíme na absolutní hodnotu a úhel pomocí `abs` a `angle`.

In [None]:
np.angle(C + 1)


In [None]:
np.abs(C + 1)


### Cvičení

1. Ověřte empiricky na náhodné matici, že platí $(AB)^T = B^T A^T$


## Základní funkce lineární algebry

V Numpy existuje modul `linalg`. Pokročilejší lineární algebru je ale třeba hledat jinde, např. ve SciPy. 

Invertovat matici můžeme pomocí `linalg.inv`.

In [None]:
m2 = np.array([[1., 1.5], [-1, 2]])
m2


In [None]:
np.linalg.inv(m2)


In [None]:
# toto by měla být jednotková matice
np.linalg.inv(m2) @ m2


`linalg.det` vypočítá determinant.

In [None]:
np.linalg.det(m2)


## Zpracování dat

Numpy je vhodné pro práci se soubory dat, pro které poskytuje řadu funkcí, např. statistických.

Zkusme nějakou statistiku na souboru teplot ve Stockholmu. Data si můžete stáhnout z [Gitlabu](https://gitlab.com/coobas/numerical_python_course/-/raw/dda96848bd96e0d1f0e06b2639f48c7f464f8bb1/lecture_notes.cz/data/stockholm_td_adj.dat?inline=false).

In [None]:
data = np.genfromtxt('data/stockholm_td_adj.dat')
np.shape(data)


In [None]:
data[:2, :]


#### mean (aritmetický průměr)

In [None]:
# the temperature data is in column 3
print(
    "The daily mean temperature in Stockholm over the last 200 year so has been about {:.1f} °C.".format(
        np.mean(data[:, 3])
    )
)


#### směrodatná odchylka a variance

In [None]:
np.std(data[:, 3]), np.var(data[:, 3])


#### min a max

In [None]:
# nejnižší denní teplota
data[:, 3].min()


In [None]:
# nejvyšší denní teplota
data[:, 3].max()


#### sum, prod, trace

In [None]:
d = np.arange(1, 11)
d


In [None]:
# sečíst všechny prvky
np.sum(d)


In [None]:
# násobek všech prvků
np.prod(d)


In [None]:
# kumulativní součet
np.cumsum(d)


In [None]:
# kumulativní násobení
np.cumprod(d)


In [None]:
# stejné jako diag(m1).sum()
np.trace(m1)


## Výpočty s částmi polí

Výpočty můžeme také provádět na podmnožinách dat pomocí indexování (jednoduchého či pokročilého) a dalších metod ukázaných níže.

Vraťme se k údajům o teplotě.

In [None]:
data[1]


Format je: rok, měsíc, den, průměrná teplota, nejnižší teplota, nejvyšší teplota, poloha.

Pokud chceme spočítat průměrnou teplotu v konkrétním měsíci, např únoru, můžeme použít *maskování*.


In [None]:
np.unique(data[:, 1])  # měsíce mají hodnoty 1 - 12


In [None]:
# vytvoříme masku
mask_feb = data[:, 1] == 2


In [None]:
# masku použijeme jako index
print(u"Průměrná únorová teplota je {:.1f} °C".format(np.mean(data[mask_feb, 3])))


Získání průměrných teplot pro všechny měsíce je také jednoduché.


In [None]:
months = np.arange(1, 13)
monthly_mean = [np.mean(data[data[:, 1] == month, 3]) for month in months]

# teď používáme matplotlib, se kterým se naučíme příště :)
fig, ax = plt.subplots()
ax.bar(months, monthly_mean)
ax.set_xlabel("Month")
ax.set_ylabel("Monthly avg. temp.")


### Výpočty s vícerozměrnými daty

Pokud je funkce jako `min`, `max` apod. použita na vícerozměrné pole, je někdy účelem ji aplikovat na celé pole, jindy zase po řádcích nebo sloupcích. K tomuto účelu slouží argument `axis`.

In [None]:
m = np.random.rand(3, 4)
m


In [None]:
# globální max
m.max()


In [None]:
# max pro každý sloupec
m.max(axis=0)


In [None]:
# max pro každý řádek
m.max(axis=1)


Argument `axis` používá mnoho dalších funkcí z numpy.

## Změny rozměrů a spojování polí

Rozměr Numpy polí může být měněn bez kopírování samotných dat, což výrazně tyto operace zrychluje.

In [None]:
m1


In [None]:
n, m = m1.shape


Např. takto můžeme vytvořit jednorozměrné pole

In [None]:
m1.reshape((1, n * m))


Nebo použít -1 pro automatické dopočítání

In [None]:
m1.reshape((1, -1))


Ovšem pozor: jelikož data jsou společná, změna v novém poli se projeví i v původním! Numpy to nazývá *views* - pohledy.

In [None]:
m2 = m1.reshape((1, -1))


In [None]:
m2[0, 0:5] = 5  # modify the array
m2


Změny se projeví i v původním `m1`

In [None]:
m1


Funkce `flatten` vytvoří jednorozměrné pole (vektor), data jsou v tomto případě kopírována.

In [None]:
m1.flatten()


### Přidávání dimenzí: `newaxis`

Pomocí `newaxis` můžeme jednoduše pomocí řezů přidávat dimenze. Např. převod 1d vektoru na sloupcovou nebo řádkovou matici.

In [None]:
v = np.array([1, 2, 3])
v.shape


In [None]:
# vytvoříme sloupec
vc = v[:, np.newaxis]
vc


In [None]:
vc.shape


In [None]:
# řádek
v[np.newaxis, :].shape


### Spojování a opakování

Na spojování a opakování máme funkce `repeat`, `tile`, `vstack`, `hstack` a `concatenate`.

In [None]:
a = np.array([[1, 2], [3, 4]])
a


In [None]:
# opakování po prvcích
np.repeat(a, 3)


In [None]:
# skládání celých polí
np.tile(a, (3, 2))


`concatenate` spojí dvě pole

In [None]:
b = np.array([[5, 6]])


In [None]:
np.concatenate((a, b), axis=0)


In [None]:
# musíme použít b.T
np.concatenate((a, b.T), axis=1)


`hstack` a `vstack` skládá pole horizontáleně nebo vertikálně

In [None]:
np.vstack((a, b))


In [None]:
np.hstack((a, b.T))


### Cvičení
1. Pro náhodné 1D vektory $u, v$ vypočítejte dyadický součin $uv$ ($uv_{ij} = u_iv_j$) pomocí `newaxis`.
2. Vytvořte šachovnicovou matici pomocí `tile`.

## Kopírování dat

Python obecně přiřazuje proměnné pomocí referencí. Numpy objekty nejsou výjimkou.

In [None]:
A = np.array([[1, 2], [3, 4]])
A


In [None]:
# B je teď identický objekt s A
B = A


In [None]:
# změna v B se projeví v A
B[0, 0] = 10
A


Pokud chceme data zkopírovat, tj. pokud bychom chtěli aby `A` bylo nezávislé na `B`, můžeme použít metodu nebo funci `copy`.

In [None]:
B = A.copy()
# nebo B = np.copy(A)


In [None]:
# změny v B už se neprojeví v A
B[0, 0] = -5
A


## Iterace

Obecně se iteraci vyhýbáme a přednost dáváme vektorovým operacím (viz níže). Někdy je ale iterace nevyhnutelná.

In [None]:
v = np.array([1, 2, 3, 4])

for element in v:
    print(element)


Iteruje se přes první index (po řádcích).

In [None]:
M = np.array([[1, 2], [3, 4]])

for row in M:
    print("row: {}".format(row))


Pokud potřebujeme také indexy, použijeme `enumerate`. (Vzpomínáte?)

In [None]:
for row_idx, row in enumerate(M):
    print("row_idx", row_idx, "row", row)

    for col_idx, element in enumerate(row):
        print("col_idx", col_idx, "element", element)

        # update the matrix M: square each element
        M[row_idx, col_idx] = element ** 2


In [None]:
# each element in M is now squared
M


## Vektorové funkce

Jak jsme již říkali, vektorové (vektorizované) funkce jsou obecně daleko rychlejší než iterace. Numpy nám naštěstí cestu od skalární po vektorovou funkci usnadňuje.

In [None]:
def Theta(x):
    """
    Scalar implemenation of the Heaviside step function.
    """
    if x >= 0:
        return 1
    else:
        return 0


In [None]:
# toto bychom chtěli, ale asi to nebude fungovat
Theta(np.array([-3, -2, -1, 0, 1, 2, 3]))


Pro vektorizaci naší funkce nám Numpy nabízí `vectorize`.

In [None]:
Theta_vec = np.vectorize(Theta)


In [None]:
Theta_vec(np.array([-3, -2, -1, 0, 1, 2, 3]))


To bylo celkem snadné ... Můžeme také (a pokud to jde tak bychom měli) přepsat naši funkci tak, aby fungovala jak pro skaláry tak pro pole.

In [None]:
def Theta_numpy(x):
    """
    Vector-aware implemenation of the Heaviside step function.
    """
    return 1 * (x >= 0)


In [None]:
Theta_numpy(np.array([-3, -2, -1, 0, 1, 2, 3]))


In [None]:
# funguje i pro skalár
Theta_numpy(-1.2), Theta_numpy(2.6)


Pojďme zkusit porovnat rychlost vektorizovaných funkcí. Tipnete si jaká bude rychlejší, případně jak moc rychlejší?

In [None]:
randvec = np.random.random_sample((10000)) * 2000 - 1000


In [None]:
%timeit Theta_vec(randvec)


In [None]:
%timeit Theta_numpy(randvec)


## Používání polí v podmínkách
Pokud chceme testovat po prvcích, v podmínkách pak použijeme metody `all` nebo `any`.

In [None]:
M


In [None]:
# výsledkem M > 5 je pole boolovských hodnot
M > 5


In [None]:
if (M > 5).any():
    print("M obsahuje alespoň jeden prvek větší než 5")
else:
    print("M neobsahuje žádný prvek větší než 5")


In [None]:
if (M > 5).all():
    print("všechny prvky v M jsou větší než 5")
else:
    print("M obsahuje alespoň jeden prvek menší rovno 5")


## Změna typů
Numpy pole jsou *staticky typovaná*. Pro změnu typu můžeme použít metodu `astype` (případně `asarray`).

In [None]:
M.dtype


In [None]:
M2 = M.astype(float)
M2


In [None]:
M2.dtype


In [None]:
M3 = M.astype(bool)
M3


## Další čtení

* https://numpy.org/
* https://jakevdp.github.io/PythonDataScienceHandbook/02.00-introduction-to-numpy.html
* http://www.labri.fr/perso/nrougier/teaching/numpy.100/index.html