# Datová akademie, ČSOB, 2023

---

* [Agregace v NUMPY](#Agregace-v-NUMPY),
    - vypočítej sumu,
    - další způsoby agregace,
    - minimum & maximum,

    - cvičení.

* [Broadcasting v NUMPY](#Broadcasting-v-NUMPY),
* [Indexování v NUMPY](#Indexování-v-NUMPY),
* [Třídění v NUMPY](#Třídění-v-NUMPY),
* [Strukturovaná pole v NUMPY](#Strukturovaná-pole-v-NUMPY).

## Agregace v NUMPY

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.QQOtOJPya2YEO6IkVBnYjQHaDV%26pid%3DApi&f=1&ipt=245c27df971ff24527ca317988f6feda8b14851ef0a889fda7d5a10d114dc5e6&ipo=images" width="300" style="margin-left:auto; margin-right:auto"/>

Pro velké množství dat bývá prvním krokem jednoduchá analýza.

Tedy průměr, směrodatná odchylka. Ty ti umožní lépe pochopit jednotlivé hodnoty.

Jsou dostupné i další pomocné souhrnné statistiky (minimum, maximum, suma, ..).

Takové řešení ti `numpy` nabízí také.

### Vypočítej sumu pomocí NUMPY

---

Pokud potřebuješ vypočítat nyní *sumu* pomocí standardní knihovny funkcí v Pythonu, vystačíš si s funkcí `sum`:

In [1]:
import numpy

In [3]:
velke_1D_pole = numpy.random.rand(100_000_000)

In [4]:
velke_1D_pole

array([0.38180835, 0.2567083 , 0.17459066, ..., 0.14681604, 0.53909871,
       0.24938471])

In [5]:
sum(velke_1D_pole)

49997600.570065096

<br>

Knihovna `numpy` ti také nabízí řešení pomocí `numpy.sum`:

In [6]:
type(numpy.sum)

function

In [8]:
numpy.sum(velke_1D_pole)

49997600.57004201

<br>

Klíčový rozdíl v aplikaci hraje výsledný čas obou průběhů:

In [9]:
%timeit sum(velke_1D_pole)

7.45 s ± 1.19 s per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [10]:
%timeit numpy.sum(velke_1D_pole)

67.7 ms ± 8.8 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


<br>

Kde výsledkem zamíchá řešení v již zkompilovaném kódu knihovny `numpy`.

Dalším rozdílem jsou možnosti pro funkce `sum` a `numpy.sum`.

Obě knihovny mají totiž různé argumenty a `numpy.sum` bere v potaz více dimenzí.

### Dostupné agregační funkce v NUMPY

---

Knihovna samozřejmě nabízí velké množství funkcí. Nejen *sumu*.

V některých starších verzích bohužel opatření proti agregaci chybějících (`NaN`) hodnot.

| Funkce | NaN-safe varianta | Popis |
| :- | :- | :- |
| `np.sum` | `np.nansum` | vypočítá sumu prvků |
| `np.mean` | `np.nanmean` | vypočítá medián zadaných prvků |
| `np.std` | `np.nanstd` | vypočítá odchylku prvků |
| `np.min` | `np.nanmin` | najde **minimální** hodnotu |
| `np.max` | `np.nanmax` | najde **maximální** hodnotu |
| `np.argmin` | `np.nanargmin` | najde index **minimální** hodnoty |
| `np.argmax` | `np.nanargmax` | najde index **maximální** hodnoty |
| `np.any` | `N/A` | vyhodnotí, jestli je **alespoň nějaký** prvek pravdivý |
| `np.all` | `N/A` | vyhodnotí, jestli je **každý prvek** pravdivý |

### Najdi minimum a maximum

---

Obdobně jako u funkce `sum` existují i pro funkce `min` a `max` alternativy.

Stejně jako pro předchozí varianty je i v tomto ohledu `numpy` výkonnější:

In [12]:
%timeit max(velke_1D_pole)

4.53 s ± 85.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [13]:
%timeit numpy.max(velke_1D_pole)

66.3 ms ± 3.09 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


<br>

Některé agregační funkce podporují zápis ve formátu *metody*:

In [14]:
velke_1D_pole.min()

2.8388918660304796e-08

In [15]:
velke_1D_pole.max()

0.9999999864020268

### Agragace na více dimenzí

---

Pokud provádíš defaultně agregace, funkce agreguje přes celé pole:

In [16]:
matice = numpy.random.randint(1, 11, size=(3, 3))

In [17]:
matice

array([[ 5,  7,  6],
       [ 1, 10,  3],
       [ 2, 10,  7]])

In [18]:
matice.sum()

51

<br>

Agregační funkce mají k dispozici parametr `axis`, pomocí kterého můžeš defaultní počítání upravit:
1. Agregace **po řádcích**,
2. agregace **po sloupcích**,

In [19]:
matice.sum(axis=1)  # suma po řádcích

array([18, 14, 19])

In [20]:
matice.sum(axis=0)  # suma po sloupcích

array([ 8, 27, 16])

<br>

Dávej pozor na chybějící hodnoty. Pokud se v poli vyskytují, můžou ovlivnit výsledek:

In [33]:
chybejici_hodnoty = numpy.array(
    [[1, 2, 3], [4, 5, numpy.nan], [numpy.nan, 7, 8]]
)

In [34]:
chybejici_hodnoty

array([[ 1.,  2.,  3.],
       [ 4.,  5., nan],
       [nan,  7.,  8.]])

In [38]:
chybejici_hodnoty.sum(axis=1)

array([ 6., nan, nan])

<br>

Pokud víš, že pole, která hodláš zpracovávat takové hodnoty obsahují, použij alternativní metody:

In [37]:
numpy.nansum(chybejici_hodnoty, axis=1)

array([ 6.,  9., 15.])

<br>

Formulace pomocí metod nebude pracovat:

In [39]:
chybejici_hodnoty.nansum(axis=1)

AttributeError: 'numpy.ndarray' object has no attribute 'nansum'

In [23]:
import numpy as np

# 1. Načtěte dataset ze souboru do numpy pole.
chybejici_hodnoty = numpy.array(
    [[1, 2, 3], [4, 5, numpy.nan], [numpy.nan, 7, 8]]
)

# 2. Zjistěte rozměry matice a její celkový počet prvků.
# rows, cols = data.shape
# total_elements = data.size

# 3. Nahraďte všechny chybějící hodnoty NaN nulou.
# data[np.isnan(data)] = 0

# 4. Pro každý řádek a sloupec vypočtěte součet, průměr, minimum a maximum.
# row_sums = data.sum(axis=1)
# row_means = data.mean(axis=1)
# row_mins = data.min(axis=1)
# row_maxs = data.max(axis=1)

# col_sums = data.sum(axis=0)
# col_means = data.mean(axis=0)
# col_mins = data.min(axis=0)
# col_maxs = data.max(axis=0)

# 5. Rozdělte matici na dvě části podle prvního sloupce.
# first_col = data[:, 0:1]
# remaining_matrix = data[:, 1:]

# 6. Spojujte matice z kroku 5 tak, aby druhá část matice byla nalevo od první části matice.
# result_matrix = np.concatenate((remaining_matrix, first_col), axis=1)

# print(result_matrix)


Help on function amin in module numpy:

amin(a, axis=None, out=None, keepdims=<no value>, initial=<no value>, where=<no value>)
    Return the minimum of an array or minimum along an axis.
    
    Parameters
    ----------
    a : array_like
        Input data.
    axis : None or int or tuple of ints, optional
        Axis or axes along which to operate.  By default, flattened input is
        used.
    
        .. versionadded:: 1.7.0
    
        If this is a tuple of ints, the minimum is selected over multiple axes,
        instead of a single axis or all the axes as before.
    out : ndarray, optional
        Alternative output array in which to place the result.  Must
        be of the same shape and buffer length as the expected output.
        See :ref:`ufuncs-output-type` for more details.
    
    keepdims : bool, optional
        If this is set to True, the axes which are reduced are left
        in the result as dimensions with size one. With this option,
        the result

## Broadcasting v NUMPY

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.QQOtOJPya2YEO6IkVBnYjQHaDV%26pid%3DApi&f=1&ipt=245c27df971ff24527ca317988f6feda8b14851ef0a889fda7d5a10d114dc5e6&ipo=images" width="300" style="margin-left:auto; margin-right:auto"/>

## Třídění v NUMPY

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.QQOtOJPya2YEO6IkVBnYjQHaDV%26pid%3DApi&f=1&ipt=245c27df971ff24527ca317988f6feda8b14851ef0a889fda7d5a10d114dc5e6&ipo=images" width="300" style="margin-left:auto; margin-right:auto"/>

## Strukturovaná pole v NUMPY

---

<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.QQOtOJPya2YEO6IkVBnYjQHaDV%26pid%3DApi&f=1&ipt=245c27df971ff24527ca317988f6feda8b14851ef0a889fda7d5a10d114dc5e6&ipo=images" width="300" style="margin-left:auto; margin-right:auto"/>

---