# NumPy
NumPy je knihovna pro práci s vícerozměrnými poli a maticemi. S poli pracuje až 50x rychleji než klasický Python.

Její základní datový typ je `ndarray` (n-dimensional array), který je v podstatě pole. Pole jsou v Pythonu implementována jako seznamy, ale v NumPy jsou optimalizována pro práci s čísly. NumPy je základní knihovnou pro vědecké výpočty v Pythonu. Většina knihoven pro vědecké výpočty je postavena na NumPy.

## Instalace
Knihovnu NumPy nainstalujeme pomocí příkazu `pip install numpy`.

In [None]:
! pip install numpy

## První pole

In [None]:
import numpy as np

# Vytvoření pole
a = np.array([1, 2, 3, 4, 5])
# jako argument může být i tuple

# Výpis pole
print(a)

# Výpis typu pole
print(type(a))

# Výpis typu prvků pole
print(a.dtype)

# Výpis počtu prvků pole
print(a.size)

# Výpis počtu dimenzí pole
print(a.ndim)

# Výpis tvaru pole
print(a.shape)

## Dimenze
Pole může mít libovolný počet dimenzí. V případě jednorozměrného pole mluvíme o vektoru, v případě dvourozměrného pole o matici.

In [None]:
# O-D pole
nula_dim = np.array(42)
print(nula_dim)

# 1-D pole
jedna_dim = np.array([1, 2, 3, 4, 5])
print(jedna_dim)

# 2-D pole
dve_dim = np.array([[1, 2, 3], [4, 5, 6]])
print(dve_dim)

# 3-D pole
tri_dim = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(tri_dim)

# výpis dimenzí pole
print("Počet dimenzí:", nula_dim.ndim)
print("Počet dimenzí:", jedna_dim.ndim)
print("Počet dimenzí:", dve_dim.ndim)
print("Počet dimenzí:", tri_dim.ndim)

# výpis tvaru pole
print("Tvar:", nula_dim.shape)
print("Tvar:", jedna_dim.shape)
print("Tvar:", dve_dim.shape)
print("Tvar:", tri_dim.shape)

Ve naprosté většině případů budeme pracovat s jednorozměrnými nebo dvourozměrnými poli. Vícerozměrná pole se používají například pro reprezentaci obrázků.

Dvourozměrné pole můžeme chápat jako tabulku, kde první index určuje řádek a druhý index určuje sloupec.

## Indexování
Indexování v poli začíná na nule. Indexy mohou být i záporné, pak se počítá od konce pole. Indexy mohou být i proměnné. Indexovat můžeme i více rozměrů najednou.

In [2]:
pole = np.array([1, 2, 3, 4, 5])
print(pole[0])
print(pole[1])

# jak můžeme vidět, indexování funguje stejně jako u listů

pole = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
print(pole[0, 0])
print(pole[0, 1])
print(pole[1, 0])

# indexování funguje opět jako u listů, jen je potřeba zadat indexy pro každou dimenzi

1
2
1
2
6


## Iterace
Pole můžeme iterovat pomocí cyklu `for`. V případě dvourozměrného pole iterujeme nejprve přes řádky a poté přes sloupce. Pokud máme více rozměrů, iterujeme nejprve přes první rozměr, poté přes druhý atd.

In [None]:
# iterace přes pole
pole = np.array([1, 2, 3, 4, 5])
for x in pole:
    print(x)

In [None]:
# iterace přes 2 dimenzionální pole
pole = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
for x in pole:
    print(x)

# iterace přes jednotlivé prvky
for x in pole:
    for y in x:
        print(y)

In [None]:
# iterace přes 3 dimenzionální pole
pole = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
for x in pole:
    print(x)

# iterace přes jednotlivé prvky
for x in pole:
    for y in x:
        for z in y:
            print(z)

Jak je vidět, s iterací přes více dimenzí se zvyšuje počet cyklů. Proto je výhodnější použít funkce, které pracují s celým polem najednou, jako například `nditer`.

In [None]:
# iterace přes 1 dimenzionální pole
pole = np.array([1, 2, 3, 4, 5])
for x in np.nditer(pole):
    print(x)

In [None]:
# iterace přes 2 dimenzionální pole
pole = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])
for x in np.nditer(pole):
    print(x)

In [None]:
# iterace přes 3 dimenzionální pole
pole = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
for x in np.nditer(pole):
    print(x)

# Porovnání rychlostí

In [1]:
import numpy as np
import timeit

# Porovnání sčítání
python_time = timeit.timeit('sum(range(1000000))', number=100)
numpy_time = timeit.timeit('np.sum(np.arange(1000000))', setup='import numpy as np', number=100)

print(f"Python sčítání: {python_time:.5f} sekund")
print(f"NumPy sčítání: {numpy_time:.5f} sekund")

# Porovnání násobení
python_mult_time = timeit.timeit('[x * 2 for x in range(1000000)]', number=100)
numpy_mult_time = timeit.timeit('np.arange(1000000) * 2', setup='import numpy as np', number=100)

print(f"Python násobení: {python_mult_time:.5f} sekund")
print(f"NumPy násobení: {numpy_mult_time:.5f} sekund")

# Porovnání kombinace operací
python_combo_time = timeit.timeit('[x**2 + x * 2 for x in range(1000000)]', number=100)
numpy_combo_time = timeit.timeit('np.arange(1000000)**2 + np.arange(1000000) * 2', setup='import numpy as np', number=100)

print(f"Python kombinace operací: {python_combo_time:.5f} sekund")
print(f"NumPy kombinace operací: {numpy_combo_time:.5f} sekund")

Python sčítání: 10.70363 sekund
NumPy sčítání: 0.24494 sekund
Python násobení: 15.90229 sekund
NumPy násobení: 0.11477 sekund
Python kombinace operací: 43.03204 sekund
NumPy kombinace operací: 0.35092 sekund


## Načítání dat z CSV souboru pomocí NumPy

NumPy umožňuje snadné načítání dat z CSV souborů pomocí funkce `np.genfromtxt`. Ukážeme si, jak načíst data, vyfiltrovat je a provést základní analýzu.


In [3]:
import numpy as np

# Vytvoření ukázkového CSV souboru
csv_file = 'data.csv'
with open(csv_file, 'w') as f:
    f.write("id,age,salary\n")
    f.write("1,25,50000\n")
    f.write("2,30,60000\n")
    f.write("3,35,70000\n")
    f.write("4,40,80000\n")

# Načtení dat z CSV
data = np.genfromtxt(csv_file, delimiter=',', skip_header=1, dtype=float)

# Zpracování dat
ages = data[:, 1]    # Sloupec s věky
salaries = data[:, 2]  # Sloupec s platy

# Výpočet základních statistik
print(f"Průměrný věk: {np.mean(ages):.2f}")
print(f"Průměrný plat: {np.mean(salaries):.2f}")

# Filtrování dat: vybereme osoby starší 30 let
filtered = data[data[:, 1] > 30]
print("Osoby starší 30 let:")
print(filtered)


Průměrný věk: 32.50
Průměrný plat: 65000.00
Osoby starší 30 let:
[[3.0e+00 3.5e+01 7.0e+04]
 [4.0e+00 4.0e+01 8.0e+04]]
