# Numpy Tutorial

In [1]:
import numpy as np

## Mátrixok (vektorok) inicializálása

### Nullával feltöltés

In [2]:
# nullával feltötlött adott méretű mátrix (adattömb)
# ez egy 2D-s mátrix lesz
# sorok száma: 5
# oszlopok száma: 6
# A numpy egyedi adattípusokat is definiál!! -> memóriát takaríthatunk meg
a = np.zeros((5, 6), dtype=np.float32)

In [3]:
print(a)

[[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


### Egyesekkel feltöltés

In [4]:
# egyesekkel feltötlött adott méretű mátrix (adattömb)
# ez egy 3D-s mátrix lesz
# sorok száma: 3
# oszlopok száma: 2
# mélység: 7
b = np.zeros((3, 2, 7), dtype=np.uint8)

In [5]:
print(b)

[[[0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0]]

 [[0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0]]

 [[0 0 0 0 0 0 0]
  [0 0 0 0 0 0 0]]]


Figyeljük meg a zárójelek sorrendjét. Melyik dimenzió hol található?

### Létrehozás külső adatból

In [6]:
# lehetőség van python listából is létrehozni
# ha az előbb megértettük mit jelentenek a zárójelek készítünk egy 2d-s mátrixot
# sorok: 3, oszlopok: 2
data = [[1.6, 3.1], [2.0, 9.7], [-2.1, 8.7]]
c = np.array(data)

In [7]:
print(c)

[[ 1.6  3.1]
 [ 2.   9.7]
 [-2.1  8.7]]


In [8]:
# ellenőrizzük le a méretét!
print(c.shape)

(3, 2)


In [10]:
# ellenőrizzük le az adattípust, amit ez esetben automatikusan választott
print(c.dtype)

float64


Ez egy float64, ami azonos a python float-jával.

In [11]:
# másik példa
data = [False, True]
d = np.array(data)

In [13]:
print(d)

[False  True]


In [14]:
print(d.dtype)

bool


Ez már egy bool, ami megfelel a bemenetnek. Persze van lehetőség castolni is, pl. a bool is kezelhető intként -> false=0, true=1.

### Random inicializáció

In [21]:
# készítsünk egy mátrixot 0 és 1 közötti értékekkel
# uniform eloszlás szerint generálunk
e = np.random.rand(3, 6)  # ! itt nem kell tuple a méret megadáshoz
f = np.random.rand(4, 6, 8, 9, 1, 3)  # írhatjuk amíg szeretnénk

In [22]:
print(e)

[[0.26448483 0.57454299 0.04960726 0.32962228 0.15841569 0.9237017 ]
 [0.57048481 0.96636201 0.35843336 0.71960978 0.29766331 0.02348115]
 [0.01955585 0.24014652 0.53739365 0.81185753 0.01965767 0.51427268]]


### Matrix python listává alakítása

In [25]:
g = e.tolist()

In [26]:
print(g)

[[0.26448482748635105, 0.5745429876551503, 0.049607261091905164, 0.32962227899516494, 0.15841569489913643, 0.9237017049313074], [0.5704848071409269, 0.9663620147963771, 0.35843335815724076, 0.7196097760556615, 0.2976633133453913, 0.023481150335982193], [0.01955584677832478, 0.24014651567528722, 0.5373936476226067, 0.8118575256541947, 0.019657667347481977, 0.5142726844616641]]


### Fájlba mentés/fájlból olvasás

In [30]:
np.save('e.npy', e)

In [31]:
e2 = np.load('e.npy')

In [40]:
print(e2)

[[0.26448483 0.57454299 0.04960726 0.32962228 0.15841569 0.9237017 ]
 [0.57048481 0.96636201 0.35843336 0.71960978 0.29766331 0.02348115]
 [0.01955585 0.24014652 0.53739365 0.81185753 0.01965767 0.51427268]]


Érdekesség: A tolist() fv esetén nagyobb a számábrázolási pontosság a kiírásnál. Ez a print függvény sajátja, mert a print fv. impliciten az __str__() függvényét hívja az objektumnak, ami így lett implementálva a szebb megjelenítés miatt. A lista esetén a kiírás teljesen hű. **Tehát nincs adatvesztés mentésnél.** 

In [44]:
e2.__str__()

'[[0.26448483 0.57454299 0.04960726 0.32962228 0.15841569 0.9237017 ]\n [0.57048481 0.96636201 0.35843336 0.71960978 0.29766331 0.02348115]\n [0.01955585 0.24014652 0.53739365 0.81185753 0.01965767 0.51427268]]'

In [45]:
print(e2[0, 0])

0.26448482748635105


## Indexelés

### Elem hozzáférése

In [46]:
hourse = np.random.rand(3, 6, 2)

In [49]:
print(hourse)

[[[0.27229187 0.51490537]
  [0.57994761 0.32012495]
  [0.69539589 0.38812729]
  [0.5386608  0.10634596]
  [0.47082435 0.86538625]
  [0.82335083 0.03597512]]

 [[0.56164841 0.67505891]
  [0.4222933  0.14601829]
  [0.33074367 0.29224479]
  [0.79514846 0.87577628]
  [0.07349418 0.93473831]
  [0.16880758 0.15557263]]

 [[0.43934359 0.76332026]
  [0.32465855 0.83689368]
  [0.10443812 0.95153326]
  [0.2254636  0.71417486]
  [0.2516684  0.78518931]
  [0.81535648 0.45037842]]]


In [47]:
# egy elem hozzáférése (kiolvasása)

row_index = 2  # axis 0
col_index = 1  # axis 1
depth_index = 0  # axis 2 ... (ha volna még több)

element = hourse[row_index, col_index, depth_index]

In [48]:
print(element)

0.32465855493787366


In [52]:
# egy elem megváltoztatása

hourse[1, 3, 1] = 0.99

In [53]:
print(hourse)

[[[0.27229187 0.51490537]
  [0.57994761 0.32012495]
  [0.69539589 0.38812729]
  [0.5386608  0.10634596]
  [0.47082435 0.86538625]
  [0.82335083 0.03597512]]

 [[0.56164841 0.67505891]
  [0.4222933  0.14601829]
  [0.33074367 0.29224479]
  [0.79514846 0.99      ]
  [0.07349418 0.93473831]
  [0.16880758 0.15557263]]

 [[0.43934359 0.76332026]
  [0.32465855 0.83689368]
  [0.10443812 0.95153326]
  [0.2254636  0.71417486]
  [0.2516684  0.78518931]
  [0.81535648 0.45037842]]]


### Slice-olás

Kiveszünk egy konkrét alvektort, vagy mátrixot. Mintha leszeletelnénk valamelyik dimenzióját, vagy dimenzióit.

In [54]:
slc = hourse[:, 0, 0]

In [55]:
print(slc)

[0.27229187 0.56164841 0.43934359]


In [56]:
slc = hourse[:, 1, 0]

In [57]:
print(slc)

[0.57994761 0.4222933  0.32465855]


In [58]:
slc = hourse[2, 5, :]

In [59]:
print(slc)

[0.81535648 0.45037842]


In [60]:
# egész mátrix kivítele
mtx = hourse[2, :, :]

In [61]:
print(mtx)

[[0.43934359 0.76332026]
 [0.32465855 0.83689368]
 [0.10443812 0.95153326]
 [0.2254636  0.71417486]
 [0.2516684  0.78518931]
 [0.81535648 0.45037842]]


Lehetőség van azonban csak egy bizonyos szakasz kivítelére is:

In [62]:
slc = hourse[1, 5, 1:]  # kihagyja a legelső elemet

In [63]:
print(slc)

[0.15557263]


In [64]:
# és ha az utolsót hagyjuk ki?
slc = hourse[1, 5, :-1]  # a mínusz előjel segít

In [65]:
print(slc)

[0.16880758]


In [66]:
# téhát hova mutat -1?
hourse[0, 0, -1]

0.5149053659267315

A -1 az utolós elemre mutat, viszont a from : to úgy értelmezhető, hogy inclusive : exclusive -> [a, b)

Természetesen lehet -2, -3 stb.

### Broadcastolás

Mintha az előzőt megfordítanánk. Egy kisebb méretű mátrixról egy nagyobb méretű mátrixba másolunk, a kis méretű mátrix többszörözésével (megismétlésével).

In [67]:
# 1d-s példa
vec = np.zeros((5))
vec[:] = 10

In [68]:
print(vec)

[10. 10. 10. 10. 10.]


In [69]:
# 3d-s példa
hourse[1, 2:4, :] = 0.95

In [70]:
print(hourse)

[[[0.27229187 0.51490537]
  [0.57994761 0.32012495]
  [0.69539589 0.38812729]
  [0.5386608  0.10634596]
  [0.47082435 0.86538625]
  [0.82335083 0.03597512]]

 [[0.56164841 0.67505891]
  [0.4222933  0.14601829]
  [0.95       0.95      ]
  [0.95       0.95      ]
  [0.07349418 0.93473831]
  [0.16880758 0.15557263]]

 [[0.43934359 0.76332026]
  [0.32465855 0.83689368]
  [0.10443812 0.95153326]
  [0.2254636  0.71417486]
  [0.2516684  0.78518931]
  [0.81535648 0.45037842]]]


Lehet numpy mátrix is index a numpy mátrixnak!

## Műveletek a mátrixokon

### Alapműveletek

In [79]:
# összeadás/kivonás
# azonos méret esetén
# elementwise
a = np.random.rand(2, 3)
b = np.random.rand(2, 3)
c = a + b

In [80]:
print("{} + {} = {}".format(a, b, c))

[[0.31103459 0.87420962 0.50106961]
 [0.21895929 0.89842172 0.64862647]] + [[0.9455017  0.75528003 0.15601352]
 [0.86486497 0.44569017 0.23470262]] = [[1.25653629 1.62948965 0.65708313]
 [1.08382426 1.34411189 0.88332909]]


In [81]:
# szorzás (nem mátrix szorzás)
# elementwise
c = a * b

In [82]:
print("{} x {} = {}".format(a, b, c))

[[0.31103459 0.87420962 0.50106961]
 [0.21895929 0.89842172 0.64862647]] x [[0.9455017  0.75528003 0.15601352]
 [0.86486497 0.44569017 0.23470262]] = [[0.29408373 0.66027307 0.07817363]
 [0.18937022 0.40041773 0.15223433]]


In [83]:
# osztás, vigyázni kell a nevezőben a nullákkal
c = a / b

In [84]:
print("{} / {} = {}".format(a, b, c))

[[0.31103459 0.87420962 0.50106961]
 [0.21895929 0.89842172 0.64862647]] / [[0.9455017  0.75528003 0.15601352]
 [0.86486497 0.44569017 0.23470262]] = [[0.32896248 1.15746423 3.21170629]
 [0.25317165 2.0157988  2.76360987]]


Van egy speciális változója a numpy-nak, np.nan, ami arra szolgál, hogy a számként nem értelmezhető objektumokat kifejezze.
Jól jön például hiányzó értékek esetén, mivel nem kell python None-t használni.

In [86]:
# nem minden az aminek látszik!
np.nan == np.nan

False

In [87]:
# helyette
np.isnan(np.nan)

True

In [88]:
np.isnan(0)

False

Az np.nan minden műveletben np.nan-t produkál. Tehát hosszabb számításoknál szétterjed.

A bool műveletek is hasonlóan működnek, elementwise kell értelmezni.

In [89]:
a = np.random.rand(5)
b = np.random.rand(5)
c = a < b

In [90]:
print(c, c.dtype)

[False False False False  True] bool


### Redukciós műveletek

Például összegzés, átlag, szórás stb.

In [91]:
# összegzés
# emlékezzünk az axis-okra
# számos fv. alkalmazza
a = np.ones((5, 6))
np.sum(a, axis=0)  # soronkénti összeg

array([5., 5., 5., 5., 5., 5.])

In [92]:
np.sum(a, axis=1)  # oszloponkénti

array([6., 6., 6., 6., 6.])

In [93]:
np.sum(a)  # mindent

30.0

In [94]:
# hasonlóan lehet átlagot számolni
np.mean(a)

1.0

In [95]:
# vagy
a.mean()

1.0

### Mátrix/vektor műveletek

In [97]:
# mátrixok szorzása
# 2d-s eset
a = np.random.rand(3, 4)
b = np.random.rand(4, 3)
print(a)
print(b)
np.matmul(a, b)

[[0.99363922 0.18958422 0.68291063 0.71274462]
 [0.28181341 0.9005959  0.17588704 0.00230949]
 [0.21388027 0.34354221 0.62589605 0.35038713]]
[[0.94839361 0.67896387 0.4456512 ]
 [0.59986662 0.03589068 0.50650141]
 [0.86097268 0.09838683 0.17349004]
 [0.96954397 0.11327926 0.23112156]]


array([[2.33509098, 0.82937803, 0.82205003],
       [0.96118054, 0.24123071, 0.612792  ],
       [1.28751731, 0.25881847, 0.45888936]])

Több dimenziós esetben is lehetséges, érdemes átolvasni a dokumentációt, hogyan jár el:
https://numpy.org/doc/stable/reference/generated/numpy.matmul.html#numpy.matmul


In [98]:
# trace
np.trace(a)  # mindegy, hogy négyzetes e, vesz egy diagonálist

2.520131168679234

In [101]:
# bool matrix esetén van lehetőség arra, hogy eldöntsük mindegyik igaz, vagy legalább az egyik igaz
a = np.array([True, False, False, False])
np.any(a)

True

In [102]:
np.all(a)

False

Nem tudjuk végig nézni mindegyik műveletet, nem is érdemes, a dokumentáció elég kifejező. Lehet még a mátrix alakját változtatni, pl. reshape. Lehet összefűzni vektorokat: concat, vstack, hstack, stack stb. A lista hosszú.

## Vektorizáció

A vektorizáció lényege, hogy a művelet, amit végzünk a vektor (mátrix) összes elemét egyszerre érinti. Tehát egy megelelő hardware, vagy párhuzamosítás esetén egy időben megtörténhetnek.

Numpy-ban sok függvény támogatja a vektorizációt. Például:

In [104]:
x = np.array([4, 9, 5, 11])

In [105]:
np.sqrt(x)  # gyökvonás

array([2.        , 3.        , 2.23606798, 3.31662479])

In [106]:
np.exp(x)  # e^x

array([5.45981500e+01, 8.10308393e+03, 1.48413159e+02, 5.98741417e+04])

In [107]:
np.log(x)  # természetes alapú log

array([1.38629436, 2.19722458, 1.60943791, 2.39789527])

In [108]:
np.sin(x)  # trigonometrikus fv-k

array([-0.7568025 ,  0.41211849, -0.95892427, -0.99999021])

Itt egy szemléltetés, hogy ezt miért érdemes komolyan venni:

In [109]:
# adva van két kép és L2 távolságot számolunk köztük
# L2 norma = szum_{minden pixel pár} (pixel1 - pixel2)^2
img1 = np.random.rand(200, 200) * 255
img2 = np.random.rand(200, 200) * 255

In [110]:
# nem vektorizált eset
import math
def l2_novec():
    l2_norm = 0
    for r in range(200):
        for c in range(200):
            l2_norm += (img1[r, c] - img2[r, c]) ** 2
    return math.sqrt(l2_norm)

In [111]:
l2_novec()

20638.74316799691

In [115]:
def l2_withvec():
    temp = img1 - img2
    return np.sqrt(np.sum(temp * temp))

In [116]:
l2_withvec()

20638.743167996916

In [120]:
# időmérés
import time

t1 = time.time()
for _ in range(100):
    l2_novec()
t2 = time.time()
print(t2 - t1)

3.8345062732696533


In [121]:
t1 = time.time()
for _ in range(100):
    l2_withvec()
t2 = time.time()
print(t2 - t1)

0.007998228073120117


A különbség releváns. Tehát érdemes kihasználni a numpy ezen képességeit, amennyire csak lehet.