# NumPy

Korábban már említettük, hogy a python egy interpretált nyelv, ráadásul (alapesetben) csak egy processzormagot használ, ennek megfelelően nagy tömegű számítás lassú lehet vele. Ezen a problémán segít a numpy csomag, amely egy erősen optimalizált tömb feldolgozó programkönyvtár.

(A nagy tömegű számításon itt most **tényleg** nagy tömegűt értünk, mert néhány tízezer számon végzett pár tízezer művelet egy mai gépen nem akadály az alap pythonnal sem, de ha mondjuk pár tízezerszer tízezres mátrixokat (százmillió adat) kell invertálni az már problémás egy interpretált nyelvben.)

Az adatfeldolgozás, numerikus modellezés és mesterséges intelligencia területein igen népszerű, mondhatni de facto szabvány ez a csomag. Ezért nem árt, ha kicsit képben vagyunk mire képes és hogyan működik.


In [None]:
# első lépés: importálni a csomagot!
import numpy as np
# rögtön átneveztük np-re (bevett szokás), hogy kevesebbet kelljen gépelni.
# Ezt a blokkot tehát mindenképpen futtasd,
# különben a többiek egyáltalán nem fognak működni.

## Adatok

In [None]:
egydimenziós = np.array([1, 2, 3])
kétdimenziós = np.array([[1, 2], [3, 4]])

Az egydimenziós három sort tartalmaz (annak ellenére, hogy egymás mellé írja ki hogy jobban kiférjen, azok sorok).

A tömböket könnyedén kiirathatjuk (ha nagyon nagyok akkor csak részben jeleníti meg) illetve lekérhetünk róluk néhány fontos információt!

In [None]:
a = np.array([[1,2,3], [4,5,6], [7,8,9]])
print("dimenziók száma:", a.ndim)
print("dimenziónkénti méret:", a.shape)
print("összelemszám:" , a.size)
print("adattípus:", a.dtype)

print("maga a tömb:\n", a)

Mint látszik a tömbnek csak egy adattípusa van. Ez szöges ellentétben áll azzal, amit a python listáknál tapasztaltunk: egy numpy tömbben csak egyforma  típusú és fix méretű adatok lehetnek, nem pakolászhatunk bele össze vissza különféle típusú értékeket szabadon!

Ez egyébként azért jó, mert így sokkal gyorsabban tudja elérni őket. Ha minden érték pontosan ugyankkora helyet foglal, például mondjuk 8-at, akkor az n-dik érték 8*n bájttal van odébb mint a nullás indexű (első).

Bár kevésbé jellemző, de a tömbünkbe nem csak számot hanem szövegeket is tehetünk. Csak arra kell figyelni, hogy egyforma típusúak kell legyenek. Ha nem olyanok, akkor a NumPy (jobb híján) megpróbálja átalakítani őket.

In [None]:
np.array(['Alfonz', 'Csilla', 'Viktor'])

In [None]:
np.array(['Alfonz', 12, 0.34]) # ez három szöveg lesz, hiába adtuk meg számként

Ha lefuttatod a fenti kódblokkokat, láthatod, hogy a végére odaírta milyen típusú adatok vannak benne (dtype). Az U betű itt unicode adatot jelent, az `<U6` pedig annyit tesz, hogy maximum 6 kódpontos (hat bájtot foglaló) unikód szöveg típusú. Ezt úgy jött neki ki, hogy megnézte, melyik a leghosszabb adat és mindet ekkorára formázta. A Numpy tömbök elemeinek mérete egyforma kell legyen, máskülönben nem tudna gyorsan "ugrálni" benne. Ezért aztán

In [None]:
adat = np.array(["a", "kobra"])
# nézzük meg mekkora helyet foglal a két adat és az egész np array:
len(adat[0].tobytes()), len(adat[1].tobytes()), len(adat.tobytes())

Tehát hiába csak egy karakteres az első (unicode kódolással, végjellel együtt 4 bájt) mivel a második 20 bájtot foglal az elsőnek is annyit kell lefoglalnia (maradék helyre 0-t írva). Végül is mindkettő 20 bájtos lesz, így jön ki a teljes méretre 40. Nem árt erre figyelni, mert pár millió adatnál már számíthat!

Ráadásul, mivel a kezdeti értékekből találja ki, mekkora méret kell neki (milyen dtype lenne a legjobb), később ha nagyobb adatot akarunk beletenni, az  elveszik!

In [None]:
adat[0] = "kerecsensólyom"
adat[0] # csak az eleje fér bele, a többi megy a levesbe :-(

Ezért, ha tudjuk, hogy később még hosszabb szavaink is lehetnek, jobban járunk, ha mi kézzel megadjuk a méretet és nem támaszkodunk a heurisztikára!

In [None]:
adat = np.array(["a", "kobra"], dtype="<U200")
adat[0] = "kerecsensólyom"
adat[0] # 200 unicode kódponting jók vagyunk!

## Tömbkészítés

Gyakran valamilyen konkrét struktúrájú tömbre van szükségünk de nem szeretnénk kézzel begépelni: ilyenkor segíthetnek a tömbkészítő függvények:

In [None]:
np.zeros((2, 3))      # 2x3 "csupa nulla" tömb
np.ones((3, 3))       # 3x3 egyesek
np.full((2,2), 7)     # minden elem 7
np.eye(3)             # 3x3 egységmátrix
np.arange(0, 10, 2)   # 0–10 között lépésköz: 2
np.linspace(0, 1, 5)  # 5 egyenlő részre osztva a [0-1] tartomány
np.random.random((2,2)) # 2x2 véletlen szám
np.random.normal(size=20) # normál eloszlás (20 darab)
np.random.lognormal(mean=0.0, sigma=1.0, size=10) # lognormal


... vagy újraméretezhetjük (átrendezhetjük) a meglévő tömbünket:

In [None]:
vektor = np.arange(0,36) # számok 0-35 között (egyetlen, hosszú vektor)
print(vektor)

mátrix = np.reshape(vektor, (6,6)) # 6x6-os mátrixba tördelve ugyanez.
print(mátrix)

lapos = np.ravel(mátrix) # újra "kilapítjuk"
print(lapos)

Figyeld meg hogy a "vektor" számait ugyan egymás mellé írta ki (hogy jobban kiférjen), de azok igazából sorok. Tehát az egy 36 soros (függőleges) mátrix (vektor).

In [None]:
tizesek = np.arange(10,100,10)  # [10,20...90]
egyesek = np.arange(1,10) # [1,2,...9]

print(np.hstack([tizesek, egyesek])) # ragaszd össze vízszintesen
print(np.vstack([tizesek, egyesek])) # ragaszd össze függőlegesen


## Indexelés

A numpy tömböket is ugyanugy tudod indexelni (szögletes zárójellel) mint a listákat, de turbó fokozatban! A vesszővel* megadhatsz több dimenziót (hiszen a numpy tömbök lehetnek két három vagy több dimenziósak), sőt, akár logikai értékekkel szűrhetsz (maszkolhatsz) is.

\* Persze mi tudjuk, hogy a vessző `tuple`-t jelent, tehát igazából itt arról van szó, hogy a numpy `tuple`-el is tudja indexelni az adatszerkezeteit.

In [None]:
m = np.arange(1,17).reshape((4,4)) # 4x4-es mátrix

print(m) # az egész mátrix
print(m[0,0]) # bal felső sarok
print(m[-1,-1]) # jobb alsó sarok (ugyanaz mint a [3,3] csak "hátulról")
print(m[1,3]) # második sor negyedik szám (0-tól kezdődnek az indexek)
print(m[1:3]) # második sortól a negyedikig (tehát a 2. és 3. sor)

Ha a kettőspont (tartomány) valamelyik oldalára nem írunk számot, akkor akár csak a listáknál az annyit jelent, hogy az "elejétől" vagy a "végéig". Tehát ha egyik oldalára se teszünk, akkor az összes. Ez a listáknál is így lenne, csak ott nincs nagyon értelme, itt viszont nagyon is van, hiszen több dimenziónk lehet és lehet, hogy az első dimenzió mentén minden számot szeretnénk visszakapni de a többi mentén már nem!

Ha pedig egyszerű index helyett listát (esetleg tuple-t) adunk meg, egyszerre több indexet is kérhetünk.

In [None]:
print(mátrix[:,1]) # minden sor de csak a 2. oszlop!
print("-"*30) # vonal

print(mátrix[[0,9]]) # csak az első és az utolsó sor
print("-"*30) # vonal

print(mátrix[:,[0,9]]) # csak az első és az utolsó oszlop
# print(mátrix[:,(0,9)]) # <--- írhattuk volna így is

Mivel bármilyen N dimenziós tömb elképzelhető N+1 dimenziósként is ami abban az új dimenzióban "lapos" (csak egy a kiterjedése) a numpy lehetővé teszi nekünk, hogy akárhová beszúrjunk dimenziókat vagy ha úgy tetszik "tengelyeket". Ennek majd a broadcasting szabályokkal (lásd alább) együtt lesz majd igazából értelme.

In [None]:
adat = np.array([1,2,3,4])
print(adat.shape) # ez négy sor.

(4,)


## Vektorizált műveletek

A numpy igazi ereje abban rejlik, hogy nem kell a (viszonylag lassú) python kóddal darabonként végiglépkedni a tömbökön, hanem "egyszerre" tudja elvégezni a műveletet a teljes tömbön.

A valóságban nyilván nem *egyszerre* teszi ezt, de optimalizált kóddal és egyszerre több processzormagot használva, így lényegesen gyorsabb mintha ciklusokat írnánk.

Futtasd ezeket egymás után:

In [None]:
a = np.array([1, 2, 3])
a

In [None]:
a * 2         # array([2, 4, 6])


In [None]:
a + 10        # array([11, 12, 13])

In [None]:
a*a + 1

A "sima" python matematikai függvények csak számokon tudnak dolgozni, ezért a numpy definiál nekünk olyan variánsokat (sqrt, log, stb) amelyek tömbökön is működnek, ugyanígy "vektorizáltan":

In [None]:
np.sqrt(a) # ez nem a math könyvtárból származó gyökvonás

In [None]:
np.log10(a) # 10-es alapú logaritmus

In [None]:
np.pow(a,3) # köbök

Tehát ha műveletet végzünk, azt az összes elemre végrehajtja. Az se feltétel, hogy az eredmény szám legyen. Lehet például bool érték is:

In [None]:
a > 2

Mint látod, az eredmény tömbben bool értékek vannak (ahol teljesül ott True). Elsőre talán ez nem tűnik túl hasznosnak, azonban szuper jól használható, ha tudjuk, hogy a numpy tömbök indexe egy logikai (bool) tömb is lehet! Ilyenkor azokat az értékeket kapjuk csak meg, amelyeknél az érték True.

In [None]:
a = np.array([10,20,30])
a[[True, False, True]] # <- első kell, második nem, harmadik kell.


array([10, 30])

In [None]:
x = np.linspace(0,10,1000) # ezer egyenletes érték 0-10 között.
# számítsunk ki minden értékre valami vad dolgot:
y = 2 * x*x * np.sin(2*x) + x - 1 # y = 2x² * sin(2x) + x - 1

y<0 # Mely pontokban negatív az y értéke?
y[y<0] # kérjük az összes olyan y értéket ahol az negatív.

In [None]:
# y (numerikusan közelített) függvény értékenek változásai:
dy = np.diff(y) # növekedés (999 darab)
y[1:][dy>3] # Hol nőtt 3-nál többet y?


A szorzás jel (`*`) numpy-ben elemenkénti szorzást jelent, és nem mátrix szorzást. Hogy ne kelljen kényelmetlen módon a np.linalg.matmul függvényt használni, van ilyen operátorunk mégpedig a `@`. A transzponáltat sem kell függvénnyel kiszámítanunk, elérhető a .T tulajdonságként.

In [None]:
vektorok = np.array([
    [2,8],
    [9,1],
    [-2,3],
    [4,-7],
    [2,2],
])
print(vektorok)
# Gram mátrix (az összes skalárszorzat kombináció):
vektorok @ vektorok.T

In [None]:
# Az alábbi koordinátákból számolj távolságokat!
xy = np.array([
    [1, 8],
    [7, 12],
    [1, 7],
    [3, 9]
])

# d = ... <-- valami számítás

####megoldás:

In [None]:
x,y = xy[:,0], xy[:,1]
d = np.sqrt( x*x + y*y )

# vagy:
d = np.sqrt(x**2 + y**2)

# vagy egyszerűen:
d = np.linalg.norm(xy, axis=1)
d

## Összesítések

Nagyon gyorsan tudunk összesítéseket is számolni (átlagot, összeget, legnagyobb értéket, stb).



In [None]:
a = np.array([2,9,8,7,1])
print(a.sum())
print(a.mean()) # átlag
print(a.min()) # legnagyobb elem
print(a.max())
print(a.argmax())    # legnagyobb elem indexe
print(a.argmin())


Ha a tömb több dimenziós, megadhatunk tengelyeket is amely mentén az összesítést szeretnénk végezni:

In [None]:
m = np.array([[1, 2, 3],
              [4, 5, 6]])

m.sum(axis=0)   # oszloponkénti összeg → [5, 7, 9]
m.sum(axis=1)   # soronkénti összeg → [6, 15]


array([ 6, 15])

## Broadcasting (kiterjesztés)

A NumPy automatikusan kiterjeszti ("broadcastolja") a kisebb tömböket, hogy műveletek értelmezhetőek legyenek. Ha egyforma a két tömb, akkor darabonként elvégzi a műveletet (nincs gond). Ha hiányzik valamelyik tengely akkor abban az "irányban" ismétli a kisebbiket ahányszor csak kell.


In [None]:
m = np.array([[1,2,3],
              [4,5,6]])

v = np.array([10, 20, 30])

m + v

In [None]:
# tulajdonképpen logikailag akkor is ezt csinálja
# amikor egy konstanssal végünk műveletet:

a = np.array([1,2,3,4])

print(a * [3,3,3,3])
print(a * 3)

[ 3  6  9 12]
[ 3  6  9 12]


A broadcasting kombinálható az indexbővítéssel, így könnyen kiszmolhatunk például kombinációkat. Ha szándékosan beszúrunk egy új dimenziót, akkor abban az irányban a broadcasting majd ismételni fogja az elemeket tehát nem kell ciklust írnunk rá!

Nézzünk egy példát: van N értékünk és ki akarjuk számolni az különbségeket (az összes létező kombinációra). Akkor egyszer beszúrunk egy új sordimenziót (ami irányban ismételhet), egyszer beszúrunk egy új oszlopdimenziót (szintén ismételgeti) így amikor összekombináljuk, az összes létező kombinációt megkapjuk.

In [None]:
érték = np.array([1,5,15,40])

érték[None,:] - érték[:,None]

Jó, valójában a kivonás első részét nem lett volna muszáj "kiterjesztenünk" egy plusz dimenzióval, hiszen azok eleve sorok voltak, tehát amúgy is kiterjesztette volna az oszlopok irányában, de talán így jobban érthető.

Próbáld meg kitörölni az `érték[None,:]` indexét.

# Példa

Nézzük meg milyen egyszerűen tudunk például egy két dimenziós lineáris regressziós illesztést megoldani:

In [None]:

data = np.array(
            #x1                 x2            y
       [[  75.375     ,    9.4453125 ,  125.00445389],
       [  14.7421875 ,   32.3125    ,  -65.97093686],
       [  63.96875   ,   87.375     , -132.55686565],
       [  22.875     ,   61.        , -135.55599849],
       [  70.8125    ,    4.7578125 ,  129.77077384],
       [  58.9375    ,   85.625     , -138.95654107],
       [   8.6953125 ,    4.62109375,    3.55415825],
       [  50.78125   ,   62.6875    ,  -84.62982924],
       [  42.53125   ,   19.125     ,   29.47322941],
       [  89.        ,   32.625     ,   81.7848131 ]])


In [None]:
xs = data[:, 0:2]
y = data[:,2]

# elméleti megoldás
ginv = np.linalg.inv(xs.T @ xs)
w = ginv @ xs.T @ y
w # súlyok: ~2 és ~3


In [None]:
# Persze lineáris algebra helyett csinálhattuk volna célfüggvénnyel is:

w = np.linalg.lstsq(xs, y)[0]
w

In [None]:
# hibák:
errors = y - xs @ w
print(errors)

# hiba négyzetösszeg:
np.sum(np.power(errors, 2))


## Számítási sebesség

A numpy nem csak tömörebb kódot eredményez (a broadcasting szabályainak hála) hanem a hatékony C implementáció miatt lényegesen gyorsabb is.

In [None]:
import numpy as np
import math # táv számításhoz
import time # időméréshez

# Számoljunk ki kétmillió (véletlen) vektor hosszát
N = 2_000_000
rng = np.random.default_rng(0)
x_np = rng.random(N)
y_np = rng.random(N)

# tiszta Python megoldás:
x_py = x_np.tolist() # python listákká alakítjuk
y_py = y_np.tolist()

t0 = time.perf_counter() # csak ezt a részt mérjük
# leggyorsabb lehetőség a list comprehension:
r_py = [math.hypot(x_py[i], y_py[i]) for i in range(N)]
t1 = time.perf_counter()

# numpy megoldás:
t2 = time.perf_counter()
r_np = np.hypot(x_np, y_np)
t3 = time.perf_counter()

print(f"Python: {t1 - t0:.3f}s")
print(f"NumPy : {t3 - t2:.3f}s")

Megjegyzés: ha többször is lefuttatod a fenti kódot, észreveheted, hogy a numpy még gyorsabb is tud lenni, ha már egyszer "bemelegedett" (pl. betöltötte a "hypot" vektorizált függvényt).