# Bevezetés a [numpy](https://numpy.org) csomag használatába

A Python nyelv nem támogatja a vektorok, mátrixok, tenzorok kezelését. Ehhez szükségünk van egy könyvtárra, amit nem tartalmaz a Python standard könyvtára.

A numpy (numerical python), könyvtár elérhetővé teszi az n-dimenziós tömbök vagy tenzorok (n-dimensional array) kezeléssét, az azokon végrehajtható aritmetikai műveleteket, függvények elemenkénti alkalmazását, lineáris algebrai műveleteket, továbbá függvények numerikus integrálását, interpolációt, polinom illesztést és sok egyéb függvényt.

## Kitérő: Csomagok használata és problémák megoldása Python-ban

Szinte minden Python csomag esetén erősen ajánlott a dokumentáció áttekintése. Egy csomagban rengeteg függvény és algoritmus található, ezeket lehetetlen lenne, akár felületesen is áttekinteni.

Amikor Python-ban szeretnénk egy problémát megoldani először érdemes rákeresni, hogy a problémát meg próbálta-e már valaki oldani. Én még nem igazán találkoztam, olyan esettel, hogy ne létezett volna legalább egy könyvtárat vagy kódrészletet, ami alapján neki tudtam volna állni egy kód megírásának.

Tudományos Python programozás esetén értékesebb a külünböző csomagok és függvényeinek ismerete mint magának a nyelvnek ismerete. (Természetesen a nyelvet is ismerni kell, hogy ne érjenek minket meglepetések.) Ezt csak tapasztalattal lehet elsajátítani.

Tehát, amikor szeretnénk egy programot írni egy adott feladat megoldására, először gondolkozzunk el azon, hogy milyen csomagok és függvények állnak rendelkezésre, amik a feladat egyes részeit vagy egészét meg tudják oldani. Ha nem ismerünk ilyen csomagokat, akkor próbáljunk meg az interneten keresni és ha ott sem találunk segítséget, csak akkor álljunk neki mi magunk a megoldást implementálni.

Tulajdonképpen a tudományos Python programozás művészete nagyrészt a különböző csomagok használatának művészete. Ez két fő részből áll:
1. A csomagok által implementált algoritmusok, függvények használatának és limitációjának ismerete.
2. A különböző csomagok különböző algoritmusainak összefűzése.

A numpy egy "sarokpont" ebben a rendszerben, mivel a legtöbb tudományos csomag függvényei a numpy által implementált mátrixokon, tenzorokon, adattömbökön alapulnak és numpy adattömböket fogadnak el argumentumként vagy numpy adattömbbel térnek vissza.

## Mátrixok tárolása

A gyakorlat előtt néhány technikai részlet, mely fontos lehet.

Azonos típusú változókat általában egy kijelölt összefüggő memóriaszegmensben szokás tárolni. Mivel a vektor egy dimenziós, ezért nem kell különösebben gondolkdni a vektor elemeinek tárolási módján. Magasabb dimenziójú tenzorok esetén, már más a helyzet.

A mátrix nem csak egyetlen egy sorból vagy oszlopból áll (mint a sor- vagy oszlopvektor), hanem sorok vagy oszlopok sorozatából. Ezeket a sorokat vagy oszlopokat nem érdemes különböző memóriaszegmensekben tárolni, ebben az esetben is összefüggő memóriaterületet szokás alkalmazni.

A mátrix és magasabb dimenziójú tenzorok esetén két tárolási sémát lehet alkalmazni. A mátrix elemeit vagy sorfolytonosan (row major) vagy oszlopfolytonosan (column major) lehet eltárolni (lásd az alábbi ábrán). A sorfolytonos tárolási módot szokás C-típusúnak (mivel a C nyelvben ezt szokták alapból alkalmazni) az oszlopfolytonos tárolási módot pedig F- vagy Fortran-típusú (Fortranban és Matlabban alkalmazott) tárolási sémának nevezni.

<p><a href="https://commons.wikimedia.org/wiki/File:Row_and_column_major_order.svg#/media/File:Row_and_column_major_order.svg"><img src="https://upload.wikimedia.org/wikipedia/commons/4/4d/Row_and_column_major_order.svg" alt="Row and column major order.svg" height="250" width="200"></a><br>By <a href="//commons.wikimedia.org/wiki/User:Cmglee" title="User:Cmglee">Cmglee</a> - <span class="int-own-work" lang="en">Own work</span>, <a href="https://creativecommons.org/licenses/by-sa/4.0" title="Creative Commons Attribution-Share Alike 4.0">CC BY-SA 4.0</a>, <a href="https://commons.wikimedia.org/w/index.php?curid=65107030">Link</a></p>

Példa: Tekintsük az alábbi mátrixot:

\\[
    M = 
    \begin{bmatrix}
    1, & 2 \\
    3, & 4 \\
    5, & 6
    \end{bmatrix}
\\]

Sorfolytonos tárolás esetén a mátrix elemei az alább látható módon követik egymást:

\\[
    \begin{bmatrix} 1, & 2, & 3, & 4, & 5, & 6 \end{bmatrix}
\\]

Oszlopfolytonos tárolás esetén pedig:

\\[
    \begin{bmatrix} 1, & 3, & 5, & 2, & 4, & 6 \end{bmatrix}
\\]

Ha két mátrix elemei más séma szerint vannak eltárolva, elképzelhető, hogy néhány művelet lassabban lesz elvégezhető rajtuk (pl. a két mátrix összeadása, kivonása, elemenkénti szorzás). Személyes tapasztalat alapján azt tanácsolnám, hogy csak akkor érdemes a tárolási sémákkal foglalkozni, amikor egy program futási ideje valóban elfogadhatatlanul hosszúra nyúlik, mindenesetre érdemes tudni ezekről a tényezőkről

**Figyelem!** Alapból a numpy sorfojtonosan tárolt mátrixokat hoz létre.

## Numpy alapok

In [2]:
# csomag imortálása, a csomag elérésének lerövidítése numpy-ról np-re
# most "numpy.array" helyett írhatjuk rövidebben azt, hogy "np.array"
import numpy as np

## Vektorok, mátrixok létrehozása

Tenzorokat többféleképpen is létre tudunk hozni:
- Python-ban list-ből vagy tuple-ből átkonvertálva
- numpy beépített függvényeket használva
    - `np.zeros`: nullákat tartalmaző tenzor létrehozása,
    - `np.ones`: egyeseket tartalmaző tenzor létrehozása,
    - `np.arange`, `np.linspace`: monoton módon növekvő vagy csökkenő értékű elemeket tartalmazó tenzor létrehozása,
    - `np.empty`: üres tenzor létrehozása, memóriát lefoglal az elemek tárolására, de az elemek értékei nem meghatározottak
- fájlból beolvasva

Példa: mátrix létrehozása listából.

In [3]:
# korábbi példa mátrix létrehozása
m1 = np.array(
    [
        [1, 2],
        [3, 4],
        [5, 6]
    ],
    # Fortran, azaz oszlopfolytonos tárolás alkalmazása
    # order="C" az alapbeállítás
    order="F"
)

print(
    # mátrix kinyomtatása
    m1, "\n\n",
    
    # mátrix "kilapítása" vagy vektorrá konvertálása, megtartva a memóriatárolás sémáját
    m1.flatten(order="K")
)

[[1 2]
 [3 4]
 [5 6]] 

 [1 3 5 2 4 6]


## Rövid kitérő: Opcionális függvény argumentumok

Fentebb láttuk, hogy nem csak adott mennyiségű argumentumot adhatunk meg egy függvénynek. Egy függvénynek lehetnek opcionális argumentumai.

Demonstrációs példa:

In [89]:
def fun(a, b=1.0):
    print("Got values a: %s and b: %s" % (a, b))

# b értéke 1.0 lesz
fun(2.0)

Got values a: 2.0 and b: 1.0


In [90]:
# "b" argumentum értékének megadása
fun(2.0, 3.0)

Got values a: 2.0 and b: 3.0


In [91]:
# alternatív szintaxis, preferált a könnyebb olvashatóság érdekében
fun(2.0, b=3.0)

Got values a: 2.0 and b: 3.0


In [92]:
# az "a" argumentum ugyan nem opcionális, de ugyanúgy explicit módon tudunk értéket adni neki
fun(a=2.0, b=3.0)

Got values a: 2.0 and b: 3.0


Tehát ha nem határozzuk meg a `b` argumentum értékét, a `b` változó értéke 1.0 lesz. A nem-opcionális és opcionális argumentumok száma tetszőleges.

Mátrix kinyomtatása `C` tárolási sémát alkalmazva.

In [4]:
m1.flatten()

array([1, 2, 3, 4, 5, 6])

Új mátrix létrehozása a korábbi mátrixunk másolásával, `C` tárolási sémát alkalmazva. 

In [26]:
m2 = np.array(m1, order="C")

In [6]:
m2.flatten(order="K")

array([1, 2, 3, 4, 5, 6])

## Elemek indexelése, értékeinek megváltoztatása

Mátrixok elemeit a `[` és `]` karakterek segítségével tudjuk elérni és megváltoztatni. *Figyelem!* A Pythonban az indexek 0-tól kezdődnek. A `:` karakter segítségével egy egész sort vagy oszlopot jelölhetünk ki.

In [15]:
# első sor, első oszlop eleme
m1[0,0]

1

In [16]:
# első sor, második oszlop eleme
m1[0,1]

2

In [18]:
# második oszlop elemei
m1[:,1]

array([2, 4, 6])

In [19]:
# második sor elemei
m1[1,:]

array([3, 4])

Mátrix elem értékének megváltoztatása.

In [27]:
m2

array([[1, 2],
       [3, 4],
       [5, 6]])

In [28]:
m2[0,0] = -1

In [29]:
m2

array([[-1,  2],
       [ 3,  4],
       [ 5,  6]])

## Tenzor tulajdonságok

ndim, shape, size, dtype, itemsize, data

Minden tenzorhoz különböző más változók is tartoznak, melyek leírják a tenzor különböző tulajdonságait (attributes).

Az `ndim` változó a tenzor dimenziószámát tartalmazza, az `m1` mátrix esetén ez 2:

In [7]:
m1.ndim

2

A vektorok dimenziószáma értelemszerűen 1.

A `dtype` változó az elemek tipusát jelöli. A numpy sokféle elemtípust támogat. Ezek általában a számok tárolására használt változótípusok, pl. uint{8,16,32,64} a pozitív egész számok tárolására, int{8,..,64} az egész számok tárolására, float{32,64} a lebegőpontos számok tárolására, complex{64,128} a komplex számok tárolására.

Az `m1`-es mátrix egész számokat tárol .

In [8]:
m1.dtype

dtype('int64')

Az `np.array` automatikusan a megfelelő változótípust választja ki, de mi is kijelölhetjük a használni kívánt típust. 

In [9]:
mfloat = np.array([1,2,3], dtype="float32")

# alternatív módszer
mfloat = np.array([1,2,3], dtype=np.float32)

mfloat

array([1., 2., 3.], dtype=float32)

A `shape` változó a tenzor <q>alakját</q> tartalmazzó számsorozat, egy tuple típusú változóban eltárolva. Vektor esetén egy elemmel rendelkezik (a vektor elemeinek száma), mátrix esetén 2-vel stb. Mátrixknál az első elem a sorok számát, a második elem az oszlopok számát tartalmazza.

In [11]:
m1.shape

(3, 2)

In [12]:
# sorok száma
m1.shape[0]

3

In [13]:
# oszlopok száma
m1.shape[1]

2

**Figyelem!** uint{8,16,32,64} típusú változók használatánál, nem szabad olyan műveletet elvégezni, aminek az eredménye negatív egész szám lenne. Ha egy uint típusú és 0 értékű változóból kivonunk egy számot, az eredmény nem egy negatív szám lesz, hanem egy nagyon nagy értékkel rendelkező pozitív egész szám. Lásd az alábbi példát!

In [32]:
a = np.array([[1, 2, 3], [4, 5, 0]], dtype="uint64")
print(a, "\n\n")

# a mátrix elemeit a "[" és "] karakter segítségével tudjuk indexelni.
# az alábbi sor ugyenezt jelenti: a[1,2] = a[1,2] - 1
a[1,2] -= 1

a

[[1 2 3]
 [4 5 0]] 




array([[                   1,                    2,                    3],
       [                   4,                    5, 18446744073709551615]],
      dtype=uint64)

Int típusú változók esetén nincs probléma.

In [33]:
a = np.array([[1, 2, 3], [4, 5, 0]], dtype="int64")
print(a, "\n\n")
a[1,2] -= 1
# a[1,2] = a[1,2] - 1
a

[[1 2 3]
 [4 5 0]] 




array([[ 1,  2,  3],
       [ 4,  5, -1]])

A `size` változó az összes elem számát jelöli.

In [35]:
m1.size

6

Az `itemsize` változó, egy darab elem tárolásához szükséges memóriát adja meg bájtban.

In [38]:
# a tenzor által összesen foglalt memória bájtban
m1.itemsize * m1.size

48

## Alapvető aritmetikai műveletek

Hozzunk létre egy mátrixot és egy vektort.

In [37]:
a = np.array(
    [
        [1, 2, 3],
        [4, 5, 6]
    ],
)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [32]:
# vektor létrehozása listából list comprehension segítségével
b = np.array([ii for ii in range(3)], dtype="float64")
b

array([0., 1., 2.])

In [65]:
# elemek típusa
a.dtype, b.dtype

(dtype('int64'), dtype('float64'))

Mátrix és vektor szorzása. A numpy automatikusan átkonvertálja `a` mátrix elemeit integer típusból float típussá.

In [40]:
c = np.dot(a, b)
c

array([ 8., 17.])

In [41]:
c.dtype

dtype('float64')

Vektor skaláris szorzat, list-el is működik.

In [42]:
np.dot([1, 2, 3], [1, 2, 3])

14

Vektorszorzat. Az új vektor minden értéke nulla lesz, hiszen a vektort saját magával szoroztuk meg.

In [49]:
np.cross([1, 2, 3], [1, 2, 3])

array([0, 0, 0])

In [43]:
a, b

(array([[1, 2, 3],
        [4, 5, 6]]), array([0., 1., 2.]))

Mátrix összeadása vektorral. <q>Hivatalosan</q> vektort nem lehet mátrixal összeadni. A numpy mégis támogatja ezt a műveletet, mivel bizonyos esetekben hasznos lehet.

A művelet, sorvektor esetén, közelítőleg a következő kóddal ekvivalens 
```python
for ii in range(a.shape[0]):
    for jj in range(a.shape[1]):
        a[ii, jj] = a[ii, jj] + b[jj]
```

In [44]:
c = a + b
c

array([[1., 3., 5.],
       [4., 6., 8.]])

In [45]:
d = np.array([[1], [2]])
d, d.shape

(array([[1],
        [2]]), (2, 1))

In [52]:
a

array([[1, 2, 3],
       [4, 5, 6]])

Oszlopvektor esetén:
```python
for jj in range(a.shape[1]):
    for ii in range(a.shape[0]):
        a[ii, jj] = a[ii, jj] + d[jj]
```

In [55]:
a + d

array([[2, 3, 4],
       [6, 7, 8]])

Egy mátrix adott sorát vagy oszlopát új változóhoz rendelhetünk. A numpy nem készít másolatot az eredeti elemekről, tehát, az új változón keresztül, a list-hez hasonlóan, az eredeti elemeket is el tudjuk érni és meg tudjuk változtatni.

In [58]:
c

array([[1., 3., 5.],
       [4., 6., 8.]])

In [59]:
d = c[:,0]
d

array([1., 4.])

In [60]:
d[0] = 0.0; c

array([[0., 3., 5.],
       [4., 6., 8.]])

Ha meg szeretnénk őrizni változatlanul az eredeti elemeket, másolatot készíthetünk az eredeti sorról vagy oszlopról.

In [61]:
d = c[:,0].copy()
c, d

(array([[0., 3., 5.],
        [4., 6., 8.]]), array([0., 4.]))

Nem változott meg az eredeti mátrix.

In [63]:
d[0] = 10.0; c

array([[0., 3., 5.],
       [4., 6., 8.]])

## Bool alapú indexelés (boolean indexing)

In [66]:
c

array([[0., 3., 5.],
       [4., 6., 8.]])

Válasszuk ki azon elemek indexeit, melyek értéke 5-nél kisebb.

In [68]:
t = c < 5.0
t

array([[ True,  True, False],
       [ True, False, False]])

In [78]:
t.shape, t.dtype

((2, 3), dtype('bool'))

Az eredmény egy mátrix lesz, melynek az alakja megegyezik az eredeti mátrix alakjával, elemei `bool` típusúak lesznek. Az elemek értéke igaz, `True`, ahol a feltétel teljesül (jelen esetben az elem értéke kisebb mint 5), hamis, `False`, ahol nem.

Értékek kiválasztása az indexelő mátrix alapján.

In [69]:
c[t]

array([0., 3., 4.])

In [70]:
# tömörebben
c[c < 5.0]

array([0., 3., 4.])

A bool típusú elemeket tartalmazó mátrixszal többfajta műveletet is végrehajthatunk, melyek eredménye szintén bool típusú elemeket tartalmazó mátrix lesz.

In [71]:
t1, t2 = c < 5.0, c > 2.0

In [72]:
t1

array([[ True,  True, False],
       [ True, False, False]])

In [73]:
t2

array([[False,  True,  True],
       [ True,  True,  True]])

In [75]:
# ÉS művelet
t1 & t2 

array([[False,  True, False],
       [ True, False, False]])

In [76]:
# VAGY művelet
t1 | t2 

array([[ True,  True,  True],
       [ True,  True,  True]])

Elemek kiválasztása, melyek értéke kisebb mint 5 és nagyobb mint 2

In [77]:
c[(c < 5.0) & (c > 2.0)]

array([3., 4.])

## Újraformázás (Reshaping)

In [20]:
c

array([[0., 3., 5.],
       [4., 6., 8.]])

Matlabhoz hasonlóan a mátrixok alakját meg tudjuk változtatni az `np.reshape` függvénnyel vagy a `reshape` metódussal.

In [82]:
# függvénnyel
np.reshape(c, (3,2))

array([[0., 3.],
       [5., 4.],
       [6., 8.]])

In [81]:
# metódussal
c.reshape((3,2))

array([[0., 3.],
       [5., 4.],
       [6., 8.]])

In [97]:
e = c.reshape(6, order="F")
e.shape, e

((6,), array([0., 4., 3., 6., 5., 8.]))

Az `e` változó csak egy "referencia" (reference) vagy "nézet" (view) a `c` mátrix elemeire, nem egy másolat. A `base` elem segítségével elérhetjük az eredeti `c` mátrixot.

In [95]:
e.base

array([[0., 3., 5.],
       [4., 6., 8.]])

## Összegző vagy aggregáló műveletek

### Elemek összegzése (sum)

In [99]:
c

array([[0., 3., 5.],
       [4., 6., 8.]])

Összes elem összegzése.

In [100]:
c.sum()

26.0

Oszloponkénti összegzés.

In [102]:
c.sum(axis=0)

array([ 4.,  9., 13.])

Soronkénti összegzés.

In [103]:
c.sum(axis=1)

array([ 8., 18.])

Csak 5-nél nagyobb elemek értékeinek összegzése.

In [104]:
c[c > 5.0].sum()

14.0

### Átlag bagy várható érték számítása (mean)

Összes elemre, oszloponként, soronként és csak 5-nél nagyobb elemekre.

In [108]:
c.mean()

4.333333333333333

In [106]:
c.mean(axis=0)

array([2. , 4.5, 6.5])

In [107]:
c.mean(axis=1)

array([2.66666667, 6.        ])

In [112]:
c[c > 5.0].mean()

7.0

### Szórás számítása (standard deviation)

Összes elemre, oszloponként, soronként és csak 5-nél nagyobb elemekre.

In [109]:
c.std()

2.494438257849294

In [110]:
c.std(axis=0)

array([2. , 1.5, 1.5])

In [111]:
c.std(axis=1)

array([2.05480467, 1.63299316])

In [113]:
c[c > 5.0].std()

1.0

Minden metódus, ami elérhető mátrixokra (sum, mean, std) külön függvényként is meghívható a numpy csomagból.

In [114]:
c.mean()

4.333333333333333

In [115]:
np.mean(c)

4.333333333333333

In [116]:
c.mean() == np.mean(c)

True

## Bool típusú elemekre alkalmazható műveletek

Az `all` függvény csak akkor tér vissza igaz értékkel, ha minden elem igaz.

In [33]:
np.all([True, False, True])

False

Az `any` függvény akkor tér vissza igaz értékkel, ha legalább egy elem igaz.

In [34]:
np.any([True, False])

True

Minden elem értéke nagyobb mint 5?

In [35]:
np.all(c > 5.0)

False

Leglább egy elem értéek nagyobb mint 5?

In [36]:
np.any(c > 5.0)

True

Metódusként meghívva.

In [117]:
(c > 5.0).any()

True

Természetesen a fent bemutatott függvények, metódusok tetszőlegesen sok dimenziójú tenzorokra is működnek.

Végezetül a következő néhány oldalt szeretném a figyelmetekbe ajánlani:
- Matlab és numpy összehasonlítása, fontosabb különbségek, ekvivalens függvények. [link](https://docs.scipy.org/doc/numpy/user/numpy-for-matlab-users.html)
- Hosszabb áttikintés a Python, numpy, scipy és Matlab különbségeiről. Szintaxis, függvények. [link](https://realpython.com/matlab-vs-python/)
- Rövidebb áttekintés az elérhető legfontosabb Python csomagokról, eltérések a Matlabtól. [link](https://medium.com/gradbunker/matlab-vs-python-for-scientific-computing-a-beginners-guide-a27f4dcbbc81)

A következő fejezetben további numpy függvényekkel fogunk megismerkedni, elsősorban egyenletrendszerek megoldásával, függvényillesztéssel és az eredmények vizualizációjával.