# Copyright

<PRE>
Jelen Jupyter notebook a Budapesti Műszaki és Gazdaságtudományi Egyetemen tartott "Deep Learning a gyakorlatban Python és LUA alapon" tantárgy segédanyagaként készült. 
A tantárgy honlapja: http://smartlab.tmit.bme.hu/oktatas-deep-learning
Deep Learning kutatás: http://smartlab.tmit.bme.hu/deep-learning
Jelen notebook a hivatalos dokumentáció alapján készült: https://docs.scipy.org/doc/numpy-dev/user/quickstart.html

A notebook bármely részének újra felhasználása, publikálása csak a szerzők írásos beleegyezése esetén megengedett.

2019 (c) Császár Márk, Gyires-Tóth Bálint (toth.b kukac tmit pont bme pont hu)
</PRE>

# Numpy csomag

A gépi tanulás és így a mély tanulás során egyik leggyakrabban alkalmazott Python csomag a Numpy, amelyet az alábbi paranccsal tudunk betölteni, majd később np-ként hivatkozni rá.

In [1]:
import numpy as np

A Numpy alapvetően homogén, egy- vagy többdimenziós mátrixok (= tömbök = tensorok) kezelésére szolgál. Ezen mátrixok elemei számok, melyek ugyanazon típusból származnak, tömbön belüli poziciójukat pedig pozitív, egész számok segítségével adhatjuk meg.

# Numpy tömbök jellemzői

Fontos, gyakran használt jellemzők:

    ndarray.ndim - A tömb dimenziója.

    ndarray.shape - A tömb formája, amely megadja a tömb méretét minden dimenzió mentén. 2 dimenziós mátrixok esetében az n sorból illetve m oszlopból mátrix alakja (n,m) lesz. 

    ndarray.size - A tömbben szereplő elemek száma, amely megegyezik az egyes dimenziók menti méretek szorzatával. 

    ndarray.dtype - A tömbbeli elemek típusa. 

További említésre méltó jellemzők (ezeket ritkán fogjuk használni):

    ndarray.itemsize - Az egyes elemek mérete byte-okban kifejezve, összhangban az előzőleg említett típussal.

    ndarray.data - A tömb összes elemét tartalmazó buffer.


# Numpy tömbök létrehozása

Mély tanuló rendszerek szempontjából fontosabb adattípusok: 

    bool_ (pl. bináris adatok)
    
    int_ (pl. képek RGB csatornái)
    
    float_ (32 bites, általános adatok)
    
    float16_ (16 bites, half-precision, általános adatok): egyre nagyobb teret hódít előnyei miatt (gyorsabb, több fér bele a memóriába és deep learning célokra jól használható)

Hibás megoldás:

In [2]:
a = np.array(1,2,3,4)    # HIBÁS


ValueError: only 2 non-keyword arguments accepted

Helyes megoldás:

In [3]:
a = np.array([1,2,3,4])  # HELYES
a

array([1, 2, 3, 4])

Egy 2 dimenziós Numpy tömb létrehozása:

In [4]:
b = np.array([(1.5,2,3), (4,5,6)]) 
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

A tömb deklarálásakor az elemek (és így a tömb) típusát is megadhatjuk:

In [5]:
c = np.array( [ [1.2,2.3], [3.7,4.5] ], dtype=float ) 
c

array([[1.2, 2.3],
       [3.7, 4.5]])

Csupa nullákból álló 3x4-es méretű tömb létrehozása, a numpy.zeros() függvénnyel (gyakran használjuk):

In [6]:
d = np.zeros( (3,4) ) 
d

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

2 darab 3x4-es méretű tömb (azaz egy 3D-s tömb) létrehozása a numpy.ones() függvénnyel, mely csupa egyest (16 bites egész számokat) tartalmaz:

In [7]:
e = np.ones( (2,3,4), dtype=np.int16 )
e

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int16)

2x3-as méretű üres tömb létrehozása a numpy.empty() segítségével. Ekkor a tömb elemeihez memóriacímeket rendel a Numpy, melyek értéke a memóriacímeken található értékek lesznek. 

In [8]:
f = np.empty( (2,3) ) 
f

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

Az első és második argumentum által határolt intervallumból a harmadik argumentum számú elemet egyenlő távolságra helyez el egymástól és ír bele egy numpy tömbbe. Sokat használjuk.

In [9]:
g = np.linspace( 0, 2, 9 )  # 0 és 2 között 9 számot generál
g

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

Ugyanez a függvény -2*pi és 2*pi tartományból, 15 elemmel:

In [10]:
h = np.linspace( -2*np.pi, 2*np.pi , 15 )
h

array([-6.28318531, -5.38558741, -4.48798951, -3.5903916 , -2.6927937 ,
       -1.7951958 , -0.8975979 ,  0.        ,  0.8975979 ,  1.7951958 ,
        2.6927937 ,  3.5903916 ,  4.48798951,  5.38558741,  6.28318531])

Hasonló a linspace()-hez, de akkor célszerű használni, ha a léptetési mérték egész szám. Amennyiben nem adunk meg paraméterként tartomány határokat illetve léptetést, akkor egyszerűen létre tudunk hozni egy új tömböt is, amely automatikusan feltöltésre kerül.

In [11]:
i = np.arange(15) 
i

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

Amennyiben túl sok tömbbeli elemet kellene megjeleníteni, akkor csak a tartományok utolsó elemei kerülnek vizualizálásra. 

In [12]:
print(np.eye(100)) 

[[1. 0. 0. ... 0. 0. 0.]
 [0. 1. 0. ... 0. 0. 0.]
 [0. 0. 1. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 1. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]
 [0. 0. 0. ... 0. 0. 1.]]


# Elemi műveletek

"a" tömb létrehozása:

In [13]:
a = np.array( [20,30,40,50] ) 
a

array([20, 30, 40, 50])

"b" tömb létrehozása

In [14]:
b = np.arange( 4 ) 
b

array([0, 1, 2, 3])

Elemenkénti kivonás:

In [15]:
c = a-b 
c

array([20, 29, 38, 47])

"b" tömb elemeinek négyzete:

In [16]:
b**2 

array([0, 1, 4, 9], dtype=int32)

A tömb elemeinek 10*sinus értékeinek kiszámítása. A Numpy függvények esetében elég csak a tömböt magát átadni a függvénynek. Nincs szükség arra, hogy végigiteráljunk az összes elemen.

In [17]:
10*np.sin(a) 

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

Feltétel teljesülésének ellenőrzése és "boole" tömb előállítása az eredeti tömbből:

In [18]:
a<35 

array([ True,  True, False, False])

"A" 2x2-es tömb létrehozása előredefiniált értékkel: 

In [19]:
A = np.array( [[1,1], 
              [0,1]] ) 

"B" 2x2-es tömb létrehozása:

In [20]:
B = np.array( [[2,0],
              [3,4]] ) 

A és B elemenkénti szorzása:

In [21]:
A*B 

array([[2, 0],
       [0, 4]])

A és B mátrixszorzása a numpy.dot() függvény segítségével. Mindkét sor ugyanazt csinálja.

In [22]:
np.dot(A, B) 
A.dot(B)

array([[5, 4],
       [3, 4]])

Csupa egyesekből álló "a" tömb létrehozása és "a" minden elemének megszorzása hárommal:

In [23]:
a = np.ones((2,3), dtype=int)
a
a *= 3                        
a

array([[3, 3, 3],
       [3, 3, 3]])

2x3-as mátrix létrehozása és feltöltése a [0.0, 1.0) tartományból véletlenszerűen. A két megközelítés ugyanazt csinálja.

In [24]:
b = np.random.random((2,3)) 
b

array([[0.96539293, 0.55520586, 0.16088991],
       [0.25823213, 0.96261357, 0.17380856]])

In [25]:
b = np.random.rand(2,3)
b

array([[0.97274927, 0.07606238, 0.44677855],
       [0.32826475, 0.20819316, 0.15974352]])

Így is hozzá lehet adni "b" elemeihez "a" tömb elemeit:

In [26]:
b += a 
b

array([[3.97274927, 3.07606238, 3.44677855],
       [3.32826475, 3.20819316, 3.15974352]])

# Random seed

Amennyiben megadunk egy random seed-et, akkor bárhányszor indítjuk újra a scriptünket, egymás után ugyanazokat a véleletlen számokat fogja generálni. Ez segít abban, hogy minden futtatáskor ugyanazon véletlen számokkal tudjunk dolgozni, és a különböző eredmények ne a különböző véletlen számokból adódjanak.

In [27]:
np.random.seed(42)
print(np.random.rand(2,3))
print(np.random.rand(2,3))
print(np.random.rand(2,3))
print(np.random.rand(2,3))

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
[[0.05808361 0.86617615 0.60111501]
 [0.70807258 0.02058449 0.96990985]]
[[0.83244264 0.21233911 0.18182497]
 [0.18340451 0.30424224 0.52475643]]
[[0.43194502 0.29122914 0.61185289]
 [0.13949386 0.29214465 0.36636184]]


In [28]:
np.random.seed(42)
print(np.random.rand(2,3))
print(np.random.rand(2,3))
print(np.random.rand(2,3))
print(np.random.rand(2,3))

[[0.37454012 0.95071431 0.73199394]
 [0.59865848 0.15601864 0.15599452]]
[[0.05808361 0.86617615 0.60111501]
 [0.70807258 0.02058449 0.96990985]]
[[0.83244264 0.21233911 0.18182497]
 [0.18340451 0.30424224 0.52475643]]
[[0.43194502 0.29122914 0.61185289]
 [0.13949386 0.29214465 0.36636184]]


# Unáris operátorok

3x4-es méretű tömb létrehozása és feltöltése a numpy.arange() függvénnyel:

In [29]:
b = np.arange(12).reshape(3,4) 
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Oszlop- és sorösszegek kíszámítása:

In [30]:
b.sum(axis=0) 

array([12, 15, 18, 21])

In [31]:
b.sum(axis=1) 

array([ 6, 22, 38])

A tömbön belül oszloponként és soronként a legkisebb elemek:

In [32]:
b.min(axis=0) 

array([0, 1, 2, 3])

In [33]:
b.min(axis=1) 

array([0, 4, 8])

Oszloponkénti és soronkénti kumulált összegek:

In [34]:
b.cumsum(axis=0) 

array([[ 0,  1,  2,  3],
       [ 4,  6,  8, 10],
       [12, 15, 18, 21]], dtype=int32)

In [35]:
b.cumsum(axis=1) 

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

Amennyiben nem adunk meg *axis* paramétert, akkor az egész tömbre elvégzi a műveletet:

In [36]:
b.sum()

66

In [37]:
b.min()

0

In [38]:
b.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45, 55, 66], dtype=int32)

# Indexálás

Első 10 nemnegatív egész szám köbe:

In [39]:
a = np.arange(10)**3 
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

A tömbök számozása 0-tól indul. (A LUA-ban 1-től)

In [40]:
a[2]  

8

Tömbön belüli intervallum kijelölése. Az intervallum felső korlátja már nem kerül bele a kiválasztásba.

In [41]:
a[2:5] 

array([ 8, 27, 64], dtype=int32)

Az első elemtől a hatodikig, minden második elemnek 1000 értéket ad:

In [42]:
a[:6:2] = 1000 
a

array([1000,    1, 1000,   27, 1000,  125,  216,  343,  512,  729],
      dtype=int32)

Sorvektor megfordítása:

In [43]:
a[ : :-1] 

array([ 729,  512,  343,  216,  125, 1000,   27, 1000,    1, 1000],
      dtype=int32)

5x4-es mátrix létrehozása:

In [44]:
b = np.arange(20).reshape(5,4) 
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19]])

Mind az oszlopok, mind a sorok indexe 0-tól kezdődik:

In [45]:
b[2,3] 

11

A második oszlop első öt darab eleme:

In [46]:
b[0:5, 1] 

array([ 1,  5,  9, 13, 17])

"b" tömb utolsó sora:

In [47]:
b[-1] 

array([16, 17, 18, 19])

# A Numpy tömb formájának manipulálása

3x4-es mátrix létrehozása és feltöltése random elemekkel:

In [48]:
a = np.floor(10*np.random.random((3,4))) 
a

array([[4., 7., 1., 5.],
       [5., 0., 6., 1.],
       [0., 9., 9., 8.]])

Az eredeti 3x4-es mátrix átalakítása sorvektorrá a numpy.reshape() paranccsal:

In [49]:
a.reshape(1,12) 

array([[4., 7., 1., 5., 5., 0., 6., 1., 0., 9., 9., 8.]])

 A numpy.shape() is használható, amennyiben nem változik meg az elemek száma az átalakítással:

In [50]:
a.shape = (6, 2) 
a

array([[4., 7.],
       [1., 5.],
       [5., 0.],
       [6., 1.],
       [0., 9.],
       [9., 8.]])

A mátrix transzponáltja. Csak egy és kétdimenziós esetekben használható:

In [51]:
a.T 

array([[4., 1., 5., 6., 0., 9.],
       [7., 5., 0., 1., 9., 8.]])

Megadhatjuk, hogy hány sort szeretnénk látni, az oszlopok számát pedig automatikusan kiszámolja:

In [52]:
a.reshape(3,-1) 

array([[4., 7., 1., 5.],
       [5., 0., 6., 1.],
       [0., 9., 9., 8.]])

# Mátrixok összevonása

2 darab 2x2-es tömb létrehozása random elemekkel. Numpy.floor() alsó egészrész értékre alakítja:

In [53]:
a = np.floor(10*np.random.random((2,2))) 
a

array([[3., 0.],
       [6., 4.]])

In [54]:
b = np.floor(10*np.random.random((2,2))) 
b

array([[1., 4.],
       [0., 9.]])

A két tömb illesztése az 1. (vertikális) és a 2. (horizontális) dimenzió mentén:

In [55]:
np.concatenate((a, b), axis=0 ) 

array([[3., 0.],
       [6., 4.],
       [1., 4.],
       [0., 9.]])

In [56]:
np.concatenate((a, b), axis=1 ) 

array([[3., 0., 1., 4.],
       [6., 4., 0., 9.]])

# Mátrixok másolása

Az első 12 nemnegatív számból álló sorvektor létrehozása:

In [57]:
a = np.arange(12) 
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

"b" tömböt egyenlővé tesszük "a"-val:

In [58]:
b = a 

Egyenlőség vizsgálata:

In [59]:
b is a 

True

Ha b alakját megváltoztatom, akkor az a alakja is megváltozik:

In [60]:
b.shape = 3,4 
a.shape 

(3, 4)

Legyen "c" egy olyan tömb, amely ugyanúgy néz ki mint "a":

In [61]:
c = a.view() 
c is a 

False

A "c" tömbön keresztül látjuk az "a" tömb elemeit:

In [62]:
c.base is a 

True

Ha megváltoztatom a "c" tömb alakját, akkor az "a" tömb alakja nem változik:

In [63]:
c.shape = 2,6 
a.shape 

(3, 4)

Ha megváltoztatom "c" tömb negyedik elemét:

In [64]:
c[0,4] = 1234 
a

array([[   0,    1,    2,    3],
       [1234,    5,    6,    7],
       [   8,    9,   10,   11]])

Mély másolat (deep copy) készítése a tömbről, a "d" tömb nem "a"-ra hivatkozik, hanem független attól:

In [65]:
d = a.copy() 
d is a 

False

In [66]:
d.base is a 

False

# Garbage collector

A Python programozási nyelv rendelkezik memóriaszemét gyűjtéssel, mely segítségével elkerülhető a memóriaszivárgás. Mély neurális hálózatokban nagy adatmennyiséggel dolgozunk, ezért sok esetben szükséges lehet a memória "kézzel" történő ürítése, a Python ütemezése előtt. Ezt a következőképp tudjuk megtenni:

In [67]:
a = np.floor(10*np.random.random((3,4)))
a

array([[2., 6., 3., 5.],
       [5., 1., 9., 7.],
       [9., 8., 5., 9.]])

In [68]:
a = []
a

[]

A Garbage Collector (GC) modul importálása és a teljes memóriaszemét gyűjtése. A gc.collect() visszatérési értéke a nem elért elemek száma.

In [69]:
import gc 
gc.collect()

0