
**Created by:**

__[Viktor Varga](https://github.com/vvarga90)__

<br>

<img src="https://docs.google.com/uc?export=download&id=1WzgXsCoz8O-NeBlJTbuLPC1iIFDmgYt1" style="display:inline-block">
<hr>

# Python tutorial - Numpy, 2. fejezet

## Tengelyek mentén végzett műveletek

Ezek a műveletek egy tömb egy, vagy több tengelye mentén vett szeletekből állítanak elő egy-egy értéket. Közös bennük az `axis` paraméter, mellyel megadhatjuk, hogy melyik tengelyek mentén végezzük az adott műveletet.

Például, egy (2,3) méretű tömbön az `np.sum()` művelet `axis=0` paraméterrel hívva a #0 indexű tengely mentén összegzi az elemeket, `axis=1` paraméterrel hívva pedig az #1 indexű tengely mentén teszi meg ezt. Előbbi esetben az eredmény tömb (3,), utóbbi esetben (2,) méretű. `axis` paraméterként több tengely is megadható (egy tuple-ben felsorolva), ekkor ezek a tengelyek az eredményben nem fognak szerepelni, az összes megadott tengely mentén megtörténik az összegzés. Ha `axis` paraméter nélkül hívjuk meg az `np.sum()` függvényt a tömbre, akkor az egész tömböt összegzi, eredménye egy skalár (ebben az esetben az `axis=None` default argumentummal kerül meghívásra a függvény).

In [None]:
import numpy as np

a = np.arange(6, dtype=np.int32).reshape((2,3))
print("The 2D 'a' array:\n", a)
print("   ... its shape is", a.shape)

print("\nSumming array along axis#0: ", np.sum(a, axis=0))
print("Summing array along axis#1: ", np.sum(a, axis=1))
print("Summing array along axis#0 and axis#1: ", np.sum(a, axis=(0,1)))
print("Summing whole array: ", np.sum(a))

The 2D 'a' array:
 [[0 1 2]
 [3 4 5]]
   ... its shape is (2, 3)

Summing array along axis#0:  [3 5 7]
Summing array along axis#1:  [ 3 12]
Summing array along axis#0 and axis#1:  15
Summing whole array:  15


További hasonló műveletek: `np.prod()`, `np.mean()`, `np.std()`, `np.amax()`, `np.amin()`

In [None]:
a = np.arange(6, dtype=np.int32).reshape((2,3))
print("The 2D 'a' array:\n", a)
print("   ... its shape is", a.shape)

print("\nProducts of array along axis#1: ", np.prod(a, axis=1))
print("Mean of array along axis#0: ", np.mean(a, axis=0))
print("Standard deviation of whole array: ", np.std(a))

# np.maximum() is elmentwise maximum of multiple arrays
# np.amax() is maximum along axis/axes of a single array

print("\nMaximum and minimum of array along axis#0: ", np.amax(a, axis=0), "and", np.amin(a, axis=0))


The 2D 'a' array:
 [[0 1 2]
 [3 4 5]]
   ... its shape is (2, 3)

Products of array along axis#1:  [ 0 60]
Mean of array along axis#0:  [1.5 2.5 3.5]
Standard deviation of whole array:  1.707825127659933

Maximum and minimum of array along axis#0:  [3 4 5] and [0 1 2]


Logikai műveletek is: `np.all()`, `np.any()`

In [None]:
a = np.arange(6, dtype=np.int32).reshape((2,3))
b = (a % 2 == 1) | (a < 4)
print("The 2D 'b' boolean array:\n", b)
print("   ... its shape is", b.shape)

print("\nLogical OR along axis#0: ", np.any(a, axis=0))
print("Logical OR on whole array: ", np.any(a))
print("Logical AND along axis#1: ", np.all(a, axis=1))
print("Logical AND on whole array: ", np.all(a))



The 2D 'b' boolean array:
 [[ True  True  True]
 [ True False  True]]
   ... its shape is (2, 3)

Logical OR along axis#0:  [ True  True  True]
Logical OR on whole array:  True
Logical AND along axis#1:  [False  True]
Logical AND on whole array:  False


## Advanced indexing

**Advanced indexing** során, hasonlóan a **basic indexing**-hez, egy tömb több elemét/szeletét egyszerre hivatkozhatjuk. Azonban, míg **basic indexing** esetén index-intervallumokon (range) szabályos lépésközökkel tudunk csak elemekre hivatkozni, addig **advanced indexing** használatakor két másik mód is rendelkezésünkre áll.

Egyrészt, használhatunk sorozatokat (listákat, iterátorokat és integer tömböket) is indexelésre.

Az **advanced indexing**-gel történő indexeléssel készült tömbök mindenképpen **másolatai** lesznek az eredeti tömbnek, nem nézetei.

In [None]:
a = np.arange(6, dtype=np.int32)+10
print("The 'a' array:", a)
print("   ... its shape is", a.shape)

b = a[[1,3,3,-5]]   # indexing with a list of indices, negative indices are counted from backwards
print("\nThe 'b' array: ", b)

# writing the 'b' array does not modify the original 'a' array
b[0] = 42
print("\nThe modified 'b' array: ", b)
print("The original 'a' array after modifying 'b': ", a)



The 'a' array: [10 11 12 13 14 15]
   ... its shape is (6,)

The 'b' array:  [11 13 13 11]

The modified 'b' array:  [42 13 13 11]
The original 'a' array after modifying 'b':  [10 11 12 13 14 15]


Elemek felülírása advanced indexing-gel:

In [None]:
a = np.arange(6, dtype=np.int32)+10
print("The 'a' array:", a)
print("   ... its shape is", a.shape)

a[[1,5,2]] = 99
print("\nThe modified 'a' array:", a)

The 'a' array: [10 11 12 13 14 15]
   ... its shape is (6,)

The modified 'a' array: [10 99 99 13 14 99]


Integer típusú tömb is használható indexelésre.

In [None]:
a = np.arange(6, dtype=np.int32)+10
print("The 'a' array:", a)
print("   ... its shape is", a.shape)

idxs = np.array([0,2,0,-1,-4], dtype=np.int32)
print("\nThe 'a' array indexed with 'idxs' array:", a[idxs])


The 'a' array: [10 11 12 13 14 15]
   ... its shape is (6,)

The 'a' array indexed with 'idxs' array: [10 12 10 15 12]


Ha 1 dimenziós tömböt több dimenziós indextömbbel indexelünk, az eredmény is többdimenziós lesz.

In [None]:
idxs = np.array([[2,3],[5,2],[1,1]], dtype=np.int32)
print("The 'idxs' array:", idxs)
print("   ... its shape is", idxs.shape)

b = a[idxs]
print("\nThe 'a' array indexed with the 2D 'idxs' array:", b)
print("   ... its shape is", b.shape)

The 'idxs' array: [[2 3]
 [5 2]
 [1 1]]
   ... its shape is (3, 2)

The 'a' array indexed with the 2D 'idxs' array: [[12 13]
 [15 12]
 [11 11]]
   ... its shape is (3, 2)


Ha többdimenziós tömböt indexelünk, az egyes tengelyek mentén különböző indexelési technikákat használhatunk. Ha új tömböt készítünk indexeléssel és legalább az egyik tengely mentén advanced indexing-et használunk, akkor az új tömb az eredeti tömb megfelelő részének másolata lesz, nem nézete.

Ha több tengely mentén is szekvenciával szeretnénk indexelni, akkor a két szekvencia hossza azonos kell, hogy legyen. (Ha többdmineziós tömböket használunk indexelésre több tengely mentén is, akkor szükséges, hogy a két indextömb azonos alakra legyen hozható broadcasting segítségével).

Teljes dokumentáció: https://numpy.org/doc/stable/user/basics.indexing.html

Ha egy 2 dimenziós tömbből szeretnénk elemek listáját kiválasztani, akkor két tengely mentén egy-egy egyező hosszú szekvenciával indexeljük külön a #0 és külön a #1 tengelyt. Például, ha az `a[0,1], a[2,2], a[0,5]` elemeket szeretnénk visszakapni, akkor az alábbi módon kell indexelnünk: `a[[0,2,0], [1,2,5]]`.

In [None]:
a = np.arange(6, dtype=np.int32).reshape((2,3))+10
print("The 'a' array:\n", a)
print("   ... its shape is", a.shape)

idxs0 = [0,1,0]
idxs1 = [1,2,2]

b = a[idxs0, idxs1]  # extracting a[0,1], a[1,2], a[0,2] into the 'b' array

print("\nThe 'b' array:", b)
print("   ... its shape is", b.shape)

# we can also use a tuple of lists/arrays/... to do multi-dimensional indexing
idxs = (idxs0, idxs1)
b = a[idxs]
print("\nThe 'b' array:", b)
print("   ... its shape is", b.shape)

# advanced indexing only along a single axis: extracting slices from 'a'
c = a[[0,1,0],:]
print("\nThe 'c' array:\n", c)
print("   ... its shape is", c.shape)

# advanced indexing along one axis, basic indexing along the other
d = a[[0,1,0],::2]
print("\nThe 'd' array:\n", d)
print("   ... its shape is", d.shape)

# e = a[[0,1,0],[0,2]]  # but we can't do this:
#   IndexError: shape mismatch: indexing arrays could not be broadcast together with shapes (3,) (2,)

# but we can do this: reshape #1 axis index array to (2,1) to be broadcastable to shape (2,3)
#     and match #0 axis index array shape (3,)
# indexed elements this way: [[a[0,0], a[1,0], a[0,0]], [a[0,2], a[1,2], a[0,2]]]
f = a[np.array([0,1,0]), np.array([0,2])[:,None]]
print("\nThe 'f' array:\n", f)
print("   ... its shape is", f.shape)


The 'a' array:
 [[10 11 12]
 [13 14 15]]
   ... its shape is (2, 3)

The 'b' array: [11 15 12]
   ... its shape is (3,)

The 'b' array: [11 15 12]
   ... its shape is (3,)

The 'c' array:
 [[10 11 12]
 [13 14 15]
 [10 11 12]]
   ... its shape is (3, 3)

The 'd' array:
 [[10 12]
 [13 15]
 [10 12]]
   ... its shape is (3, 2)

The 'f' array:
 [[10 13 10]
 [12 15 12]]
   ... its shape is (2, 3)


Többdimenziós tömb többdimenziós indexelése helyett az indexelendő tömb akár ki is lapítható 1 dimenziósra (`ndarray.reshape(-1)`), majd a többdimenziós indexek konvertálhatók 1 dimenziós indexekre (`np.ravel_multi_index()`), így az indexelés végül a kilapított tömbön történhet meg. Ez a technika akkor is hasznos lehet, ha egy olyan műveletet szeretnénk a többdimenziós tömbünkön elvégezni, ami csak 1 dimenziós tömbre van implementálva. A tömb eredeti alakja ezután visszanyerhető `ndarray.reshape(<eredeti_shape>)`. A kilapított tömb elemeit hivatkozó indexek visszakonvertálhatók többdimenziós indexekké (`np.unravel_index()`).

Az **advanced indexing** használatára egy másik lehetőség a **boolean maszkkal való indexelés**. A maszkolás ugyancsak történhet 1, de akár több tengely mentén is. A lényeg, hogy a maszk mérete az eredeti tömbnek az indexelni kívánt tengelyek mentén vett alakjával egyeztethető legyen broadcasting segítségével.

In [None]:
a = np.arange(6, dtype=np.int32).reshape((2,3))
print("The 'a' array:\n", a)
print("   ... its shape is", a.shape)

mask = a < 4
print("\nThe 'mask' array:\n", mask)
print("   ... its shape is", mask.shape)
print("   ... its data type is", mask.dtype)

b = a[mask]  # this is a copy, not a view!
print("\nThe 'b' array:\n", b)
print("   ... its shape is", b.shape)



The 'a' array:
 [[0 1 2]
 [3 4 5]]
   ... its shape is (2, 3)

The 'mask' array:
 [[ True  True  True]
 [ True False False]]
   ... its shape is (2, 3)
   ... its data type is bool

The 'b' array:
 [0 1 2 3]
   ... its shape is (4,)


Maszkkal kiválasztott elemek írása:

In [None]:
a = np.arange(6, dtype=np.int32).reshape((2,3))
print("The 'a' array:\n", a)
print("   ... its shape is", a.shape)

a[(a % 2 == 0) | (a > 3)] = 99

print("\nThe modified 'a' array:\n", a)

The 'a' array:
 [[0 1 2]
 [3 4 5]]
   ... its shape is (2, 3)

The modified 'a' array:
 [[99  1 99]
 [ 3 99 99]]


Maszk használható csak bizonyos tengelyek mentén is.

Az alábbi `a` tömbben nullázzuk ki az összes sort, ami tartalmaz legalább egy negatív számot!

In [None]:
a = np.array([[1.2,2.5],[1.,-.6],[2.8,1.7],[-1.5,.7]], dtype=np.float32)
print("The 'a' array:\n", a)
print("   ... its shape is", a.shape)

a[np.any(a < 0., axis=1),:] = 0.

print("\nThe modified 'a' array:\n", a)
print("   ... its shape is", a.shape)


The 'a' array:
 [[ 1.2  2.5]
 [ 1.  -0.6]
 [ 2.8  1.7]
 [-1.5  0.7]]
   ... its shape is (4, 2)

The modified 'a' array:
 [[1.2 2.5]
 [0.  0. ]
 [2.8 1.7]
 [0.  0. ]]
   ... its shape is (4, 2)


Van lehetőség szekvenciával és maszkkal való indexelés egyszerre történő használatára is egy tömb különböző tengelyein.

Maszkból szekvencia hozható létre az `np.where()` függvénnyel.

## Tömbök konkatenálása, beszúrás, törlés

Fontos tudni, hogy ha egy Numpy tömb lefoglalódik a memóriában, annak mérete nem módosítható. Ha hozzá szeretnénk adni, vagy szeretnénk törölni egy elemet/oszlopot/sort/stb., esetleg konkatenálni szeretnénk több tömböt, mindenképpen új tömböt kell a Numpy-nak létrehoznia, ami költséges művelet lehet.

**Konkatenálás:**

`np.concatenate()`: Több tömböt egy **létező** tengely mentén összekonkatenál. Szükséges, hogy a konkatenáláshoz használt tengelyt leszámítva, minden tengely hossza azonos legyen az egyes tömböknél.

`np.stack()`: Több tömböt egy **új** tengely mentén összekonkatenál. Szükséges, hogy minden tömb alakja azonos legyen.

In [None]:
# CONCATENATE

a = np.arange(6, dtype=np.float32).reshape((2,3))
print("The 2D 'a' array:\n", a)
print("   ... its shape is", a.shape)

b = np.zeros((2,4), dtype=np.float32)
print("\nThe 2D 'b' array:\n", b)
print("   ... its shape is", b.shape)

c = np.concatenate([a, b], axis=-1)
print("\nThe two arrays concatenated along their last axis:\n", c)
print("   ... the concatenated array shape is", c.shape)

# STACK: all arrays must have the same shape

d = b[:,:3]
print("\nThe 2D 'd' array:\n", d)
print("   ... its shape is", d.shape)

e = np.stack([a, d], axis=0)
print("\nArrays 'a' and 'd' stacked along a new #0 axis:\n", e)
print("   ... the new shape is", e.shape)

f = np.stack([a, d], axis=-1)
print("\nArrays 'a' and 'd' stacked along a new last (#2) axis:\n", f)
print("   ... the new shape is", f.shape)


The 2D 'a' array:
 [[0. 1. 2.]
 [3. 4. 5.]]
   ... its shape is (2, 3)

The 2D 'b' array:
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]]
   ... its shape is (2, 4)

The two arrays concatenated along their last axis:
 [[0. 1. 2. 0. 0. 0. 0.]
 [3. 4. 5. 0. 0. 0. 0.]]
   ... the concatenated array shape is (2, 7)

The 2D 'd' array:
 [[0. 0. 0.]
 [0. 0. 0.]]
   ... its shape is (2, 3)

Arrays 'a' and 'd' stacked along a new #0 axis:
 [[[0. 1. 2.]
  [3. 4. 5.]]

 [[0. 0. 0.]
  [0. 0. 0.]]]
   ... the new shape is (2, 2, 3)

Arrays 'a' and 'd' stacked along a new last (#2) axis:
 [[[0. 0.]
  [1. 0.]
  [2. 0.]]

 [[3. 0.]
  [4. 0.]
  [5. 0.]]]
   ... the new shape is (2, 3, 2)


**Elemek beszúrása és törlése:**

Ha ciklusban szeretnénk több elemet/szeletet beszúrni egy tömbbe, akkor jóval hatékonyabb lehet, ha egy listába gyűjtjük a beszúrandó elemeket/szeleteket, majd végül egyszerre készítünk belőlük egy tömböt, például konkatenációval.

Egy-egy elem/szelet beszúrására használhatók az `np.append()`, `np.insert()` műveletek.

Az `np.pad()` művelettel tömbök széleire helyezhetők új elemek, akár több tengely mentén is.

Elemek törlésére az `np.delete()` helyett megfelelő indexelést szokás használni.

## Mátrix és vektorműveletek, lineáris algebra

Mátrixszorzás:

In [None]:
m = np.arange(9, dtype=np.float32).reshape((3,3))   # 3 by 3 matrix
print("The 'm' matrix:\n", m)
print("   ... its shape is", m.shape)

mm = np.matmul(m, m)

print("\nThe matrix product is:\n", mm)
print("   ... its shape is", mm.shape)

mm = np.dot(m, m)    # dot product: when applying on 2D matrices, has the same effect as np.matmul()

print("\nThe matrix product is:\n", mm)
print("   ... its shape is", mm.shape)

The 'm' matrix:
 [[0. 1. 2.]
 [3. 4. 5.]
 [6. 7. 8.]]
   ... its shape is (3, 3)

The matrix product is:
 [[ 15.  18.  21.]
 [ 42.  54.  66.]
 [ 69.  90. 111.]]
   ... its shape is (3, 3)

The matrix product is:
 [[ 15.  18.  21.]
 [ 42.  54.  66.]
 [ 69.  90. 111.]]
   ... its shape is (3, 3)


Nem négyzetes mátrix, $M^T M$

In [None]:
m = np.arange(6, dtype=np.float32).reshape((2,3))   # 2 by 3 matrix
print("The 'm' matrix:\n", m)
print("   ... its shape is", m.shape)

mm = np.matmul(m, m.T)   # transpose: m.T or np.transpose(m)

print("\nThe matrix product is:\n", mm)
print("   ... its shape is", mm.shape)

The 'm' matrix:
 [[0. 1. 2.]
 [3. 4. 5.]]
   ... its shape is (2, 3)

The matrix product is:
 [[ 5. 14.]
 [14. 50.]]
   ... its shape is (2, 2)


Vektor és mátrix szorzata:

In [None]:
m = np.arange(6, dtype=np.float32).reshape((2,3))   # 2 by 3 matrix
print("The 'm' matrix:\n", m)
print("   ... its shape is", m.shape)
v1 = np.arange(3, dtype=np.float32)
print("The 'v1' vector:\n", v1)
print("   ... its shape is", v1.shape)

# (2, 3) x (3,) -> (2,)

r1 = np.dot(m, v1)
print("\nThe result vector:\n", r1)
print("   ... its shape is", r1.shape)

# (2,) x (2, 3) -> (3,)

v2 = v1[:2]
print("The 'v2' vector:\n", v2)
print("   ... its shape is", v2.shape)

r2 = np.dot(v2, m)
print("\nThe result vector:\n", r2)
print("   ... its shape is", r2.shape)

The 'm' matrix:
 [[0. 1. 2.]
 [3. 4. 5.]]
   ... its shape is (2, 3)
The 'v1' vector:
 [0. 1. 2.]
   ... its shape is (3,)

The result vector:
 [ 5. 14.]
   ... its shape is (2,)
The 'v2' vector:
 [0. 1.]
   ... its shape is (2,)

The result vector:
 [3. 4. 5.]
   ... its shape is (3,)


Vektorok skalárszorzata:

In [None]:
v1 = np.arange(3)
v2 = np.arange(3)
print("\nThe 'v1' vector:", v1)
print("   ... its shape is", v1.shape)
print("The 'v2' vector:", v2)
print("   ... its shape is", v2.shape)

print("\nTheir dot product is: ", np.dot(v1, v2))


The 'v1' vector: [0 1 2]
   ... its shape is (3,)
The 'v2' vector: [0 1 2]
   ... its shape is (3,)

Their dot product is:  5


Egyéb fontosabb műveletek:

In [None]:
m = np.array([[2., 1., 3.],[4., 2., 6.],[1., 1., 5.]], dtype=np.float32)
print("The 'm' matrix:\n", m)
print("   ... its shape is", m.shape)

print("\nRank of matrix:", np.linalg.matrix_rank(m)) # not full rank since row#1 == 2*row#0

print("Determinant of matrix:", np.linalg.det(m))  # zero since it is not full rank

v1 = np.arange(3, dtype=np.float32)
print("\nThe 'v1' vector:\n", v1)
print("   ... its shape is", v1.shape)
print("\nLength of vector 'v1' (L2 norm):", np.linalg.norm(v1, ord=2))   # ord=2 is the default (euclidean distance)

print("\nLength of row-vectors of 'm' mnatrix:", np.linalg.norm(m, axis=1, ord=2))

# euclidean distance of two points
two_points = np.array([[1.,2.,-2.],[5., 3., 2.]])
print("\nTwo points:\n", two_points)

vec_length = np.linalg.norm(two_points[0,:] - two_points[1,:], ord=2)
print("  ... their distance:", vec_length)

The 'm' matrix:
 [[2. 1. 3.]
 [4. 2. 6.]
 [1. 1. 5.]]
   ... its shape is (3, 3)

Rank of matrix: 2
Determinant of matrix: 0.0

The 'v1' vector:
 [0. 1. 2.]
   ... its shape is (3,)

Length of vector 'v1' (L2 norm): 2.236068

Length of row-vectors of 'm' mnatrix: [3.7416575 7.483315  5.196152 ]

Two points:
 [[ 1.  2. -2.]
 [ 5.  3.  2.]]
  ... their distance: 5.744562646538029


## További, hasznos Numpy műveletek

Rendezés, számlálás, keresés:

https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.sort.html

Halmazműveletek:

https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.set.html

`np.apply_along_axis()`: Ez a művelet végrehajt egy 1 dimenziós tömbökön definiált függvényt egy többdimenziós tömb 1 dimenziós szeletein, majd összekonkatenálja az eredményt. Bár ez a funkció hasznos lehet alkalmanként, azonban tudni kell, hogy ez a technika megközelítílőleg annyira hatékony, mint ha egy egyszerű Python ciklusban hívogatnánk a függvényt a felszeletelt tömbre, majd összekonkatenálnánk az eredményt. Azaz, **ha sok kis szeleten kell elvégezni a belső műveletet, ez az eljárás nem hatékony**.