# Numpy

* FONTOS: Fontos alapozó, hiszen ez képzi a core-ját a Pandas-nek, mert a Pandas nagyon sok mindent átemel a NumPy-ból. Amikor az ember még nem táblázatokkal, de már mátrix szerű adatokkal dolgozik, akkor nagyon hasznos a NumPy. *

NumPy
- Mire való?:   Nagy tömbök (array-ek) és mátrixok gyors numerikus műveleteire.
- Adattípus:    ndarray (n-dimenziós tömb).
- Fő erősség:   Sebesség, vektoros számítás, matematikai műveletek.

Pandas
- Mire való?:   Táblázatos adatok (pl. Excel-szerű) kezelésére, elemzésére.
- Adattípusok:  Series (egydimenziós), DataFrame (kétdimenziós).
- Fő erősség:   Adattisztítás, szűrés, csoportosítás, időalapú elemzés.

Kapcsolat
- Pandas belül NumPy-t használ:     A DataFrame oszlopai valójában ndarray-ek.
- Gyakran együtt használják őket:   NumPy a számításokra, Pandas az adatok kezelésére.

_____________________________________________________________________________________________________________________________________

Összetett modul, mely összetett objektumokkal dolgozik, amik belső és külső függvényeket hívnak meg, láncolva egymás után

Numpy és Python között van egy nagy ellentét, a Python egy tipikusan dinamikus nyelv,
tehát ha:

`a = 3` akkor az `a` az int lesz

`a = "alma"` akkor az `a` az string lesz

A pythonnak ezzel nincs gondja, lehet egy változó `int` majd később `string`. Több programozási nyelvnél ez nem így van, pl.: java

```java
// Java változó és ciklus:
int summed = 0;
for(int i=0; i<10; i++){
    result += i;
}
```

```py
# Python változó és ciklus:
summed = 0
for i in range(10):
    summed += i
```

```py
# Python - dinamikusan tipizált:
var = 13
var = 57
var = "alma"
```

```java
// A Java típusai viszont megkötöttek:
int var = 13;
var = 57
var = "alma"; // Ez a sor hibát fog dobni, mivel a var változó típusát int-re rögzítettük
```

A `numpy` nem egy dinamikusan tipizált adatstruktúra, egy tömbön belül fixen meg van adva a használt típus.

Hátrány a dinamikus változóknál, lassabbak a számítások, főleg tömbök esetében, mert nem kell minden elemnél megvizsgálni a típusát.



In [2]:
# numpy importálása, jellemzően np néven szokták
import numpy as np

Numpy alapvető adatstruktúrája az `array`

Az array-ek létrehozása nagyon sokféle lehet:
- `np.zeros(shape)`: nullákkal teli array, `shape` alakkal (a shape a dimenziók mennyisége és elemszáma)
- `np.ones(shape)`: egyesekkel teli array, `shape` alakkal
- `np.full(shape, fill_value)`: `fill_value` értékkel teli array, `shape` alakkal.
- `np.arange(...)`: `start`, `step`, `stop` paraméterei vannak, úgy működik, mint a `range`.
- `np.linspace(start, stop, num)`: `num` darab float-ot hoz létre `start` és `stop` között egyenlő távolságra.
- `np.random.randint(low, high, size)`: egy `size` méterű arrayt hoz létre, benne `low` és `high` között random egész számokkal
- `np.random.random(size)`: egy `size` méretű array-t hoz létre, benne 0 és 1 közti random float számokkal
- `np.eye(N)`: egy `N`*`N` méretű array-t hoz létre, ahol minden elem nulla, kivéve a főátló (bal-felső sarok <-> jobb alsó sarok) elemeit, melyek 1-esek. Ezt nevezik egységmátrixnak

In [2]:
arr = np.array([1, 2, 3, 4, 5]) # minden elem int, így a numpy int-ként definiálta az array-t
arr

array([1, 2, 3, 4, 5])

In [3]:
np.array([1, 2, 3.14, 4, 5])
# 4 db int és 1 db float, a numpy így minden elemet floatként kezel, amit int-ként vittünk be, azt is floattá konvertálta

array([1.  , 2.  , 3.14, 4.  , 5.  ])

In [4]:
np.array([1, 2, 3, 4, 'a'])

array(['1', '2', '3', '4', 'a'], dtype='<U21')

#### Numpy Data Types

`dtype` - nem a python beépített típusai, ezeket a `numpy` felüldefiniálja

ha beírom, hogy `np.dtypes.` akkor feldobja, hogy milyen type-ok vannak és ki lehet választani a nekünk megfelelőt

| Data type     | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

In [5]:
# külön megadhatjuk, hogy az elemek milyen típusként legenek definiálva
np.array([1, 2, 3, 4, 5], dtype = "float")

array([1., 2., 3., 4., 5.])

In [6]:
arr.dtype

dtype('int64')

In [7]:
l = [[10 * j + i for i in range(10)] for j in range(11)]
l

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [10, 11, 12, 13, 14, 15, 16, 17, 18, 19],
 [20, 21, 22, 23, 24, 25, 26, 27, 28, 29],
 [30, 31, 32, 33, 34, 35, 36, 37, 38, 39],
 [40, 41, 42, 43, 44, 45, 46, 47, 48, 49],
 [50, 51, 52, 53, 54, 55, 56, 57, 58, 59],
 [60, 61, 62, 63, 64, 65, 66, 67, 68, 69],
 [70, 71, 72, 73, 74, 75, 76, 77, 78, 79],
 [80, 81, 82, 83, 84, 85, 86, 87, 88, 89],
 [90, 91, 92, 93, 94, 95, 96, 97, 98, 99],
 [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]]

In [8]:
arr2 = np.array(l)
arr2

array([[  0,   1,   2,   3,   4,   5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14,  15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24,  25,  26,  27,  28,  29],
       [ 30,  31,  32,  33,  34,  35,  36,  37,  38,  39],
       [ 40,  41,  42,  43,  44,  45,  46,  47,  48,  49],
       [ 50,  51,  52,  53,  54,  55,  56,  57,  58,  59],
       [ 60,  61,  62,  63,  64,  65,  66,  67,  68,  69],
       [ 70,  71,  72,  73,  74,  75,  76,  77,  78,  79],
       [ 80,  81,  82,  83,  84,  85,  86,  87,  88,  89],
       [ 90,  91,  92,  93,  94,  95,  96,  97,  98,  99],
       [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]])

In [9]:
arr2.dtype

dtype('int64')

`arange()`

In [10]:
np.arange(110)

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,  10,  11,  12,
        13,  14,  15,  16,  17,  18,  19,  20,  21,  22,  23,  24,  25,
        26,  27,  28,  29,  30,  31,  32,  33,  34,  35,  36,  37,  38,
        39,  40,  41,  42,  43,  44,  45,  46,  47,  48,  49,  50,  51,
        52,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,  64,
        65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,  77,
        78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
        91,  92,  93,  94,  95,  96,  97,  98,  99, 100, 101, 102, 103,
       104, 105, 106, 107, 108, 109])

`reshape()` - `shape`

`reshape(sorok száma, oszlopok száma)`

In [11]:
np.arange(110).reshape(11, 10)

array([[  0,   1,   2,   3,   4,   5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14,  15,  16,  17,  18,  19],
       [ 20,  21,  22,  23,  24,  25,  26,  27,  28,  29],
       [ 30,  31,  32,  33,  34,  35,  36,  37,  38,  39],
       [ 40,  41,  42,  43,  44,  45,  46,  47,  48,  49],
       [ 50,  51,  52,  53,  54,  55,  56,  57,  58,  59],
       [ 60,  61,  62,  63,  64,  65,  66,  67,  68,  69],
       [ 70,  71,  72,  73,  74,  75,  76,  77,  78,  79],
       [ 80,  81,  82,  83,  84,  85,  86,  87,  88,  89],
       [ 90,  91,  92,  93,  94,  95,  96,  97,  98,  99],
       [100, 101, 102, 103, 104, 105, 106, 107, 108, 109]])

In [12]:
np.zeros(shape = 5, dtype = "int32")

array([0, 0, 0, 0, 0], dtype=int32)

In [13]:
np.ones(shape = (3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [14]:
np.full(shape = (3, 5), fill_value = 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [15]:
np.arange(20, 10, -2)

array([20, 18, 16, 14, 12])

`linspace()`

In [16]:
np.linspace(0, 10, 100) # 0 és 10 között létrehozott 100 számot, melyek egymástól ugyanolyan távolságra vannak

array([ 0.        ,  0.1010101 ,  0.2020202 ,  0.3030303 ,  0.4040404 ,
        0.50505051,  0.60606061,  0.70707071,  0.80808081,  0.90909091,
        1.01010101,  1.11111111,  1.21212121,  1.31313131,  1.41414141,
        1.51515152,  1.61616162,  1.71717172,  1.81818182,  1.91919192,
        2.02020202,  2.12121212,  2.22222222,  2.32323232,  2.42424242,
        2.52525253,  2.62626263,  2.72727273,  2.82828283,  2.92929293,
        3.03030303,  3.13131313,  3.23232323,  3.33333333,  3.43434343,
        3.53535354,  3.63636364,  3.73737374,  3.83838384,  3.93939394,
        4.04040404,  4.14141414,  4.24242424,  4.34343434,  4.44444444,
        4.54545455,  4.64646465,  4.74747475,  4.84848485,  4.94949495,
        5.05050505,  5.15151515,  5.25252525,  5.35353535,  5.45454545,
        5.55555556,  5.65656566,  5.75757576,  5.85858586,  5.95959596,
        6.06060606,  6.16161616,  6.26262626,  6.36363636,  6.46464646,
        6.56565657,  6.66666667,  6.76767677,  6.86868687,  6.96

In [17]:
np.linspace(4, 5, 11)

array([4. , 4.1, 4.2, 4.3, 4.4, 4.5, 4.6, 4.7, 4.8, 4.9, 5. ])

`array`-ek létrehozása random számokkal

In [18]:
np.random.randint(5, 10, 20) # 5 legyen a legkisebb szám, 10 legyen a legnagyobb szám, és összesen 20 számot generáljon
# újrafuttatásnál mindig változik

array([6, 6, 5, 6, 6, 6, 8, 8, 6, 6, 5, 6, 9, 9, 7, 5, 7, 5, 7, 7],
      dtype=int32)

In [19]:
# float-okkal is lehet
np.random.random(10)

array([0.18661365, 0.19495922, 0.0196152 , 0.73363015, 0.32108234,
       0.86567703, 0.64523648, 0.16730919, 0.44007633, 0.46062727])

In [20]:
# egységmátri - determináns számításokra szokták használni
np.eye(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [21]:
arr3 = np.ones(shape = (4, 8))
arr3

array([[1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1.]])

In [22]:
arr3.dtype

dtype('float64')

In [23]:
arr3.shape

(4, 8)

In [24]:
arr3.size

32

In [25]:
arr3.ndim # dimenziók száma

2

#### Array-ek tulajdonságai

Indexelhetőek:

In [26]:
arr[0]

np.int64(1)

In [27]:
arr[-1]

np.int64(5)

In [28]:
arr[arr.size-1]

np.int64(5)

In [29]:
arr4 = np.arange(20).reshape(4, 5)
arr4

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [30]:
arr4[0][1]

np.int64(1)

In [31]:
arr4[-1][3] 

np.int64(18)

In [32]:
# numpy könnyítés több dimenziós indexelésre
arr4[-1, 3]

np.int64(18)

#### Értékadás:

In [33]:
arr4[0, 0] = 99
arr4

array([[99,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

#### Slice-olás:

`array[sor_kezdete : sor_vege : sor_lépés, oszlop_kezdete : oszlop_vege : oszlop_lépés]`

In [34]:
arr4[:2] # első dimenzió mentén a második indexű eleméig vesszük

array([[99,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9]])

In [35]:
arr4[2:]

array([[10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

In [36]:
arr4[::-1] # nem az egész array került visszafele kiírásra, csak a dimenzió mentén kerültek a sorok megfordításra

array([[15, 16, 17, 18, 19],
       [10, 11, 12, 13, 14],
       [ 5,  6,  7,  8,  9],
       [99,  1,  2,  3,  4]])

In [37]:
# ha visszafele szeretném bejárni az egészet akkor -> 
arr4[::-1, ::-1]

array([[19, 18, 17, 16, 15],
       [14, 13, 12, 11, 10],
       [ 9,  8,  7,  6,  5],
       [ 4,  3,  2,  1, 99]])

In [38]:
# a második sorig vesszük az elemeket visszafele
arr4[:2, ::-1]

array([[ 4,  3,  2,  1, 99],
       [ 9,  8,  7,  6,  5]])

In [39]:
# csak oszlop lekérése
arr4[:, 1] # vegyünk minden egyes sort, azoknak azonban csak az egyes számú oszlopát

array([ 1,  6, 11, 16])

#### Referenciák

A slice-ok önmagukban is referenciák

In [40]:
array_2d = np.zeros((10, 10), dtype = "int32")
array_2d

array([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]], dtype=int32)

In [41]:
array_2d[3:-3, 3:-3]

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]], dtype=int32)

In [42]:
array_2d[3:-3, 3:-3] = 999
array_2d

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0]], dtype=int32)

In [43]:
array_2d_2 = array_2d.copy()
array_2d_2

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0]], dtype=int32)

In [44]:
array_2d_2[4:-4, 4:-4] = -22
array_2d_2

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, -22, -22, 999,   0,   0,   0],
       [  0,   0,   0, 999, -22, -22, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0]], dtype=int32)

In [45]:
# mivel copy() metódust használtunk ezért az array_2d nem változik, nem referencia másolat történt, hanem deep copy,
# így nem osztoznak ugyanazon a memórián 
array_2d

array([[  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0, 999, 999, 999, 999,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0],
       [  0,   0,   0,   0,   0,   0,   0,   0,   0,   0]], dtype=int32)

#### Átméretezés:

`.reshape()`

In [46]:
vector = np.arange(9)
vector

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [47]:
# ez csak egy view-ja, a vectornak, a vector ilyenkor nem változik
vector.reshape(3, 3)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [48]:
# a vector ilyenkor nem változik:
vector

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [49]:
# ha megakarom változtatni a vector-t akkor:
vector = vector.reshape(3, 3)
vector

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [50]:
# jelen esetben a visszaállítás
vector = vector.reshape(1, 9)
vector

array([[0, 1, 2, 3, 4, 5, 6, 7, 8]])

In [51]:
vector = vector.reshape(9, 1) # 9 sora lesz, minden sorba 1 db elem
vector

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])

In [52]:
vector = vector.reshape(1, 9)
vector

array([[0, 1, 2, 3, 4, 5, 6, 7, 8]])

In [53]:
# még egy mód az oszlopba rendezéshez
vector[:, np.newaxis] # vesszük minden sorát a sorvektornak, és új tengelyt hozunk létre neki

array([[[0, 1, 2, 3, 4, 5, 6, 7, 8]]])

In [54]:
vector = np.arange(9)
vector

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [55]:
# nem tudja kiírni, mert 4 elembe nem tud kilencet beletenni
vector = vector.reshape(2, 2)
vector

ValueError: cannot reshape array of size 9 into shape (2,2)

In [None]:
vector2 = np.arange(8)
vector2

array([0, 1, 2, 3, 4, 5, 6, 7])

In [None]:
vector2.reshape(4, 2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [None]:
vector2.reshape(2, 2, 2)

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

#### Összekapcsolás

`.concatenate()`


Array-eket össze is kapcsolhatunk egymással. Ennek több féle módja van, több féle kimenettel:
- `np.concatenate()`
- `np.vstack()`
- `np.hstack()`

In [None]:
a1 = np.array([1, 2, 3, 4])
a2 = np.array([5, 6, 7, 8])

In [None]:
np.concatenate([a1, a2])

array([1, 2, 3, 4, 5, 6, 7, 8])

In [None]:
array_2d1 = np.array([[1, 2, 3, 4],
                      [5, 6, 7, 8,]])

array_2d2 = np.array([[9, 10, 11, 12],
                       [13, 14, 15, 16]])

In [None]:
np.concatenate([array_2d1, array_2d2])

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [None]:
np.concatenate([array_2d1, array_2d2], axis = 1)

array([[ 1,  2,  3,  4,  9, 10, 11, 12],
       [ 5,  6,  7,  8, 13, 14, 15, 16]])

Különböző dimenziószámú array-eket is össze tudunk fűzni, amennyiben valamelyik dimenzió mentén egyezik az elemszám. Ekkor viszont a `concatenate` nem működik, a `vstack`, vagy `hstack` használható:

In [None]:
array_2d2

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [None]:
a1

array([1, 2, 3, 4])

`.concatenate()` használatával value error-t kapunk, hiába egyezik egy dimenzió mentén az elemszám

In [None]:
np.concatenate([array_2d2, a1]) # value error-t kapunk, 

ValueError: all the input arrays must have same number of dimensions, but the array at index 0 has 2 dimension(s) and the array at index 1 has 1 dimension(s)

itt kell használni a `vstack` vagy `hstack`függvényeket kell használni, attól függően, hogy mely dimenzió mentén van egyezés

*kitekintés:*

*a `vstack` és `hstack` függvények, nem metódusok*

*magyarázat: Nem egy konkrét objektumhoz tartoznak (mint pl. arr.copy()), hanem önálló függvények, amik paraméterként kapnak tömböket.*

*np előtag azt jelenti, hogy a NumPy könyvtár részeiként vannak meghívva, ugyanis a NumPy-t az elején `np`-ként importáltuk*

`vstack`

In [None]:
np.vstack([array_2d2, a1])

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [ 1,  2,  3,  4]])

In [None]:
np.vstack([a1, array_2d2, a2, array_2d1])

array([[ 1,  2,  3,  4],
       [ 9, 10, 11, 12],
       [13, 14, 15, 16],
       [ 5,  6,  7,  8],
       [ 1,  2,  3,  4],
       [ 5,  6,  7,  8]])

Ha nincs azonos dimenzió, akkor hibára fut

In [None]:
a3 = np.array([0, 1, 2, 3, 4, 5, 6])

In [None]:
np.vstack([array_2d2, a3])

ValueError: all the input array dimensions except for the concatenation axis must match exactly, but along dimension 1, the array at index 0 has size 4 and the array at index 1 has size 7

`hstack`

In [None]:
array_2d3 = np.array([[23, 25],
                      [76, 12]])
array_2d3

array([[23, 25],
       [76, 12]])

In [None]:
array_2d2

array([[ 9, 10, 11, 12],
       [13, 14, 15, 16]])

In [None]:
np.hstack([array_2d3, array_2d2])

array([[23, 25,  9, 10, 11, 12],
       [76, 12, 13, 14, 15, 16]])

#### Darabolás:
A tömböket fel is szeletelhetjük további tömbökre. Ez annyiban különbözik a slice-ingtól, hogy míg a slice-ing egy kivágott array-részletet adott vissza, addig a splitting a több részre vágott array mindegyikét vissza képes adni. Több módja is van:
- `np.split()` - 
- `np.vsplit()` - sorok mentén osztja fel a tömböt, csak akkor működik, ha a tömb sorok száma osztható a megadott darabszámmal.
- `np.hsplit()` - oszlopok mentén osztja fel a tömböt, csak akkor működik, ha a tömb sorok száma osztható a megadott darabszámmal.

In [None]:
a = np.arange(10) 
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
x, y, z= np.split(a, [5])
print(x)
print(y)

[0 1 2 3 4]
[5 6]
[7 8 9]


In [None]:
j, k, l= np.split(a, [5, 7])
print(j)
print(k)
print(l)

[0 1 2 3 4]
[5 6]
[7 8 9]


In [None]:
matrix = np.arange(64).reshape(8, 8)
matrix

array([[ 0,  1,  2,  3,  4,  5,  6,  7],
       [ 8,  9, 10, 11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29, 30, 31],
       [32, 33, 34, 35, 36, 37, 38, 39],
       [40, 41, 42, 43, 44, 45, 46, 47],
       [48, 49, 50, 51, 52, 53, 54, 55],
       [56, 57, 58, 59, 60, 61, 62, 63]])

In [None]:
upper, lower = np.vsplit(matrix, [4])
print(upper)
print()
print(lower)

[[ 0  1  2  3  4  5  6  7]
 [ 8  9 10 11 12 13 14 15]
 [16 17 18 19 20 21 22 23]
 [24 25 26 27 28 29 30 31]]

[[32 33 34 35 36 37 38 39]
 [40 41 42 43 44 45 46 47]
 [48 49 50 51 52 53 54 55]
 [56 57 58 59 60 61 62 63]]


In [None]:
left, right = np.hsplit(matrix, [4])
print(left, right, sep = "\n\n")

[[ 0  1  2  3]
 [ 8  9 10 11]
 [16 17 18 19]
 [24 25 26 27]
 [32 33 34 35]
 [40 41 42 43]
 [48 49 50 51]
 [56 57 58 59]]

[[ 4  5  6  7]
 [12 13 14 15]
 [20 21 22 23]
 [28 29 30 31]
 [36 37 38 39]
 [44 45 46 47]
 [52 53 54 55]
 [60 61 62 63]]


#### Operátorok
Az aritmetikai operátorok működése sajátos a numpy kontextusában. Például egy array szorozva egy számmal annyit tesz, hogy az array minden eleme meg lesz szorozva az adott számmal

In [None]:
array_2d1

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [None]:
array_2d1 * 3

array([[ 3,  6,  9, 12],
       [15, 18, 21, 24]])

In [None]:
2 ** array_2d1

array([[  2,   4,   8,  16],
       [ 32,  64, 128, 256]])

In [None]:
(1 - array_2d1) ** 2

array([[ 0,  1,  4,  9],
       [16, 25, 36, 49]])

osztásnál float-tá konvertálja az inteket

In [None]:
1 / array_2d1

array([[1.        , 0.5       , 0.33333333, 0.25      ],
       [0.2       , 0.16666667, 0.14285714, 0.125     ]])

NumPy operátorai:
Az operátorokhoz függvények is tartoznak, melyekkel egy másik módon, de ugyanaz a művelet végezhető el:

| Operator      | Equivalent ufunc    | Description                           |
|---------------|---------------------|---------------------------------------|
|``+``          |``np.add``           |Addition (e.g., ``2 + 3 = 5``)         |
|``-``          |``np.subtract``      |Subtraction (e.g., ``5 - 2 = 3``)      |
|``-``          |``np.negative``      |Unary negation (e.g., ``-3``)          |
|``*``          |``np.multiply``      |Multiplication (e.g., ``3 * 3 = 9``)   |
|``/``          |``np.divide``        |Division (e.g., ``7 / 2 = 3.5``)       |
|``//``         |``np.floor_divide``  |Floor division (e.g., ``3 // 2 = 1``)  |
|``**``         |``np.power``         |Exponentiation (e.g., ``3 ** 2 = 9``)  |
|``%``          |``np.mod``           |Modulus/remainder (e.g., ``7 % 4 = 3``)|

A numpy továbbá támogat:
- trigonometrikus függvényeket
    - `np.sin()`
    - `np.cos()`
    - `np.tan()`
    - `np.arcsin()`
    - `np.arccos()`
    - `np.arctan()`
- exponenciális függvényeket
    - `np.exp(exponent)`: $e^{exponent}$
    - `np.exp2(exponent)`: $2^{exponent}$
    - `np.power(base, exponent)` $base^{exponent}$
    - `np.log(x)`: $\ln(x)$
    - `np.log2(x)`: $\log_2(x)$
    - `np.log10(x)`: $\log_{10}(x)$

In [None]:
np.add(array_2d1, 15) # minden elemhez hozzáad 15-öt

array([[16, 17, 18, 19],
       [20, 21, 22, 23]])

In [None]:
np.sin(array_2d1)

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [-0.95892427, -0.2794155 ,  0.6569866 ,  0.98935825]])

Meghatározhatjuk, hogy a művelet kimenete milyen változóba/tárolóba kerüljön:

In [None]:
arrayy = np.arange(10)
output = np.empty(10)

np.add(arrayy, 10, out = output)
print(arrayy)
print(output)

[0 1 2 3 4 5 6 7 8 9]
[10. 11. 12. 13. 14. 15. 16. 17. 18. 19.]


In [None]:
outputt = np.zeros(20, dtype = "int32")
outputt

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
      dtype=int32)

In [None]:
arrayy

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.add(arrayy, 10, out = outputt[::2])
outputt

array([10,  0, 11,  0, 12,  0, 13,  0, 14,  0, 15,  0, 16,  0, 17,  0, 18,
        0, 19,  0], dtype=int32)

In [None]:
arrayy

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.add.reduce(arrayy)

np.int64(45)

In [None]:
np.multiply.reduce(arrayy[1:])

np.int64(362880)

In [None]:
np.add.accumulate(np.arange(10))

array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45])

In [None]:
np.multiply.outer(np.arange(10), np.arange(4, 8))

array([[ 0,  0,  0,  0],
       [ 4,  5,  6,  7],
       [ 8, 10, 12, 14],
       [12, 15, 18, 21],
       [16, 20, 24, 28],
       [20, 25, 30, 35],
       [24, 30, 36, 42],
       [28, 35, 42, 49],
       [32, 40, 48, 56],
       [36, 45, 54, 63]])

In [None]:
arrayyy = np.arange(10)
arrayyy

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
print(arrayyy.min())
print(arrayyy.max())
print(arrayyy.sum())
print(arrayyy.mean()) # átlag
print(arrayyy.std()) # eloszlás
print(np.median(arrayyy))

0
9
45
4.5
2.8722813232690143
4.5


A numpy számtalan statisztikai aggregátumot képes kiszámolni:

|Function Name      |   NaN-safe Version  | Description                                   |
|-------------------|---------------------|-----------------------------------------------|
| ``np.sum``        | ``np.nansum``       | Compute sum of elements                       |
| ``np.prod``       | ``np.nanprod``      | Compute product of elements                   |
| ``np.mean``       | ``np.nanmean``      | Compute mean of elements                      |
| ``np.std``        | ``np.nanstd``       | Compute standard deviation                    |
| ``np.var``        | ``np.nanvar``       | Compute variance                              |
| ``np.min``        | ``np.nanmin``       | Find minimum value                            |
| ``np.max``        | ``np.nanmax``       | Find maximum value                            |
| ``np.argmin``     | ``np.nanargmin``    | Find index of minimum value                   |
| ``np.argmax``     | ``np.nanargmax``    | Find index of maximum value                   |
| ``np.median``     | ``np.nanmedian``    | Compute median of elements                    |
| ``np.percentile`` | ``np.nanpercentile``| Compute rank-based statistics of elements     |
| ``np.any``        | N/A                 | Evaluate whether any elements are true        |
| ``np.all``        | N/A                 | Evaluate whether all elements are true        |


In [None]:
array_2dd = np.arange(12).reshape(3, 4)
array_2dd

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
array_2dd.sum()

np.int64(66)

In [None]:
array_2dd.sum(axis = 0) # axis = 0, tehát oszlopok mentén szummázik

array([12, 15, 18, 21])

In [None]:
array_2dd.sum(axis = 1) # axis = 1, tehát sorok mentén szummázik

array([ 6, 22, 38])

#### Broadcasting
Aritmetikai műveleteket array-ek között is végezhetünk, viszont ennek vannak megkötései a dimenziókra és az elemszámra. Ezeket a szabályokat hívjuk broadcasting szabályoknak.

Két ugyanolyan shape-ű array például összeadható:

In [None]:
array_x = np.array([[1, 2, 3],
                    [4, 5, 6]])

array_y = np.array([[10, 20, 30],
                    [40, 50, 60]])

print(array_x, array_y, sep = "\n\n")

[[1 2 3]
 [4 5 6]]

[[10 20 30]
 [40 50 60]]


Ha ugyanolyan az alakja a két mátrixnak, akkor az adott koordinátájú elemeket adjuk össze. 

In [None]:
array_x + array_y

array([[11, 22, 33],
       [44, 55, 66]])

Ellenkező esetben:

Az array-hez egy skalárt is adhatunk, amit a NumPy broadcasting segítségével úgy kezel, mintha az egy azonos alakú tömb lenne, amelynek minden eleme az adott skalár.

A NumPy broadcasting akkor működik, ha a két tömb minden dimenzióban vagy egyenlő méretű, vagy az egyik dimenzióban 1.

In [None]:
np.array([1, 2, 3]) + np.array([[10, 10, 10],
                                [20, 20, 20]])

array([[11, 12, 13],
       [21, 22, 23]])

In [None]:
arr1 = np.array([[1], [2]])
arr2 = np.array([[10, 10, 10],
                [20, 20, 20]])

print(arr1, arr2, sep = "\n\n")

[[1]
 [2]]

[[10 10 10]
 [20 20 20]]


In [None]:
arr1 + arr2

array([[11, 11, 11],
       [22, 22, 22]])

In [None]:
arr_x = np.array([[1], [2]])
arr_y = np.array([1, 2, 3])

print(arr_x, arr_y, sep = "\n\n")

[[1]
 [2]]

[1 2 3]


In [None]:
arr_x + arr_y

array([[2, 3, 4],
       [3, 4, 5]])

Mi történik, ha az összeadni kívánt array-ek nem felelnek meg a broadcast-ing szabályoknak?

In [None]:
arr35 = np.arange(15).reshape(3, 5)
arr25 = np.arange(10).reshape(2, 5)
print(arr35, arr25, sep = "\n\n")

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[0 1 2 3 4]
 [5 6 7 8 9]]


A NumPy nem tudja automatikusan kiterjeszteni a tömböket úgy, hogy azok összeadhatók legyenek.

In [None]:
arr35 + arr25

ValueError: operands could not be broadcast together with shapes (3,5) (2,5) 

Példa Broadcastingra:

Veszünk egy 3x1-es és egy 1x3-as mátrixot és ezeket akarjuk broadcastolni. Ha a kettő mátrixot elkezdjük nyújtani egymás kiterjedései mentén, a 3x3-as méret lesz az, ami mindkettő nyújtásával elérhető, így az alábbi történik:

$\begin{bmatrix}0&1&2\end{bmatrix} + \begin{bmatrix}0\\1\\2\end{bmatrix} = \begin{bmatrix}0&1&2\\0&1&2\\0&1&2\end{bmatrix} + \begin{bmatrix}0&0&0\\1&1&1\\2&2&2\end{bmatrix} = \begin{bmatrix}0&1&2\\1&2&3\\2&3&4\end{bmatrix}$

#### Comparison
Az array-ek támogatják az összehasonlító logikai kifejezéseket is. skalár és array összehasonlítása során, a skalárral való összehasonlítás minden elemre kiértékelődik, így minden elemhez egy bool érték lesz rendelve. Ezekből egy bool array jön létre az array shape-jével. 

In [None]:
arrayyyy = np.arange(10)
arrayyyy

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

bool array - másnéven `mask`-nak is hívjuk
- `mask`-olásnál, amikor az array-t megindexelem a `mask`-al, az array-ből azokat az elemeket kapom vissza, amikre a `mask`-ban true érték jött ki

In [None]:
mask = arrayyyy < 5
mask

array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

In [None]:
arrayyyy[mask] # arrayyyy megindexelése a mask-al, a bool arrey-el

array([0, 1, 2, 3, 4])

In [None]:
mask1 = arrayyyy % 2 == 0
mask1

array([ True, False,  True, False,  True, False,  True, False,  True,
       False])

In [None]:
arrayyyy[mask1]

array([0, 2, 4, 6, 8])

In [None]:
aa = np.arange(10)
bb = np.arange(10, 0, -1)
aa < bb


array([ True,  True,  True,  True,  True, False, False, False, False,
       False])

A broadcast-olás itt is használatos:

In [None]:
aa1 = np.arange(10).reshape(2, 5)
bb1 = np.full(shape = 5, fill_value = 6)

print(aa1, bb1, sep = "\n\n")


[[0 1 2 3 4]
 [5 6 7 8 9]]

[6 6 6 6 6]


In [None]:
aa1 < bb1

array([[ True,  True,  True,  True,  True],
       [ True, False, False, False, False]])

In [None]:
np.any(aa1 < bb1)

np.True_

In [None]:
np.all(aa1 > bb1)

np.False_

In [None]:
np.any(aa1 > -1)

np.True_

In [None]:
np.all(bb1 < -1)

np.False_

Maszkolások használata dimenziónként:

In [None]:
array_2ddd = np.arange(36).reshape((4, 9))
array_2ddd

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [None]:
# Az adott oszlopokban van-e olyan elem, ami nagyobb 30-nál?
np.any(array_2ddd > 30, axis = 0)

array([False, False, False, False,  True,  True,  True,  True,  True])

In [None]:
# Az adott sorokban van-e olyan elem, ami nagyobb 30-nál?
np.any(array_2ddd > 10, axis = 1)

array([False,  True,  True,  True])

Indexelés mask esetében:

In [None]:
# azokat az oszlopokat szeretnénk elkérni, ahol van 30-nál nagyobb elem
array_2ddd[:, np.any(array_2ddd > 30, axis = 0)]

array([[ 4,  5,  6,  7,  8],
       [13, 14, 15, 16, 17],
       [22, 23, 24, 25, 26],
       [31, 32, 33, 34, 35]])

In [None]:
# azokat az sorokat szeretnénk elkérni, ahol minden elem > 10
array_2ddd[np.all(array_2ddd > 10, axis = 1)]

array([[18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

#### Bool aritmetic operators
A bool tömbök között bool műveleteket is végezhetünk. Ilyenek a:
- `&`: logikai és
- `|`: logikai vagy
- `^`: logikai xor
- `~`: logikai tagadás (negáció)

így két vagy több bool array-t, `mask`-ot a fent említett operátorokkal össze tudunk kapcsolni, így komplexebb `mask`-okat készíteni

In [None]:
array_2ddd

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [None]:
# elemek, amelyek 10-nél nagyobbak és párosak
(array_2ddd > 10) & (array_2ddd % 2 == 0)

array([[False, False, False, False, False, False, False, False, False],
       [False, False, False,  True, False,  True, False,  True, False],
       [ True, False,  True, False,  True, False,  True, False,  True],
       [False,  True, False,  True, False,  True, False,  True, False]])

In [None]:
# 10-nél nagyobb páros elemek:
array_2ddd[(array_2ddd > 10) & (array_2ddd % 2 == 0)]

array([12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32, 34])

In [None]:
# tagadás
~(array_2ddd > 10)

array([[ True,  True,  True,  True,  True,  True,  True,  True,  True],
       [ True,  True, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False, False],
       [False, False, False, False, False, False, False, False, False]])

Indexelni nem csak skalárral, de tömbbel is tudunk.

Ha `q` array-t megindexeljük `w` array-el, akkor egy `w` shape-ű array jön létre, melybe az adott elemek `q`-ból jönnek, `w` pozícióazonos elemei indexével

In [None]:
q = np.arange(10, 0, -1)
w = np.array([[9, 0, 8],
              [1, 7, 2]])

print(q, w, sep = "\n\n")


[10  9  8  7  6  5  4  3  2  1]

[[9 0 8]
 [1 7 2]]


In [None]:
print(q[w]) 
# eredmény magyarázat:
# 1 - a 'q' array 9. eleme
# 10 - a 'q' array 0. eleme
# 2 - a 'q' array 8. eleme
# 9 - a 'q' array 1. eleme
# 3 - a 'q' array 7. eleme
# 8 - a 'q' array 2. eleme

[[ 1 10  2]
 [ 9  3  8]]


In [None]:
sokadik_array = np.arange(36).reshape((4, 9))
sokadik_array

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23, 24, 25, 26],
       [27, 28, 29, 30, 31, 32, 33, 34, 35]])

In [None]:
# indexelés, broadcastin módszer használata, sorok első 2 elemei
sokadik_array[:, np.array([0, 1])]

array([[ 0,  1],
       [ 9, 10],
       [18, 19],
       [27, 28]])

In [None]:
# indexelés, broadcastin módszer használata, oszlopok első 2 elemei
sokadik_array[np.array([0, 1]), :]

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8],
       [ 9, 10, 11, 12, 13, 14, 15, 16, 17]])

In [None]:
# indexelés - párokba rendeződve szűrés: utolsó sorból az 1. elem, az utolsó előtti sorból a 2. elem
sokadik_array[np.array([-1, -2]), np.array([0, 1])]

array([27, 19])

#### Rendezés
- Metódus:
    - `array.sort()` - ez nem csak egy view, ez a metódus ténylegesen rendezi az array-t, tehát a használata után módosul az array úgy, hogy a benne lévő elemek sorrendje rendezve lett
    - `array.argsort` - a rendezéshez szükséges indexeket adja vissza, vagyis azt mondja meg, hogy milyen sorrendben kell az elemeket venni, hogy rendezett tömböt kapjunk. Új index-tömböt ad vissza, nem módosítja az eredetit
- Függvény: 
    - `np.sort(array)` - Új tömböt ad vissza, nem módosítja az eredetit
    - `np.argsort(array)` - Ez nem rendez semmit, csak visszaadja azokat az indexeket, amelyekkel az eredeti tömböt rendezni lehetne. Szintén nem módosítja az eredeti tömböt

In [None]:
rand_array = np.random.randint(0, 20, 10)
rand_array

array([13,  4, 18,  1,  1,  7, 13, 10,  4,  7], dtype=int32)

In [None]:
rand_array.sort()
rand_array

array([ 1,  1,  4,  4,  7,  7, 10, 13, 13, 18], dtype=int32)

In [None]:
rand_array.argsort()

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
rand_array2 = np.random.randint(0, 50, 12)
rand_array2

array([12, 27, 31,  7, 45, 31, 27, 28,  3, 31,  6, 30], dtype=int32)

In [59]:
np.sort(rand_array2)

array([23, 24, 25, 26, 26, 28, 29, 33, 35, 36, 39, 44], dtype=int32)

In [5]:
rand_array2

array([12, 27, 31,  7, 45, 31, 27, 28,  3, 31,  6, 30], dtype=int32)

In [6]:
len(rand_array2)

12