# Big Data algoritmusok és programozás - Python

# 2. gyakorlat

## NumPy 

___
NumPy (numpy) - a Python lineáris algebra könyvtára. Azért fontos data science területén, mert szinte minden könyvtára használja a NumPy fő elemeit.

Dokumentáció: [NumPy Manual](https://numpy.org/doc/stable/)

A Numpy nagyon gyors, mivel C könyvtárakhoz kapcsolódik. 

A gyakorlaton: a NumPy alapok megtanulása.


_____
### Installálás (amennyiben szükéges)

Anaconda környezetben, NumPy installálása terminál ablakban:
    
    conda install numpy
    
vagy nem Anaconda környezetben:

    pip install numpy
    
Bővebben a telepítésről: [Numpy hivatalos dokumentációja a telepítésről.](https://numpy.org/install/)

___
## NumPy használata

Telepítés után a könyvtár importálása:

In [None]:
import numpy as np

_____
# Numpy tömbök (Numpy Arrays)

A NumPy tömbök többfélék lehetnek: vektorok (1-D tömb), mátrixok (2-D tömb) és 3 vagy többdimenziós tömbök.

Az 1-D tömbök esetén nincs különbség a sorvektor és az oszlopvektor között.

## NumPy tömbök létrehozása

### Python listából

Tömbök készítése közvetlenül listák vagy listákból álló listák átalakításával:

In [None]:
lista = [1,2,3]
lista

In [None]:
# np.array()
np.array(lista)

In [None]:
print(lista)
print(np.array(lista))

In [None]:
lista_lista = [[1,2,3],[4,5,6],[7,8,9]]
lista_lista

In [None]:
np.array(lista_lista)

In [None]:
# np.mat()
mátrix = np.mat('1 2 3; 4 5 6; 7 8 9')
mátrix

In [None]:
sokszínű_lista = [1, 'a', 1.1, "xyzaaaaaaaaaaaaaaa"]

In [None]:
# A tömb elemei azonos típusúak (array dtype).
sokszínű = np.array(sokszínű_lista)
sokszínű

## Beépített módszerek numpy tömbök létrehozására

Sokféleképpen generálhatunk tömböt.

### arange

Egyenletesen elosztott értékek megadása egy adott intervallumon belül.

In [None]:
np.arange(10)

In [None]:
# tömb létrehozása 2 és 10 között minden 2. elemmel


### zeros, ones

Tömbök generálása 0 - `np.zeros()` vagy 1 - `np.ones()` elemekkel.

In [None]:
np.zeros(3)

In [None]:
np.zeros((5,5))

In [None]:
# tömb elemei legyenek egész számok


In [None]:
np.ones(3)

In [None]:
np.ones((3,3))

In [None]:
# tömb legyen (2,3,4) dimenziós és elemei egész számok


# empty

Üres tömb létrehozása. Az `empty` függvény létrehoz egy tömböt, amelynek kezdeti tartalma véletlenszerű, a memória állapotától függ. Az `empty` használatának (`zeros` helyett) jelentősége a sebesség - később nem szabad elfeledkezni az összes konkrét elem feltöltéséről!

In [None]:
üres = np.empty((2,2))
üres

Kódrészletek végrehajtási idejének mérése: `timeit` 
https://docs.python.org/3/library/timeit.html

In [None]:
import timeit
print("zeros: ",timeit.timeit("numpy.zeros((100,100))",setup="import numpy"))
print("empty: ",timeit.timeit("numpy.empty((100,100))",setup="import numpy"))

### linspace

Egyenletesen elosztott számok megadása egy meghatározott intervallumon belül.

In [None]:
np.linspace(0,10,3)

In [None]:
np.linspace(0,10)

In [None]:
# 10 és 100 között 10 szám kiírása, egész számokkal


### eye

Egységmátrix készítése.

In [None]:
np.eye(4)

Készítsük el a következő mátrixot az `eye` függvény segítségével:
```python
array([[0, 0, 0, 0],
       [1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0]])
```

_____
## Véletlen számokból álló tömbök 

A Numpy-ban sokféle lehetőség van véletlen tömbök készítésére:

### rand
Létrehoz egy megadott méretű tömböt és ``[0, 1)`` feletti egyenletes eloszlás szerinti véletlen értékekkel feltölti.

In [None]:
np.random.rand(2)

In [None]:
np.random.rand(5,5)

### randn

Standard normál eloszlás szerinti értékekkel tölti fel a tömböt.

In [None]:
np.random.randn(2)

In [None]:
np.random.randn(5,5)

### randint
Véletlen egész értékekkel tér vissza `low` (inclusive) és `high` (exclusive) intervallumból.

In [None]:
np.random.randint(1,100)

In [None]:
np.random.randint(1,100,10)

In [None]:
np.random.randint(1,100,(10,10))

_____
## Tömb elemeinek rendezése, hozzáadása, törlése

### sort

In [None]:
rendezetlen = np.random.randint(1,100,10)
rendezetlen

In [None]:
rendezett = np.sort(rendezetlen)
rendezett

### concatenate

In [None]:
np.concatenate(([1,2],[3,4,5]))

In [None]:
a = np.array([[5, 10],[15, 20]])
b = np.array([[25, 30]])
print(a,'\n')
print(b)

In [None]:
np.concatenate((a,b))

Fűzzük össze az `a` és `b` tömböket, hogy az eredmény 
```python 
array([[ 5, 10, 25],
       [15, 20, 30]])
``` 
legyen!

In [None]:
np.concatenate((a,b), axis=0)

In [None]:
np.concatenate((a,b),axis=None)

### insert
Értékek elhelyezése az adott tengely mentén a megadott indexek elé.

In [None]:
a

In [None]:
np.insert(a,1,100)

In [None]:
np.insert(a,1,100,axis=0)

In [None]:
np.insert(a,1,100,axis=1)

Szúrjuk be az `a` tömb elejére és végére a `100, 200` elemekből álló oszlopvektort.

In [None]:
np.insert(a,1,[[100,200],[300,400]],axis=1)

### Eltávolítás
Az elemek tömbből való eltávolításának egyszerű módja a megtartandó elemek indexeléssel történő kiválasztása. (Később)

_____
## Tömbfüggvények

In [None]:
arr = np.arange(20)
ranarr = np.random.randint(0,50,10)

In [None]:
arr

In [None]:
ranarr

### reshape
Egy tömböt ad vissza, amely ugyanazokat az adatokat tartalmazza, új alakban.

In [None]:
np.reshape(arr,(10,1))

In [None]:
arr.reshape(4,5)

### max, min, argmax, argmin

Hasznos módszerek a maximum vagy a minimum értékek megállapításához, továbbá megtalálni az index értékét az `argmin` vagy az `argmax` segítségével.

In [None]:
ranarr

In [None]:
ranarr.max()

In [None]:
ranarr.argmax()

In [None]:
ranarr.min()

In [None]:
ranarr.argmin()

## Tömb attribútumok
### shape

A tömb alakja (shape) egész számokból álló értéksor (tuple), amely megadja a tömb méretét az egyes dimenziók mentén.

In [None]:
arr

In [None]:
# 1-D
arr.shape

In [None]:
np.shape(arr)

In [None]:
# Megjegyzés: 2-D, dupla zárójel [[]]
arr.reshape(1,20)

In [None]:
arr.reshape(1,20).shape

In [None]:
arr.reshape(20,1)

In [None]:
arr.reshape(20,1).shape

### ndim
A tömb dimenzióinak száma, a tömb rangja.

In [None]:
arr.ndim

In [None]:
arr.reshape(1,20).ndim

In [None]:
np.ones((2,2,2,2)).ndim

### size
A tömb elemeinek száma.

In [None]:
np.ones((2,2,2,2)).size

### dtype
A tömb elemeinek típusa (mindegyik elem azonos típusú).

In [None]:
arr.dtype

In [None]:
sokszínű.dtype

További információk: [Array attributes](https://numpy.org/doc/stable/reference/arrays.ndarray.html#array-attributes)

___
## NumPy indexelés és kiválasztás

Elemek vagy elemek csoportjának kiválasztása egy tömbből.

In [None]:
#Tömb (vektor) készítése
vektor = np.arange(0,11)

In [None]:
#Tömb megjelenítése 
vektor

### Zárójeles indexelés és kiválasztás
A tömb egyik vagy néhány elemének kiválasztásának legegyszerűbb módja. Nagyon hasonlít a Python listákhoz.

In [None]:
#Egy adott indexhez tartozó érték elérése
vektor[5]

In [None]:
#Egy indextartományhoz tartozó értékek elérése
#[start:stop]
vektor[1:6]

In [None]:
vektor[0:5]

In [None]:
vektor[2:]

In [None]:
vektor[:5]

In [None]:
vektor[-3:-1]

In [None]:
#[start:stop:step]
vektor[1:6:2]

In [None]:
vektor[2::2]

In [None]:
# vektor elemeinek megjelenítése fordított sorrendben

### 2D tömbök (mátrixok) indexelése

Általános formátum: **`arr_2d[sor][oszlop]`** vagy **`arr_2d[sor,oszlop]`**.

In [None]:
#Mátrix készítése
mátrix = np.array(([5,10,15],[20,25,30],[35,40,45]))

#A tömb megjelenítése
mátrix

In [None]:
#Indexelés
mátrix[1]

In [None]:
# Egyedi elem értékének meghatározása
mátrix[1][0]

In [None]:
# 3. sor 2. elemének kiválasztása


In [None]:
#Legalsó sor kiválasztása


In [None]:
mátrix[2,:]

In [None]:
#Középső oszlop kiválasztása


In [None]:
# 2D tömb szeletelése (résztömb kiválasztása)

#A jobb felső sarokban levő 2x2-es mátrix kiválasztása
mátrix[:2,1:]

In [None]:
#A bal alsó sarokban levő 2x2-es mátrix kiválasztása


In [None]:
mat = np.arange(50).reshape(5,10)

In [None]:
mat

Válasszuk ki a `mat` mátrixból az alábbi résztömböt: 
```python
array([[24, 25, 26],
       [34, 35, 36],
       [44, 45, 46]])
```

Válasszuk ki a `mat` mátrixból az alábbi résztömböt: 
```python
array([[ 0,  2,  4,  6,  8],
       [20, 22, 24, 26, 28],
       [40, 42, 44, 46, 48]])
```

### Feltételes kiválasztás

In [None]:
tömb = np.arange(1,11)
tömb

In [None]:
tömb > 4

In [None]:
bool_tömb = tömb>4

In [None]:
bool_tömb

In [None]:
tömb[bool_tömb]

In [None]:
tömb[tömb>4]

In [None]:
# A tömb páros elemeinek kiválasztása


In [None]:
x = 2
tömb[tömb>x]

In [None]:
tömb[(tömb < x) | (tömb > 3*x)]

In [None]:
# A tömb x-nél nagyobb és 3x-nél kisebb elemeinek kiválasztása


___
## NumPy műveletek

### Aritmetikai műveletek


In [None]:
tömb = np.arange(0,10)

In [None]:
tömb

In [None]:
tömb + tömb

In [None]:
tömb - tömb

In [None]:
tömb * tömb

In [None]:
tömb + 100

In [None]:
tömb * 100

In [None]:
tömb**2

In [None]:
# Tömb értékének nullával való osztása. Warning és nem hiba!!
# Érték helyettesítése: nan

tömb/tömb

In [None]:
1/0

In [None]:
tömb/0

In [None]:
# Nullával való osztás. Warning és nem hiba!!
# Érték helyettesítése: inf

1/tömb

### Univerzális függvények

A Numpy számos univerzális függvénnyel rendelkezik: [universal array functions](https://numpy.org/doc/stable/reference/ufuncs.html). 

Néhány ezek közül:

In [None]:
#Négyzetgyökvonás
np.sqrt(tömb)

In [None]:
#Exponenciális számítás
np.exp(tömb)

In [None]:
#Maximum érték meghatározása
np.max(tömb) #azonos mint tömb.max()

In [None]:
np.sin(tömb)

In [None]:
np.log(tömb)

## Numpy objektumok mentése és beolvasása

In [None]:
mátrix

In [None]:
# Mentés 'xxx.npy' néven
np.save('xxx',mátrix)

In [None]:
# Beolvasás .npy fájlból
npy = np.load('xxx.npy')

In [None]:
npy

In [None]:
# Mentés .csv fájlként
np.savetxt('xxx.csv', mátrix)

In [None]:
# Beolvasás .csv fájlból
csv = np.loadtxt('xxx.csv')

In [None]:
csv

## Numpy tömbön és Listán végzett műveletek sebességének összehasonlítása

In [None]:
lista = list(np.random.randint(0, 1000, 10000000))
tömb = np.array(lista)

In [None]:
import time
# Lista elemeinek négyzete
start = time.time()
lista_négyzet = [elem**2 for elem in lista]
end = time.time()
lista_idő = end - start
print(lista_idő)

# Tömb elemeinek négyzete

start = time.time()
tömb_négyzet = tömb ** 2
end = time.time()
tömb_idő = end - start
print(tömb_idő)

In [None]:
arány = lista_idő / tömb_idő
print(arány)

---
---
***Feladat: BMI index meghatározása***

Az adatok:
|Név    |Kor    |Súly  |Magasság |
|-------|-------|------|---------|
|Anna   |34     |66    |1.65     |
|Zsófia |25     |55    |1.64     |
|János  |30     |86    |1.82     |
|Péter  |32     |76    |1.70     |
|Pál    |20     |68    |1.65     |
|Júlia  |28     |58    |1.70     |

- Készítsen numpy tömböt az adatokkal, majd írassa ki a tömböt.

- Válassza ki a súly oszlopot (index alapján), majd írassa ki az értékeket.

- Válassza ki a magasság oszlopot, majd írassa ki az értékeket.

- Számolja ki a BMI értékeket: BMI = súly / magasság<sup>2</sup>, majd írassa ki 2 tizedesjegyig.

Dokumentáció
- Numpy adattípusok és konverzió: https://numpy.org/doc/stable/user/basics.types.html
- Struktúrált tömbök: https://numpy.org/doc/stable/user/basics.rec.html