# Adattípusok rövid áttekintése

Mielőtt rátérnénk a plotok létrehozására, röviden nézzük át azokat az adattípusokat, amiket a plotokhoz használni fogunk.


## 1. List (Tuple)
A **listák** alapvetően objektumok indexelt sorozata. Nagyon rugalmas adatstruktúra, kb. bármit tárulhatunk benne, de a plotok elkészítéséhez főleg számokat, esetleg stringet fogunk beletenni.
Egy egyszerű példa a definiálására:

In [None]:
myList = [1,2,3,4]
myNestedList = [[1, print], [None, 'text'], 5]

A listák elemei indexeléssel érhetőek el, és felül is írhatóak. (Az indexelés 0-ról indul.)

In [None]:
myList[2]

In [None]:
myNestedList[1][1] = 33

In [None]:
myNestedList

A **Tuple** nagyon hasonlít a listához, ugyanúgy sorban találhatóak benne elemek. A fő különbség az, hogy **az elemek nem változtathatóak meg benne.**

In [None]:
myNestedTuple = ((1, print), (None, 'text'), 5)

In [None]:
myNestedTuple[1][1] = 33

In [None]:
myNestedTuple[1][1:] 

## 2. Numpy array
A Numpy egy nagyon elterjedt lineáris-algebra Pthon csomag, aminek az objektumaira sok egyéb csomag is épít. Mi főleg a saját, listához hasonló `Array` adattípusát fogjuk használni, ami gyorsabb futást és műveleteket tesz lehetővé a sima Python listáknál, mivel jelentős része C-ben van megírva.
https://github.com/numpy/numpy

Amennyiben még nem tettük meg, telepítsük a virtuális környezettünkben a korábban mutatott módon:

    pip install numpy
    
Ezt követően más importálhatjuk az elterjedt módon:

In [None]:
import numpy as np

### Létrehozás

Numpy Array-t létrehozhatunk úgy, hogy közvetlenük konvertáljuk a már létrehozott listát (vagy tuple-t). A lista lehet több dimenziós is, ekkor a Numpy array is több dimenziós lesz:

In [None]:
np.array(myList)

In [None]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
np.array(my_matrix)

Hozhatunk létre Numpy array-t közvetlenül is, a beépített függvények segítségével:

In [None]:
np.arange(0,10)

In [None]:
np.zeros((5,5))

In [None]:
np.linspace(0,10,21)

Akár random számokkal is feltölthetjük az array-t:

In [None]:
np.random.randn(3,3)

In [None]:
np.random.randint(1,100,10)

Melyik argument mit jelent?

**Shift+Tab** itt a Jupyter Notebookban. A szerkeszőtől függően más billenyűkombinációra kaphatunk help-et, vagy használjuk a `help` függvényt:

In [None]:
help(np.random.randint)

A Numpy Array-nek rengeteg hasznos függvénye van, de ebbe most nem megyünk bele, de mutatok "trükköt", amivel egy objektum összes attribútuma kilistázható.

In [None]:
dir(np.array([1]))

### Indexelés

Amire nekünk a plotok elkészítéséhez gyakran szükségünk van az az indexelés, ami eltréhet különbözik a sima listák indexelésétől (több dimenzió esetén).

    arr_2d[row][col]
    arr_2d[row,col]

A második megoldás az elterjedtebb

In [None]:
array_1D = np.arange(0,10)
array_1D

In [None]:
array_1D[1:5]

In [None]:
array_1D[-1:5:-1] # [start:stop:step]

2 Dimenziós array esetén

In [None]:
array_2D = np.array(([5,10,15],[20,25,30],[35,40,45]))
array_2D

In [None]:
print(array_2D[1][0])
print(array_2D[1,0])

In [None]:
array_2D[:2,1:]  # Jobb felső sarok

In [None]:
array_2D[2]  # Alsó sor

In [None]:
array_2D[[0,2]] # 1. és 3. sor

In [None]:
array_2D.shape # a mérete

In [None]:
array_2D.reshape((9,1))

## 3. Pandas Series/DataFrame

A Pandas csomag nagyjából az excel megfelelője lehet Python-ban rengeteg hasznos lehetőséggel. Itt is csak a felszínt tudjuk megkapargatni, de azért szeretném mindenképpen megmutatni, mert megúszható vele a szokásos file-műveletek nagyrésze, és az adatok előkészítésére is nagyon sok hasznos funkció van benne.

Telepíteni a szokásos módon tudjuk:

    pip install pandas
    
Ha sikerült telepíteni, importálhatjuk az elterjedt konvenció alapján:

In [None]:
import pandas as pd

### Pandas Series

Mielőtt rátérnénk a legelterjedtebb Pandas objektumra, a DataFrame-re, előbb nézzük meg ennek az építőelemét, a `Series`-t.

A Pandas Series a sima listához és a numpy array-hez hasonlóan **alapvetően egy indexelt sorozat, viszont itt az indexek nem csak számok lehetnek.** 1D-s adattípus.

Létrehzása törénhet lista, numpy array és dictionary alapján is:

In [None]:
labels = ['a','b','c']
myList = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

In [None]:
pd.Series(data=myList)

In [None]:
pd.Series(data=myList,index=labels)  # Indexelés "labels" alapján

In [None]:
pd.Series(arr) # Numpy array alapján

In [None]:
pd.Series(d)   # dictionary alapján: az indexelés autómatikusan a key-k alapján

Adatok elérése hasonló az eddigi adattípusokhoz

In [None]:
numberIndexedSeries = pd.Series(data=myList)
numberIndexedSeries[0]

In [None]:
numberIndexedSeries[:2] # Itt is lehet range-t definiálni 

In [None]:
stringIndexedSeries = pd.Series(data=d)
# Ha az index string, akkor pozíció, és index szerint is elérhatők az értékek.
print(stringIndexedSeries[0])
print(stringIndexedSeries['a'])

### Pandas DataFrame

A DataFrame is létrhozható természetesen különböző másik adattípusból, de sokszor táblázat szerű file-ból olvassuk be az adatokat DataFrame formába.

In [None]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(5,4),
                  index='A B C D E'.split(),columns='W X Y Z'.split())
df

In [None]:
# Beolvasás File-ból
df_file = pd.read_excel('excelData.xlsx',index_col='IndexCol')
df_file

In [None]:
df['X']  # 1 oszlop indexelése: A kimenet egy Series!

In [None]:
df[['Z', 'X']]   # Több osszlop indexelése: Kimenet is DataFrame

In [None]:
df.loc['B']  # Sor index név alapján: A kimenet itt is egy Series

In [None]:
df.iloc[1]  # Sor index pozíció alapján: A kimenet itt is egy Series

In [None]:
df.loc['B','Y']   # Sor és oszlop egyszerre: Megkapjuk az értéket

In [None]:
df.loc[['A','B'],['W','Y']]    # Több sor, több oszlop

### Egyszerű szűrések
Csak említés szinten, de mindenképpen szeretném megmutatni, hogy hogyan törénnek a szűrések a Pandas dataframe-ekben, hiszen ez gyakorlatban egy nagyon sokszor használt funkció.

In [None]:
df

In [None]:
df>0

In [None]:
filt = df['W']>0
filt

In [None]:
df[filt]

In [None]:
df.loc[filt]

In [None]:
df[(df['W']>0) & (df['Y'] > 1)]    # Egy kis haladó szűrés a végére