# Adattípusok rövid áttekintése

Mielőtt rátérnénk a plotok létrhozására, röviden nézzük át azokat az adattípusokat, amiket a plotok létrehozásához használni fogunk.


## 1. List (Tuple)
A **listák** alapvetően objektumok indexelt sorozata. Nagyon rugalmas adatstruktúra, kb. bármit tárulhatunk benne, de a plotok elkészítéséhez főleg számokat, esetleg stringet fogunk beletenni.
Egy egyszerű példa a definiálására:

In [15]:
myList = [1,2,3,4]
myNestedList = [[1, print], [None, 'text'], 5]

A listák elemei indexeléssel érhetőek el, és felül is írhatóak. (Az indexelés 0-ról indul.)

In [16]:
myList[2]

3

In [17]:
myNestedList[1][1] = 33

In [18]:
myNestedList

[[1, <function print>], [None, 33], 5]

A **Tuple** nagyon hasonlít a listához, ugyanúgy sorban találhatóak benne elemek. A fő különbség az, hogy **az elemek nem változtathatóak meg benne.**

In [19]:
myNestedTuple = ((1, print), (None, 'text'), 5)

In [21]:
myNestedTuple[1][1] = 33

TypeError: 'tuple' object does not support item assignment

In [23]:
myNestedTuple[1][1:] 

('text',)

## 2. Numpy array
A Numpy egy nagyon elterjedt lineáris-algebra Pthon csomag, aminek az objektumaira sok egyéb csomag is épít. Mi főleg a saját, listához hasonló **Arrey** adattípusát fogjuk használni, ami sokkal gyorsabb futást és műveleteket tesz lehetővé a sima Python listáknál.

Amennyiben még nem tettük meg, telepítsük a virtuális környezettünkben a korábban mutatott módon:

    pip install numpy
    
Ezt követően más importálhatjuk az elterjedt módon:

In [26]:
import numpy as np

### Létrehozás

Numpy Array.t létrehozhatunk úgy, hogy közvetlenük konvertáljuk a már létrehozott listát (vagy tuple-t). A lista lehet több dimenziós is, ekkor a Numpy array is több dimenziós lesz:

In [28]:
np.array(myList)

array([1, 2, 3, 4])

In [30]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Hozhatunk létre Numpy array-t közvetlenül is, a beépített függvények segítségével:

In [31]:
np.arange(0,10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
np.zeros((5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [35]:
np.linspace(0,10,21)

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

Akár random számokkal is feltölthetjük az array-t:

In [38]:
np.random.randn(3,3)

array([[ 1.03852727, -0.97923429, -0.33450725],
       [-0.40566271, -1.1595842 , -0.60527495],
       [ 0.37452149, -0.436632  , -0.14767112]])

In [39]:
np.random.randint(1,100,10)

array([60, 80, 95, 90, 82, 89, 99, 78, 95, 23])

Melyik argument mit jelent?

**Shift+Tab** itt a Jupyter Notebookban. A szerkeszőtől függően más billenyűkombinációra kaphatunk help-t., vagy használjuk a *help* függvényt:

In [40]:
help(np.random.randint)

Help on built-in function randint:

randint(...) method of mtrand.RandomState instance
    randint(low, high=None, size=None, dtype='l')
    
    Return random integers from `low` (inclusive) to `high` (exclusive).
    
    Return random integers from the "discrete uniform" distribution of
    the specified dtype in the "half-open" interval [`low`, `high`). If
    `high` is None (the default), then results are from [0, `low`).
    
    Parameters
    ----------
    low : int
        Lowest (signed) integer to be drawn from the distribution (unless
        ``high=None``, in which case this parameter is one above the
        *highest* such integer).
    high : int, optional
        If provided, one above the largest (signed) integer to be drawn
        from the distribution (see above for behavior if ``high=None``).
    size : int or tuple of ints, optional
        Output shape.  If the given shape is, e.g., ``(m, n, k)``, then
        ``m * n * k`` samples are drawn.  Default is None, i

A Numpy Array-nek rengeteg nasznos függvénye van, de ebbe most nem megyünk bele, de mutatok "trükköt", amivel egy objektum összes attribútuma kilistázható.

In [42]:
dir(np.array([1]))

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__rdivmod__',
 '__reduce__',
 '__reduce_e

### Indexelés

Amire nekünk a plotok elkészítéséhez gyakran szükségünk van az az indexelés, ami eltréhet különbözik a sima listák indexelésétől (több dimenzió esetén).

    arr_2d[row][col]
    arr_2d[row,col]

A második megoldás az elterjedtebb

In [54]:
array_1D = np.arange(0,10)
array_1D

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [55]:
array_1D[1:5]

array([1, 2, 3, 4])

In [56]:
array_1D[-1:5:-1] # [start:stop:step]

array([9, 8, 7, 6])

2 Dimenziós array esetén

In [49]:
array_2D = np.array(([5,10,15],[20,25,30],[35,40,45]))
array_2D

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [53]:
print(array_2D[1][0])
print(array_2D[1,0])

20
20


In [59]:
array_2D[:2,1:]  # Jobb felső sarok

array([[10, 15],
       [25, 30]])

In [61]:
array_2D[2]  # Alsó sor

array([35, 40, 45])

In [62]:
array_2D[[0,2]] # 1. és 3. sor

array([[ 5, 10, 15],
       [35, 40, 45]])

## 3. Pandas Series/DataFrame

A Pandas csomag nagyjából az excel meglelője lehet Python-ban rengeteg hasznos lehetőséggel. Itt is csak a felszínt tudjuk megkapargatni, de azárt szeretném mindenképpen megmutatni, mert megúszható vele a szokásos file-műveletek nagyrésze, és az adatok előkészítésére is nagyon sok hasznos funkció van benne.

Telepíteni a szokásos módon tudjuk:

    pip install pandas
    
Ha sikerült telepíteni, importálhatjuk az elterjedt konvenció alapján:

In [65]:
import pandas as pd

### Pandas Series

Mielőtt rátérnénk a legelterjedtebb Pandas objektumra, a DataFrame-re, előbb nézzük meg ennek az építőelemét, a **Series**-t.

A Pandas Series a sima listához és a numpy array-hez hasonlóan **alapvetően egy indexelt sorozat, viszont itt az indexek nem csak számok lehetnek.** 1D-s adattípus.

Létrehzása törénhet lista, numpy array és dictionary alapján is:

In [66]:
labels = ['a','b','c']
myList = [10,20,30]
arr = np.array([10,20,30])
d = {'a':10,'b':20,'c':30}

In [68]:
pd.Series(data=myList)

0    10
1    20
2    30
dtype: int64

In [85]:
pd.Series(data=myList,index=labels)  # Indexelés "labels" alapján

a    10
b    20
c    30
dtype: int64

In [86]:
pd.Series(arr) # Numpy array alapján

0    10
1    20
2    30
dtype: int32

In [87]:
pd.Series(d)   # dictionary alapján: az indexelés autómatikusan a key-k alapján

a    10
b    20
c    30
dtype: int64

Adatok elérése hasonló az eddigi adattípusokhoz

In [76]:
numberIndexedSeries = pd.Series(data=myList)
numberIndexedSeries[0]

10

In [82]:
numberIndexedSeries[:2] # Itt is lehet rang-et definiálni 

0    10
1    20
dtype: int64

In [89]:
stringIndexedSeries = pd.Series(data=d)
# Ha az index string, akkor pozíció, és index szerint is elérhatők az értékek.
print(stringIndexedSeries[0])
print(stringIndexedSeries['a'])

10
10


### Pandas DataFrame

A DataFrame is létrhozható természetesen különböző másik adattípusból, de sokszor táblázat szerű file-ból olvassuk be az adatokat DataFrame formába.

In [126]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(5,4),
                  index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [127]:
# Beolvasás File-ból
df_file = pd.read_excel('excelData.xlsx',index_col='IndexCol')
df_file

Unnamed: 0_level_0,Col1,Col2,Col3
IndexCol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,12,1,0.5
2,24,4,1.0
3,36,9,1.5
4,48,16,2.0
5,60,25,2.5
6,72,36,3.0
7,84,49,3.5
8,96,64,4.0
9,108,81,4.5
10,120,100,5.0


In [128]:
df['X']  # 1 oszlop indexelése: A kimenet egy Series!

A    0.628133
B   -0.319318
C    0.740122
D   -0.758872
E    1.978757
Name: X, dtype: float64

In [129]:
df[['Z', 'X']]   # Több osszlop indexelése: Kimenet is DataFrame

Unnamed: 0,Z,X
A,0.503826,0.628133
B,0.605965,-0.319318
C,-0.589001,0.740122
D,0.955057,-0.758872
E,0.683509,1.978757


In [130]:
df.loc['B']  # Sor index név alapján: A kimenet itt is egy Series

W    0.651118
X   -0.319318
Y   -0.848077
Z    0.605965
Name: B, dtype: float64

In [131]:
df.iloc[1]  # Sor index pozíció alapján: A kimenet itt is egy Series

W    0.651118
X   -0.319318
Y   -0.848077
Z    0.605965
Name: B, dtype: float64

In [132]:
df.loc['B','Y']   # Sor és oszlop egyszerre: MEgkapjuk az értéket

-0.8480769834036315

In [133]:
df.loc[['A','B'],['W','Y']]    # Több sor, több oszlop

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Egyszerű szűrések
Csak említés szinten, de mindenképpen szeretném megmutatni, hogy hogyan törénnek a szűrések a Pandas dataframe-ekben, hiszen ez gyakorlatban egy nagyon sokszor használt funkció.

In [134]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [135]:
df>0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [136]:
filt = df['W']>0
filt

A     True
B     True
C    False
D     True
E     True
Name: W, dtype: bool

In [137]:
df[filt]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [138]:
df.loc[filt]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [139]:
df[(df['W']>0) & (df['Y'] > 1)]    # Egy kis haladó szűrés a végére

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509
