# Adattípusok rövid áttekintése

Mielőtt rátérnénk a plotok létrehozására, röviden nézzük át azokat a Python adattípusokat, amiket a plotokhoz használni fogunk.


## 1. List (Tuple)
A **listák** alapvetően objektumok indexelt sorozata. Nagyon rugalmas adatstruktúra, kb. bármit tárolhatunk benne, de a plotok elkészítéséhez főleg számokat, esetleg stringet fogunk beletenni.
Egy egyszerű példa a definiálására:

In [1]:
myList = [1,2,3,4]
myNestedList = [[1, print], [None, 'text'], 5]

A listák elemei indexeléssel érhetőek el, és felül is írhatóak. (Az indexelés 0-ról indul.)

In [2]:
myList[2]

3

In [3]:
myNestedList[1][1] = 33

In [4]:
myNestedList

[[1, <function print>], [None, 33], 5]

A **Tuple** nagyon hasonlít a listához, ugyanúgy sorban találhatóak benne elemek. A fő különbség az, hogy **az elemek nem változtathatóak meg benne (immutable).**

In [10]:
myNestedTuple = ((1, print), (None, 'text'), 5)

In [11]:
myNestedTuple[1][1] = 33

TypeError: 'tuple' object does not support item assignment

In [12]:
myNestedTuple[1][1:] 

('text',)

## 2. Numpy array
A Numpy egy nagyon elterjedt lineáris-algebra Python csomag, aminek az objektumaira sok egyéb csomag is épít. Mi főleg a saját, listához hasonló `Array` adattípusát fogjuk használni, ami gyorsabb futást és műveleteket tesz lehetővé a sima Python listáknál, mivel jelentős része C-ben van megírva.
https://github.com/numpy/numpy

Amennyiben még nem tettük meg, telepítsük a virtuális környezettünkben a korábban mutatott módon:

    pip install numpy
    
Ezt követően más importálhatjuk az elterjedt módon:

In [13]:
import numpy as np

### Létrehozás

Numpy Array-t létrehozhatunk úgy, hogy közvetlenük konvertáljuk a már létrehozott listát (vagy tuple-t). A lista lehet több dimenziós is, ekkor a Numpy array is több dimenziós lesz:

In [14]:
myList = [1,2,3,4]
np.array(myList)

array([1, 2, 3, 4])

In [15]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Hozhatunk létre Numpy array-t közvetlenül is, a beépített függvények segítségével:

In [16]:
np.arange(0,10)  # Return evenly spaced values within a given interval.

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [14]:
np.zeros((5,5))  # Return a new array of given shape and type, filled with zeros.

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [17]:
np.linspace(0,10,21)  # Return evenly spaced numbers over a specified interval.

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

Akár random számokkal is feltölthetjük az array-t:

In [18]:
np.random.randn(3,3)  # Return a sample (or samples) from the "standard normal" distribution.

array([[-0.02273558,  0.0895347 , -2.98263986],
       [ 0.85747966,  1.71992718,  0.69818956],
       [-0.73177273, -0.64574937, -1.07936673]])

In [19]:
np.random.randint(1,100,10)  # Return random integers from `low` (inclusive) to `high` (exclusive).

array([28, 30, 41, 32, 99, 85, 33, 89,  6, 19])

Melyik argument mit jelent?

**Shift+Tab** itt a Jupyter Notebookban. A szerkeszőtől függően más billenyűkombinációra kaphatunk help-et, vagy használjuk a `help` függvényt:

In [20]:
help(np.random.randint)

Help on built-in function randint:

randint(...) method of numpy.random.mtrand.RandomState instance
    randint(low, high=None, size=None, dtype=int)
    
    Return random integers from `low` (inclusive) to `high` (exclusive).
    
    Return random integers from the "discrete uniform" distribution of
    the specified dtype in the "half-open" interval [`low`, `high`). If
    `high` is None (the default), then results are from [0, `low`).
    
    .. note::
        New code should use the ``integers`` method of a ``default_rng()``
        instance instead; please see the :ref:`random-quick-start`.
    
    Parameters
    ----------
    low : int or array-like of ints
        Lowest (signed) integers to be drawn from the distribution (unless
        ``high=None``, in which case this parameter is one above the
        *highest* such integer).
    high : int or array-like of ints, optional
        If provided, one above the largest (signed) integer to be drawn
        from the distributi

A Numpy Array-nek rengeteg hasznos függvénye van, de ebbe most nem megyünk bele, viszont a `dir` függvényel kilistázható egy objektum összes elérhető attribútuma.

In [19]:
dir(np.array([1]))

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',

### Indexelés

Amire nekünk a plotok elkészítéséhez gyakran szükségünk van az az indexelés, ami eltréhet különbözik a sima listák indexelésétől (több dimenzió esetén).

    arr_2d[row][col]
    arr_2d[row,col]

A második megoldás az elterjedtebb

In [22]:
array_1D = np.arange(0,10)
array_1D

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [23]:
array_1D[1:5]

array([1, 2, 3, 4])

In [24]:
array_1D[-1:5:-1] # [start:stop:step]

array([9, 8, 7, 6])

2 Dimenziós array esetén

In [25]:
array_2D = np.array(([5,10,15],[20,25,30],[35,40,45]))
array_2D

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [32]:
print(array_2D[1][0])  # Listához hasonló indexelés
print(array_2D[1, 0])  # Matlab szerű indexelés

20
20


In [27]:
array_2D[:2,1:]  # [sor, oszlop]

array([[10, 15],
       [25, 30]])

In [28]:
array_2D[2]  # Alsó sor

array([35, 40, 45])

In [29]:
array_2D[[0,2]] # 1. és 3. sor

array([[ 5, 10, 15],
       [35, 40, 45]])

In [30]:
array_2D.shape  # Return the shape of an array.

(3, 3)

In [31]:
array_2D.reshape((9,1))  # Gives a new shape to an array without changing its data.

array([[ 5],
       [10],
       [15],
       [20],
       [25],
       [30],
       [35],
       [40],
       [45]])

## 3. Pandas Series/DataFrame

A Pandas csomag nagyjából az excel megfelelője lehet Python-ban rengeteg hasznos lehetőséggel. Itt is csak a felszínt tudjuk megkapargatni, de azért szeretném mindenképpen megmutatni, mert megúszható vele a szokásos file-műveletek nagyrésze, és az adatok előkészítésére is nagyon sok hasznos funkció van benne.

Telepíteni a szokásos módon tudjuk:

    pip install pandas
    
Ha sikerült telepíteni, importálhatjuk az elterjedt konvenció alapján:

In [36]:
import pandas as pd

### Pandas Series

Mielőtt rátérnénk a legelterjedtebb Pandas objektumra, a `DataFrame`-re, előbb nézzük meg ennek az építőelemét, a `Series`-t.

A Pandas `Series` a sima listához és a numpy array-hez hasonlóan **alapvetően egy indexelt sorozat, viszont itt az indexek nem csak számok lehetnek.** 1D-s adattípus.

Létrehzása törénhet lista, numpy array és dictionary alapján is:

In [39]:
labels = ['a','b','c']
myList = [10,20,30]

In [40]:
pd.Series(data=myList)

0    10
1    20
2    30
dtype: int64

In [42]:
pd.Series(data=myList,index=labels)  # Indexelés "labels" alapján

a    10
b    20
c    30
dtype: int64

In [43]:
arr = np.array([10,20,30])
pd.Series(arr) # Numpy array alapján

0    10
1    20
2    30
dtype: int32

In [44]:
d = {'a':10,'b':20,'c':30}
pd.Series(d)   # dictionary alapján: az indexelés autómatikusan a key-k alapján

a    10
b    20
c    30
dtype: int64

Adatok elérése hasonló az eddigi adattípusokhoz

In [43]:
myList = [10,20,30]
numberIndexedSeries = pd.Series(data=myList)
numberIndexedSeries[0]

10

In [44]:
numberIndexedSeries[:2] # Itt is lehet range-t definiálni 

0    10
1    20
dtype: int64

In [63]:
d = {'a':10,'b':20,'c':30}
stringIndexedSeries = pd.Series(data=d)
# Ha az index string, akkor pozíció, és index szerint is elérhatők az értékek.
print(stringIndexedSeries[0])
print(stringIndexedSeries['a'])

10
10


### Pandas DataFrame

A `DataFrame` is létrhozható természetesen különböző másik adattípusból, de sokszor táblázat szerű file-ból olvassuk be az adatokat DataFrame formába.

In [55]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(5,4),
                  index='A B C D E'.split(),columns='W X Y Z'.split())
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [48]:
# Beolvasás File-ból
df_file = pd.read_excel('excelData.xlsx',index_col='IndexCol')
df_file.head()

Unnamed: 0_level_0,Col1,Col2,Col3
IndexCol,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,12,1,0.5
2,24,4,1.0
3,36,9,1.5
4,48,16,2.0
5,60,25,2.5


Indexelési lehetőségek

In [49]:
df['X']  # 1 oszlop indexelése: A kimenet egy Series!

A    0.628133
B   -0.319318
C    0.740122
D   -0.758872
E    1.978757
Name: X, dtype: float64

In [50]:
df[['Z', 'X']]   # Több osszlop indexelése: Kimenet is DataFrame

Unnamed: 0,Z,X
A,0.503826,0.628133
B,0.605965,-0.319318
C,-0.589001,0.740122
D,0.955057,-0.758872
E,0.683509,1.978757


In [51]:
df.loc['B']  # Sor index név alapján: A kimenet itt is egy Series

W    0.651118
X   -0.319318
Y   -0.848077
Z    0.605965
Name: B, dtype: float64

In [52]:
df.iloc[1]  # Sor index pozíció alapján: A kimenet itt is egy Series

W    0.651118
X   -0.319318
Y   -0.848077
Z    0.605965
Name: B, dtype: float64

In [53]:
df.loc['B','Y']   # Sor és oszlop egyszerre: Megkapjuk az értéket

-0.8480769834036315

In [54]:
df.loc[['A','B'],['W','Y']]    # Több sor, több oszlop

Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077


### Egyszerű szűrések
Csak említés szinten, de mindenképpen szeretném megmutatni, hogy hogyan törénnek a szűrések a Pandas dataframe-ekben, hiszen ez gyakorlatban egy nagyon sokszor használt funkció.

In [56]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [57]:
df > 0

Unnamed: 0,W,X,Y,Z
A,True,True,True,True
B,True,False,False,True
C,False,True,True,False
D,True,False,False,True
E,True,True,True,True


In [58]:
filt = df['W'] > 0
filt

A     True
B     True
C    False
D     True
E     True
Name: W, dtype: bool

In [59]:
df[filt]

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [60]:
df.loc[filt]  # A `loc` nem csak indexet kaphat, de boolian array-t is

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [62]:
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


In [61]:
df[(df['W']>0) & (df['Y'] > 1)]    # Egy kis haladó szűrés a végére

Unnamed: 0,W,X,Y,Z
E,0.190794,1.978757,2.605967,0.683509
