# Adattípusok rövid áttekintése

Mielőtt rátérnénk a plotok létrehozására, röviden nézzük át azokat a Python adattípusokat, amiket a plotokhoz használni fogunk.


## 1. List (Tuple)
A **listák** alapvetően objektumok indexelt sorozata. Nagyon rugalmas adatstruktúra, kb. bármit tárolhatunk benne, de a plotok elkészítéséhez főleg számokat, esetleg stringet fogunk beletenni.
Egy egyszerű példa a definiálására:

In [1]:
myList = [1,2,3,4]
myNestedList = [[1, print], [None, 'text'], 5]

A listák elemei indexeléssel érhetőek el, és felül is írhatóak. (Az indexelés 0-ról indul.)

In [2]:
myList[2]

3

In [3]:
myNestedList[1][1] = 33

In [4]:
myNestedList

[[1, <function print>], [None, 33], 5]

A **Tuple** nagyon hasonlít a listához, ugyanúgy sorban találhatóak benne elemek. A fő különbség az, hogy **az elemek nem változtathatóak meg benne (immutable).**

In [5]:
myNestedTuple = ((1, print), (None, 'text'), 5)

In [6]:
myNestedTuple[1][1] = 33

TypeError: 'tuple' object does not support item assignment

In [7]:
myNestedTuple[1][1:] 

('text',)

## 2. Numpy array
A Numpy egy nagyon elterjedt lineáris-algebra Python csomag, aminek az objektumaira sok egyéb csomag is épít. Mi főleg a listához hasonló `Array` adattípusát fogjuk használni, ami gyorsabb műveleteket tesz lehetővé az egyszerű Python listáknál és tárhely igénye is kisebb, mivel jelentős része C-ben van megírva.
https://github.com/numpy/numpy

Amennyiben még nem tettük meg, telepítsük a virtuális környezettünkbe a következő sort futtatva parancssorban:

    pip install numpy

Ezt követően más importálhatjuk az elterjedt módon:

In [8]:
import numpy as np

### Létrehozás

Numpy Array-t létrehozhatunk úgy, hogy közvetlenük konvertáljuk a már létrehozott listát (vagy tuple-t). A lista lehet több dimenziós is, ekkor a Numpy array is több dimenziós lesz:

In [9]:
myList = [1,2,3,4]
np.array(myList)

array([1, 2, 3, 4])

In [10]:
my_matrix = [[1,2,3],[4,5,6],[7,8,9]]
np.array(my_matrix)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Hozhatunk létre Numpy array-t közvetlenül is, a beépített függvények segítségével:

In [11]:
np.arange(0,10)  # Return evenly spaced values within a given interval.

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [12]:
np.zeros((5,5))  # Return a new array of given shape and type, filled with zeros.

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [13]:
np.linspace(0,10,21)  # Return evenly spaced numbers over a specified interval.

array([ 0. ,  0.5,  1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,
        5.5,  6. ,  6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. ])

Akár random számokkal is feltölthetjük az array-t:

In [14]:
np.random.randn(3,3)  # Return a sample (or samples) from the "standard normal" distribution.

array([[-1.97491658, -0.78985945, -0.05134803],
       [-0.3685707 , -1.52764925,  0.00384613],
       [ 0.74413344,  1.32822168,  0.05384933]])

In [15]:
np.random.randint(1,100,10)  # Return random integers from `low` (inclusive) to `high` (exclusive).

array([71, 78, 98, 98,  5, 13,  2, 19, 42, 61])

Melyik argument mit jelent?

**Shift+Tab** itt a Jupyter Notebookban. A szerkeszőtől függően más billenyűkombinációra kaphatunk help-et, vagy használjuk a `help` függvényt:

In [16]:
help(np.random.randint)

Help on built-in function randint:

randint(...) method of numpy.random.mtrand.RandomState instance
    randint(low, high=None, size=None, dtype=int)
    
    Return random integers from `low` (inclusive) to `high` (exclusive).
    
    Return random integers from the "discrete uniform" distribution of
    the specified dtype in the "half-open" interval [`low`, `high`). If
    `high` is None (the default), then results are from [0, `low`).
    
    .. note::
        New code should use the ``integers`` method of a ``default_rng()``
        instance instead; please see the :ref:`random-quick-start`.
    
    Parameters
    ----------
    low : int or array-like of ints
        Lowest (signed) integers to be drawn from the distribution (unless
        ``high=None``, in which case this parameter is one above the
        *highest* such integer).
    high : int or array-like of ints, optional
        If provided, one above the largest (signed) integer to be drawn
        from the distributi

A Numpy Array-nek rengeteg hasznos függvénye van, de ebbe most nem megyünk bele, viszont a `dir` függvényel kilistázható egy objektum összes elérhető attribútuma.

In [17]:
dir(np.array([1]))

['T',
 '__abs__',
 '__add__',
 '__and__',
 '__array__',
 '__array_finalize__',
 '__array_function__',
 '__array_interface__',
 '__array_prepare__',
 '__array_priority__',
 '__array_struct__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__class_getitem__',
 '__complex__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dir__',
 '__divmod__',
 '__dlpack__',
 '__dlpack_device__',
 '__doc__',
 '__eq__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__ilshift__',
 '__imatmul__',
 '__imod__',
 '__imul__',
 '__index__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__irshift__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lshift__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__or__',
 '__pos__',

### Indexelés

Amire nekünk a plotok elkészítéséhez gyakran szükségünk van az az indexelés, ami eltréhet a sima listák indexelésétől (több dimenzió esetén).

    arr_2d[row][col]
    arr_2d[row,col]

A második megoldás az elterjedtebb

In [18]:
array_1D = np.arange(0,10)
array_1D

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
array_1D[1:5]

array([1, 2, 3, 4])

In [20]:
array_1D[-1:5:-1] # [start:stop:step]

array([9, 8, 7, 6])

2 Dimenziós array esetén

In [21]:
array_2D = np.array(([5,10,15],[20,25,30],[35,40,45]))
array_2D

array([[ 5, 10, 15],
       [20, 25, 30],
       [35, 40, 45]])

In [22]:
print(array_2D[1][0])  # Listához hasonló indexelés
print(array_2D[1, 0])  # Matlab szerű indexelés

20
20


In [23]:
array_2D[:2,1:]  # [sor, oszlop]

array([[10, 15],
       [25, 30]])

In [24]:
array_2D[2]  # Alsó sor

array([35, 40, 45])

In [25]:
array_2D[[0,2]] # 1. és 3. sor

array([[ 5, 10, 15],
       [35, 40, 45]])

In [26]:
array_2D.shape  # Return the shape of an array.

(3, 3)

In [27]:
array_2D.reshape((9,1))  # Gives a new shape to an array without changing its data.

array([[ 5],
       [10],
       [15],
       [20],
       [25],
       [30],
       [35],
       [40],
       [45]])

A `numpy` egyik fő előnye, a sebesség:

In [28]:
import timeit
import sys

In [29]:
# Add scalar
py_list = [i for i in range(100000)]
np_arr = np.arange(100000)

list_time = timeit.timeit(lambda: [i+i for i in py_list], number=10)
arr_time = timeit.timeit(lambda: np_arr + np_arr, number=10)

print(f"Python list finished in {round(list_time, 5)}s. It's size: {sys.getsizeof(py_list)}.")
print(f"Numpy array finished in {round(arr_time, 5)}s. It's size: {sys.getsizeof(np_arr)}.")

Python list finished in 0.03375s. It's size: 824456.
Numpy array finished in 0.00049s. It's size: 400112


In [30]:
def dot(list1, list2):
    res = 0
    for i, j in zip(list1, list2):
        res += i*j

In [31]:
# Dot product
py_list = [i for i in range(100000)]
np_arr = np.arange(100000)

list_time = timeit.timeit(lambda: dot(py_list, py_list), number=10)
arr_time = timeit.timeit(lambda: np.dot(np_arr, np_arr), number=10)

print(f"Python list finished in {round(list_time, 5)}s. It's size: {sys.getsizeof(py_list)}")
print(f"Numpy array finished in {round(arr_time, 5)}s. It's size: {sys.getsizeof(np_arr)}.")

Python list finished in 0.04653s. It's size: 824456
Numpy array finished in 0.00045s. It's size: 400112


## 3. Pandas Series/DataFrame

A Pandas csomag nagyjából az excel megfelelője lehet Python-ban rengeteg hasznos lehetőséggel. Itt is csak a felszínt tudjuk megkapargatni, de azért szeretném mindenképpen megmutatni, mert megúszható vele a szokásos file-műveletek nagyrésze, és az adatok előkészítésére is nagyon sok hasznos funkció van benne.

Telepíteni a szokásos módon tudjuk:

    pip install pandas

Ha sikerült telepíteni, importálhatjuk az elterjedt konvenció alapján:

In [32]:
import pandas as pd

### Pandas Series

Mielőtt rátérnénk a legelterjedtebb Pandas objektumra, a `DataFrame`-re, előbb nézzük meg ennek az építőelemét, a `Series`-t.

A Pandas `Series` a sima listához és a numpy array-hez hasonlóan **alapvetően egy indexelt sorozat, viszont itt az indexek nem csak számok lehetnek.** 1D-s adattípus.

Létrehozása törénhet `list`, `numpy array` és `dictionary` alapján is:

In [33]:
labels = ['a','b','c']
myList = [10,20,30]

In [34]:
pd.Series(data=myList)

0    10
1    20
2    30
dtype: int64

In [35]:
pd.Series(data=myList,index=labels)  # Indexelés "labels" alapján

a    10
b    20
c    30
dtype: int64

In [36]:
arr = np.array([10,20,30])
pd.Series(arr) # Numpy array alapján

0    10
1    20
2    30
dtype: int32

In [37]:
d = {'a':10,'b':20,'c':30}
pd.Series(d)   # dictionary alapján: az indexelés autómatikusan a key-k alapján

a    10
b    20
c    30
dtype: int64

Adatok elérése hasonló az eddigi adattípusokhoz

In [38]:
myList = [10,20,30]
numberIndexedSeries = pd.Series(data=myList)
numberIndexedSeries[0]

10

In [39]:
numberIndexedSeries[:2] # Itt is lehet range-t definiálni 

0    10
1    20
dtype: int64

In [40]:
d = {'a':10,'b':20,'c':30}
stringIndexedSeries = pd.Series(data=d)
# Ha az index string, akkor pozíció, és index szerint is elérhatők az értékek.
print(stringIndexedSeries[0])
print(stringIndexedSeries['a'])

10
10


### Pandas DataFrame

A `DataFrame` is létrhozható természetesen különböző másik adattípusból, de sokszor táblázat szerű file-ból olvassuk be az adatokat DataFrame formába.

In [41]:
np.random.seed(101)
df = pd.DataFrame(np.random.randn(4,3), index='A B C D'.split(),columns='X Y Z'.split())
df

Unnamed: 0,X,Y,Z
A,2.70685,0.628133,0.907969
B,0.503826,0.651118,-0.319318
C,-0.848077,0.605965,-2.018168
D,0.740122,0.528813,-0.589001


In [42]:
# Beolvasás File-ból (https://www.kaggle.com/datasets/rounakbanik/pokemon)
df_poke = pd.read_csv('pokemon.csv', index_col='pokedex_number')
df_poke.drop(['abilities','against_bug','against_dark','against_dragon','against_electric','against_fairy','against_fight','against_fire','against_flying','against_ghost','against_grass','against_ground','against_ice','against_normal','against_poison','against_psychic','against_rock','against_steel','against_water','base_egg_steps','base_happiness','base_total','japanese_name','percentage_male','type2','experience_growth',
              'height_m','weight_kg', 'sp_attack','sp_defense'], inplace=True, axis=1)
df_poke.head()

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,49,45,Seed Pokémon,49,45,Bulbasaur,45,grass,1,0
2,62,45,Seed Pokémon,63,60,Ivysaur,60,grass,1,0
3,100,45,Seed Pokémon,123,80,Venusaur,80,grass,1,0
4,52,45,Lizard Pokémon,43,39,Charmander,65,fire,1,0
5,64,45,Flame Pokémon,58,58,Charmeleon,80,fire,1,0


Indexelési lehetőségek

In [43]:
df_poke['name']  # 1 oszlop indexelése: A kimenet egy Series!

pokedex_number
1       Bulbasaur
2         Ivysaur
3        Venusaur
4      Charmander
5      Charmeleon
          ...    
797    Celesteela
798       Kartana
799      Guzzlord
800      Necrozma
801      Magearna
Name: name, Length: 801, dtype: object

In [44]:
df_poke[['name', 'attack']]   # Több osszlop indexelése: Kimenet is DataFrame

Unnamed: 0_level_0,name,attack
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1
1,Bulbasaur,49
2,Ivysaur,62
3,Venusaur,100
4,Charmander,52
5,Charmeleon,64
...,...,...
797,Celesteela,101
798,Kartana,181
799,Guzzlord,101
800,Necrozma,107


In [45]:
df_poke.iloc[0]  # Sor index pozíció alapján: A kimenet itt is egy Series

attack                     49
capture_rate               45
classfication    Seed Pokémon
defense                    49
hp                         45
name                Bulbasaur
speed                      45
type1                   grass
generation                  1
is_legendary                0
Name: 1, dtype: object

In [46]:
df_poke.loc[df_poke['name'] == "Pikachu"]  # Sor egy oszlop értéke alapján

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
25,55,190,Mouse Pokémon,40,35,Pikachu,90,electric,1,0


In [47]:
df_poke.loc[25, 'capture_rate']   # Sor és oszlop egyszerre: Megkapjuk az értéket

190

In [48]:
df.loc[['A','B'],['X','Y']]    # Több sor, több oszlop

Unnamed: 0,X,Y
A,2.70685,0.628133
B,0.503826,0.651118


### Egyszerű szűrések
Csak említés szinten, de mindenképpen szeretném megmutatni, hogy hogyan törénnek a szűrések a Pandas dataframe-ekben, hiszen ez gyakorlatban egy nagyon sokszor használt funkció.

In [49]:
df_poke.head()

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
1,49,45,Seed Pokémon,49,45,Bulbasaur,45,grass,1,0
2,62,45,Seed Pokémon,63,60,Ivysaur,60,grass,1,0
3,100,45,Seed Pokémon,123,80,Venusaur,80,grass,1,0
4,52,45,Lizard Pokémon,43,39,Charmander,65,fire,1,0
5,64,45,Flame Pokémon,58,58,Charmeleon,80,fire,1,0


In [50]:
df_poke['attack'] > 80

pokedex_number
1      False
2      False
3       True
4      False
5      False
       ...  
797     True
798     True
799     True
800     True
801     True
Name: attack, Length: 801, dtype: bool

In [51]:
filt = df_poke['attack'] > 80
df_poke[filt]
# same as:
# df_poke.loc[filt] 

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
3,100,45,Seed Pokémon,123,80,Venusaur,80,grass,1,0
6,104,45,Flame Pokémon,78,78,Charizard,100,fire,1,0
9,103,45,Shellfish Pokémon,120,79,Blastoise,78,water,1,0
15,150,45,Poison Bee Pokémon,40,65,Beedrill,145,bug,1,0
22,90,90,Beak Pokémon,65,65,Fearow,100,normal,1,0
...,...,...,...,...,...,...,...,...,...,...
797,101,25,Launch Pokémon,103,97,Celesteela,61,steel,7,1
798,181,255,Drawn Sword Pokémon,131,59,Kartana,109,grass,7,1
799,101,15,Junkivore Pokémon,53,223,Guzzlord,43,dark,7,1
800,107,3,Prism Pokémon,101,97,Necrozma,79,psychic,7,1


In [52]:
df_poke.loc[filt]  # A `loc` nem csak indexet kaphat, de boolian array-t is

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
3,100,45,Seed Pokémon,123,80,Venusaur,80,grass,1,0
6,104,45,Flame Pokémon,78,78,Charizard,100,fire,1,0
9,103,45,Shellfish Pokémon,120,79,Blastoise,78,water,1,0
15,150,45,Poison Bee Pokémon,40,65,Beedrill,145,bug,1,0
22,90,90,Beak Pokémon,65,65,Fearow,100,normal,1,0
...,...,...,...,...,...,...,...,...,...,...
797,101,25,Launch Pokémon,103,97,Celesteela,61,steel,7,1
798,181,255,Drawn Sword Pokémon,131,59,Kartana,109,grass,7,1
799,101,15,Junkivore Pokémon,53,223,Guzzlord,43,dark,7,1
800,107,3,Prism Pokémon,101,97,Necrozma,79,psychic,7,1


In [53]:
df

Unnamed: 0,X,Y,Z
A,2.70685,0.628133,0.907969
B,0.503826,0.651118,-0.319318
C,-0.848077,0.605965,-2.018168
D,0.740122,0.528813,-0.589001


Keressünk magunknak egy erős, könnyen megszerezhető Pokemont:

In [54]:
df_poke[(df_poke['capture_rate'] < 100) & 
        (df_poke['attack'] > 110) & 
        (df_poke['defense'] > 120)].sort_values(by='hp',ascending=False)   # Egy kis haladó szűrés a végére

Unnamed: 0_level_0,attack,capture_rate,classfication,defense,hp,name,speed,type1,generation,is_legendary
pokedex_number,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
464,140,30,Drill Pokémon,130,115,Rhyperior,40,ground,4,0
794,139,25,Swollen Pokémon,139,107,Buzzwole,79,bug,7,1
248,164,45,Armor Pokémon,150,100,Tyranitar,71,rock,2,0
383,180,3,Continent Pokémon,160,100,Groudon,90,ground,3,1
373,145,45,Dragon Pokémon,130,95,Salamence,120,dragon,3,0
713,117,55,Iceberg Pokémon,184,95,Avalugg,28,ice,6,0
526,135,45,Compressed Pokémon,130,85,Gigalith,25,rock,5,0
76,120,45,Megaton Pokémon,130,80,Golem,45,rock,1,0
376,145,3,Iron Leg Pokémon,150,80,Metagross,110,steel,3,0
208,125,25,Iron Snake Pokémon,230,75,Steelix,30,steel,2,0


Pandas tutorial:
 * https://www.youtube.com/watch?v=vmEHCJofslg
 * https://www.youtube.com/playlist?list=PL-osiE80TeTsWmV9i9c58mdDCSskIFdDS