<a href="https://colab.research.google.com/github/AnnaLuca/GepiTanulas/blob/master/ml_2_data_frames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Adatkezelés pythonban

A gépi tanuláshoz [jellemzővektorokkal leírt egyedek](http://http://www.inf.u-szeged.hu/~rfarkas/ML20/alapfogalmak.html)kel, azaz adatrekordokkal dolgozunk.

A [pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html) csomag a legelterjedtebb adatkezelési csomag pythonban, ha nem túl nagy adatbázisokkal dolgozunk.

In [None]:
import pandas as pd #használunk egy 'pandas' nevű python csomagot és 'pd'-vel fogunk rá hivatkozni

A pandas alap adattípusa a Series, ami megegyező típusú elemek egy sorozatát tárolja. Továbbá minden elemnek van egy 'neve', azaz indexe.

In [None]:
l = [1,2,3] # egy lista
s = pd.Series(l) # a listát átkonvertáljuk Series-é
print(l)
print(s) # figyeljük meg az elemek indexét (0,1,2) és, hogy a Series dtype típusú elemeket tartalmazhat csak

A numerikus értékeket tartalmazó Series matematikai vektorként viselkedik, nem úgy, mint a lista:

In [None]:
print(l * 2)
print(s * 2) # skalárral való szorzás
print(s ** 2) # négyzetre emelés
l + s # itt a háttérben az l lista automatikusan Series-é konvertálódik és két Series-t össze tudunk adni

Az alábbi viszont nem fut le... Miért?

In [None]:
(l*3) + s

... azért mert az (l*3) a listát háromszor lemásolja, így eredménye egy 9 elemű lista. Az összeadás elvégzéséhez a python ezt automatikusan Series-é konvertálja, de egy 9 hosszú és egy 3 hosszú vektor összeadása nem értelmezett a matematikában.

# pandas DataFrame

A DataFrame-t egy adattáblának képzelhetjük el, ahol egyedek/rekordok vannak felsorolva, úgy hogy azok névvel ellátott jellemzői/változó alkotják az oszlopokat.

Nézzünk egy játék adatbázist, ahol gyűjtjük, hogy a különböző típusú szociális média üzenetekre hány like érkezett egyes hónapokban.

In [None]:
# Gondolhatunk az adattáblára, úgy, hogy a sorok szótárak (jellemzők nevei a kulcsok), azaz a DataFrame szótárak listája
like = [{'page': 'macskás kép', 'jan': 150, 'febr': 200, 'márc': 140},
         {'page': 'tükrös selfie',  'jan': 200, 'febr': 210, 'márc': 215},
         {'page': 'data science vicc',  'jan': 50,  'febr': 90,  'márc': 95 }] 
pd.DataFrame(like) # a colab egy tetszetős megjelenítést biztosít a DataFramenek

Próbáld ki mi történik, ha az egyik rekordban mondjuk a `febr` jellemző nevet elgépeled `feb`-re. Mi történik?

A DataFrame feltöltésénél minden új jellemző/oszlopnevet amivel találkozik a pandas a feldolgozásnál egy új oszlopnak vesz fel. Természetesen nem tudja a python, hogy a `feb` a `febr` elgépelése és egy új oszlopot vesz fel neki. Az elgépelt rekordban nincs megadva a `febr` jellemző értéke, ezért az `NaN` (Not a Number) lesz. Hasonlóan a másik két rekordban pedig nincs megadva a `feb` értéke, ezért azok `NaN`ok lesznek.

In [None]:
# De gondolhatunk úgy is az adattáblára, hogy az oszlopok nevesített listák. 
# Ekkor a DataFrame egy szótár, amiben a kulcsok oszlopnevek és az értékek listák (listák hosszának egyezőnek kell lenniük)
like = {'page': ['macskás kép', 'tükrös selfie', 'data science vicc'],
        'jan' : [150, 200, 50],
        'febr': [200, 210, 90],
        'márc': [140, 215, 111]}
pd.DataFrame(like)


In [None]:
df = pd.DataFrame.from_dict(like)
df[['page','jan', 'febr', 'márc']] #oszlopok sorrendjének megadása dupla szögletes zárójellel

további információk a [DataFramek listából/szótárból feltöltéséről](http://pbpython.com/pandas-list-dict.html)
## DataFrame beolvasásáa fájlból
A kurzuson általában kész adatbázisokkal fogunk dolgozni, amik csv formátumban elérhetők. Elsőként nézzük meg a 'survey' adathalmazt, amiben egyetemi hallgatók és alkalmazottak töltöttek ki egy egyszerű kérdőívet. Bővebb
leírás ezen [PDF file](https://cran.r-project.org/web/packages/MASS/MASS.pdf) 149. oldalán található.

In [None]:
# a pandas read_csv metódusa letölti az URLen található csv-t és egyből DataFramebe tölti:
df = pd.read_csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/survey.csv")
df

Amikor egy új adathalmazzal kezdünk el dolgozni, mindig ismerjük meg azt, mielőtt nekiállnánk fejleszteni!

In [None]:
# alapvető tulajdonságok:

print(df.shape) # hány sor és hány oszlop?
print(df.columns) # mezők=oszlopok nevei
print(len(df.columns))
print(df.dtypes) # oszlopok típusai
print(df.index) # sorok nevei (indexe)
print(len(df))

## DataFrame elérések

In [None]:
print(df.head()) # első 5 sor
df.tail(3) # utolsó 3 sor

In [None]:
df['Age'] # oszlop lekérése névvel. eredménye Series
df.Age # Ez ugyanazt eredményezi (nem minden jellemzőnév esetén használható)

In [None]:
df[2:5] # sorok lekérése indexel (ugyanúgy, mint listáknál). eredménye DataFrame

In [None]:
df[-5:] # ua mint df.tail()

In [None]:
df[1:3].Age # két sor majd azon belül egy oszlop lekérése. eredménye Series

In [None]:
# loc-al egyszerre tudunk sorra és oszlopra szűrni
# Vigyázat! Itt sorok és oszlopok nevei (és nem indexei!) használatosak.
# És mivel nevekkel hivatkozunk a jobb oldali intervallum is a felsorolás része.
df.loc[1:3,'Age'] # itt most a sorok nevei és indexei megegyeznek, de az eredmény 3 elemű

In [None]:
df.loc[1:3,'Sex':'Fold'] # a : itt a két nevesített sor/oszlop és a köztük lévő elemekre vonatkozik

In [None]:
df.loc[[1,3], ['Sex','Fold']] # sor/oszlop nevek listáját is megadhatjuk

In [None]:
# iloc sor és oszlop indexekkel hivatkozik
df.iloc[-3:,-2:] # eredménye DataFrame

In [None]:
df.iloc[2,2] #ha egy cellára használjuk akkor eredménye elemi típus

In [None]:
df.iloc[[2,5],:] #indexek listáját is megadhatjuk

In [None]:
print(df.at[2,'Age']) # egy (cella)értékre hivatkozás névvel
print(df.iat[2,-1]) # egy (cella)értékre hivatkozás indexel
df.at[2,'Age'] = 16.918 # egy (cella)érték megváltoztatása
df['UjOszlop'] = df['Age'] + 2 # új oszlop felvétele (Series vektorművelettel)
df.head()

## Feltételes résztömbök

DataFramekben nem csak összefügő részeket akarhatunk lekérdezni, hanem olyan sorokat is amelyek valamilyen feltétlnek megfelelnek.

In [None]:
# Kérem a 17 évnél fiatalabbakat tartalmazó sorokat
df[df.Age < 17] 

In [None]:
df.Age<17 # egy 'logikai vektor', elemei True vagy False (minden Series elemre ellenőrzi a feltételt)

A háttérben először kiszámolunk egy 'logikai vektort', ami pontosan annyi elemet tartalmaz, mint a DataFrame sorainak száma, majd ezzel a logikai vektorral tudunk sorokat lekérdezni a DataFrameből.

In [None]:
# Kérem a 40 évnél idősebbeket akik néha edzenek
df[df.Age>40][df.Exer=='Some'] # logikai vektorok nem támogatják az összetett feltételeket (mint AND és OR)! Helyette dupla szűrés.
df[df.Exer.isin(['Some','Freq'])] # isin() függvény minden elemre meghívódik és True-val tér vissza a megadott listában szerepel az elem.

## Hiányzó értékek kezelése

In [None]:
df.head() 

Figyeljük meg, hogy a `2` indexű ember nem adta meg a magasságát, a `3` indexű pedig a pulzusát. A `NaN` jelöli a hiányzó adatot (not available). Bizonyos műveletek nem tudnak mit kezdeni a `NaN` rekordokkal, ezért célszerű ezek kezelése, rögtön az adattábla beolvasása után.

In [None]:
# Kérem azokat a sorokat ahol a Height nincs megadva
df[df.Height.isna()] # isna() logikai művelet

In [None]:
df[df.Exer.isna()] # mindenki megadta az edzési szokásait (Exer)

In [None]:
# Legegyszerűbb ha kitörlünk minden olyan rekordot ami tartalmaz NaN értéket
print("eredeti méret:", df.shape)
print("dropna utáni méret:", df.dropna().shape) # dropna() minden olyan sort töröl amiben van NA érték (visszatér egy új, szűrt DataFrame-el)

In [None]:
# Ha nem akarunk (sok) rekordot veszíteni, akkor lecseréhetjük a NaN-okat valamilyen konstans értékre a fillna()-val
# fillna() szintén visszatér egy új, átírt DataFrame-el, nem változt az eredeti DataFrame-en
df.fillna(value=0).head() # minden hiányzó értéket 0-val helyettesít

In [None]:
# különböző oszlopokban különböző helyettesítő érték
df.fillna(value={'Pulse':80, 'Height':160}).head() # vigyázat, azokban az oszlopokban, amikhez nem adtunk meg default értéket megmaradnak a NaN-ok!

In [None]:
# A gyakorlatban helyettesítő értéknek a leggyakrabban az adott jellemző átlagát használjuk
# Így a jellemző statisztikái viszonylag kis mértékben torzulnak csak
df.fillna(value={'Pulse':df.Pulse.mean(), 'Height':df.Height.mean()}).head()

# Egyszerű leíró statisztikák

A Series-eken az egyszerű statisztikai műveletek is értelmezve vannak:

In [None]:
print("Legfiatalabb résztvevő életkora:" , df.Age.min()) # egy oszlop legkissebb értéke
df['Age'].mean() # egy oszlop átlaga

In [None]:
df.max() # minden numerikus változóra lefuttatja a műveletet (diszkrét változókra nem értelmezett)

In [None]:
df['Fold'].value_counts() # egy diszkrét/kategórikus jellemző lehetséges értékei és azok gyakorisága

Két diszkrét változó közti kapcsolatot könnyen megérthetjük a kereszttáblájukból, ami a két jellemző egyes értékeinek együttes előfordulásának gyakoriságát tartalmazza:

In [None]:
pd.crosstab(df.Fold, df['W.Hnd'])

Ha egy diszkrét változó különböző értékeire külön-külöm szeretnénk statisztikákat számolni, csoportosíthatjuk a rekordokat a változó értékei szerint:

In [None]:
df.groupby('Clap').mean() # Clap változó egyes értékeire csoportosított elemek csoportátlaga

In [None]:
df.groupby(['Sex','Clap']).mean() # egyszerre több változó szerint is csoportosíthatunk (Descartes szorzat)

# Gyakorló feladatok
1. Dohányzik a két legidősebb ember?
2. Mi az átlagos Wr.Hnd a férfiaknál?



In [None]:
sorted(df.Age)[-3:]

In [None]:
df.loc[df.Age>70,'Smoke']

In [None]:
df[df.Sex=='Male']['Wr.Hnd'].mean()