# Adatkezelés pythonban

A gépi tanuláshoz [jellemzővektorokkal leírt egyedek](http://http://www.inf.u-szeged.hu/~rfarkas/ML20/alapfogalmak.html)kel, azaz adatrekordokkal dolgozunk.

A [pandas](https://pandas.pydata.org/pandas-docs/stable/10min.html) csomag a legelterjedtebb adatkezelési csomag pythonban, ha nem túl nagy adatbázisokkal dolgozunk.

In [None]:
import pandas as pd #használunk egy 'pandas' nevű python csomagot és 'pd'-vel fogunk rá hivatkozni

A pandas alap adattípusa a Series, ami megegyező típusú elemek egy sorozatát tárolja. Továbbá minden elemnek van egy 'neve', azaz indexe.

In [None]:
l = [1,2,3] # egy lista
s = pd.Series(l) # a listát átkonvertáljuk Series-é
print(l)
print(s) # figyeljük meg az elemek indexét (0,1,2) és, hogy a Series dtype típusú elemeket tartalmazhat csak

[1, 2, 3]
0    1
1    2
2    3
dtype: int64


A numerikus értékeket tartalmazó Series matematikai vektorként viselkedik, nem úgy, mint a lista:

In [None]:
print(l * 2)
print(s * 2) # skalárral való szorzás
print(s ** 2) # négyzetre emelés
l + s # itt a háttérben az l lista automatikusan Series-é konvertálódik és két Series-t össze tudunk adni

[1, 2, 3, 1, 2, 3]
0    2
1    4
2    6
dtype: int64
0    1
1    4
2    9
dtype: int64


0    2
1    4
2    6
dtype: int64

Az alábbi viszont nem fut le... Miért?

In [None]:
(l*3) + s

... azért mert az (l*3) a listát háromszor lemásolja, így eredménye egy 9 elemű lista. Az összeadás elvégzéséhez a python ezt automatikusan Series-é konvertálja, de egy 9 hosszú és egy 3 hosszú vektor összeadása nem értelmezett a matematikában.

# pandas DataFrame

A DataFrame-t egy adattáblának képzelhetjük el, ahol egyedek/rekordok vannak felsorolva, úgy hogy azok névvel ellátott jellemzői/változó alkotják az oszlopokat.

Nézzünk egy játék adatbázist, ahol gyűjtjük, hogy a különböző típusú szociális média üzenetekre hány like érkezett egyes hónapokban.

In [None]:
# Gondolhatunk az adattáblára, úgy, hogy a sorok szótárak (jellemzők nevei a kulcsok), azaz a DataFrame szótárak listája
like = [{'page': 'macskás kép', 'jan': 150, 'febr': 200, 'márc': 140},
         {'page': 'macskás kép',  'jan': 200, 'feb': 210, 'márc': 215},
         {'page': 'data science vicc',  'jan': 50,  'febr': 90,  'márc': 95 }] 
pd.DataFrame(like) # a colab egy tetszetős megjelenítést biztosít a DataFramenek

Unnamed: 0,page,jan,febr,márc,feb
0,macskás kép,150,200.0,140,
1,macskás kép,200,,215,210.0
2,data science vicc,50,90.0,95,


Próbáld ki mi történik, ha az egyik rekordban mondjuk a `febr` jellemző nevet elgépeled `feb`-re. Mi történik?

A DataFrame feltöltésénél minden új jellemző/oszlopnevet amivel találkozik a pandas a feldolgozásnál egy új oszlopnak vesz fel. Természetesen nem tudja a python, hogy a `feb` a `febr` elgépelése és egy új oszlopot vesz fel neki. Az elgépelt rekordban nincs megadva a `febr` jellemző értéke, ezért az `NaN` (Not a Number) lesz. Hasonlóan a másik két rekordban pedig nincs megadva a `feb` értéke, ezért azok `NaN`ok lesznek.

In [None]:
# De gondolhatunk úgy is az adattáblára, hogy az oszlopok nevesített listák. 
# Ekkor a DataFrame egy szótár, amiben a kulcsok oszlopnevek és az értékek listák (listák hosszának egyezőnek kell lenniük)
like = {'page': ['macskás kép', 'tükrös selfie', 'data science vicc'],
        'jan' : [150, 200, 50],
        'febr': [200, 210, 90],
        'márc': [140, 215, 111]}
pd.DataFrame(like)


Unnamed: 0,page,jan,febr,márc
0,macskás kép,150,200,140
1,tükrös selfie,200,210,215
2,data science vicc,50,90,111


In [None]:
df = pd.DataFrame.from_dict(like)
df[['page','jan', 'márc']] #oszlopok sorrendjének megadása dupla szögletes zárójellel

további információk a [DataFramek listából/szótárból feltöltéséről](http://pbpython.com/pandas-list-dict.html)
## DataFrame beolvasása fájlból
A kurzuson általában kész adatbázisokkal fogunk dolgozni, amik csv formátumban elérhetők. Elsőként nézzük meg a 'survey' adathalmazt, amiben egyetemi hallgatók és alkalmazottak töltöttek ki egy egyszerű kérdőívet. Bővebb
leírás ezen [PDF file](https://cran.r-project.org/web/packages/MASS/MASS.pdf) 149. oldalán található.

In [None]:
# a pandas read_csv metódusa letölti az URLen található csv-t és egyből DataFramebe tölti:
df = pd.read_csv("https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/MASS/survey.csv")
df

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.250
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.917
3,4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667
...,...,...,...,...,...,...,...,...,...,...,...,...,...
232,233,Female,18.0,18.0,Right,L on R,85.0,Right,Some,Never,165.1,Imperial,17.667
233,234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.0,Metric,16.917
234,235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.0,Metric,18.583
235,236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.0,Metric,17.167


Amikor egy új adathalmazzal kezdünk el dolgozni, mindig ismerjük meg azt, mielőtt nekiállnánk fejleszteni!

In [None]:
# alapvető tulajdonságok:

print(df.shape) # hány sor és hány oszlop?
print(df.columns) # mezők=oszlopok nevei
print(len(df.columns))
print(df.dtypes) # oszlopok típusai
print(df.index) # sorok nevei (indexe)
print(len(df))

(237, 13)
Index(['Unnamed: 0', 'Sex', 'Wr.Hnd', 'NW.Hnd', 'W.Hnd', 'Fold', 'Pulse',
       'Clap', 'Exer', 'Smoke', 'Height', 'M.I', 'Age'],
      dtype='object')
13
Unnamed: 0      int64
Sex            object
Wr.Hnd        float64
NW.Hnd        float64
W.Hnd          object
Fold           object
Pulse         float64
Clap           object
Exer           object
Smoke          object
Height        float64
M.I            object
Age           float64
dtype: object
RangeIndex(start=0, stop=237, step=1)
237


## DataFrame elérések

In [None]:
print(df.head()) # első 5 sor
df.tail(3) # utolsó 3 sor

   Unnamed: 0     Sex  Wr.Hnd  NW.Hnd  ...  Smoke Height       M.I     Age
0           1  Female    18.5    18.0  ...  Never  173.0    Metric  18.250
1           2    Male    19.5    20.5  ...  Regul  177.8  Imperial  17.583
2           3    Male    18.0    13.3  ...  Occas    NaN       NaN  16.917
3           4    Male    18.8    18.9  ...  Never  160.0    Metric  20.333
4           5    Male    20.0    20.0  ...  Never  165.0    Metric  23.667

[5 rows x 13 columns]


Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
234,235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.0,Metric,18.583
235,236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.0,Metric,17.167
236,237,Female,17.6,17.3,Right,R on L,85.0,Right,Freq,Never,168.5,Metric,17.75


In [None]:
df['Age'] # oszlop lekérése névvel. eredménye Series
df.Age # Ez ugyanazt eredményezi (nem minden jellemzőnév esetén használható)

0      18.250
1      17.583
2      16.917
3      20.333
4      23.667
        ...  
232    17.667
233    16.917
234    18.583
235    17.167
236    17.750
Name: Age, Length: 237, dtype: float64

In [None]:
df[2:5] # sorok lekérése indexel (ugyanúgy, mint listáknál). eredménye DataFrame

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.917
3,4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667


In [None]:
df[-5:] # ua mint df.tail()

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
232,233,Female,18.0,18.0,Right,L on R,85.0,Right,Some,Never,165.1,Imperial,17.667
233,234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.0,Metric,16.917
234,235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.0,Metric,18.583
235,236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.0,Metric,17.167
236,237,Female,17.6,17.3,Right,R on L,85.0,Right,Freq,Never,168.5,Metric,17.75


In [None]:
df[1:3].Age # két sor majd azon belül egy oszlop lekérése. eredménye Series

1    17.583
2    16.917
Name: Age, dtype: float64

In [None]:
# loc-al egyszerre tudunk sorra és oszlopra szűrni
# Vigyázat! Itt sorok és oszlopok nevei (és nem indexei!) használatosak.
# És mivel nevekkel hivatkozunk a jobb oldali intervallumhatár is a felsorolás része.
df.loc[1:3,'Age'] # itt most a sorok nevei és indexei megegyeznek, de az eredmény 3 elemű

1    17.583
2    16.917
3    20.333
Name: Age, dtype: float64

In [None]:
df.loc[1:3,'Sex':'Fold'] # a : itt a két nevesített sor/oszlop és a köztük lévő elemekre vonatkozik

Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold
1,Male,19.5,20.5,Left,R on L
2,Male,18.0,13.3,Right,L on R
3,Male,18.8,18.9,Right,R on L


In [None]:
df.loc[[1,3], ['Sex','Fold']] # sor/oszlop nevek listáját is megadhatjuk

Unnamed: 0,Sex,Fold
1,Male,R on L
3,Male,R on L


In [None]:
# iloc sor és oszlop indexekkel hivatkozik
df.iloc[-3:,-2:] # eredménye DataFrame

Unnamed: 0,M.I,Age
234,Metric,18.583
235,Metric,17.167
236,Metric,17.75


In [None]:
df.iloc[2,2] #ha egy cellára használjuk akkor eredménye elemi típus

18.0

In [None]:
df.iloc[[2,5],:] #indexek listáját is megadhatjuk

In [None]:
print(df.at[2,'Age']) # egy (cella)értékre hivatkozás névvel
print(df.iat[2,-1]) # egy (cella)értékre hivatkozás indexel
df.at[2,'Age'] = 16.918 # egy (cella)érték megváltoztatása
df['UjOszlop'] = df['Age'] + 2 # új oszlop felvétele (Series vektorművelettel)
df.head()

16.917
16.917


Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25,20.25
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583,19.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.918,18.918
3,4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333,22.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667,25.667


## Feltételes résztömbök

DataFramekben nem csak összefügő részeket akarhatunk lekérdezni, hanem olyan sorokat is amelyek valamilyen feltétlnek megfelelnek.

In [None]:
# Kérem a 17 évnél fiatalabbakat tartalmazó sorokat
df[df.Age < 17] 

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.918,18.918
67,68,Female,18.5,18.0,Right,R on L,64.0,Right,Freq,Never,,,16.917,18.917
80,81,Male,19.5,19.5,Left,R on L,66.0,Left,Some,Never,,,16.75,18.75
233,234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.0,Metric,16.917,18.917


In [None]:
df.Age<17 # egy 'logikai vektor', elemei True vagy False (minden Series elemre ellenőrzi a feltételt)

0      False
1      False
2       True
3      False
4      False
       ...  
232    False
233     True
234    False
235    False
236    False
Name: Age, Length: 237, dtype: bool

A háttérben először kiszámolunk egy 'logikai vektort', ami pontosan annyi elemet tartalmaz, mint a DataFrame sorainak száma, majd ezzel a logikai vektorral tudunk sorokat lekérdezni a DataFrameből.

In [None]:
# Kérem a 40 évnél idősebbeket akik néha edzenek
#df[(df.Age>40) & (df.Exer=='Some')] # logikai vektorok felett a & és | operátorokkal tudunk AND és OR műveletet végrehajtani
df[df.Exer.isin(['Some','Freq'])] # isin() függvény minden elemre meghívódik és True-val tér vissza a megadott listában szerepel az elem.

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.00,Metric,18.250,20.250
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.00,Metric,23.667,25.667
5,6,Female,18.0,17.7,Right,L on R,64.0,Right,Some,Never,172.72,Imperial,21.000,23.000
6,7,Male,17.7,17.7,Right,L on R,83.0,Right,Freq,Never,182.88,Imperial,18.833,20.833
7,8,Female,17.0,17.3,Right,R on L,74.0,Right,Freq,Never,157.00,Metric,35.833,37.833
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
232,233,Female,18.0,18.0,Right,L on R,85.0,Right,Some,Never,165.10,Imperial,17.667,19.667
233,234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.00,Metric,16.917,18.917
234,235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.00,Metric,18.583,20.583
235,236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.00,Metric,17.167,19.167


In [None]:
#feladat: listázd ki az df első 100 sorából, a 20 évnél idősebb hölgyek pulzus értékeit


## Hiányzó értékek kezelése

In [None]:
df.head() 

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25,20.25
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583,19.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.918,18.918
3,4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333,22.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667,25.667


Figyeljük meg, hogy a `2` indexű ember nem adta meg a magasságát, a `3` indexű pedig a pulzusát. A `NaN` jelöli a hiányzó adatot (not available). Bizonyos műveletek nem tudnak mit kezdeni a `NaN` rekordokkal, ezért célszerű ezek kezelése, rögtön az adattábla beolvasása után.

In [None]:
# Kérem azokat a sorokat ahol a Height nincs megadva
df[df.Height.isna()] # isna() logikai művelet

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.918,18.918
11,12,Male,21.0,21.0,Right,R on L,68.0,Left,Freq,Never,,,18.25,20.25
14,15,Male,16.0,15.5,Right,R on L,60.0,Right,Some,Never,,,17.167,19.167
24,25,Female,17.0,17.5,Right,R on L,64.0,Left,Some,Never,,,19.167,21.167
25,26,Male,18.5,18.5,Right,Neither,90.0,Neither,Some,Never,,,17.583,19.583
28,29,Male,17.8,17.8,Right,L on R,76.0,Neither,Freq,Never,,,21.917,23.917
30,31,Female,18.5,18.0,Right,R on L,76.0,Right,,Occas,,,41.583,43.583
34,35,Male,18.0,19.0,Right,L on R,54.0,Neither,Some,Regul,,,17.75,19.75
57,58,Male,19.5,19.7,Right,R on L,72.0,Right,Freq,Never,,,17.417,19.417
67,68,Female,18.5,18.0,Right,R on L,64.0,Right,Freq,Never,,,16.917,18.917


In [None]:
df[df.Exer.isna()] # mindenki megadta az edzési szokásait (Exer)

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop


In [None]:
# Legegyszerűbb ha kitörlünk minden olyan rekordot ami tartalmaz NaN értéket
print("eredeti méret:", df.shape)
print("dropna utáni méret:", df.dropna().shape) # dropna() minden olyan sort töröl amiben van NA érték (visszatér egy új, szűrt DataFrame-el)

eredeti méret: (237, 14)
dropna utáni méret: (168, 14)


In [None]:
# Ha nem akarunk (sok) rekordot veszíteni, akkor lecseréhetjük a NaN-okat valamilyen konstans értékre a fillna()-val
# fillna() szintén visszatér egy új, átírt DataFrame-el, nem változt az eredeti DataFrame-en
df.fillna(value=0).head() # minden hiányzó értéket 0-val helyettesít

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25,20.25
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583,19.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,0.0,0,16.918,18.918
3,4,Male,18.8,18.9,Right,R on L,0.0,Neither,,Never,160.0,Metric,20.333,22.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667,25.667


In [None]:
# különböző oszlopokban különböző helyettesítő érték
df.fillna(value={'Pulse':80, 'Height':160}).head() # vigyázat, azokban az oszlopokban, amikhez nem adtunk meg default értéket megmaradnak a NaN-ok!

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25,20.25
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583,19.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,160.0,,16.918,18.918
3,4,Male,18.8,18.9,Right,R on L,80.0,Neither,,Never,160.0,Metric,20.333,22.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667,25.667


In [None]:
# A gyakorlatban helyettesítő értéknek a leggyakrabban az adott jellemző átlagát használjuk
# Így a jellemző statisztikái viszonylag kis mértékben torzulnak csak
df.fillna(value={'Pulse':df.Pulse.mean(), 'Height':df.Height.mean()}).head()

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age,UjOszlop
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.25,20.25
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583,19.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,172.380861,,16.918,18.918
3,4,Male,18.8,18.9,Right,R on L,74.151042,Neither,,Never,160.0,Metric,20.333,22.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667,25.667


# Egyszerű leíró statisztikák

A Series-eken az egyszerű statisztikai műveletek is értelmezve vannak:

In [None]:
print("Legfiatalabb résztvevő életkora:" , df.Age.min()) # egy oszlop legkissebb értéke
df['Age'].mean() # egy oszlop átlaga

Legfiatalabb résztvevő életkora: 16.75


20.37451898734178

In [None]:
df.mean() # minden numerikus változóra  lefuttatja a műveletet (diszkrét változókra nem értelmezett a mean())

Unnamed: 0    119.000000
Wr.Hnd         18.669068
NW.Hnd         18.582627
Pulse          74.151042
Height        172.380861
Age            20.374519
UjOszlop       22.374519
dtype: float64

In [None]:
df['Fold'].value_counts() # egy diszkrét/kategórikus jellemző lehetséges értékei és azok gyakorisága

R on L     120
L on R      99
Neither     18
Name: Fold, dtype: int64

Két diszkrét változó közti kapcsolatot könnyen megérthetjük a kereszttáblájukból, ami a két jellemző egyes értékeinek együttes előfordulásának gyakoriságát tartalmazza:

In [None]:
pd.crosstab(df.Fold, df['W.Hnd'])

W.Hnd,Left,Right
Fold,Unnamed: 1_level_1,Unnamed: 2_level_1
L on R,10,88
Neither,1,17
R on L,7,113


Ha egy diszkrét változó különböző értékeire külön-külöm szeretnénk statisztikákat számolni, csoportosíthatjuk a rekordokat a változó értékei szerint:

In [None]:
df.groupby('Clap').mean() # Clap változó egyes értékeire csoportosított elemek csoportátlaga

Unnamed: 0_level_0,Unnamed: 0,Wr.Hnd,NW.Hnd,Pulse,Height,Age,UjOszlop
Clap,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Left,95.076923,18.692308,18.661538,75.628571,174.46,19.241513,21.241513
Neither,114.26,18.402,18.282,72.794872,172.113023,19.32834,21.32834
Right,127.47619,18.753741,18.663946,74.282051,171.970075,20.975116,22.975116


In [None]:
df.groupby(['Sex','Clap']).mean() # egyszerre több változó szerint is csoportosíthatunk (Descartes szorzat)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,Wr.Hnd,NW.Hnd,Pulse,Height,Age,UjOszlop
Sex,Clap,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Female,Left,104.047619,17.4,17.328571,76.315789,167.681176,19.222286,21.222286
Female,Neither,130.208333,17.7875,17.679167,74.210526,165.958261,19.100708,21.100708
Female,Right,135.643836,17.589041,17.420548,75.035088,165.039032,21.178137,23.178137
Male,Left,84.611111,20.2,20.216667,74.8125,182.142667,19.263944,21.263944
Male,Neither,98.04,18.936,18.832,71.368421,179.569474,19.46,21.46
Male,Right,119.418919,19.902703,19.890541,73.566667,178.022535,20.774838,22.774838


In [None]:
df.drop('UjOszlop', axis=1)

Unnamed: 0.1,Unnamed: 0,Sex,Wr.Hnd,NW.Hnd,W.Hnd,Fold,Pulse,Clap,Exer,Smoke,Height,M.I,Age
0,1,Female,18.5,18.0,Right,R on L,92.0,Left,Some,Never,173.0,Metric,18.250
1,2,Male,19.5,20.5,Left,R on L,104.0,Left,,Regul,177.8,Imperial,17.583
2,3,Male,18.0,13.3,Right,L on R,87.0,Neither,,Occas,,,16.918
3,4,Male,18.8,18.9,Right,R on L,,Neither,,Never,160.0,Metric,20.333
4,5,Male,20.0,20.0,Right,Neither,35.0,Right,Some,Never,165.0,Metric,23.667
...,...,...,...,...,...,...,...,...,...,...,...,...,...
232,233,Female,18.0,18.0,Right,L on R,85.0,Right,Some,Never,165.1,Imperial,17.667
233,234,Female,18.5,18.0,Right,L on R,88.0,Right,Some,Never,160.0,Metric,16.917
234,235,Female,17.5,16.5,Right,R on L,,Right,Some,Never,170.0,Metric,18.583
235,236,Male,21.0,21.5,Right,R on L,90.0,Right,Some,Never,183.0,Metric,17.167


# Gyakorló feladatok
1. Dohányzik a két legidősebb ember?
2. Mi az átlagos Wr.Hnd a férfiaknál?



In [None]:
sorted(df.Age)[-3:]

[44.25, 70.417, 73.0]

In [None]:
df[df.Age>70].Smoke


153    Never
170    Never
Name: Smoke, dtype: object