# Adatbázis-műveletek 1. (groupby)


In [1]:
import pandas as pd # szokásos import

# Érettségi adatok feldolgozása

Az alábbiakban az elmúlt pár év érettségi statisztikai adatait fogjuk megvizsgálni. Ez a példa sok szempontból jól illusztrál olyan problémákat, amelyek valós adatbázis-elemzések kapcsán felmerülhetnek.
Ilyen például a hiányzó adatok kezelése, vagy a nem egészen kompatibilis adatbázisok egységes kezelése.
Az érettségi adatokat tartalmazó [honlap](https://www.ketszintu.hu/publicstat.php) az előzőekben megismert elválasztóval tagolt tagolt csv formátumban teszi elérhetővé, itt az elválasztójel a pontosvessző.

In [2]:
df=pd.read_csv("data/erettsegi.csv.gz",sep=";",index_col=0)
df.head()

Unnamed: 0,intézmény megyéje,intézmény városa,vizsgázó évfolyama,vizsgázó képzési típusa,vizsgázó neme,vizsgázó képzési munkarendje,vizsgatárgy neve,vizsga szintje,vizsga fajtája,vizsgamentesség,...,írásbeli pontszám,mérés és tételkifejtés: tartalmi helyesség,"mérés és tételkifejtés: felépítés, kifejtés",szóbeli pontszám,év,szint,időszak,egy téma kifejtése kísérlettel vagy méréssel: tartalom,"egy téma kifejtése kísérlettel vagy méréssel: felépítés, kifejtés",II. összetett feladatok
0,Budapest,Budapest,12.0,gimnázium,férfi,nappali,fizika,közép,elõrehozott,-,...,,,,,2013,K,tavasz,,,
1,Budapest,Budapest,12.0,gimnázium,nõ,nappali,fizika,közép,elõrehozott,-,...,,,,,2013,K,tavasz,,,
2,Budapest,Budapest,12.0,gimnázium,férfi,nappali,fizika,közép,elõrehozott,-,...,86.0,,,60.0,2013,K,tavasz,55.0,5.0,48.0
3,Budapest,Budapest,13.0,gimnázium,nõ,nappali,fizika,közép,elõrehozott,-,...,23.0,,,38.0,2013,K,tavasz,36.0,2.0,9.0
4,Budapest,Budapest,12.0,gimnázium,férfi,nappali,fizika,közép,elõrehozott,-,...,66.0,,,60.0,2013,K,tavasz,55.0,5.0,42.0


Látható, hogy az `év`, `szint` megadják, hogy melyik évben, melyik szintű érettségiről van szó. Azt is megállapíthatjuk, hogy ősszel vagy tavasszal (`időszak`) írta-e a diák az érettségit, az iskolájáról és a képzési típusról is rögzítve van a statisztika. Emellett részletes írásbeli és szóbeli, illetve összpontszám, összesített százalék is szerepel az adatok között.

Érdemes az első néhány sort kiíratni példaként, hogy lássuk, mivel is van dolgunk. Most transzponálva írjuk ki, hogy elférjen a képernyőre.

In [3]:
df.head().T

Unnamed: 0,0,1,2,3,4
intézmény megyéje,Budapest,Budapest,Budapest,Budapest,Budapest
intézmény városa,Budapest,Budapest,Budapest,Budapest,Budapest
vizsgázó évfolyama,12,12,12,13,12
vizsgázó képzési típusa,gimnázium,gimnázium,gimnázium,gimnázium,gimnázium
vizsgázó neme,férfi,nõ,férfi,nõ,férfi
vizsgázó képzési munkarendje,nappali,nappali,nappali,nappali,nappali
vizsgatárgy neve,fizika,fizika,fizika,fizika,fizika
vizsga szintje,közép,közép,közép,közép,közép
vizsga fajtája,elõrehozott,elõrehozott,elõrehozott,elõrehozott,elõrehozott
vizsgamentesség,-,-,-,-,-


## Groupby,  Csoportosítás


Csináljunk először egy kisebb táblázatot, hogy jól átlássuk.

In [4]:
subdf=df[['vizsga szintje','vizsgázó képzési típusa','írásbeli pontszám']]
subdf.head()

Unnamed: 0,vizsga szintje,vizsgázó képzési típusa,írásbeli pontszám
0,közép,gimnázium,
1,közép,gimnázium,
2,közép,gimnázium,86.0
3,közép,gimnázium,23.0
4,közép,gimnázium,66.0


Egy oszlop értékei szerint csoportosíthatjuk a *DataFrame*-et, és utána a csoportokon végezhetünk műveleteket.

In [5]:
g=subdf.groupby('vizsga szintje')
g

<pandas.core.groupby.DataFrameGroupBy object at 0x7ff618e8bd30>

Vegyük a csoportok maximumát!

In [6]:
g.max()

Unnamed: 0_level_0,vizsgázó képzési típusa,írásbeli pontszám
vizsga szintje,Unnamed: 1_level_1,Unnamed: 2_level_1
emelt,szakközép,100.0
közép,szakközép,90.0


Átlagát (figyeljük meg, hogy a numerikus oszlopra csinálta csak meg)!

In [7]:
g.mean()

Unnamed: 0_level_0,írásbeli pontszám
vizsga szintje,Unnamed: 1_level_1
emelt,63.410343
közép,52.651527


Kiválaszthatunk egy oszlopot.

In [8]:
g['írásbeli pontszám'].mean()

vizsga szintje
emelt    63.410343
közép    52.651527
Name: írásbeli pontszám, dtype: float64

Ha két szögletes zárójellel választjuk ki, akkor  egy oszlopra nem Series, hanem DataFrame lesz az eredmény, és szebben formázódik.

In [9]:
g[['írásbeli pontszám']].mean()

Unnamed: 0_level_0,írásbeli pontszám
vizsga szintje,Unnamed: 1_level_1
emelt,63.410343
közép,52.651527


Egyszerre két oszlop szerint is csoportosíthatunk, ilyenkor listát kell a `groupby`-nak átadnunk. Itt már nem csak az `Emelt` oszlop, hanem a `Nem` oszlop is a táblázat indexének a része, ezt hívjuk többszintű indexelésnek.

In [15]:
g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa'])
g.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,írásbeli pontszám
vizsga szintje,vizsgázó képzési típusa,Unnamed: 2_level_1
emelt,-,51.651575
emelt,gimnázium,65.804943
emelt,szakközép,53.92233
közép,-,51.004021
közép,gimnázium,58.023469
közép,szakközép,40.857205


Eltekinthetünk attól, hogy a csoportok indexként jelenjenek meg, és oszlopot is kaphatunk belőlük.

In [10]:
g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa']
           ,as_index=False)
g.mean()

Unnamed: 0,vizsga szintje,vizsgázó képzési típusa,írásbeli pontszám
0,emelt,-,51.651575
1,emelt,gimnázium,65.804943
2,emelt,szakközép,53.92233
3,közép,-,51.004021
4,közép,gimnázium,58.023469
5,közép,szakközép,40.857205


A hierarchikusan indexelt táblázatot az unstack függvénnyel átrendezhetjük, ha úgy használhatóbb.

In [11]:
g=subdf.groupby(['vizsga szintje','vizsgázó képzési típusa'])
g.mean().unstack(level=0)

Unnamed: 0_level_0,írásbeli pontszám,írásbeli pontszám
vizsga szintje,emelt,közép
vizsgázó képzési típusa,Unnamed: 1_level_2,Unnamed: 2_level_2
-,51.651575,51.004021
gimnázium,65.804943,58.023469
szakközép,53.92233,40.857205


In [12]:
g.mean().unstack(level=1)

Unnamed: 0_level_0,írásbeli pontszám,írásbeli pontszám,írásbeli pontszám
vizsgázó képzési típusa,-,gimnázium,szakközép
vizsga szintje,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
emelt,51.651575,65.804943,53.92233
közép,51.004021,58.023469,40.857205


### A következőkben felteszünk néhány példakérdést, és megválaszoljuk azt.

* Melyik évben mennyi volt az emelt szintű érettségik jegyeinek átlaga?

Ehhez először kiválasztjuk az emelt szintű érettségit tartalmazó sorokat, 



In [13]:
emelt=df[df["szint"]=="E"]

Azokat év szerint csoportosítjuk. 

In [14]:
group=emelt.groupby("év")

Kiválasztjuk az "érdemjegy" oszlopot, amit a végén átlagolunk. A csoportosítás miatt az átlag évenként kerül kiszámításra.

In [15]:
group[["érdemjegy"]].mean()

Unnamed: 0_level_0,érdemjegy
év,Unnamed: 1_level_1
2011,4.125
2012,4.429338
2013,4.232607
2014,4.40409
2015,4.432165


Egyben:

In [16]:
df[df["szint"]=="E"].groupby("év")[["érdemjegy"]].mean()

Unnamed: 0_level_0,érdemjegy
év,Unnamed: 1_level_1
2011,4.125
2012,4.429338
2013,4.232607
2014,4.40409
2015,4.432165


* Vajon a fiúk vagy a lányok írtak jobb pontszámú középszintű érettségit 2015-ben?

Először logikai indexeléssel kiválasztjuk a 2015-ös középszintű érettségiket tartalmazó sorokat. Több feltételt a sorokra egyszerre az `and` operátor helyett az & operátorral adhatunk meg, és a feltételeket zárójeleznünk kell, hogy jól olvassa az értelmező. 

Ezek után csoportosítunk a vizsgázó neme szerint, majd vesszük az összpontszámok átlagát.

In [24]:
k_2015=df[(df["szint"]=="K") & (df["év"]==2015)]
k_2015.groupby("vizsgázó neme")[["össz pontszám"]].mean()

Unnamed: 0_level_0,össz pontszám
vizsgázó neme,Unnamed: 1_level_1
férfi,100.270135
nõ,97.180775


* Számoljuk le, melyik iskolatípusban hány érettségiző jelent meg, illetve nem jelent meg!

Most egyszerre két oszlop szerint is csoportosítottunk, a csoportosítás alapját képező oszlopok nevét listaként kell megadni a groupby-nak. Utána egy tetszőleges oszlopot (pl. év) kiválasztva megszámláltathatjuk csoportonként a sorokat a count-tal.

In [25]:
df.groupby(["vizsgázó képzési típusa",
            "vizsgázó részvétele"])[["év"]].count()

Unnamed: 0_level_0,Unnamed: 1_level_0,év
vizsgázó képzési típusa,vizsgázó részvétele,Unnamed: 2_level_1
-,megjelent,1260
-,nem jelent meg,490
gimnázium,megjelent,14448
gimnázium,nem jelent meg,551
szakközép,megjelent,5007
szakközép,nem jelent meg,134
