# A Pandas modul

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Dataframe-ek

A `pandas` egy olyan eszkoz, amely kombinalni tudja a `numpy` effektivitasat, az Excel tablazatokbol megszokott logikat, biztosit nehany egyszerubb adatbazis-kezelesi funkciot, es attekinthetove teszi a beolvasott adatot.

Altalanossagban a kovetkezo logikai muveleteket szeretnenk majd az adattablak sorain / oszlopain elvegezni:
* map (lekepezes, pl. az oszlop minden elemehez hozzaadunk egy szamot)
* filter (sorok reszhalmazanak elerese logikai szures segitsegevel, l. numpy maszkolas)
* reduce (a sorok csoportositasa, majd csoportonkenti aggregacios muveletek, pl. atlagkepzes elvegzese)
* join (ket adattabla osszefuzese)

### `Dataframe` létrehozása

Létre tudunk hozni `DataFrame`-et szótárból az alábbi módokon:

In [None]:
df = pd.DataFrame({"Nem" : ["fiú", "fiú", "lány", "fiú", "lány"],
                   "Név" : ["Andris", "Barni", "Cili", "Dani", "Eszti"],
                   "Kor" : [17, 20, 19, 17, 18],
                   "Kedvenc szín" : ["Zöld", "Kék", "Zöld", "Sárga", "Piros"]},
                  index=["α", "β", "γ", "δ", "ϵ"])
df

In [None]:
df = pd.DataFrame({"Nem" : ["fiú", "fiú", "lány", "fiú", "lány"],
                   "Név" : ["Andris", "Barni", "Cili", "Dani", "Eszti"],
                   "Kor" : [17, 20, 19, 17, 18],
                   "Kedvenc szín" : ["Zöld", "Kék", "Zöld", "Sárga", "Piros"]})

In [None]:
df

In [None]:
df.index

In [None]:
df.set_index("Név", inplace=True)

In [None]:
df

In [None]:
df.index

In [None]:
df['Nem']

Vagy listák listájából (soronként):

In [None]:
row1 = ["fiú", "Adnris", 17, "Zöld"]
row2 = ["fiú", "Barni", 20, "Kék"]

cols = ["Nem", "Név", "Kor", "Kedvenc szín"]
idx = ["α", "β"]

df2 = pd.DataFrame([row1, row2], columns=cols, index=idx)
df2

### `DataFrame`-ben tárolt adatok elérése

#### Adattípusok lekérdezése

In [None]:
df.dtypes

#### Oszlopnevek lekérdezése

In [None]:
df.columns

#### Oszlopok lekérdezése

In [None]:
df["Nem"]

In [None]:
df[["Nem", "Kedvenc szín"]]

#### Sornevek (`index`) lekérdezése

In [None]:
df.index

#### Sorok lekérdezése

In [None]:
df.loc["Andris"]

In [None]:
df.loc[["Andris", "Eszti"]]

#### Sorok és oszlopok lekérdezése

In [None]:
df.loc[["Andris", "Eszti"]][["Nem", "Kedvenc szín"]]

### Sorok/oszlopok hozzáadása

#### Oszlop hozzáadása

In [None]:
df["Vércsoport"] = ["A", "B", "A", "A", "B"]
df

#### Sor hozzáadása

In [None]:
df.loc["Frida"] = ["lány", 20, None, "B"]
df.loc["Janka"] = ["lány", 18, "Rózsaszín", "A"]
df

### Adat módosítása

In [None]:
df.at["Frida", "Kedvenc szín"] = "Lila"
df

### Törlés

#### Oszlop törlése

In [None]:
df.drop("Kedvenc szín", axis=1)
#df.drop("Kedvenc szín", axis=1, inplace=True)

#### Sor törlése

In [None]:
df.drop("Frida")

### Egyszerű műveletek

In [None]:
df["Pontszám 1"] = np.random.randint(1, 10, df.shape[0])
df["Pontszám 2"] = np.random.randint(1, 10, df.shape[0])

df["Pontszám 1"] + df["Pontszám 2"]

In [None]:
df["Összpontszám"] = df["Pontszám 1"] + df["Pontszám 2"]
df["Átlag"] = (df["Pontszám 1"] + df["Pontszám 2"])/2
df

In [None]:
df["Kor"] += 1
df

In [None]:
df.at["Andris", "Pontszám 1"] += 1
df

### Oszlopmuveletek (soronkenti for ciklus helyett!!!)

A legegyszerubb numerikus muveleteket, ahogy lattuk, ertelmezhetjuk oszlopokra, a visszateresi ertek is egy `Series` osztalyu oszlop lesz.

In [None]:
type(df['Kor']+1)

Gyakran azonban valamilyen bonyolultabb fuggvenyt, esetleg sajat fuggvenyt szeretnenk alkalmazni egy oszlopra. Peldaul egy uj oszlopba taroljuk el a nevek kezdobetujet, erre hasznalhatjuk a `Series` osztaly `map` metodusat.

In [None]:
df['Kezdobetu'] = df.index.map(lambda s: s[0])

In [None]:
df

Igy is megtehettem volna a fenti muveletet:

In [None]:
def kezdobetu(s):
    return s[0]

In [None]:
df.index.map(kezdobetu)

Ha esetleg tobb oszlop erteket is fel szeretnenk hasznalni egy fuggvenyben, akkor pedig a `DataFrame` `apply` metodusat hasznalhatjuk. Peldaul fuzzuk az elobb kapott kezdobetuket zarojelben a szuletesi ev moge (felteve hogy 2022-t irunk)!

In [None]:
df.drop("Frida", axis=0, inplace=True)

In [None]:
df.apply(lambda row: row['Kezdobetu'] + ' - ' + str(int(2022 - row["Kor"])), axis=1) # soronkent fut, axis=0 lenne oszloponkent

**Az `apply` latvanyos, de lassu, a `map` nagyon gyors.**

### Adatok aggregálása

#### Megszámlálás

In [None]:
df.count()

In [None]:
df["Nem"].count()

In [None]:
df.count(axis=1)

In [None]:
df.loc["Andris"].count()

In [None]:
df['Vércsoport'].value_counts()

#### Összegzés/Átlagolás

In [None]:
print("Összesen elért pontszám:", df['Összpontszám'].sum(),\
      ", átlagosan elért pontszám:",  df['Összpontszám'].mean())

In [None]:
df[["Pontszám 1", "Pontszám 2"]].sum(axis=0)

In [None]:
df[["Pontszám 1", "Pontszám 2"]].sum(axis=1)

### Bool indexelés/Maszkolás

In [None]:
df["Nem"] == "lány"

In [None]:
df["Összpontszám"] >= df["Összpontszám"].mean()

In [None]:
df[df["Összpontszám"] >= df["Összpontszám"].mean()]

In [None]:
df[(df["Összpontszám"] >= df["Összpontszám"].mean()) & (df["Kor"] < 22)] # AND

In [None]:
df[(df["Nem"] == 'fiú') | (df["Kor"] < 22)] # OR

In [None]:
df[df.index.str.contains('d')] # str -> bool fuggveny

Tagadni a `~` jellel lehet.

In [None]:
df[~df['Pontszám 1'].map(lambda x: x**2 < 10)] # tetszoleges fuggveny, amely a True / False halmazba kepez

Hogyan kerdezhetunk ra a hianyzo ertekekre?

In [None]:
df['Kor'].loc["Frida"] = None

In [None]:
df[pd.isnull(df['Kor'])]

## Adatbázis műveletek

### Concat

Ket vagy tobb adattablat egymas ala / mellefuzni a `concat` fuggvennyel lehet. Peldaul ha tobb kis fajlbol olvasunk be ugyanolyan strukturaju, ugyanazokkal az oszlopokkal rendelkezo adatot, hasznos lehet.

In [None]:
pd.concat([df,df.drop('Nem',axis=1)]) # hianyzo adat kitoltese NaN-nal

In [None]:
pd.concat([df,df],axis=1) # mellefuzes, itt a sorindexeket futtatja ossze

In [None]:
pd.concat([df,df],axis=1, ignore_index=True) # itt indexnek hivja az axis-ban kivalasztott tengely cimkeit

### Join

Az adabaziskezeles egyik legfontosabb muvelete, amikor ket kulonbozo tablat megadott oszlopok alapjan osszefuttatunk (pelda: ket adatbazisunk van, az egyik azt tartalmazza, hogy ki szeretne vakcinat, a masik pedig azt, hogy ki hol lakik, mindket adattablaban a TAJ-szam azonositja egyedileg az embereket, az oltopontokra torteno behivashoz meg kell vizsgalnunk, hogy kik laknak az adott oltoponthoz kozel azok kozul, akik szeretnenek vakcinat).

In [None]:
szinek = pd.read_csv('szinek.csv')
szinek

A kulonbozo joinokat definialhatjuk ugy, hogy a ket tabla soraibol kepzett Descartes-szorzatternek az elemeit valogatjak ki adott feltetel szerint. A technikai megvalositasa ezeknek viszont az optimalis sebesseg erdekeben nagyon elter.

![](https://www.dofactory.com/img/sql/sql-joins.png)

In [None]:
pd.merge(df,szinek,left_on='Kedvenc szín',right_on='Szín',how='inner') # inner join

In [None]:
pd.merge(df,szinek,left_on='Kedvenc szín',right_on='Szín',how='left') # left join

In [None]:
pd.merge(df,szinek,left_on='Kedvenc szín',right_on='Szín',how='right') # right join

In [None]:
pd.merge(df,szinek,left_on='Kedvenc szín',right_on='Szín',how='outer') # outer join

### Aggregálási műveletek

A `groupby` metodus egy projekciot keszit az argumentumbeli listaban megadott oszlopok ertekeinek szorzatterebe. Az egy helyre eso sorokon aggregacios muveleteket hajthatunk vegre, ezek kozul nehany kulon metodussal is megadhato, de teljesen altalanos, vagy sajat aggregalofuggvenyeket is hasznalhatunk.

In [None]:
df.groupby(['Nem','Vércsoport']).mean()

A `groupby` utan kivalaszthatjuk, hogy mely oszlopokra szeretnenk az aggregalast elvegezni. Egy darab szogletes zarojelbe irt oszlopnev egyetlen `Series`-zel, egyetlen oszloppal ter csak vissza. Ha `DataFrame`-et szeretnenk visszateresi erteknek, tegyuk a kivalasztott oszlopok nevet egy listaba.

In [None]:
df.groupby(['Nem','Vércsoport'])['Összpontszám'].mean()

In [None]:
df.groupby(['Nem','Vércsoport'])[['Összpontszám']].mean()

Altalanos aggregalo fuggveny:

In [None]:
df.groupby(['Nem','Vércsoport'])[['Összpontszám']].agg(lambda x: sum(x))

Egy nagyon elvetemult pelda.

In [None]:
df.groupby(['Nem','Vércsoport']).agg({'Kor' : min,'Pontszám 1' : np.mean})

### Pivot tábla

Ez az az Excel-fuggveny, amit megertve rengeteg penzt lehet keresni kulonbozo data analyst poziciokban, az FKERES() mellett ez az Excel-tudas egyik ekkove.

Tekintsuk ujra az elso groupby-os peldat az Osszpontszamra. Ahelyett, hogy felsorolnank az osszes lehetseges Nem x Vercsoport part, es megadnank a csoportokhoz tartozo Osszpontszamot, a Nemet es a Vercsoportot kulon x es y tengellyel azonositva a megfelelo pozicioba mar csak az erteket irjuk.

In [None]:
df.pivot_table(values="Összpontszám",
               columns="Nem",
               index="Vércsoport",
               aggfunc=np.mean)

## Histogram
Az adatok eloszlását histogrammal is lehet ábrázolni:

In [None]:
df = pd.DataFrame({"y" : np.random.randn(1000)})
ax = df["y"].hist(bins=50)
x = np.linspace(-3,3,100)
ax.plot(x, x**2)

# Feladatok

### 1. feladat
Olvasd be egy pandas DataFrame-be az `erettsegistat.csv` adatfájlt! Figyelj arra, hogy a `pd.read_csv()` fuggvenyben az `encoding='latin-1'` kulcsszavas argumentumot allitsd be a megfelelo karakterkodolas erdekeben!

Ez az adatfajlt az elmult par ev matematikaerettsegijeinek eredmenyeit tartalmazza kulonbozo mas adatokkal (pl. erettsegizo iskolatipusa, erettsegi szinte stb.) egyutt.

In [None]:
erettsegi=pd.read_csv('erettsegistat.csv',encoding='latin-1')

### 2. feladat: Melyik szinten (kozep/emelt), melyik iskolatipusban hanyan erettsegiztek 2020-ban?

Oldd meg a feladatot `groupby`-jal es `pivot_table`-lel is.

### 3. feladat: 
a) Szamold ki a emeltszintu irasbeli pontszamok atlagat es szorasat (legyenek $\mu$ és $\sigma$) 2020-ban. 

b) Abrazold a emeltszintu 2020-as irasbeli pontszamok eloszlasat hisztogramon!

c) Rakj ra az abrara egy normalis eloszlast az elobb kiszamolt atlaggal es szorassal. A következő függvényt kellene ábrázolni ehhez:
$$
    f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}\mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$
*Figyelj arra, hogy a hisztogram alatti terulet 1 legyen, kulonben nem lesz osszevetheto a ket gorbe. Keresd meg ehhez a `hist` fuggveny megfelelo kapcsolojat!*

### 4. feladat: Igaz-e az, hogy a ponthatároknál van kerekítés?

Ha igen, hol kerekítenek jobban felfele a ponthatároknál? Szakközépiskolákban vagy gimnáziumokban? Ábrázold mindkét típusú intézményben az `össz százalék`-ok eloszlását histogramon, $2\%$-os binekkel, egy ábrán. Nézd meg külön emelt szintre és közép szintre.

### 5. feladat:

Vizsgáld meg, hogy van-e különbség a lányok és fiúk eredményei között az adathalmaz alapján. Határozd meg a lányok és fiúk átlagos összpontszámát, és vizsgáld meg, hogy van-e szignifikáns különbség közöttük.

### 6. feladat:

Hogyan változtak az eredmények évről évre az adathalmazban. Határozd meg az évek szerinti átlagpontszámokat, és vizsgáld meg, hogy van-e tendencia az eredmények alakulásában.