# Pandas

Ha nem tisztán numerikus adatokkal van dolgunk, hanem szövegek, kategóriák is szerepelnek bennük, a de-facto python könyvtár amihez nyúlunk a `pandas`. Ez a könyvtár a NumPy számítási képességeivel rendelkezik (igazából azt használja) de kibővíti számos további képességgel:

* kategória / szöveges adatok
* nevesített oszlopok
* csoportképzés
* hiányzó adat kezelés

Tehát a pandas olyasmi funkcionalitást nyújt nekünk pythonban mint egy táblázatkezelő némi adatbáziskezelő funkcióval fűszerezve.

Mindez, a python igen széles körű általános képességeivel kibővítve igen hatékony eszköz lehet a kezünkben.



In [None]:
# szükségünk lesz a pandas könyvtárra,
# ezt tehát mindenképp hajtsuk végre.

import pandas as pd


A Pandas két alapvető adatstruktúrája:

* Series - egydimenziós adat (mint egy oszlop)
* DataFrame - kétdimenziós táblázat ("Excel")

## Series

In [None]:
számok = pd.Series([10, 20, 30, 40, 50])
számok


In [None]:
betűk = pd.Series(['Alfa','Béta','Gamma'])
betűk

Láthatjuk, hogy a NumPy tömbökhöz képest ezeknek a struktúráknak mindig van sorszáma azaz "indexe" (amit ki is ír). Ha szeretnénk, megnézhetjük, hogy néz ki az index avagy az érték önmagában:

In [None]:
betűk.index

RangeIndex(start=0, stop=3, step=1)

Az indexek tehát igazából nem tárolódnak számként (nem sok értelme lenne, hiszen szabályosan nőnek), hanem egy "RangeIndex" generátor "elkészíti" őket nekünk ha akarjuk. Igazából csak azt tárolja, hogy hol kezdődik, hol végződik, és hányasával lépked.

In [None]:
list(betűk.index) # kikényszerítjük, hogy csináljon belőle listát

In [None]:
betűk.values # az értékek persze normál értékek.

## DataFrame

A DataFrame már inkább hasonlít egy "Excel"-táblára vagy adatbázis táblára. Az oszlopainak nevei vannak. Ha nem tudjuk az adatot, akkor nem adjuk meg.

A pandas annyira alapvető eszköz, hogy a Colab (amiben most nézed) külön megjelenítő eszközt nyújt hozzá. Ha a lenti kódot futtatod, nem csak egyszerűen kiírja az értékeket, hanem szépen formázza és eszközöket is ad hozzá. Kérhetsz például grafikon javaslatokat vagy készíthetsz belőle "interaktív" (rendezhető, szűrhető) táblát. Mivel ezt a Colab csinálja, pusztán az interpreteren futtatva nem kapnánk ilyeneket (csak külön könyvtárak használatával).

In [None]:
tábla = pd.DataFrame({
    "name": ["Anna", "Béla", "Cecil", "Gábor"],
    "age": [23, 30, None ,27],
    "city": ["Budapest", "Szeged", "Pécs", None]
})
tábla

Próbáld ki mit tudsz csinálni egy ilyen táblával!

A DataFrame-nek is vannak tulajdonságai:


In [None]:
tábla.shape # négy adatsor van és három oszlop.

In [None]:
tábla.columns # Ilyen nevű oszlopaink vannak

In [None]:
tábla.index # és persze itt is vannak indexek

 Általában az adatokat nem kézzel szeretnénk megadni, hanem valamilyen forrásból (pl táblázatkezelőből) importáljuk be és úgy dolgozzuk fel. Szerencsére erre nem kell külön programot írnunk, a Pandas könnyedén beolvassa ezekből a fájlokból adatokat:

In [None]:
# pd.read_csv("adat.csv")  # CSV fájlból
# pd.read_excel("adat.xlsx") # Excel formátumból

# vagy akár egy url-ből:
url = "https://gist.githubusercontent.com/goteguru/2e1efde943f9c963dcbb1fcae598b646/raw/0c37ffa0c7fc2ee77a539101ea7986f21a141fa8/sample_people.csv"
adat = pd.read_csv(url)
adat

A pandas DataFrame nem csak hasonlít egy excel táblára, hanem kezelni is tudja azt. Könnyedén olvashatunk vagy írhatunk xlsx fájlokat is. Próbáld ki! Tölts fel egy xlsx állományt (bal oldali menü) mondjuk data.xlsx néven (vagy írd át at kódban fájlnevet) és jelenítsd meg a tartalmát!

In [None]:
file_name = "data.xlsx"
df = pd.read_excel(file_name)

# ki is írhatjuk fájlba (itt lokálisan a colabban):
df.to_excel("output.xlsx", index=False)

# vagy megjeleníthetjük:
df

## Indexelés

Az indexelés hasonló, mint amit a NumPy esetében láttunk, csak most használhatjuk az oszlopok neveit is.

In [None]:
adat["age"] # vagy így
adat.age # vagy akár így (ha nincs benne szóköz vagy spec. karakter)

In [None]:
# ha több oszlopot szeretnénk, egy listában megadjuk őket
adat[["city", "name", "age"]] # egy listát adtunk indexként!

In [None]:
# egy adott sort a loc tulajdonsággal érhetünk el
adat.loc[2, "name"] # csak a második sor

In [None]:
adat.loc[2:5, ["name","age"]] # 2-estől az 5-ös címkéjű sorok, a név és kor mezők.

A `.loc` a sorcimkéket nézi, nem a sorszámot. Ez akkor különösen érdekes ha például megszűrtük az adatokat. Ha indexeket szeretnénk nézni (nem cimkét) akkor:

In [None]:
adat[2:5] # cimke helyett (0-tól kezdődő) indexszel (harmadik, negyedik és ötödik)

In [None]:
adat.iloc[2:5] # de inkább így szokták írni (iloc = indexelt loc)

## Feltételes indexelés

Akárcsak a NumPy esetében itt is használhatunk bool mátrixszot indexként. Ilyen módon könnyedén szűrhetjük az adatainkat tetszés szerint:

In [None]:
adat[adat.age<30]

In [None]:
adat[adat.city == "Budapest"]

In [None]:
adat[(adat.age > 30) & (adat.city == "Pécs")]

## Statisztikák

Akárcsak az adatbáziskezelőkben vagy táblázatkezelőkben (vagy a numpy esetében) összesítésekkel is dolgozhatunk.

In [None]:
adat.describe() # az összes numerikus mező statisztikái

In [None]:
adat["age"].mean() # átlag
adat["age"].max()
adat["age"].min()
adat["city"].value_counts() # értékek száma (melyikből hány van)


In [None]:
adat["city"].unique() # egyedi értékek (városok, mindegyik 1x)

In [None]:
adat["age"].agg(['mean', 'min', 'max']) # számolj ki egyből több statisztikát

## Módosítás

Ha szeretnénk új oszlopot felvenni, esetleg kiszámítani, egyszerűen csak használjunk egy új indexet (oszlopnevet) pont mint a python dict esetén.

In [None]:
from datetime import datetime
mostani_év = datetime.now().year

adat["szül_dátum"] = mostani_év - adat["age"]
adat

In [None]:
adat.drop(columns=["szül_dátum"]) # másolat az oszlop nélkül

In [None]:
adat["név_hossza"] = adat["name"].apply(len) # minden névre futtasd a len függvényt
adat

## Hiányzó értékek kezelése



In [None]:
adat.isna() # hol nincs megadva adat?

In [None]:
adat.isna().sum() # hány ilyen van?

A hiányzó adatokat gyakorta valahogy kezelni kellene. Például elhagyhatnánk a hiányzó értékek sorait (nem annyira szerencsés) vagy kitölthetjük valahogy, például az átlaggal vagy módusszal.

In [None]:
adat.dropna() # ahol nincs adat, dobjuk el

In [None]:
adat["age"].fillna(adat["age"].mean()) # ami hiányzik legyen átlag

Írd át a fenti kódokat úgy, hogy a tábla helyett csak a `.shape` tulajdonságukat írja ki, hogy lásd hány sor marad meg!

## Rendezés és csoportképzés

Az adatbázis kezelők egyik hasznos képessége, hogy gyorsan tudnak csoportokat képezni és rendezni. A Pandas DataFrame is képes ilyesmire.

In [None]:
adat.sort_index() # sorszám szerint
adat.sort_values("age") # életkor szerint
adat.sort_values("age", ascending=False) # csökkenő sorrendben

In [None]:
# Mennyi városonként az életkor átlaga?
adat.groupby("city")["age"].mean()

In [None]:
# Mennyi nemenként a medián magasság
adat.groupby("gender")["height"].median()

In [None]:
# Számolj többféle statisztikát városonként:
adat.groupby("city").agg({
    "age": "mean",
    "name": "count"
})


## DataFrame összekapcsolás

Gyakran előfordul, hogy az adataink nem egy táblában vannak, de van közöttük kapcsolat, valamilyen adat alapján össze tudjuk párosítani a sorokat. Például lehet egy másik táblánk, ahol a városok egyéb adatai vannak (pl a terület), akkor ha a lakos táblából megtudtuk a lakóhelyének városát, akkor azt is tudjuk milyen területű településen él. (Aki dolgozott már adatbázis-kezelővel, annak biztosan nem ismeretlen a foglaom). A Pandas is képes összekapcsolni a DataFrame-eket.

In [None]:
városok = pd.DataFrame({
    "city": ["Budapest", "Pécs", "Debrecen", "Szeged", "Győr"],
    "area": [525.14, 162.78, 461.66, 281.00, 174.62]
})

# a kapcsolatot a city mező biztosítja
adat.merge(városok, on="city", how="left")

A fenti példában a `how="left"` az SQL nyelvből lehet ismerős. Annyit jelent hogy LEFT JOIN kapcsolatot szeretnénk, tehát ha az adott embernél nincs megadva varos (hiányzik) attól még szeretnénk, hogy szerepeljen az eredményben (csak egyszerűen nem lesz területe se).

Ha INNER JOIN kapcsolatot kérünk, akkor csak olyan sorok fognak megjelenni, amelyek mindkét táblában szerepelnek.

In [None]:
(
    len(adat), # mekkora (hány soros) az eredeti?
    len(adat.merge(városok, on="city", how="left")), # hány sor outer kapcsolattal?
    len(adat.merge(városok, on="city")), # és mennyi inner kapcsolattal?
)

In [None]:
# Ha nem ugyanúgy hívják az összekapcsoláshoz használt mezőt (mint most) akkor:
adat.merge(városok, left_on="city", right_on="city", how="left")

## Adatok végleges tárolása

Ha véget ér a python program, a DataFrame-ben tárolt adataink elvesznek. Persze menthetjük őket CSV-be vagy XLSX-be, de tanuljunk meg egy jobb lehetőséget. Ha amúgy is Pandas-al vagy modern adatkezelő rendszerrel akarjuk használni majd a mentett adatokat, a legjobban a parquett-el járunk. Ez gyors, tömör és hatékony bináris adatformátum. (Alternatívaként szóba jöhet még a feather is).

Elmenteni az adatokat szuper könnyű:

In [None]:
# elmentjük:
adat.to_parquet("adatok.parquet")

# visszaolvassuk:
vissza = pd.read_parquet("adatok.parquet")

## Vizualizáció

A Pandas beépített vizualizációval is rendelkezik (alapértelmezés szerint a Matplotlib csomagot használja erre a célra) tehát az adatainkat rögtön meg is jeleníthetjük.



In [None]:
# ábrázold nekem a magasságokat
adat["height"].plot()

In [None]:
 # életkor "eloszlás" (histogram), 20 részre osztva
adat['age'].plot.hist(bins=20)

In [None]:
# átlagos magasság városonként, oszlopdiagramban:
adat.groupby("city")["height"].mean().plot(kind="bar")

In [None]:
# nemenként hány embernél van megadva a város?
adat.groupby("gender").count()["city"].plot(kind="pie")

In [None]:
# emberek száma városonként:

Próbáld meg kiszámolni (esetleg ábrázolni is) a következőket:

- Hány nő (F) szerepel az adataink között?
- Hány sorban nincs megadva a város?
- Hány ember van városonként?
- Mennyi az emberek átlagos magassága városonként?
- Nemenként a lakóhely területének átlaga?
- Mennyi az emberek életkorának és városuk területének szorzatának átlaga? (ne kérdezd ez mire jó :))

Ha elakadsz az AI segít.


In [None]:
# Megoldásaid:

### Megfejtések:

In [None]:
len(adat[adat["gender"]=="F"]) # hány nő (lehet máshogy is)
adat["city"].isna().sum() # hány esetben nincs város megadva?
adat['city'].value_counts() # hányan vannak városonként
adat.groupby('city')['height'].mean() # emberek átlagos magassága városonként

várossal = adat.merge(városok, on="city")
# Nemenként a lakóhely területének átlaga
várossal.groupby("gender")["area"].mean()

#emberek életkorának és városuk területének szorzatának átlaga?
(várossal["age"] * várossal["area"]).mean()