# Tidy data koncepció

*"A boldog családok mind hasonlóak egymáshoz, minden boldogtalan család a maga módján az"* Lev Tolsztoj: Anna Karenina

*"Tidy datasets are all alike but every messy dataset is messy in its own way"* [Hadley Wickham](https://vita.had.co.nz/papers/tidy-data.pdf)

Tidy data jellemzői:
1) Minden változó egy oszlop
2) Minden megfigyelés egy sor
3) Minden megfigyelés típus egy tábla

Leggyakoribb jelenségek, amitől nem tidy az adat:
1) Az oszlopcímkék értékek, nem változónevek
2) Több változó tárolódik egy oszlopban
3) A változók sorokban és oszlopokban is fellelhetők
4) Többféle megfigyelési típus is van egy táblában
5) Egy megfigyelési egység többféle táblában is jelen van

### Általában milyen típusú adatokkal dolgoztok?

# Pandas Intro

Két packaget kell beolvasni pandas, és numpy (parncssorban):

pip install pandas

pip install numpy

[Pandas alapok](https://pandas.pydata.org/docs/getting_started/overview.html)

[NumPy alapok](https://numpy.org/doc/stable/user/absolute_beginners.html)


In [9]:
#szükséeg packagek importálása
import numpy as np
import pandas as pd
import os
import openpyxl

### Milyen adatokat kezel a pandas?

- A pandas az adatok táblázatos reprezentációja.
- Minden oszlopa egy Series. Ez egy egydimenziós tömb [(Arrays)](https://www.w3schools.com/python/python_arrays.asp), amely bármilyen típusú adatot tartalmaz.

## Saját adatbázis létrehozása

### Listából

In [18]:
#egy listából
nev = ["Lili", "Vió", "Gyula", "Beni", "Matyi", "Lemu", "Betts", "Máté"]

df = pd.DataFrame(nev)
print(df) #konvencionális elnevezés

       0
0   Lili
1    Vió
2  Gyula
3   Beni
4  Matyi
5   Lemu
6  Betts
7   Máté


In [19]:
#több litából dictionary segítségével
#egy listából
nev = ["Lili", "Vió", "Gyula", "Beni", "Matyi", "Lemu", "Betts", "Máté"]
magassag = [1, 2, 3, 4, 5, 6, 7, 8]
apa_magassag = [9,10, 11, 12, 13, 14, 12 , 16]

tablahoz = {"nev": nev, "magassag": magassag, "apa_magassag": apa_magassag}

magassag_df = pd.DataFrame(tablahoz)
print(magassag_df)

     nev  magassag  apa_magassag
0   Lili         1             9
1    Vió         2            10
2  Gyula         3            11
3   Beni         4            12
4  Matyi         5            13
5   Lemu         6            14
6  Betts         7            12
7   Máté         8            16


In [20]:
#gyorsan néhány használati mód
print(max(magassag_df["apa_magassag"]))
print(min(magassag_df["magassag"]))
print(magassag_df[["apa_magassag", "magassag"]].corr())

16
1
              apa_magassag  magassag
apa_magassag      1.000000  0.901441
magassag          0.901441  1.000000


## Adat beolvasása

In [7]:
#Working directory beállítása
#mi van jelenleg beállítva --> ahonnan megnyitottuk a fájlt
print(os.getcwd())
#átállítás és ellenőrzés
os.chdir("C:/Users/Lenovo X390/Desktop/Rajk/II/II. Prog1/hw9-pappgergelymatyas-main")
print(os.getcwd())

C:\Users\Lenovo X390\Desktop\Rajk\II\II. Prog1\hw9-pappgergelymatyas-main
C:\Users\Lenovo X390\Desktop\Rajk\II\II. Prog1\hw9-pappgergelymatyas-main


In [10]:
#adatbázis: ESS 9. hullámával fogunk foglalkozni --> ismeri-e valaki
ess_9 = pd.read_excel("ESS9HU.xlsx", keep_default_na= True) #pd vel hivatkozunk a packagre, sokféle adatbázis típust be tud olvasni

#opciók
#pd.read

[ESS dokumentáció](https://ess.sikt.no/en/study/bdc7c350-1029-4cb3-9d5e-53f668b8fa74/226)

DataFrame dimenzióinak hossza (sorok és oszlopok száma ebben a sorrendben)

In [11]:
ess_9.shape

(1661, 56)

DataFrame első ```n``` sorának megjelenítése (alapértelmezetten ```n=5```)

In [12]:
ess_9.head()

Unnamed: 0,essround,idno,cntry,gndr,agea,eduyrs,edlvdhu,nwspol,netusoft,netustm,...,crmvct,aesfdrk,health,hlthhmp,atchctr,atcherp,rlgblg,rlgdnhu,dweight,Unnamed: 55
0,9,118,HU,2,37,12,7,90,5,240,...,2,3,2,3,5,7,1,110,1.0,260606948001
1,9,182,HU,2,70,8,3,45,1,6666,...,2,2,3,3,10,10,1,120,,778454429088892
2,9,220,HU,2,67,17,10,240,1,6666,...,2,1,3,3,9,9,1,280,1.0,260606948001
3,9,234,HU,1,38,11,7,60,2,6666,...,2,2,2,3,2,3,1,280,,809827184002287
4,9,239,HU,1,30,14,7,10,5,120,...,2,1,1,3,7,7,1,110,1.0,260606948001


DataFrame utolsó ```n``` sorának megjelenítése (alapértelmezetten ```n=5```)

In [13]:
ess_9.tail()

Unnamed: 0,essround,idno,cntry,gndr,agea,eduyrs,edlvdhu,nwspol,netusoft,netustm,...,crmvct,aesfdrk,health,hlthhmp,atchctr,atcherp,rlgblg,rlgdnhu,dweight,Unnamed: 55
1656,9,69733,HU,2,28,17,13,20,5,180,...,2,2,1,3,7,6,2,6666,,778454429088892
1657,9,69763,HU,2,30,30,11,15,5,80,...,2,2,2,3,10,9,2,6666,,769680646915315
1658,9,69782,HU,2,79,10,5,70,1,6666,...,2,2,3,2,8,6,2,6666,1.0,260606948001
1659,9,69846,HU,1,73,8,2,60,2,6666,...,2,2,2,3,1,1,2,6666,1.0,260606948001
1660,9,69944,HU,1,53,13,4,90,5,180,...,2,2,3,3,8,8,1,110,1.0,260606948001


DataFrame oszlopcimkéinek megjelenítése

A [változónevek](https://stessrelpubprodwe.blob.core.windows.net/data/round9/survey/ESS9_appendix_a7_e03_1.pdf) értelmezése

In [14]:
ess_9.columns

Index(['essround', 'idno', 'cntry', 'gndr', 'agea', 'eduyrs', 'edlvdhu',
       'nwspol', 'netusoft', 'netustm', 'ppltrst', 'pplfair', 'pplhlp',
       'polintr', 'polintr_extreme', 'psppsgva', 'actrolga', 'psppipla',
       'cptppola', 'trstprl', 'trstlgl', 'trstplc', 'trstplt', 'trstprt',
       'lrscale', 'stflife', 'stfeco', 'stfgov', 'stfdem', 'stfedu', 'stfhlth',
       'gincdif', 'freehms', 'hmsfmlsh', 'hmsacld', 'euftf', 'imsmetn',
       'imdfetn', 'impcntr', 'imbgeco', 'imueclt', 'imwbcnt', 'happy',
       'sclmeet', 'inprdsc', 'sclact', 'crmvct', 'aesfdrk', 'health',
       'hlthhmp', 'atchctr', 'atcherp', 'rlgblg', 'rlgdnhu', 'dweight',
       'Unnamed: 55'],
      dtype='object')

DataFrame oszlopcimkéinek listában való megjelenítése

In [15]:
ess_9.columns.to_list()

['essround',
 'idno',
 'cntry',
 'gndr',
 'agea',
 'eduyrs',
 'edlvdhu',
 'nwspol',
 'netusoft',
 'netustm',
 'ppltrst',
 'pplfair',
 'pplhlp',
 'polintr',
 'polintr_extreme',
 'psppsgva',
 'actrolga',
 'psppipla',
 'cptppola',
 'trstprl',
 'trstlgl',
 'trstplc',
 'trstplt',
 'trstprt',
 'lrscale',
 'stflife',
 'stfeco',
 'stfgov',
 'stfdem',
 'stfedu',
 'stfhlth',
 'gincdif',
 'freehms',
 'hmsfmlsh',
 'hmsacld',
 'euftf',
 'imsmetn',
 'imdfetn',
 'impcntr',
 'imbgeco',
 'imueclt',
 'imwbcnt',
 'happy',
 'sclmeet',
 'inprdsc',
 'sclact',
 'crmvct',
 'aesfdrk',
 'health',
 'hlthhmp',
 'atchctr',
 'atcherp',
 'rlgblg',
 'rlgdnhu',
 'dweight',
 'Unnamed: 55']

Oszlopokra, elemekre való hivatkozás

Loc, Iloc

In [16]:
#oszlopra név alapján
print(ess_9["agea"])

#oszlopra több név alapján
print(ess_9[["agea", "gndr"]])

0       37
1       70
2       67
3       38
4       30
        ..
1656    28
1657    30
1658    79
1659    73
1660    53
Name: agea, Length: 1661, dtype: int64
      agea  gndr
0       37     2
1       70     2
2       67     2
3       38     1
4       30     1
...    ...   ...
1656    28     2
1657    30     2
1658    79     2
1659    73     1
1660    53     1

[1661 rows x 2 columns]


In [17]:
print(ess_9.loc[:,["agea", "gndr"]]) #loc a labelek alapján dolgozik

      agea  gndr
0       37     2
1       70     2
2       67     2
3       38     1
4       30     1
...    ...   ...
1656    28     2
1657    30     2
1658    79     2
1659    73     1
1660    53     1

[1661 rows x 2 columns]


In [18]:
ess_9.iloc[:,5] # az iloc az oszlopok sorszáma alapján dolgozik

0       12
1        8
2       17
3       11
4       14
        ..
1656    17
1657    30
1658    10
1659     8
1660    13
Name: eduyrs, Length: 1661, dtype: int64

In [19]:
ess_9.iloc[:, 1:5]

Unnamed: 0,idno,cntry,gndr,agea
0,118,HU,2,37
1,182,HU,2,70
2,220,HU,2,67
3,234,HU,1,38
4,239,HU,1,30
...,...,...,...,...
1656,69733,HU,2,28
1657,69763,HU,2,30
1658,69782,HU,2,79
1659,69846,HU,1,73


In [20]:
ess_9.iloc[:,[0,45]]

Unnamed: 0,essround,sclact
0,9,2
1,9,1
2,9,4
3,9,4
4,9,3
...,...,...
1656,9,4
1657,9,2
1658,9,2
1659,9,2


In [21]:
#konkrét sorokat veszek figyelembe
ess_9.loc[3:5]

Unnamed: 0,essround,idno,cntry,gndr,agea,eduyrs,edlvdhu,nwspol,netusoft,netustm,...,crmvct,aesfdrk,health,hlthhmp,atchctr,atcherp,rlgblg,rlgdnhu,dweight,Unnamed: 55
3,9,234,HU,1,38,11,7,60,2,6666,...,2,2,2,3,2,3,1,280,,809827184002287
4,9,239,HU,1,30,14,7,10,5,120,...,2,1,1,3,7,7,1,110,1.0,260606948001
5,9,246,HU,1,51,11,4,790,1,6666,...,2,2,2,3,8,4,1,110,,7752161673079


In [22]:
ess_9.iloc[[1, 4, 5, 8]]

Unnamed: 0,essround,idno,cntry,gndr,agea,eduyrs,edlvdhu,nwspol,netusoft,netustm,...,crmvct,aesfdrk,health,hlthhmp,atchctr,atcherp,rlgblg,rlgdnhu,dweight,Unnamed: 55
1,9,182,HU,2,70,8,3,45,1,6666,...,2,2,3,3,10,10,1,120,,778454429088892
4,9,239,HU,1,30,14,7,10,5,120,...,2,1,1,3,7,7,1,110,1.0,260606948001
5,9,246,HU,1,51,11,4,790,1,6666,...,2,2,2,3,8,4,1,110,,7752161673079
8,9,541,HU,2,61,23,10,10,5,90,...,2,2,2,3,10,3,1,110,1.0,260606948001


In [23]:
#konkrét elemre való hivatkozás sorszám alapján
ess_9["agea"][0]

np.int64(37)

Leíró statisztikák

In [24]:
# leíró statisztikák
print(ess_9["agea"].max())

print(ess_9["agea"].mean())

ess_9["agea"].describe()

90
50.97471402769416


count    1661.000000
mean       50.974714
std        18.476409
min        16.000000
25%        37.000000
50%        51.000000
75%        66.000000
max        90.000000
Name: agea, dtype: float64

Sorok kiválasztása feltétel alapján

In [None]:
#csak a 25 évnél idősebbeket tarjuk meg a kor_25 dataframeben
kor_25 = ess_9[ess_9["agea"] > 25] 

print(len(kor_25))
kor_25

In [None]:
# csak azokat tartjuk meg akik az egészségügyi állapotukat 1-esre vagy 2-esre ítélték meg
eu_rossz = ess_9[(ess_9["health"] == 1 )| (ess_9["health"] == 2)]
eu_rossz

In [None]:
kor_25 = ess_9.loc[ess_9.agea > 25] #loc segítségével
kor_25

In [None]:
ess_9.loc[(ess_9["gndr"] == 1) & (ess_9["agea"] > 50)] #loc segítségével

In [None]:
#egyes oszlopok gyakorisági megoszlása: emberekbe vetett bizalom
ess_9["ppltrst"].value_counts()

### Adathiány vizsgálata az adatbázisban

DataFrame N/A értékeinek vizsgálata cellánként

In [None]:
ess_9.isna() #azadatbázisban a dweight változónál van adathiány, ez az egyik féle súlyozás

DataFrame N/A értékeinek összesítése oszloponként

In [None]:
ess_9.isna().sum()

DataFrame N/A értékeinek sorbarendezett összesítése

In [None]:
ess_9.isna().sum().sort_values(ascending=False)

DataFrame N/A értékeinek sorbarendezett összesítése dict formátumban visszaadva

In [None]:
ess_9.isna().sum().sort_values(ascending=False).to_dict()

DataFrame N/A értékeinek sorbarendezett összesítése DataFrame formátumban visszaadva

In [None]:
pd.DataFrame(ess_9.isna().sum().sort_values(ascending=False))

DataFrame N/A értékeinek eldobása a metódus beállítása nélkül

In [None]:
ess_9.dropna()

DataFrame N/A értékeinek eldobása a metódus beállításával: ```axis=0``` a vizsgálati egység a DataFrame sorai, ```how="any"``` akárcsak egyetlen N/A érték esetén már dobja el a vizsgált egységet

In [None]:
#axis lehet 0 (sorokat dob ki) vagy 1 (oszlopokat dob ki), how any (ha egy is NaN akkor kidobja) vagy all (ha mindegyik érték Nan kidobja)
ess_9.dropna(axis=0, how="any")

A DataFrame-nek továbbra is kutya baja, mivel *nem történt értékátadás*

In [None]:
ess_9.head()

A DataFrame sorainak száma

In [None]:
len(ess_9)

DataFrame N/A értékeinek eldobása a metódus beállításával: ```axis=1``` a vizsgálati egység a DataFrame oszlopai, ```thresh=``` küszöbérték, mely azt határozza meg, hogy a vizsgálati egységet nézve hány *nem* N/A érték felett *tartsa meg* a vizsgálati egységet.
 - Ez jelen esetben 45%, mivel ```thresh=(len(df)*0.45)```, ahol a ```len(df)``` adja meg, hogy hány érték van egy oszlopban (ami most a vizsgálati egységünk), és ennek az értéknek vesszük a ```0.45```-szörösét, tehát a 45%-át

In [None]:
ess_9.dropna(axis=1, thresh=(len(df)*0.45))

### Adattípusok

A DataFrame oszlopaira érvényes adattípusok megjelenítése. Az ```object``` adattípus egy "catch-all" forma, amiről nem tudja a pandas egyértelműen eldönteni, hogy milyen formátum lenne a legjobb, azt magától ```object```-nek klasszifikálja

In [None]:
ess_9.dtypes

### Apply

Az Apply különböző függvények dataframekre való alkalmazását teszi lehetővé.

In [None]:
#definiálunk egy függvényt
def calc_mean(x):
    return x.mean(skipna=True)

In [None]:
# az apply segítségével alaklmazzuk az oszlopokon
x = ess_9[["pplfair", "ppltrst"]].apply(calc_mean)
print(x)

Itt egy ```lambda``` függvényt alkalmazunk, amely az adott változó értékétől függően egy új változóban egy kategorikus értéket tárol el.

In [None]:
ess_9["uj_valtozo"] = ess_9["polintr"].apply(lambda x: 1 if x < 3 else 2)

In [None]:
ess_9[["polintr", "uj_valtozo"]]

A használt ```lambda``` függvény így nézne ki, ha tradícionális módon definiálnánk

In [None]:
def kat(x):
    if x < 2:
        return 1
    else:
        return 2

### Assign

Az ```assign```-al új oszlopokat tudunk létrehozni a DataFrame-en belül

In [None]:
ess_9.assign(NEW_COLUMN="NEW_VALUE")

In [None]:
ess_9.assign(atlagos_bizalom = (ess_9["trstlgl"] + ess_9["trstplc"] + ess_9["trstplt"] + ess_9["trstprl"] + ess_9["trstprt"])/5)

### Group by

A ```groupby``` a DataFrame valamilyen felosztását, összegzését és ennek a kettőnek a kombinációját takarja. A megadott paraméterek mentén tudunk nagy mennyiségű adatot összesíteni.

In [None]:
ess_9[["gndr", "stfdem", "stflife"]].groupby("stflife").count() #élettel való elégedettség szempontjából csoportosítunk - a 77, 88 az a nem tudja nem válaszol

In [None]:
#az adatbázist leszűkítjük erre a két változóra
ess_9[["gndr", "stfdem", "stflife"]].groupby("gndr").mean() #a nem alapján csoportosítunk és az élettel és demokráciával való elégedettség átlagát nézzük meg

#### A groupby másképpen

In [None]:
#Egy kiválasztott változót elemzünk, sorbarendezéssel
ess_9[["trstprl", "trstlgl", "trstplc", "trstplt", "trstprt", "gndr", "agea"]].groupby("agea").min()["trstprl"].sort_values(ascending=False)

In [None]:
#az előző esetből csak az első 5 elemet nézzük
ess_9[["trstprl", "trstlgl", "trstplc", "trstplt", "trstprt", "gndr", "agea"]].groupby("agea").min()["trstprl"].sort_values(ascending=False).head(5)

In [None]:
#loc segítségével is meg lehet oldani
ess_9.loc[:, "netusoft"].value_counts().head(3)

### Merge, Concat

A ```merge``` és a ```concat``` metódusok táblák összefűzésére használhatók

Hasznos [honlap](https://pandas.pydata.org/docs/user_guide/merging.html)

In [None]:
employee = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue', 'Sarah', 'Stan'], 'group': ['Accounting', 'Engineering', 'Engineering', 'HR', 'HR', 'Accounting']})
employee2 = pd.DataFrame({'employee': ['Jean', 'Frank', 'Mike', 'Leah', 'Ben'], 'group': ['HR', 'Accounting', 'Engineering', 'HR', 'Maintenance']})
seniority = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue', 'Sarah'], 'hire_date': [2004, 2008, 2012, 2014, 2017]})

A ```merge``` két tábla összeillesztésére használható egybvagy több megegyező érték (oszlop, vagy sorindex) mentén

In [None]:
employee.merge(seniority, how="outer")

In [None]:
employee.merge(seniority, how="inner")

In [None]:
employee.merge(seniority, how="left")

In [None]:
employee.merge(seniority, how="right")

In [None]:
employee.merge(seniority, how="outer", on="employee")

A ```concat``` két DataFrame "összetapasztására" jó, vagy oszlopok mentén — a DataFrame "oldalához csapja" —, vagy pedig sorok mentén — a DataFrame "aljához csapva".

In [None]:
pd.concat([employee, seniority], axis=1) #oszlopként adja hozzá

In [None]:
pd.concat([employee, seniority], axis=0) #sorként adja hozzá

In [None]:
pd.concat([employee, employee2], axis=0) #sorként adja hozzá