# **Pandas - DataFrame**
Fogarassyné Vathy Ágnes

A [**pandas**](https://pandas.pydata.org/docs/index.html) nagyon kényelmes lehetőségeket biztosít számunkra, hogy adatainkat a jól megszokott relációs formában kezeljük. Ezt a tárolási formát DataFrame-nek nevezik. A **DataFrame** tulajdonképpen egy kétdimenziós tetszőleges méretű, potenciálisan heterogén elemeket tartalmazó táblázatos adatszerkezet címkézett tengelyekkel.
   
A Dataframe-ek használatához első lépésben importálnunk kell a [**pandas**](https://pandas.pydata.org/docs/index.html) csomagot.  

In [1]:
import numpy as np
import pandas as pd

## **1. DataFrame létrehozása**

Első lépésként nézzük meg, hogy az adatokat manuálisan megadva hogyan tudunk DataFrame-et létrehozni.  

**Block 1.1** A DataFrame létrehozása történhet többféle módon is:

In [2]:
df1 = pd.DataFrame(
        {'nev': ['Pisti', 'Marci', 'Aranka'],
         'kor': [11, 24, 9],
         'nem': ['ferfi', 'ferfi', 'no']},
        index=[1, 2, 3])
df1

Unnamed: 0,nev,kor,nem
1,Pisti,11,ferfi
2,Marci,24,ferfi
3,Aranka,9,no


In [3]:
df2 = pd.DataFrame(
        [['Peti', 9, 'ferfi'],
         ['Bea', 15, 'no'],
         ['Balint', 7, 'ferfi'],
         ['Misi', 14, 'ferfi']],
        columns=['nev', 'kor', 'nem'])
df2

Unnamed: 0,nev,kor,nem
0,Peti,9,ferfi
1,Bea,15,no
2,Balint,7,ferfi
3,Misi,14,ferfi


## **2. DataFrame-ek összefűzése**

**Block 2.1** A [**concat**](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) függvény segítségével számos hasznos fukciót hajthatunk végre. Legegyszerűbb formájában két DataFrame adatait másolhatjuk egymás melé.

In [4]:
df3 = pd.DataFrame(
        [[23], [10], [2], [18]],
        columns = ['pontszam'])
df3

Unnamed: 0,pontszam
0,23
1,10
2,2
3,18


In [5]:
df4 = pd.concat([df2, df3], axis=1)
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23
1,Bea,15,no,10
2,Balint,7,ferfi,2
3,Misi,14,ferfi,18


A concat függvény azonban alkalmas arra is, hogy JOIN alapú összefűzéseket hajtsunk végre. Hasonló funkcionalitással rendelkezik a [**merge**](https://pandas.pydata.org/docs/reference/api/pandas.merge.html) is. Javaslom ezeknek otthon utánanézni...

**Block 2.2** A [**concat**](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) függvény segítségével az azonos, illetve részben azonos oszlopokkal rendelkező táblázatok adatainak összemásolása is könnyen végrehajtható:

In [6]:
df5 = pd.DataFrame(
        [['Judit', 10, 'no'],
         ['Tomi', 18, 'ferfi', 25]],
        columns=['nev', 'kor', 'nem', 'pontszam'])
df5

Unnamed: 0,nev,kor,nem,pontszam
0,Judit,10,no,
1,Tomi,18,ferfi,25.0


In [7]:
df4 = pd.concat([df4, df5], axis=0)
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
0,Judit,10,no,
1,Tomi,18,ferfi,25.0


Mint láthatjuk, az összefűzött DataFrame-ben 2 db 0-ás indexű sor van. (lsd. a *loc* függvényt kicsit később)

**Block 2.3** Ha az  eredeti indexeket nem akarjuk figyelembe venni, akkor a **concat** függvény **ignore_index** paraméterét *True*-ra kell állítani.  

In [8]:
df4 = pd.concat([df4, df5], axis=0, ignore_index=True)
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


## **3. Szeletelés és kockázás (slice and dice)**

**Block 3.1** **Adott attribútum(ok) adatainak leválogatása:**

In [9]:
df4[['nev']]

Unnamed: 0,nev
0,Peti
1,Bea
2,Balint
3,Misi
4,Judit
5,Tomi
6,Judit
7,Tomi


In [10]:
df4[['nev', 'nem']]

Unnamed: 0,nev,nem
0,Peti,ferfi
1,Bea,no
2,Balint,ferfi
3,Misi,ferfi
4,Judit,no
5,Tomi,ferfi
6,Judit,no
7,Tomi,ferfi


**Block 3.2** **Sorok szerinti szűrés:**

Hivatkozások:
- [sor, oszlop]  
- : minden sor/oszlop
- :n az első $n$ sor/oszlop
- :-n kivéve az utolsó $n$ sor/oszlop
- ::n minden $n$-edik sor/oszlop
- ::-1 sorok/oszlopok inverze

In [11]:
df4[1:4] #az [1,4) intervallumnak megfelelő sorok

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0


In [12]:
df4[1:] # a 2. sor és az azt követő sorok

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


In [13]:
df4[:3] # az első 3 sor

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0


In [14]:
df4[:-1] #az utolsó sort kivéve minden sor

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,


In [15]:
df4[::2] #minden második sor

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
2,Balint,7,ferfi,2.0
4,Judit,10,no,
6,Judit,10,no,


**Block 3.3** A [**head**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html) és [**tail**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.tail.html) metódusok könnyed hozzáférést biztosítanak az első, vagy utolsó sorokhoz:

In [16]:
df4.head(2)

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0


In [17]:
df4.tail(3)

Unnamed: 0,nev,kor,nem,pontszam
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


### **3.1.A loc és az iloc**

**Block 3.4** Sorokat a DataFrame-ből az [**iloc**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html) és a [**loc**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) metódusokkal is ki tudunk választani.   
Az **iloc** <font color='red'>*pozíció alapú*</font> rekordkiválasztást tesz lehetővé, ahol a kiválasztandó rekord(ok) pozícióját (sorszámát) kell megadnunk.

In [18]:
df4.iloc[0]  #első sor

nev          Peti
kor             9
nem         ferfi
pontszam     23.0
Name: 0, dtype: object

In [19]:
df4.iloc[-1]  #utolsó sor

nev          Tomi
kor            18
nem         ferfi
pontszam     25.0
Name: 7, dtype: object

In [20]:
df4.iloc[:-1]  #minden sor, kivéve az utolsó

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,


**Block 3.5** Az iloc segítségével nem csak rekordszintű kiválasztást valósíthatunk meg, hanem attribútumok szerinti vetítést is.

In [21]:
df4.iloc[:, 0]  # minden sor első oszlopa

0      Peti
1       Bea
2    Balint
3      Misi
4     Judit
5      Tomi
6     Judit
7      Tomi
Name: nev, dtype: object

In [22]:
df4.iloc[:, 0:2]  # minden sor első 2 oszlopa

Unnamed: 0,nev,kor
0,Peti,9
1,Bea,15
2,Balint,7
3,Misi,14
4,Judit,10
5,Tomi,18
6,Judit,10
7,Tomi,18


In [23]:
df4.iloc[:, -1]  # minden sor utolsó oszlopa

0    23.0
1    10.0
2     2.0
3    18.0
4     NaN
5    25.0
6     NaN
7    25.0
Name: pontszam, dtype: float64

In [24]:
df4.iloc[:, :-1]  # minden oszlop, kivéve az utolsó

Unnamed: 0,nev,kor,nem
0,Peti,9,ferfi
1,Bea,15,no
2,Balint,7,ferfi
3,Misi,14,ferfi
4,Judit,10,no
5,Tomi,18,ferfi
6,Judit,10,no
7,Tomi,18,ferfi


**Block 3.6** Természetesen az oszlopok és sorok szerinti leválogatás egyszerre is alkalmazható, ekkor tulajdonképpen a **kockázás** műveletét hajtjuk végre:

In [25]:
df4.iloc[1:3, 0:2]

Unnamed: 0,nev,kor
1,Bea,15
2,Balint,7


In [26]:
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


In [27]:
df4.iloc[[0, 2, 3], [0, 2]]  # 1.,3.,4. sor + 1.,3. oszlop

Unnamed: 0,nev,nem
0,Peti,ferfi
2,Balint,ferfi
3,Misi,ferfi


---


**Block 3.7** A [**loc**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) metódus segítségével tetszőleg <font color='red'>*oszlop(ok) értéke(i)*</font> szerint válogathatjuk le a rekordokat.\
\
Ehhez először be kell állítani, hogy mely oszlop legyen az <font color='blue'>indexelt adatmező</font>:

In [28]:
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


In [29]:
df4.set_index('nev', inplace=True)
df4

Unnamed: 0_level_0,kor,nem,pontszam
nev,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Peti,9,ferfi,23.0
Bea,15,no,10.0
Balint,7,ferfi,2.0
Misi,14,ferfi,18.0
Judit,10,no,
Tomi,18,ferfi,25.0
Judit,10,no,
Tomi,18,ferfi,25.0


**Block 3.8** Ezt követően a kiválasztott indexmező alapján szűrhetjük a rekordokat.

In [30]:
df4.loc[['Misi']]

Unnamed: 0_level_0,kor,nem,pontszam
nev,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Misi,14,ferfi,18.0


In [31]:
df4.loc[['Misi', 'Bea']]

Unnamed: 0_level_0,kor,nem,pontszam
nev,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Misi,14,ferfi,18.0
Bea,15,no,10.0


In [32]:
df4.loc['Bea':'Misi']

Unnamed: 0_level_0,kor,nem,pontszam
nev,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Bea,15,no,10.0
Balint,7,ferfi,2.0
Misi,14,ferfi,18.0


**Block 3.9** A [**loc**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) estében hasonlóan oldhatjuk meg az oszlopok szerinti vetítést, mint ahogy az iloc esetében használtuk.

In [33]:
df4.loc[:, ['kor', 'pontszam']]

Unnamed: 0_level_0,kor,pontszam
nev,Unnamed: 1_level_1,Unnamed: 2_level_1
Peti,9,23.0
Bea,15,10.0
Balint,7,2.0
Misi,14,18.0
Judit,10,
Tomi,18,25.0
Judit,10,
Tomi,18,25.0


In [34]:
df4.loc[['Misi', 'Bea'], ['pontszam']]

Unnamed: 0_level_0,pontszam
nev,Unnamed: 1_level_1
Misi,18.0
Bea,10.0


**Block 3.10** Végül, ha szeretnénk visszaállítani az eredeti állapotot és eldobni az oszlopra beállított indexet, akkor ezt a következőképpen tehetjük meg:

In [35]:
df4.reset_index(inplace=True)
df4

Unnamed: 0,nev,kor,nem,pontszam
0,Peti,9,ferfi,23.0
1,Bea,15,no,10.0
2,Balint,7,ferfi,2.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


**Block 3.11** Ha nem indexmező alapján szeretnénk keresni, akkor a [**loc**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) metódus első paraméterében megadhatjuk a keresést leíró logikai feltételt:

In [36]:
df4.loc[df4.nem == 'ferfi', ['nev', 'kor']]

Unnamed: 0,nev,kor
0,Peti,9
2,Balint,7
3,Misi,14
5,Tomi,18
7,Tomi,18


## **4. Adatok keresése**

**Block 4.1** Ha például a *kor* attribútum alapján szeretnénk szűrni a rekordokat, és csak azokat a rekordokat megjeleníteni, ahol az értékek megfelelnek a megadott feltételnek, akkor ezt a következő módokon tehetjük meg:

In [37]:
df4[df4['kor'] > 9]

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


Ugyanazt a feladatot megoldva más szintaktikával:

In [38]:
df4[df4.kor > 9]

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


*Ne felejtsük el, hogy hasonló funkciót valósítottunk meg a **loc** metódus segítségével, de ott még vetítést is tudtunk végezni.*

### **... a where használatával**

**Block 4.2** Az adatok közt könnyedén kereshetünk a [**where**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html) metódus használatával is, melynek paramétereként egy logikai szűrőfeltételt kell megadnunk. Azon sorokban, melyek nem tesznek eleget a where 'feltételnek' *NaN* értékek jelennek meg.

In [39]:
df4.where(df4.kor > 9)

Unnamed: 0,nev,kor,nem,pontszam
0,,,,
1,Bea,15.0,no,10.0
2,,,,
3,Misi,14.0,ferfi,18.0
4,Judit,10.0,no,
5,Tomi,18.0,ferfi,25.0
6,Judit,10.0,no,
7,Tomi,18.0,ferfi,25.0


**Block 4.3** Természetesen a [**where**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html) függvény sok egyéb megoldást is nyújt. Például megadhatjuk azt, hogy a feltételnek eleget nem tevő rekordok esetében mi jelenjen meg.

In [40]:
df4.where(df4.kor > 9, other='999')

Unnamed: 0,nev,kor,nem,pontszam
0,999,999,999,999.0
1,Bea,15,no,10.0
2,999,999,999,999.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


### **... a query használatával**

**Block 4.4** Az adatok közt könnyedén kereshetünk a [**query**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html) metódus használatával is, melynek paramétereként egy logikai szűrőfeltételt kell megadnunk. Azon sorokban, melyek nem tesznek eleget a where 'feltételnek' *NaN* értékek jelennek meg.

In [41]:
df4.query('nev == "Bea"')

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0


In [42]:
df4.query('kor > 9')

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
3,Misi,14,ferfi,18.0
4,Judit,10,no,
5,Tomi,18,ferfi,25.0
6,Judit,10,no,
7,Tomi,18,ferfi,25.0


In [43]:
df4.query('kor > 10 and kor < 20')

Unnamed: 0,nev,kor,nem,pontszam
1,Bea,15,no,10.0
3,Misi,14,ferfi,18.0
5,Tomi,18,ferfi,25.0
7,Tomi,18,ferfi,25.0


## **5. Sorok és oszlopok törlése**

Amennyiben sorokat, vagy oszlopokat szeretnénk törölni a DataFrame-ből, akkor a [**drop**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html) metódus segítségével tudjuk mindezt megtenni.

**Block 5.1** Töröljük a *pontszam* oszlopot a DataFrame-ből, majd ezt követően az utolsó 2 rekordot is!

In [44]:
df4.drop(['pontszam'], axis = 1, inplace = True)
df4

Unnamed: 0,nev,kor,nem
0,Peti,9,ferfi
1,Bea,15,no
2,Balint,7,ferfi
3,Misi,14,ferfi
4,Judit,10,no
5,Tomi,18,ferfi
6,Judit,10,no
7,Tomi,18,ferfi


In [45]:
df4.drop(df4.index[:2], inplace=True)
df4

Unnamed: 0,nev,kor,nem
2,Balint,7,ferfi
3,Misi,14,ferfi
4,Judit,10,no
5,Tomi,18,ferfi
6,Judit,10,no
7,Tomi,18,ferfi


**Block 5.2** Ha a *drop* metódusban az *inplace=True* paraméterbeállítása alkalmazzuk, akkor a *df4*-ben is végrehajtódik a törlés, ha az *inplace=False* beállítást, akkor az eredeti dataframe-ben nem törlődik az adat.

In [46]:
aa=df4.drop(df4.index[:3], inplace=False)
print(aa)
print()
print(df4)

     nev  kor    nem
5   Tomi   18  ferfi
6  Judit   10     no
7   Tomi   18  ferfi

      nev  kor    nem
2  Balint    7  ferfi
3    Misi   14  ferfi
4   Judit   10     no
5    Tomi   18  ferfi
6   Judit   10     no
7    Tomi   18  ferfi


## **6. Adatok csoportosítása**

**Block 6.1** A DataFrame-ben könnyen végrehajtjatunk SQL-szerű csoportosításon alapuló számításokat is a [**groupby**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html) metódus használatával.

In [47]:
df4.groupby('nem').size()

nem
ferfi    4
no       2
dtype: int64

In [48]:
df4.groupby('nem')['kor'].mean()

nem
ferfi    14.25
no       10.00
Name: kor, dtype: float64

## **7. Adatok importálása DataFrame-be külső adatforrásból**

**Block 7.1** Csv adatok importálása DataFrame-be:

In [49]:
#from google.colab import drive
#drive.mount('/content/drive')

In [50]:
import io

df = pd.read_csv('szemely1.csv',
                 sep=';', header=0)
df

Unnamed: 0,id,testsuly,testmagassag,eletkor
0,1,82.0,250.0,30
1,2,86.0,169.0,68
2,3,,176.0,63
3,4,,185.0,60
4,5,82.0,168.0,63
...,...,...,...,...
480,481,74.0,154.0,55
481,482,115.0,190.0,55
482,483,64.0,,58
483,484,75.0,160.0,56


In [51]:
df.head(2)

Unnamed: 0,id,testsuly,testmagassag,eletkor
0,1,82.0,250.0,30
1,2,86.0,169.0,68


**Block 7.2** Adatok exportálása DataFrame-ből csv fájlba:

In [52]:
df.to_csv('fiktiv_szemely_mentes.csv',
          sep=';', header=True, index=False)

## **8. Konverzió DataFrame és numpy adattömb között**

**Block 8.1** DataFrame ---> numpy adattömb konverziót a [**df.values**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.values.html) segítségével tudunk megadni

In [53]:
df4

Unnamed: 0,nev,kor,nem
2,Balint,7,ferfi
3,Misi,14,ferfi
4,Judit,10,no
5,Tomi,18,ferfi
6,Judit,10,no
7,Tomi,18,ferfi


In [54]:
tomb = df4.values
print(tomb)

[['Balint' 7 'ferfi']
 ['Misi' 14 'ferfi']
 ['Judit' 10 'no']
 ['Tomi' 18 'ferfi']
 ['Judit' 10 'no']
 ['Tomi' 18 'ferfi']]
