## [pandas](https://pandas.pydata.org/)

- A pandas egy NumPy-ra épülő adatfeldolgozó és elemző eszköz. Alapötleteit az R nyelvből vette.
- Alapvető adattípusa a DataFrame (tábla) és a Series (oszlop). Segítségükkel memóriabeli, oszlopalapú adatbázis kezelés valósítható meg.
- https://pandas.pydata.org/docs/user_guide/10min.html.

In [2]:
# A pandas modul importálása pd néven.
import pandas as pd

In [2]:
# A pandas verziószáma.
pd.__version__

'1.1.4'

In [4]:
# DataFrame létrehozása oszlopokból.
# A bemenet egy szótár, ahol a kulcsok az oszlopnevek, az értékek az oszlopok.
df1 = pd.DataFrame({'aa': [1, 2, 3], 'bb': ['x', 'y', 'z']})

In [5]:
df1

Unnamed: 0,aa,bb
0,1,x
1,2,y
2,3,z


In [6]:
# Az eredmény típusa.
type(df1)

pandas.core.frame.DataFrame

In [7]:
# Oszlopnevek.
df1.columns

Index(['aa', 'bb'], dtype='object')

In [9]:
# Iterálás az oszlopneveken.
for c in df1:
    print(c)

aa
bb


In [10]:
# Sorok száma.
len(df1)

3

In [11]:
# A DataFrame alakja.
df1.shape

(3, 2)

In [12]:
# Összesítő információ.
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   aa      3 non-null      int64 
 1   bb      3 non-null      object
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes


In [13]:
# Alapvető oszlopstatisztikák (a numerikus oszlopokról).
df1.describe()

Unnamed: 0,aa
count,3.0
mean,2.0
std,1.0
min,1.0
25%,1.5
50%,2.0
75%,2.5
max,3.0


In [16]:
# DataFrame létrehozása sorokból.
# A bemenet szótárak listája, ahol minden szótár egy sort reprezentál.
data = [
    {'alma': 10, 'körte': 20},
    {'alma': 30},
    {'alma': 40, 'körte': 50}
]
df2 = pd.DataFrame(data)

In [17]:
df2

Unnamed: 0,alma,körte
0,10,20.0
1,30,
2,40,50.0


- A pandas a hiányzó adatokat NaN ("not a number") értékkel reprezentálja.
- Ez hatékony, de vannak veszélyei.

In [24]:
import numpy as np
np.nan == np.nan

False

In [25]:
# Minden DataFrame-hez (és Series-hez) tartozik index.
# Alapértelmezés szerint az index 0-tól induló, 1-esével növekedő sorszám.
df2.index

RangeIndex(start=0, stop=3, step=1)

In [28]:
# Másfajta indexet is használhatunk.
df3 = pd.DataFrame(data, ['x', 'y', 'z'])
df3

Unnamed: 0,alma,körte
x,10,20.0
y,30,
z,40,50.0


In [29]:
df3.index

Index(['x', 'y', 'z'], dtype='object')

In [30]:
# Series létrehozása index megadása nélkül.
se1 = pd.Series([20, 30, 40])
se1

0    20
1    30
2    40
dtype: int64

In [31]:
# Az eredmény típusa.
type(se1)

pandas.core.series.Series

In [32]:
se1.dtype

dtype('int64')

In [33]:
# Series létrehozása index megadásával.
se2 = pd.Series([20, 30, 40], ['aa', 'bb', 'cc'])
se2

aa    20
bb    30
cc    40
dtype: int64

In [34]:
# DataFrame-ből [] operátorral lehet kiválasztani oszlopot.
df1

Unnamed: 0,aa,bb
0,1,x
1,2,y
2,3,z


In [35]:
df1['aa']

0    1
1    2
2    3
Name: aa, dtype: int64

In [36]:
type(df1['aa'])

pandas.core.series.Series

In [37]:
# ...illetve ha az oszlop neve érvényes azonosítónév, akkor . operátorral is.
df1.aa

0    1
1    2
2    3
Name: aa, dtype: int64

In [39]:
# Több oszlop kiválasztása.
df1[['bb', 'aa']]

Unnamed: 0,bb,aa
0,x,1
1,y,2
2,z,3


In [40]:
# Ha 1 elemű listával indexelünk, akkor az eredmény DataFrame típusú.
df1[['bb']]

Unnamed: 0,bb
0,x
1,y
2,z


In [41]:
type(df1[['bb']])

pandas.core.frame.DataFrame

- Az 1 oszlopos DataFrame nem ugyanaz, mint a Series!

In [44]:
# Sor(ok)kiválasztása DataFrame-ből.
df3

Unnamed: 0,alma,körte
x,10,20.0
y,30,
z,40,50.0


In [45]:
# 1 sor kiválasztása
df3.loc['x']

alma     10.0
körte    20.0
Name: x, dtype: float64

In [46]:
# több sor kiválasztása
df3.loc[['x', 'z']]

Unnamed: 0,alma,körte
x,10,20.0
z,40,50.0


In [47]:
# ...pozíció alapján is lehet sort kiválasztani
df3.iloc[0]

alma     10.0
körte    20.0
Name: x, dtype: float64

In [48]:
# ...első néhány elem kiválasztása:
df3[:2]

Unnamed: 0,alma,körte
x,10,20.0
y,30,


In [51]:
# Elem kiválasztása Series-ből.
se2['bb']

30

In [52]:
se2[['cc', 'bb']]

cc    40
bb    30
dtype: int64

In [55]:
# Nyers adattartalom elérése.
se2.values

array([20, 30, 40])

In [56]:
type(se2.values)

numpy.ndarray

In [59]:
df2.values

array([[10., 20.],
       [30., nan],
       [40., 50.]])

### [Kiválasztás](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html) (SELECT)

In [4]:
# Hozzunk létre egy példa DataFrame-et!
df = pd.DataFrame([
    {'tanuló': 'Gipsz Jakab',  'tantárgy': 'Matematika',  'osztályzat': 5},
    {'tanuló': 'Gipsz Jakab',  'tantárgy': 'Testnevelés', 'osztályzat': 2},
    {'tanuló': 'Bank Aranka',  'tantárgy': 'Matematika',  'osztályzat': 3},
    {'tanuló': 'Bank Aranka',  'tantárgy': 'Matematika',  'osztályzat': 5},
    {'tanuló': 'Bank Aranka',  'tantárgy': 'Testnevelés', 'osztályzat': 4},
    {'tanuló': 'Rontó Róbert', 'tantárgy': 'Matematika',  'osztályzat': 1},
    {'tanuló': 'Rontó Róbert', 'tantárgy': 'Matematika',  'osztályzat': 2},
    {'tanuló': 'Rontó Róbert', 'tantárgy': 'Testnevelés', 'osztályzat': 5},
])
df

Unnamed: 0,tanuló,tantárgy,osztályzat
0,Gipsz Jakab,Matematika,5
1,Gipsz Jakab,Testnevelés,2
2,Bank Aranka,Matematika,3
3,Bank Aranka,Matematika,5
4,Bank Aranka,Testnevelés,4
5,Rontó Róbert,Matematika,1
6,Rontó Róbert,Matematika,2
7,Rontó Róbert,Testnevelés,5


In [63]:
# Logikai feltétel oszlop.
df['tanuló'] == 'Gipsz Jakab'

0     True
1     True
2    False
3    False
4    False
5    False
6    False
7    False
Name: tanuló, dtype: bool

In [64]:
# Gipsz Jakab összes osztályzata.
df[df['tanuló'] == 'Gipsz Jakab']
# SQL-ben: SELECT * FROM df WHERE tanuló='Gipsz Jakab'

Unnamed: 0,tanuló,tantárgy,osztályzat
0,Gipsz Jakab,Matematika,5
1,Gipsz Jakab,Testnevelés,2


In [5]:
# Az 1-esnél jobb és 5-ösnél rosszabb osztályzatok.
df[(df['osztályzat'] > 1) & (df['osztályzat'] < 5)]

Unnamed: 0,tanuló,tantárgy,osztályzat
1,Gipsz Jakab,Testnevelés,2
2,Bank Aranka,Matematika,3
4,Bank Aranka,Testnevelés,4
6,Rontó Róbert,Matematika,2


In [77]:
# Rontó Róbert osztályzatainak átlaga.
df[df['tanuló'] == 'Rontó Róbert']['osztályzat'].mean()

2.6666666666666665

### [Csoportosítás](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) (GROUPBY)

Pandasban a csoportosítás folyamata az alábbi lépésekből áll:

- Az adatok **felosztása (split)** csoportokra, valamilyen feltétel alapján.
- Valamely **függvény alkalmazása (apply)** az egyes csoportokra külön-külön.
- Az eredmények **kombinálása (combine)** egy adatszerkezetbe.

Ezek közül a felosztás a legegyszerűbb. A felosztás kritériuma általában egy oszlopban (vagy oszlop kombinációban) található érték. A függvényalkalmazás lehet aggregáló jellegű (pl. csoportonkénti elemszám, összeg, átlag, minimum, maximum, első rekord, utolsó rekord) vagy egyéb (pl. csoportonkénti standardizálás, adathiány kitöltés vagy szűrés). A kombinálási lépés az aggregáló típusú függvények esetén automatikusan lefut, egyéb esetekben a programozónak kell kezdeményeznie.

In [78]:
# Használjuk az előző DataFrame-et!
df

Unnamed: 0,tanuló,tantárgy,osztályzat
0,Gipsz Jakab,Matematika,5
1,Gipsz Jakab,Testnevelés,2
2,Bank Aranka,Matematika,3
3,Bank Aranka,Matematika,5
4,Bank Aranka,Testnevelés,4
5,Rontó Róbert,Matematika,1
6,Rontó Róbert,Matematika,2
7,Rontó Róbert,Testnevelés,5


In [80]:
# Csoportosítás tantárgyak szerint.
gb = df.groupby('tantárgy')

In [81]:
# Az eredmény típusa.
gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f49e6cbdfd0>

In [82]:
# Hány rekord tartozik az egyes tantárgyakhoz?
gb.size()

tantárgy
Matematika     5
Testnevelés    3
dtype: int64

In [83]:
# Ugyanez, az átmeneti GroupBy objektum használata nélkül.
df.groupby('tantárgy').size()
# SQL-ben: SELECT tantárgy, COUNT(*) FROM df GROUP BY tantárgy

tantárgy
Matematika     5
Testnevelés    3
dtype: int64

In [94]:
# Tantárgyankénti átlag.
df.groupby('tantárgy')['osztályzat'].mean()

tantárgy
Matematika     3.200000
Testnevelés    3.666667
Name: osztályzat, dtype: float64

In [91]:
# ...ugyanez csúnyábban:
df['osztályzat'].groupby(df['tantárgy']).mean()

tantárgy
Matematika     3.200000
Testnevelés    3.666667
Name: osztályzat, dtype: float64

In [97]:
# Tantárgyankénti átlag minden tanulóhoz.
df.groupby(['tanuló', 'tantárgy'])['osztályzat'].mean()

tanuló        tantárgy   
Bank Aranka   Matematika     4.0
              Testnevelés    4.0
Gipsz Jakab   Matematika     5.0
              Testnevelés    2.0
Rontó Róbert  Matematika     1.5
              Testnevelés    5.0
Name: osztályzat, dtype: float64

In [98]:
# Az index átalakítása két hagyományos oszloppá.
df.groupby(['tanuló', 'tantárgy'])['osztályzat'].mean().reset_index()

Unnamed: 0,tanuló,tantárgy,osztályzat
0,Bank Aranka,Matematika,4.0
1,Bank Aranka,Testnevelés,4.0
2,Gipsz Jakab,Matematika,5.0
3,Gipsz Jakab,Testnevelés,2.0
4,Rontó Róbert,Matematika,1.5
5,Rontó Róbert,Testnevelés,5.0


### Rendezés, Minimum, Maximum

In [100]:
df4 = pd.DataFrame([
    {'a': 10, 'b': 20},
    {'a': 12, 'b': 29},
    {'a': 8,  'b': 21},
    {'a': 15, 'b': 19}
])
df4

Unnamed: 0,a,b
0,10,20
1,12,29
2,8,21
3,15,19


In [101]:
# Rendezés 'a' szerint.
df4.sort_values('a')

Unnamed: 0,a,b
2,8,21
0,10,20
1,12,29
3,15,19


In [103]:
# Rendezés csökkenő sorrendbe.
df4.sort_values('a', ascending=False)

Unnamed: 0,a,b
3,15,19
1,12,29
0,10,20
2,8,21


In [105]:
# A 'b' oszlop maximuma.
df4['b'].max()

29

In [107]:
# Mely indexnél található a 'b' oszlop maximuma?
df4['b'].idxmax()

1