# Pandas

A pandas a python már-már alapvető táblázatos adatkezelő csomagja. 
A pandas a numpy-on alapul, numpy array-ekre építi az objektumatit.
Két fő építőeleme van, a `Series` és az `Index`. Ezekből tevődik össze a `DataFrame`, amely egy táblázatként képzelhető el. A `DataFrame` lényegében egy táblát, valamilyen táblázatos adatot jelent.

In [1]:
import pandas as pd


## `Series`
A `Series` egy indexxel ellátott, egy dimenziós NumPy array, ami egy táblázat oszlopának feleltethető meg.

In [2]:
pd.Series([5, 12, 7, 3, 21, 123])

0      5
1     12
2      7
3      3
4     21
5    123
dtype: int64

In [3]:
pd.Series(["alma", "barack", "eper", "banán"])

0      alma
1    barack
2      eper
3     banán
dtype: object

In [34]:
series = pd.Series([5, 6, 7, 8, 9, 10, 11, 12])
series

0     5
1     6
2     7
3     8
4     9
5    10
6    11
7    12
dtype: int64

Indexek lekérése

In [35]:
series.index

RangeIndex(start=0, stop=8, step=1)

Értékek lekérése

In [36]:
series.values

array([ 5,  6,  7,  8,  9, 10, 11, 12])

Indexek meghatározása

In [37]:
pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [38]:
series2 = pd.Series([1, 2, 3, 4, 5], index = ["a", "b", "c", "d", "e"])
series2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [5]:
series["a"]

NameError: name 'series' is not defined

Slice-olás - eltérő slice-olás implicit és explicit indexelésnél, lesz majd szó ennek kiküszöböléséről is, de egyelőre prezentáció lent:

In [None]:
# Series slice-olás - Serieseknél történő explicit indexelésnél beleveszi a kezdő (a) és végértéket (c) is, listáknál a végértéket nem
series["a":"c"]

a    1
b    2
c    3
dtype: int64

In [None]:
# Lista slice-olás - itt nem veszi bele a végértéket, csak a 0. és 1. indexeket
[1, 2, 3, 4][0:2]

[1, 2]

In [None]:
# Sereis slice-olás - implicit indexeknél sem veszi bele a végértéket, csak a 0. és 1. indexeket
pd.Series([1, 2, 3, 4, 5])[0:2]

0    1
1    2
dtype: int64

Indexelés definiálása dictionary-vel

In [None]:
pd.Series({"a": 1, "b": 2, "c": 3, "d": 4})

a    1
b    2
dtype: int64

Indexelés, mint szűrés:

In [None]:
pd.Series({"a": 1, "b": 2, "c": 3, "d": 4}, index = ["d", "c", "a"]) # sorrendet is az indexelés adja meg

d    4
c    3
a    1
dtype: int64

Slice-olásra ugyanaz jellemző

In [None]:
print(pd.Series({"a": 1, "b": 2, "c": 3, "d": 4})["a":"b"])
print("\n")
print(pd.Series({"a": 1, "b": 2, "c": 3, "d": 4})[0:1])

a    1
b    2
dtype: int64


a    1
dtype: int64


## DataFrame
Series-ekből épül fel, de nem feltétlen kell Series-eket megadni neki ahhoz, hogy definiáljuk. a DataFrameknek sokféle létrehozási módja van:
- Egyetlen series-ből
- listákat tároló dictből
- Series-eket tároló dict-ből
- dictek listájából is létre lehet hozni.

#### Létrehozások bemutatása:
- létrehozás dictionary-kkel

In [8]:
pd.DataFrame(
    {
        "NÉV": ["Gábor", "Elemér", "Jószef"],
        "ÉLETKOR": [32, 18, 22]
    }
)

Unnamed: 0,NÉV,ÉLETKOR
0,Gábor,32
1,Elemér,18
2,Jószef,22


- létrehozás Series-ekkel

In [59]:
name = ["Tamás", "Gergő", "Norbert", "Zoltán"] # indexek lesznek a nevek az index = name miatt

ages = pd.Series([28, 28, 29, 25], index = name)
sex = pd.Series(["M", "M", "M", "M"], index = name)
working = pd.Series([True, True, True, False], index = name)

In [11]:
print(ages, sex, working, sep = "\n\n")

Tamás      28
Gergő      28
Norbert    29
Zoltán     25
dtype: int64

Tamás      M
Gergő      M
Norbert    M
Zoltán     M
dtype: object

Tamás       True
Gergő       True
Norbert     True
Zoltán     False
dtype: bool


- DataFrame definiálása a Series-ekkel létrehozott adatokkal

In [60]:
df = pd.DataFrame(
    {
        "AGE": ages,
        "SEX": sex,
        "JOB": working
    }
)

df

Unnamed: 0,AGE,SEX,JOB
Tamás,28,M,True
Gergő,28,M,True
Norbert,29,M,True
Zoltán,25,M,False


In [None]:
df.index

Index(['Tamás', 'Gergő', 'Norbert', 'Zoltán'], dtype='object')

In [None]:
df.values # látjuk, hogy az értékek egy 2 dimenziós array-ben vannak tárolva, a type: object

array([[28, 'M', True],
       [28, 'M', True],
       [29, 'M', True],
       [25, 'M', False]], dtype=object)

In [None]:
df.columns # oszlop nevek visszaadása

Index(['AGE', 'SEX', 'JOB'], dtype='object')

In [None]:
df["AGE"]

Tamás      28
Gergő      28
Norbert    29
Zoltán     25
Name: AGE, dtype: int64

- Nem series-ként adjuk meg az oszlopokat, hanem dictionary-kkel

NaN - NumPy-ból jövő típus, float, üres értékek helyére teszi be

In [57]:
age = {"Péter": 23, "Károly": 72, "János": 25, "Éva": 42}
sex = {"Péter": "M", "Károly": "M", "Bálint": "M", "Éva": "F", "Dóra": "F"}

pd.DataFrame(
    {
        "age": age,
        "sex": sex
    }
)

Unnamed: 0,age,sex
Péter,23.0,M
Károly,72.0,M
János,25.0,
Éva,42.0,F
Bálint,,M
Dóra,,F


Indexek - A Pandas indexek array-ek és valami köréjük épített logika, tehát maguk is indexelhetőek. Definiálhatunk külön magunknak is indexet.

In [None]:
idx = pd.Index(["a", "b", "c", "d"])
idx

Index(['a', 'b', 'c', 'd'], dtype='object')

In [None]:
idx[0]

'a'

In [None]:
df

Unnamed: 0,AGE,SEX,JOB
Tamás,28,M,True
Gergő,28,M,True
Norbert,29,M,True
Zoltán,25,M,False


In [None]:
df.columns

Index(['AGE', 'SEX', 'JOB'], dtype='object')

In [None]:
df.columns.shape # három hosszú sorvektor

(3,)

In [None]:
df.index.shape # négy hosszú 

(4,)

In [None]:
df.columns.ndim

1

In [None]:
df.columns.dtype

dtype('O')

A `Series`-ek, mint objektumok egyszerre hordozzák magukon a `dictionary`-k és `array`-ek tulajdonságait is. 
- `dictionary`-k mert saját kulcsaikkal indexelhetőek
- `array` szerűek, mert impliciten is indexelhetőek

In [None]:
series2

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [None]:
series2["a"] # explicit indexelés

np.int64(1)

In [None]:
series2[0] # implicit indexelés

  series2[0] # implicit indexelés


np.int64(1)

In [None]:
series2.keys()

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [None]:
list(series2.items())

[('a', 1), ('b', 2), ('c', 3), ('d', 4), ('e', 5)]

In [None]:
series2["a"] = 99
series2

a    99
b     2
c     3
d     4
e     5
dtype: int64

#### `loc, Iloc`
Ahogy láttuk, nem mindig egyértelmű, hogy épp hogyan indexel a pandas. Az egyértelműség kedvéért van két hatékonyabb módja is az indexelésnek és sliceolásnak:
- `.loc`: explicit index, melyeket mi határozunk meg
- `.iloc`: implicit index, azaz az indexek indexe, mely mindig egy `range(n)` szerű 0-tól n-ig terjedő szekvencia

In [None]:
series3 = pd.Series(
    {
        6: 8,
        7: 0,
        8: 1,
        9: 12
    }
)

series3

6     8
7     0
8     1
9    12
dtype: int64

In [None]:
series3[6:8]

Series([], dtype: int64)

In [None]:
series3.loc[6:8] # ez azt mondja, hogy én explicit akarok indexelni a kulcsokat használva

6    8
7    0
8    1
dtype: int64

In [None]:
series3.iloc[0:2] # implicit, sorrend alapján történő indexelés

6    8
7    0
dtype: int64

In [None]:
series3[0:2]

6    8
7    0
dtype: int64

Maszkok:

In [None]:
series3 > 2

6     True
7    False
8    False
9     True
dtype: bool

In [None]:
series3[series3 > 2]

6     8
9    12
dtype: int64

#### DataFrame-ek, mint `dictionary`-k és `array`-ek
A `DataFrame`-ek szintén magukon hordozzák mind a dictionary-k, mind az array-ek tulajdonságait:

A dicthez hasonlóan:
- kulccsal (oszlopnév) elkérhető egy oszlop
- Az `in` operátorral egy kulcs (oszlopnév) meglétét ellenőrizhetjük
- Van `.keys()`, `.values` és `.items()`

És az arrayekhez hasonlóan:
- indexelhető
- sliceolható
- vannak összehasonlító operátorok
- maszkolható

In [61]:
df

Unnamed: 0,AGE,SEX,JOB
Tamás,28,M,True
Gergő,28,M,True
Norbert,29,M,True
Zoltán,25,M,False


In [None]:
df["AGE"]

Tamás      28
Gergő      28
Norbert    29
Zoltán     25
Name: AGE, dtype: int64

In [None]:
df.AGE

Tamás      28
Gergő      28
Norbert    29
Zoltán     25
Name: AGE, dtype: int64

In [None]:
"AGE" in df

True

In [None]:
"Tamás" in df # false-al tér vissza, mert egy DataFrame elsődleges kulcsa az oszlop, nem az index

False

In [None]:
df.keys()

Index(['AGE', 'SEX', 'JOB'], dtype='object')

`.items()`
- Tuple-öket ad vissza

In [None]:
list(df.items()) # két elemű Tuple, első eleme az AGE, második eleme a series és így tovább

[('AGE',
  Tamás      28
  Gergő      28
  Norbert    29
  Zoltán     25
  Name: AGE, dtype: int64),
 ('SEX',
  Tamás      M
  Gergő      M
  Norbert    M
  Zoltán     M
  Name: SEX, dtype: object),
 ('JOB',
  Tamás       True
  Gergő       True
  Norbert     True
  Zoltán     False
  Name: JOB, dtype: bool)]

In [None]:
df.shape

(4, 3)

In [14]:
df.values

array([[28, 'M', True],
       [28, 'M', True],
       [29, 'M', True],
       [25, 'M', False]], dtype=object)

In [None]:
# Kis érdekesség

In [None]:
df["shape"] = [55, 555, 567, 66]
df["shape"]

Tamás       55
Gergő      555
Norbert    567
Zoltán      66
Name: shape, dtype: int64

In [None]:
df.shape # így nem tudom elérni, mert a df.shape védett 

(4, 4)

In [None]:
df.loc["Tamás":"Norbert"]

Unnamed: 0,AGE,SEX,JOB,shape
Tamás,28,M,True,55
Gergő,28,M,True,555
Norbert,29,M,True,567


In [None]:
df.iloc[0]

AGE        28
SEX         M
JOB      True
shape      55
Name: Tamás, dtype: object

In [None]:
df.iloc[0:2]

Unnamed: 0,AGE,SEX,JOB,shape
Tamás,28,M,True,55
Gergő,28,M,True,555


In [None]:
df.loc["Tamás"] # series-t ad vissza

AGE        28
SEX         M
JOB      True
shape      55
Name: Tamás, dtype: object

In [None]:
df.loc[["Tamás"]] # dataframe-et ad vissza

Unnamed: 0,AGE,SEX,JOB,shape
Tamás,28,M,True,55


In [None]:
df.loc["Tamás":"Gergő", ["AGE", "JOB"]]

Unnamed: 0,AGE,JOB
Tamás,28,True
Gergő,28,True


In [None]:
df["AGE"] > 25 # maszk

Tamás       True
Gergő       True
Norbert     True
Zoltán     False
Name: AGE, dtype: bool

In [None]:
df[df["AGE"] > 25] # szűrés maszkkal

Unnamed: 0,AGE,SEX,JOB,shape
Tamás,28,M,True,55
Gergő,28,M,True,555
Norbert,29,M,True,567


In [None]:
df["SEX"] == "F"

Tamás      False
Gergő      False
Norbert    False
Zoltán     False
Name: SEX, dtype: bool

In [40]:
(df["AGE"] > 25) & (df["SEX"] == "M") # maszk

Tamás       True
Gergő       True
Norbert     True
Zoltán     False
dtype: bool

In [41]:
df[(df["AGE"] > 25) & (df["SEX"] == "M")] # szűrés maszkkal

Unnamed: 0,AGE,SEX,JOB
Tamás,28,M,True
Gergő,28,M,True
Norbert,29,M,True


In [42]:
df[(df["AGE"] > 25) & (df["SEX"] == "M")]["JOB"] # Ha engem pl. csak az érdekel kinek van munkája

Tamás      True
Gergő      True
Norbert    True
Name: JOB, dtype: bool

In [None]:
df[~(df["AGE"] < 25) & ~(df["SEX"] == "F")] # Maszk megfordítása, kik azok akik nem 25 évnél fiatalabb nők?

Unnamed: 0,AGE,SEX,JOB
Tamás,28,M,True
Gergő,28,M,True
Norbert,29,M,True
Zoltán,25,M,False


#### Függvények alkalmazása DataFrame-ekre, mapping és apply műveletek segítségével

In [4]:
import numpy as np

In [5]:
house_prices = np.random.randint(20_000_000, 150_000_000, 10)
house_area = np.random.randint(30, 200, 10)

house_df = pd.DataFrame({
    "AREA": house_area,
    "PRICE": house_prices
})
house_df.head(4) # .head(x) kiírja az első x elemet

Unnamed: 0,AREA,PRICE
0,143,103580227
1,69,123799149
2,141,22490523
3,199,131100467


In [None]:
house_df.tail(4) # .tail(x) - kiírja az utolsó x elemet

Unnamed: 0,AREA,PRICE
6,115,112132590
7,189,61558068
8,123,105044443
9,124,144778446


In [None]:
# Aritmetikai műveletek

In [None]:
house_df // 10

Unnamed: 0,AREA,PRICE
0,14,5062463
1,13,9004505
2,5,7719022
3,15,3541174
4,16,9448026
5,12,3003026
6,11,11213259
7,18,6155806
8,12,10504444
9,12,14477844


In [None]:
# nm ár
house_df.PRICE // house_df.AREA

0     339762
1     677030
2    1354214
3     232972
4     559054
5     244148
6     975066
7     325704
8     854019
9    1167568
dtype: int32

In [None]:
# új oszlop létrehozására is felhasználhatom ezt, pl.:
house_df["PPSM"] = house_df.PRICE // house_df.AREA
house_df.head(4)

Unnamed: 0,AREA,PRICE,PPSM
0,149,50624634,339762
1,133,90045054,677030
2,57,77190228,1354214
3,152,35411747,232972


In [6]:
people_ages = pd.Series({
    "Attila": 40,
    "Béla": 91,
    "Cintia": 21,
    "Donatella": 16
})

people_height = pd.Series({
    "Attila": 185,
    "Béla": 163,
    "Cintia": 155,
    "Donatella": 171,
    "Erika": 190
})

people_weight = pd.Series({
    "Attila": 71,
    "Cintia": 63,
    "Donatella": 59,
    "Erika": 72
})

people_df = pd.DataFrame({
    "age": people_ages,
    "height": people_height,
    "weight": people_weight
})

people_df

Unnamed: 0,age,height,weight
Attila,40.0,185,71.0
Béla,91.0,163,
Cintia,21.0,155,63.0
Donatella,16.0,171,59.0
Erika,,190,72.0


In [7]:
# BMI index számítás
people_df.weight / (people_df.height / 100) ** 2

Attila       20.745069
Béla               NaN
Cintia       26.222685
Donatella    20.177149
Erika        19.944598
dtype: float64

In [30]:
# .div metódus használata, ennek már extra paraméterei is vannak, pl.: fill_value
# a fill_value kitölti a NaN értékeket
people_df.weight.div((people_df.height / 100) ** 2, fill_value = 0)

Attila       20.745069
Béla          0.000000
Cintia       26.222685
Donatella    20.177149
Erika        19.944598
dtype: float64

In [63]:
people_df["BMI"] = people_df.weight.div((people_df.height / 100) ** 2, fill_value = 0)
people_df

Unnamed: 0,age,height,weight,born year,sex,BMI,TTI
Attila,40.0,185,71.0,1985,M,20.745069,normális testsúly
Béla,91.0,163,,1934,M,0.0,súlyos soványság
Cintia,21.0,155,63.0,2004,F,26.222685,túlsúlyos
Donatella,16.0,171,59.0,2009,,20.177149,normális testsúly
Erika,,190,72.0,2025,F,19.944598,normális testsúly


In [54]:
people_savings = pd.Series({
"Attila": 4_500_000,
"Béla": 8_125_000,
"Cintia": 124_000,
"Erika": 6_350_000
})

people_real_estate_value = pd.Series({
"Béla": 25_000_000,
"Donatella": 65_000_000,
"Erika": 93_000_000
})

people_tied_up_capital = pd.Series({
"Attila": 3_400_000,
"Donatella": 1_000_000,
"Erika": 55_000_000
})

people_capital_df = pd.DataFrame({
"savings": people_savings,
"real estate value": people_real_estate_value,
"tied up": people_tied_up_capital
}) 

people_capital_df

Unnamed: 0,savings,real estate value,tied up
Attila,4500000.0,,3400000.0
Béla,8125000.0,25000000.0,
Cintia,124000.0,,
Donatella,,65000000.0,1000000.0
Erika,6350000.0,93000000.0,55000000.0


In [None]:
people_capital_df["total capital"] = people_capital_df["savings"].add(
        people_capital_df["real estate value"].add(
            people_capital_df["tied up"], 
            fill_value = 0
        ),
        fill_value = 0
    )

people_capital_df

Unnamed: 0,savings,real estate value,tied up,total capital
Attila,4500000.0,,3400000.0,7900000.0
Béla,8125000.0,25000000.0,,33125000.0
Cintia,124000.0,,,124000.0
Donatella,,65000000.0,1000000.0,66000000.0
Erika,6350000.0,93000000.0,55000000.0,154350000.0


Az alábbi táblázatban láthatóak az operátorokhoz tartozó metódusnevek:

| Python operátor | Pandas metódus  |
|-----------------|-----------------|
| `+`             | `.add()`        |
| `-`             | `.sub()`        |
| `*`             | `.mul()`        |
| `/`             | `.div()`        |
| `//`            | `.floordiv()`   |
| `%`             | `.mod()`        |
| `**`            | `.pow()`        |

In [15]:
df_2 = pd.DataFrame({
"A": [0, 1, 2, 3],
"B": [4, 5, 6, 7],
"C": [8, 9, 10, 11],
"D": [12, 13, 14, 15]

})
df_2

Unnamed: 0,A,B,C,D
0,0,4,8,12
1,1,5,9,13
2,2,6,10,14
3,3,7,11,15


In [16]:
# skalárral szorzás, apply-olva lesz minden értéken
df_2 * 5

Unnamed: 0,A,B,C,D
0,0,20,40,60
1,5,25,45,65
2,10,30,50,70
3,15,35,55,75


In [17]:
arr = np.array([10, 20, 30 , 40])
arr

array([10, 20, 30, 40])

In [18]:
df_2 + arr

Unnamed: 0,A,B,C,D
0,10,24,38,52
1,11,25,39,53
2,12,26,40,54
3,13,27,41,55


In [19]:
df_2.loc[0]

A     0
B     4
C     8
D    12
Name: 0, dtype: int64

In [20]:
df_2 + df_2.loc[0]

Unnamed: 0,A,B,C,D
0,0,8,16,24
1,1,9,17,25
2,2,10,18,26
3,3,11,19,27


Mapping, tehát valamilyen függvény alklamazása dataframe oszlopokra, vagy rekordokra
- `.map()` metódus: 
    -   Ez valamilyen függvényt, vagy műveletet alkalmaz az oszlopokra, és megváltoztatja az oszlopban, vagy rekordban tárolt értékeket. 
    -   Ez egy `series`-re, azaz egy oszlopra, vagy rekordra alkalmaz egy függvényt és egy ugyanolyan méretű `series`-t fog visszaadni. Minden egyes eleme, a függvény visszatérési értéke lesz.
- `.apply()` metódus: nem ezeket az értékeket változtatja meg, hanem visszatér egy `series`-el
    -   `dataframe`-ekre is alkalmazható, szintén függvényt vár, amit alklamaz az adatokra. `Lambda`-t is megadhatunk neki. Használhatjuk az `axis`-t, itt megadhatjuk, hogy mire alklamazódjön a függvény, tehát pl.: oszlopokra, vagy sorokra
    - átadhatóak neki keyword argumentumok

In [21]:
people_df

Unnamed: 0,age,height,weight
Attila,40.0,185,71.0
Béla,91.0,163,
Cintia,21.0,155,63.0
Donatella,16.0,171,59.0
Erika,,190,72.0


In [22]:
get_born_year_by_age = lambda x: 2025 - x

In [23]:
get_born_year_by_age(40)

1985

In [24]:
born_year = people_df.age.map(lambda x: 2025 - x)

In [25]:
born_year

Attila       1985.0
Béla         1934.0
Cintia       2004.0
Donatella    2009.0
Erika           NaN
Name: age, dtype: float64

In [26]:
people_df["born year"] = people_df.age.map(lambda x: int(2025 - x) if not pd.isna(x) else 2025)
people_df

Unnamed: 0,age,height,weight,born year
Attila,40.0,185,71.0,1985
Béla,91.0,163,,1934
Cintia,21.0,155,63.0,2004
Donatella,16.0,171,59.0,2009
Erika,,190,72.0,2025


In [27]:
def print_and_divide_by_100(number):
    divided = number / 100
    print(f"Old value: {number}, new value: {divided}")
    return divided

people_df.height.map(print_and_divide_by_100)

Old value: 185, new value: 1.85
Old value: 163, new value: 1.63
Old value: 155, new value: 1.55
Old value: 171, new value: 1.71
Old value: 190, new value: 1.9


Attila       1.85
Béla         1.63
Cintia       1.55
Donatella    1.71
Erika        1.90
Name: height, dtype: float64

In [28]:
people_df

Unnamed: 0,age,height,weight,born year
Attila,40.0,185,71.0,1985
Béla,91.0,163,,1934
Cintia,21.0,155,63.0,2004
Donatella,16.0,171,59.0,2009
Erika,,190,72.0,2025


In [64]:
people_df["sex"] = {
    "Attila": "M",
    "Béla": "M",
    "Cintia": "F",
    "Erika": "F"
}

In [30]:
people_df

Unnamed: 0,age,height,weight,born year,sex
Attila,40.0,185,71.0,1985,M
Béla,91.0,163,,1934,M
Cintia,21.0,155,63.0,2004,F
Donatella,16.0,171,59.0,2009,
Erika,,190,72.0,2025,F


In [31]:
translate_sex = {"F": "N",
                 "M": "F"}

people_df["sex"].map(translate_sex)

Attila         F
Béla           F
Cintia         N
Donatella    NaN
Erika          N
Name: sex, dtype: object

In [32]:
# apply az adott oszlopokra fut le, de akár minden oszlopára kiíratható
people_df.apply(lambda x: print(x, end = "\n\n"), axis = 1)

age          40.0
height        185
weight       71.0
born year    1985
sex             M
Name: Attila, dtype: object

age          91.0
height        163
weight        NaN
born year    1934
sex             M
Name: Béla, dtype: object

age          21.0
height        155
weight       63.0
born year    2004
sex             F
Name: Cintia, dtype: object

age          16.0
height        171
weight       59.0
born year    2009
sex           NaN
Name: Donatella, dtype: object

age           NaN
height        190
weight       72.0
born year    2025
sex             F
Name: Erika, dtype: object



Attila       None
Béla         None
Cintia       None
Donatella    None
Erika        None
dtype: object

In [33]:
def print_and_lower(val):
    print(val)
    return val.lower()
    

In [34]:
people_df["sex"].map(print_and_lower) # nan érték az float, ezt pedig a lower miatt csak str-re tudja értelmezni, ezért hiba

M
M
F
nan


AttributeError: 'float' object has no attribute 'lower'

In [35]:
people_df["sex"].map(print_and_lower, na_action = "ignore")

M
M
F
F


Attila         m
Béla           m
Cintia         f
Donatella    NaN
Erika          f
Name: sex, dtype: object

In [43]:
def calculate_bmi(row):
    weight = row["weight"]
    height = row["height"]
    if pd.isna(weight) or pd.isna(height):
        return np.nan
    else:
        return int(weight/ (height / 100) ** 2)

people_df.apply(calculate_bmi, axis=1)

Attila       20.0
Béla          NaN
Cintia       26.0
Donatella    20.0
Erika        19.0
dtype: float64

In [44]:
def create_TTI(row):
    bmi = row["BMI"]
    if pd.isna(bmi):
        return np.nan
    else:
        tti_categories = ["súlyos soványság", "mérsékelt soványság", "enyhe soványság", "normális testsúly", "túlsúlyos", "I. fokú elhízott", "II. fokú elhízott"]
        tti_index = int((bmi >= 16) + (bmi >= 17) + (bmi >= 18.5) + (bmi >= 25) + (bmi >=30) + (bmi >= 35) + (bmi >= 40))
        return tti_categories[tti_index]
    
people_df["TTI"] = people_df.apply(create_TTI, axis=1)

In [54]:
people_df

Unnamed: 0,age,height,weight,born year,sex,BMI,TTI
Attila,40.0,185,71.0,1985,M,20.745069,normális testsúly
Béla,91.0,163,,1934,M,0.0,súlyos soványság
Cintia,21.0,155,63.0,2004,F,26.222685,túlsúlyos
Donatella,16.0,171,59.0,2009,,20.177149,normális testsúly
Erika,,190,72.0,2025,F,19.944598,normális testsúly


In [48]:
def get_born_year(row, current_year):  
    return current_year - row["age"]

In [55]:
people_df.apply(get_born_year, axis = "columns", current_year = 2025)

Attila       1985.0
Béla         1934.0
Cintia       2004.0
Donatella    2009.0
Erika           NaN
dtype: float64

In [67]:
people_df

Unnamed: 0,age,height,weight,born year,sex,BMI,TTI
Attila,40.0,185,71.0,1985,M,20.745069,normális testsúly
Béla,91.0,163,,1934,M,0.0,súlyos soványság
Cintia,21.0,155,63.0,2004,F,26.222685,túlsúlyos
Donatella,16.0,171,59.0,2009,,20.177149,normális testsúly
Erika,,190,72.0,2025,F,19.944598,normális testsúly


In [None]:
def get_full_sex_in_hun_and_eng(row):
    sex = row["sex"]
    if pd.isna(sex): 
        return sex, sex
    tr_hun = {"M": "Férfi", "F": "Nő"}
    tr_eng = {"M": "Male", "F": "Female"}

    sex_hun = tr_hun[sex]
    sex_eng = tr_eng[sex]

    return sex_hun, sex_eng # két visszatérési érték, ez így ebben a formába negy tuple, tehát minden sorra visszatér egy tuple-el

In [85]:
people_df.apply(get_full_sex_in_hun_and_eng, axis = "columns") # oszlopok mentén apply-oltunk, minden oszlopra visszaadott egy tuple-t
# egy series-t kaptunk vissza

Attila       (Férfi, Male)
Béla         (Férfi, Male)
Cintia        (Nő, Female)
Donatella       (nan, nan)
Erika         (Nő, Female)
dtype: object

In [76]:
people_df.apply(get_full_sex_in_hun_and_eng, axis = "columns", result_type = "expand") # amikor a result_type = "expand"
# itt emiatt a pandas a több visszatérési értéket több oszlopba tette

Unnamed: 0,0,1
Attila,Férfi,Male
Béla,Férfi,Male
Cintia,Nő,Female
Donatella,,
Erika,Nő,Female


In [None]:
def get_full_sex_in_hun_and_eng2(row):
    ret = {"HUN": None, "ENG": None} # dictionary inicializálása
    sex = row["sex"]
    if pd.isna(sex): 
        ret["ENG"] = sex
        ret["HUN"] = sex
    else: 
        tr_hun = {"M": "Férfi", "F": "Nő"}
        tr_eng = {"M": "Male", "F": "Female"}

        ret["HUN"] = tr_hun[sex]
        ret["ENG"] = tr_eng[sex]

    return ret

In [79]:
people_df.apply(get_full_sex_in_hun_and_eng2, axis = "columns", result_type = "expand")

Unnamed: 0,HUN,ENG
Attila,Férfi,Male
Béla,Férfi,Male
Cintia,Nő,Female
Donatella,,
Erika,Nő,Female


In [81]:
people_df[["S_HUN", "S_ENG"]] = people_df.apply(get_full_sex_in_hun_and_eng2, axis = "columns", result_type = "expand")

In [88]:
people_df

Unnamed: 0,age,height,weight,born year,sex,BMI,TTI,S_HUN,S_ENG
Attila,40.0,185,71.0,1985,M,20.745069,normális testsúly,Férfi,Male
Béla,91.0,163,,1934,M,0.0,súlyos soványság,Férfi,Male
Cintia,21.0,155,63.0,2004,F,26.222685,túlsúlyos,Nő,Female
Donatella,16.0,171,59.0,2009,,20.177149,normális testsúly,,
Erika,,190,72.0,2025,F,19.944598,normális testsúly,Nő,Female


# Hiányzó értékek

NaN értékek, üres értékek, ezeket többféleképpen értelmezhetjük, pl.:
- törölhetünk a hiányzó értékek mentén, hiányzó értéket tartalmazó oszlopot, sort
- törölhetünk valahány hiányzó értéket tartalmazó oszlopot, sort
- hiányzó értékeket ki is tölthetjük értékekkel, pl.: 
    - fix értékkel
    - átlaggal
    - számított értékkel
    - azt megelőző legelső nem NaN értékkel
    - azt követő legelső nem NaN értékkel 


In [None]:
float_array = np.array([1, 0, -2, np.nan, 10.234]) # float type lesz np.nan miatt
# a np.nan egy numerikus érték, konkrétan egy float típusú NaN
# a NumPy felismeri, hogy minden elem numerikus, így a tömb típusa: dtype=float64

In [93]:
float_array
float_array.dtype

dtype('float64')

In [None]:
object_array = np.array([1, 0, -2, None, 10.234]) # object lesz, mivel a lista tartalmaz egy None értéket
# és a NumPy nem tud egységes numerikus típust létrehozni. A None nem numerikus, így a NumPy vegyes típusú tömbként kezeli → object

In [98]:
object_array
object_array.dtype

dtype('O')

In [100]:
object_array * 2 # -> hiba, nem tud a python "None"-t szorozni

TypeError: unsupported operand type(s) for *: 'NoneType' and 'int'

In [102]:
float_array * 2

array([ 2.   ,  0.   , -4.   ,    nan, 20.468])

In [105]:
# bármilyen matematikai műveletet végzünk NaN-nal, akkor NaN lesz a végeredmény
print(float_array.sum())
print(float_array.mean())
print(float_array.min())
print(float_array.max())


nan
nan
nan
nan


In [106]:
# emiatt minden fv-nek van egy np.nan*() verziója
print(np.nansum(float_array))
print(np.nanmean(float_array))
print(np.nanmin(float_array))
print(np.nanmax(float_array))

9.234
2.3085
-2.0
10.234


A `pandas` alapvetően a `None` értékeket `NaN`-ra konvertálja, akkor használja mégis a `None`-t, amikor alapesetben beleférne a dtype-ba
- `.insa()`
- `.notna()`

In [108]:
# None -> Nan
series4 = pd.Series([0.0, 3.14, None, np.nan])
series4

0    0.00
1    3.14
2     NaN
3     NaN
dtype: float64

In [4]:
# None marad None
series5 = pd.Series([1, "alma", np.nan, None])
series5

0       1
1    alma
2     NaN
3    None
dtype: object

In [5]:
series5.isna()

0    False
1    False
2     True
3     True
dtype: bool

In [8]:
series5.notna()

0     True
1     True
2    False
3    False
dtype: bool

In [11]:
# ezek maszkokként is használhatóak
series5[series5.isna()]

2     NaN
3    None
dtype: object

In [16]:
house_prices2 = np.random.randint(20_000_000, 150_000_000, 10)
house_area2 = np.random.randint(20, 200, 10)

house_df2 = pd.DataFrame({"area": house_area2, "price": house_prices2})
house_df2["area"] = house_df2.area.map(lambda x: None if x > 150 else x)
house_df2["price"] = house_df2.price.map(lambda x: None if x > 100_000_000 else x)

house_df2

Unnamed: 0,area,price
0,,85712235.0
1,121.0,
2,116.0,71569986.0
3,101.0,21389779.0
4,,
5,140.0,50986989.0
6,,67367433.0
7,67.0,
8,58.0,
9,54.0,34231339.0


In [18]:
house_df2.isna()

Unnamed: 0,area,price
0,True,False
1,False,True
2,False,False
3,False,False
4,True,True
5,False,False
6,True,False
7,False,True
8,False,True
9,False,False


In [20]:
# Hány NaN érték van?
house_df2.isna().sum()

area     3
price    4
dtype: int64

In [25]:
# maszkolás, töltve van az alapterület oszlopa
house_df2[house_df2.area.notna()]

Unnamed: 0,area,price
1,121.0,
2,116.0,71569986.0
3,101.0,21389779.0
5,140.0,50986989.0
7,67.0,
8,58.0,
9,54.0,34231339.0


In [30]:
# maszkolás, töltve van a price oszlopa
house_df2[house_df2.price.notna()]

Unnamed: 0,area,price
0,,85712235.0
2,116.0,71569986.0
3,101.0,21389779.0
5,140.0,50986989.0
6,,67367433.0
9,54.0,34231339.0


`.dropna()`

In [33]:
# nem modosítja a series-t csak egy view ad vissza
house_df2.dropna()

Unnamed: 0,area,price
2,116.0,71569986.0
3,101.0,21389779.0
5,140.0,50986989.0
9,54.0,34231339.0


In [35]:
series6 = pd.Series([1, 2, 3, 4, None, 7, 8, None])
series6

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
5    7.0
6    8.0
7    NaN
dtype: float64

In [37]:
series6.dropna() # tehát csak egy view, amiben nincsenek benne a None-ok, nem módosítja a Series-t

0    1.0
1    2.0
2    3.0
3    4.0
5    7.0
6    8.0
dtype: float64

In [41]:
# ha azt szeretnénk, hogy módosuljon a Series
series6.dropna(inplace = True)
series6

0    1.0
1    2.0
2    3.0
3    4.0
5    7.0
6    8.0
dtype: float64

In [45]:
house_df2["rooms"] = np.random.randint(3, 8, len(house_df2))
house_df2

Unnamed: 0,area,price,rooms
0,,85712235.0,5
1,121.0,,5
2,116.0,71569986.0,5
3,101.0,21389779.0,3
4,,,6
5,140.0,50986989.0,3
6,,67367433.0,6
7,67.0,,5
8,58.0,,3
9,54.0,34231339.0,5


In [None]:
house_df2.dropna(axis = 0) # ez egyenlő alapvetően a house_df2.dropna()-val, tehát eldobja azokat a SOROKAT, ahol NaN-van. (csak view)

Unnamed: 0,area,price,rooms
2,116.0,71569986.0,5
3,101.0,21389779.0,3
5,140.0,50986989.0,3
9,54.0,34231339.0,5


In [49]:
house_df2.dropna(axis = 1) # eldobja azokat az OSZLOPOKAT, ahol NaN van. (csak view)

Unnamed: 0,rooms
0,5
1,5
2,5
3,3
4,6
5,3
6,6
7,5
8,3
9,5


In [51]:
house_df2["owner"] = np.full(len(house_df2), np.nan)
house_df2

Unnamed: 0,area,price,rooms,owner
0,,85712235.0,5,
1,121.0,,5,
2,116.0,71569986.0,5,
3,101.0,21389779.0,3,
4,,,6,
5,140.0,50986989.0,3,
6,,67367433.0,6,
7,67.0,,5,
8,58.0,,3,
9,54.0,34231339.0,5,


In [53]:
house_df2.dropna(axis = "columns", how = "all") # azok az oslzopok kerülnek eldobásra, ahol minden érték Nan (csak view)

Unnamed: 0,area,price,rooms
0,,85712235.0,5
1,121.0,,5
2,116.0,71569986.0,5
3,101.0,21389779.0,3
4,,,6
5,140.0,50986989.0,3
6,,67367433.0,6
7,67.0,,5
8,58.0,,3
9,54.0,34231339.0,5


In [56]:
house_df2.dropna(axis = "columns", how = "any") # azok az oszlopok kerülnek eldobásra, amelyikben van van Nan (csak view)

Unnamed: 0,rooms
0,5
1,5
2,5
3,3
4,6
5,3
6,6
7,5
8,3
9,5


In [59]:
# thresh = x 
# minimum hány valid értékem kell legyen, hogy megtartsak egy oszlopot/sort
house_df2.dropna(axis = "columns", thresh = 7)

Unnamed: 0,area,rooms
0,,5
1,121.0,5
2,116.0,5
3,101.0,3
4,,6
5,140.0,3
6,,6
7,67.0,5
8,58.0,3
9,54.0,5


In [63]:
house_df2.dropna(axis = "rows", thresh = 3)

Unnamed: 0,area,price,rooms,owner
2,116.0,71569986.0,5,
3,101.0,21389779.0,3,
5,140.0,50986989.0,3,
9,54.0,34231339.0,5,


In [64]:
# subset - megadhatom, mely oszlopokat akarom vizsgálni
house_df2.dropna(subset = ["price", "rooms"]) # azokat a rekordokat droppolja, amelyeknek a "room" vagy a "price" oszlopában van NaN érték

Unnamed: 0,area,price,rooms,owner
0,,85712235.0,5,
2,116.0,71569986.0,5,
3,101.0,21389779.0,3,
5,140.0,50986989.0,3,
6,,67367433.0,6,
9,54.0,34231339.0,5,


- `.fillna()`
- `ffill()` - forward fill, lentről felfele indul, ha lát egy NaN értéket, akkor ezt keresi meg, hogy ide mit helyettesítsen be
    - teljesen NaN-os oszlopban nem tud semmit se csinálni
- `backfill()` - felülről lefele indul, így tölti ki a NaN értékeket (teljesen NaN-os oszlopban nem tud semmit csinálni)

In [69]:
house_df2.fillna(0)

Unnamed: 0,area,price,rooms,owner
0,0.0,85712235.0,5,0.0
1,121.0,0.0,5,0.0
2,116.0,71569986.0,5,0.0
3,101.0,21389779.0,3,0.0
4,0.0,0.0,6,0.0
5,140.0,50986989.0,3,0.0
6,0.0,67367433.0,6,0.0
7,67.0,0.0,5,0.0
8,58.0,0.0,3,0.0
9,54.0,34231339.0,5,0.0


In [71]:
house_df2.ffill()

Unnamed: 0,area,price,rooms,owner
0,,85712235.0,5,
1,121.0,85712235.0,5,
2,116.0,71569986.0,5,
3,101.0,21389779.0,3,
4,101.0,21389779.0,6,
5,140.0,50986989.0,3,
6,140.0,67367433.0,6,
7,67.0,67367433.0,5,
8,58.0,67367433.0,3,
9,54.0,34231339.0,5,


In [73]:
house_df2.backfill()

  house_df2.backfill()


Unnamed: 0,area,price,rooms,owner
0,121.0,85712235.0,5,
1,121.0,71569986.0,5,
2,116.0,71569986.0,5,
3,101.0,21389779.0,3,
4,140.0,50986989.0,6,
5,140.0,50986989.0,3,
6,67.0,67367433.0,6,
7,67.0,34231339.0,5,
8,58.0,34231339.0,3,
9,54.0,34231339.0,5,


In [76]:
# oszloponként meghatározott átlagokkal történő behelyettesítés
house_df2.fillna(house_df2.mean())

Unnamed: 0,area,price,rooms,owner
0,93.857143,85712240.0,5,
1,121.0,55209630.0,5,
2,116.0,71569990.0,5,
3,101.0,21389780.0,3,
4,93.857143,55209630.0,6,
5,140.0,50986990.0,3,
6,93.857143,67367430.0,6,
7,67.0,55209630.0,5,
8,58.0,55209630.0,3,
9,54.0,34231340.0,5,


# Multiindex
Multiindex-ek létrehozásának több módja is van.
- `.from_product([])`
- `.from_tuples([])`

In [6]:
index = pd.MultiIndex.from_tuples([
    ("Toyota Corolla", 2017),
    ("Toyota Corolla", 2018),
    ("Toyota Corolla", 2019),
    ("Volkswagen e-Up", 2017),
    ("Volkswagen e-Up", 2018),
    ("Volkswagen e-Up", 2019)
])

prices = [3_400_000, 3_850_000, 4_000_000, 3_790_000, 4_100_000, 4_450_000]

# index változóba, pd.Multiindex objektumot csináltunk a from_tuples metódus segítségével, ennek meg lett adva egy lista
# minden egyes lsita elem egy multiindex párost tartalmazott
# a tuple-ök első elemei képzik az elsődimenziós indexeket, a tuple-ök második elemei képzik a második dimenziósokat

In [26]:
ser = pd.Series(prices, index = index)
ser

# létrehozom a seriest, ennek is már multiindexe van

Toyota Corolla   2017    3400000
                 2018    3850000
                 2019    4000000
Volkswagen e-Up  2017    3790000
                 2018    4100000
                 2019    4450000
dtype: int64

In [19]:
df_cars = pd.DataFrame({"prices": pd.Series(prices, index = index)})
df_cars

# bal oldalon az oszlopok nincsenek elnevezve, mert mind a kettő index. 
# - az első oszlop egy első dimenziós index
# - ezek még egy dimenzióban, felbonátsban tovább vannak idexelve


Unnamed: 0,Unnamed: 1,prices
Toyota Corolla,2017,3400000
Toyota Corolla,2018,3850000
Toyota Corolla,2019,4000000
Volkswagen e-Up,2017,3790000
Volkswagen e-Up,2018,4100000
Volkswagen e-Up,2019,4450000


In [20]:
df_3 = pd.DataFrame({"prices": ser})
df_3

Unnamed: 0,Unnamed: 1,prices
Toyota Corolla,2017,3400000
Toyota Corolla,2018,3850000
Toyota Corolla,2019,4000000
Volkswagen e-Up,2017,3790000
Volkswagen e-Up,2018,4100000
Volkswagen e-Up,2019,4450000


In [27]:
# Egy másik megközelítés...

index2 = pd.MultiIndex.from_product([
    ("Toyota Corolla", "Volkswagen e-Up"), # első dimenziós értékek
    (2017, 2018, 2019) # második dimenziós értékek
])

In [28]:
df_3 = df_3.reindex(index2)
df_3

Unnamed: 0,Unnamed: 1,prices
Toyota Corolla,2017,3400000
Toyota Corolla,2018,3850000
Toyota Corolla,2019,4000000
Volkswagen e-Up,2017,3790000
Volkswagen e-Up,2018,4100000
Volkswagen e-Up,2019,4450000


Explicit indexelés: `.loc[]`

In [None]:
# .loc[]-nál kettő értéket adhatunk meg, sorszám, tehát sorindex, és az oszlop
# de multiindexnél a sorszámot kettő érték alapján lehet meghatározni
# emiatt Tuple-ként kell ide átadni
df_3.loc[("Toyota Corolla", 2019)] 

prices    4000000
Name: (Toyota Corolla, 2019), dtype: int64

In [38]:
# szemlétetés kapcsán, új sort adunk hozzá
df_3["quality"] = (4, 5, 5, 3, 4, 5)
df_3

Unnamed: 0,Unnamed: 1,prices,quality
Toyota Corolla,2017,3400000,4
Toyota Corolla,2018,3850000,5
Toyota Corolla,2019,4000000,5
Volkswagen e-Up,2017,3790000,3
Volkswagen e-Up,2018,4100000,4
Volkswagen e-Up,2019,4450000,5


In [35]:
# így jobban látszik, hogy tényleg egy sort kérünk le, nem pedig egy record-ot
df_3.loc[("Toyota Corolla", 2019)] 

prices     4000000
quality          5
Name: (Toyota Corolla, 2019), dtype: int64

In [36]:
# Ha csak egy értéket szeretnénk lekérni
df_3.loc[("Volkswagen e-Up", 2018), "quality"]

np.int64(4)

`.unstack()`: Másik view-ra való felbontás

In [39]:
df_3.unstack()

Unnamed: 0_level_0,prices,prices,prices,quality,quality,quality
Unnamed: 0_level_1,2017,2018,2019,2017,2018,2019
Toyota Corolla,3400000,3850000,4000000,4,5,5
Volkswagen e-Up,3790000,4100000,4450000,3,4,5


In [42]:
ser = pd.Series(prices, index) 
ser

Toyota Corolla   2017    3400000
                 2018    3850000
                 2019    4000000
Volkswagen e-Up  2017    3790000
                 2018    4100000
                 2019    4450000
dtype: int64

In [45]:
ser.unstack() # egy dimenziós lett az index és egy dimenziós lett az oszlop

Unnamed: 0,2017,2018,2019
Toyota Corolla,3400000,3850000,4000000
Volkswagen e-Up,3790000,4100000,4450000


Multiindex létrehozása product-ból

In [50]:
index3 = pd.MultiIndex.from_product([("Volkswagen e-Up", "Toyota Corolla"), (2017, 2018, 2019)], names = ["Car type", "Year"])
index3


MultiIndex([('Volkswagen e-Up', 2017),
            ('Volkswagen e-Up', 2018),
            ('Volkswagen e-Up', 2019),
            ( 'Toyota Corolla', 2017),
            ( 'Toyota Corolla', 2018),
            ( 'Toyota Corolla', 2019)],
           names=['Car type', 'Year'])

In [None]:
# Így már az index-eknek is vannak külön nevei, .reindex() csak view
df_3.reindex(index3)

Unnamed: 0_level_0,Unnamed: 1_level_0,prices,quality
Car type,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
Volkswagen e-Up,2017,3790000,3
Volkswagen e-Up,2018,4100000,4
Volkswagen e-Up,2019,4450000,5
Toyota Corolla,2017,3400000,4
Toyota Corolla,2018,3850000,5
Toyota Corolla,2019,4000000,5


In [56]:
df_3

Unnamed: 0,Unnamed: 1,prices,quality
Toyota Corolla,2017,3400000,4
Toyota Corolla,2018,3850000,5
Toyota Corolla,2019,4000000,5
Volkswagen e-Up,2017,3790000,3
Volkswagen e-Up,2018,4100000,4
Volkswagen e-Up,2019,4450000,5


In [59]:
df_3 = df_3.reindex(index3) # mivel a reindex csak view, így konkrétan azt kell mondanom, hogy df_3 legyen reindexelt df_3
df_3

Unnamed: 0_level_0,Unnamed: 1_level_0,prices,quality
Car type,Year,Unnamed: 2_level_1,Unnamed: 3_level_1
Volkswagen e-Up,2017,3790000,3
Volkswagen e-Up,2018,4100000,4
Volkswagen e-Up,2019,4450000,5
Toyota Corolla,2017,3400000,4
Toyota Corolla,2018,3850000,5
Toyota Corolla,2019,4000000,5


In [61]:
df_3.unstack() # oszlopindexeknek is lett egy neve így, ez lett a Year
# autó nevek ugye az index-ek, ezeket az indexeket tartalmazó dimenzió neve lett a Cary type

Unnamed: 0_level_0,prices,prices,prices,quality,quality,quality
Year,2017,2018,2019,2017,2018,2019
Car type,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Toyota Corolla,3400000,3850000,4000000,4,5,5
Volkswagen e-Up,3790000,4100000,4450000,3,4,5


In [65]:
df_3.loc["Toyota Corolla", 2017]

prices     3400000
quality          4
Name: (Toyota Corolla, 2017), dtype: int64

In [68]:
df_3.loc["Toyota Corolla", "prices"]

Year
2017    3400000
2018    3850000
2019    4000000
Name: prices, dtype: int64

Példa szemléltetésre, mind a két módon:
- Multiindex Tuple-ből

In [82]:
columns_tpl = pd.MultiIndex.from_tuples([
    ("Tejtermékek", "Január"),
    ("Tejtermékek", "Február"),
    ("Pékáru", "Január"),
    ("Pékáru", "Február")
])

data = [
    [120, 130, 200, 220],
    [150, 160, 180, 210],
    [170, 140, 190, 230]
]

df_fromtpl = pd.DataFrame(data, columns = columns_tpl, index = ["Bolt 1", "Bolt 2", "Bolt 3"])

df_fromtpl

Unnamed: 0_level_0,Tejtermékek,Tejtermékek,Pékáru,Pékáru
Unnamed: 0_level_1,Január,Február,Január,Február
Bolt 1,120,130,200,220
Bolt 2,150,160,180,210
Bolt 3,170,140,190,230


- Multiindex Product-ból

In [74]:
columns_prd = pd.MultiIndex.from_product([
    ("Tejtermékek", "Pékáru"),
    ("Január", "Február")
])

data = [
    [120, 130, 200, 220],
    [150, 160, 180, 210],
    [170, 140, 190, 230]
]

df_fromprd = pd.DataFrame(data, columns = columns_prd, index = ["Bolt 1", "Bolt 2", "Bolt 3"])

df_fromprd

Unnamed: 0_level_0,Tejtermékek,Tejtermékek,Pékáru,Pékáru
Unnamed: 0_level_1,Január,Február,Január,Február
Bolt 1,120,130,200,220
Bolt 2,150,160,180,210
Bolt 3,170,140,190,230


In [76]:
df_fromprd["Pékáru"]

Unnamed: 0,Január,Február
Bolt 1,200,220
Bolt 2,180,210
Bolt 3,190,230


In [81]:
df_fromprd["Tejtermékek", "Január"]

Bolt 1    120
Bolt 2    150
Bolt 3    170
Name: (Tejtermékek, Január), dtype: int64

In [11]:
index4 = pd.MultiIndex. from_product([['Budapest', 'Debrecen' ], ["Bolt 1", "Bolt 2"]], names = ["Város", "Bolt"])

# Többszintű oszlop index létrehozása (Termék, Hónap)
columns_ = pd.MultiIndex. from_product([["Termék A", "Termék B"], ["Január", "Február"]], names = ["Termék", "Hónap"])

# Adatok generálása
data2 = np.random.randint(50, 200, size=(4, 4))

# DataFrame létrehozása
df_4 = pd.DataFrame(data2, index = index4, columns = columns_)

df_4

Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Bolt 1,139,193,139,87
Budapest,Bolt 2,86,173,186,96
Debrecen,Bolt 1,130,124,130,52
Debrecen,Bolt 2,138,135,165,180


In [116]:
df_4["Termék A"]

Unnamed: 0_level_0,Hónap,Január,Február
Város,Bolt,Unnamed: 2_level_1,Unnamed: 3_level_1
Budapest,Bolt 1,171,95
Budapest,Bolt 2,97,134
Debrecen,Bolt 1,75,192
Debrecen,Bolt 2,132,152


In [117]:
df_4["Termék B", "Február"] # series-t kapunk

Város     Bolt  
Budapest  Bolt 1     81
          Bolt 2     60
Debrecen  Bolt 1     58
          Bolt 2    148
Name: (Termék B, Február), dtype: int32

In [118]:
df_4.loc[:, ("Termék A")] # : - mindensort lehívűnk a df-ből, ezekből A terméket szeretném látni

Unnamed: 0_level_0,Hónap,Január,Február
Város,Bolt,Unnamed: 2_level_1,Unnamed: 3_level_1
Budapest,Bolt 1,171,95
Budapest,Bolt 2,97,134
Debrecen,Bolt 1,75,192
Debrecen,Bolt 2,132,152


In [119]:
df_4.loc["Budapest"]

Termék,Termék A,Termék A,Termék B,Termék B
Hónap,Január,Február,Január,Február
Bolt,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Bolt 1,171,95,149,81
Bolt 2,97,134,132,60


In [120]:
df_4.loc[pd.IndexSlice[:, "Bolt 1"], :]

Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Bolt 1,171,95,149,81
Debrecen,Bolt 1,75,192,163,58


In [121]:
df_4.loc[pd.IndexSlice[:, "Bolt 2"], pd.IndexSlice[:, "Január"]]

Unnamed: 0_level_0,Termék,Termék A,Termék B
Unnamed: 0_level_1,Hónap,Január,Január
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2
Budapest,Bolt 2,97,132
Debrecen,Bolt 2,132,173


In [122]:
df_4

Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Bolt 1,171,95,149,81
Budapest,Bolt 2,97,134,132,60
Debrecen,Bolt 1,75,192,163,58
Debrecen,Bolt 2,132,152,173,148


- `.stack()`

In [123]:
df_4.stack() # 3 dimenziós indexet kaptunk
# tehát 3 dimenzió mentén  indexelhető és 1 dimenzió mentén kérhetőek le az oszlopok

  df_4.stack() # 3 dimenziós indexet kaptunk


Unnamed: 0_level_0,Unnamed: 1_level_0,Termék,Termék A,Termék B
Város,Bolt,Hónap,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Február,95,81
Budapest,Bolt 1,Január,171,149
Budapest,Bolt 2,Február,134,60
Budapest,Bolt 2,Január,97,132
Debrecen,Bolt 1,Február,192,58
Debrecen,Bolt 1,Január,75,163
Debrecen,Bolt 2,Február,152,148
Debrecen,Bolt 2,Január,132,173


In [124]:
df_4.unstack() # bolt-ot mozgatta fel
# 1 dimenziós indexünk van, ez a város, és egy 3 dimenziós oszlopunk

Termék,Termék A,Termék A,Termék A,Termék A,Termék B,Termék B,Termék B,Termék B
Hónap,Január,Január,Február,Február,Január,Január,Február,Február
Bolt,Bolt 1,Bolt 2,Bolt 1,Bolt 2,Bolt 1,Bolt 2,Bolt 1,Bolt 2
Város,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Budapest,171,97,95,134,149,132,81,60
Debrecen,75,132,192,152,163,173,58,148


In [125]:
df_4.stack()

  df_4.stack()


Unnamed: 0_level_0,Unnamed: 1_level_0,Termék,Termék A,Termék B
Város,Bolt,Hónap,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Február,95,81
Budapest,Bolt 1,Január,171,149
Budapest,Bolt 2,Február,134,60
Budapest,Bolt 2,Január,97,132
Debrecen,Bolt 1,Február,192,58
Debrecen,Bolt 1,Január,75,163
Debrecen,Bolt 2,Február,152,148
Debrecen,Bolt 2,Január,132,173


In [126]:
df_4.stack(level = 0) # a 0. szintű indexet fogjuk lemozgatni, tehát a termékeket

  df_4.stack(level = 0) # a 0. szintű indexet fogjuk lemozgatni, tehát a termékeket


Unnamed: 0_level_0,Unnamed: 1_level_0,Hónap,Január,Február
Város,Bolt,Termék,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Termék A,171,95
Budapest,Bolt 1,Termék B,149,81
Budapest,Bolt 2,Termék A,97,134
Budapest,Bolt 2,Termék B,132,60
Debrecen,Bolt 1,Termék A,75,192
Debrecen,Bolt 1,Termék B,163,58
Debrecen,Bolt 2,Termék A,132,152
Debrecen,Bolt 2,Termék B,173,148


In [129]:
df_4.stack(level = 1) # 1. szintű indexek lemozgatása, ez megegyezik az alap .stack() működéssel
# mert default-ba mindig a legnagyobb szintű indexet mozgatja le

  df_4.stack(level = 1) # 1. szintű indexek lemozgatása, ez megegyezik az alap .stack() működéssel


Unnamed: 0_level_0,Unnamed: 1_level_0,Termék,Termék A,Termék B
Város,Bolt,Hónap,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Február,95,81
Budapest,Bolt 1,Január,171,149
Budapest,Bolt 2,Február,134,60
Budapest,Bolt 2,Január,97,132
Debrecen,Bolt 1,Február,192,58
Debrecen,Bolt 1,Január,75,163
Debrecen,Bolt 2,Február,152,148
Debrecen,Bolt 2,Január,132,173


Ebben a `DataFrame`-ben az indexeknek is 2 szintje van (0. szint - Város, 1. szint - Bolt) és az oszlopoknak is 2 szintje van (0. szint - Termék, 1. szint Hónap)

In [131]:
df_4.stack(level = -1) # legnagyobb szintű index lemozgatása

  df_4.stack(level = -1) # legnagyobb szintű index lemozgatása


Unnamed: 0_level_0,Unnamed: 1_level_0,Termék,Termék A,Termék B
Város,Bolt,Hónap,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Február,95,81
Budapest,Bolt 1,Január,171,149
Budapest,Bolt 2,Február,134,60
Budapest,Bolt 2,Január,97,132
Debrecen,Bolt 1,Február,192,58
Debrecen,Bolt 1,Január,75,163
Debrecen,Bolt 2,Február,152,148
Debrecen,Bolt 2,Január,132,173


In [135]:
df_4.unstack(level = 0) # index átmozgatása oszlopnak, jelen esetben a várost

Termék,Termék A,Termék A,Termék A,Termék A,Termék B,Termék B,Termék B,Termék B
Hónap,Január,Január,Február,Február,Január,Január,Február,Február
Város,Budapest,Debrecen,Budapest,Debrecen,Budapest,Debrecen,Budapest,Debrecen
Bolt,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Bolt 1,171,75,95,192,149,163,81,58
Bolt 2,97,132,134,152,132,173,60,148


In [137]:
df_4.unstack(level = 0).stack(level = 2)

  df_4.unstack(level = 0).stack(level = 2)


Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Bolt,Város,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Bolt 1,Budapest,171,95,149,81
Bolt 1,Debrecen,75,192,163,58
Bolt 2,Budapest,97,134,132,60
Bolt 2,Debrecen,132,152,173,148


In [139]:
# szintek neveit is használhatjuk a level-ben
df_4.unstack(level = "Bolt")

Termék,Termék A,Termék A,Termék A,Termék A,Termék B,Termék B,Termék B,Termék B
Hónap,Január,Január,Február,Február,Január,Január,Február,Február
Bolt,Bolt 1,Bolt 2,Bolt 1,Bolt 2,Bolt 1,Bolt 2,Bolt 1,Bolt 2
Város,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Budapest,171,97,95,134,149,132,81,60
Debrecen,75,132,192,152,163,173,58,148


In [141]:
df_4.unstack(level = "Bolt").stack(level = "Termék")

  df_4.unstack(level = "Bolt").stack(level = "Termék")


Unnamed: 0_level_0,Hónap,Január,Január,Február,Február
Unnamed: 0_level_1,Bolt,Bolt 1,Bolt 2,Bolt 1,Bolt 2
Város,Termék,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Termék A,171,97,95,134
Budapest,Termék B,149,132,81,60
Debrecen,Termék A,75,132,192,152
Debrecen,Termék B,163,173,58,148


In [144]:
df_4.groupby("Város").mean() # Városok átlagai

Termék,Termék A,Termék A,Termék B,Termék B
Hónap,Január,Február,Január,Február
Város,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Budapest,134.0,114.5,140.5,70.5
Debrecen,103.5,172.0,168.0,103.0


In [148]:
df_4.groupby("Termék", axis = "columns").mean()

  df_4.groupby("Termék", axis = "columns").mean()


Unnamed: 0_level_0,Termék,Termék A,Termék B
Város,Bolt,Unnamed: 2_level_1,Unnamed: 3_level_1
Budapest,Bolt 1,133.0,115.0
Budapest,Bolt 2,115.5,96.0
Debrecen,Bolt 1,133.5,110.5
Debrecen,Bolt 2,142.0,160.5


In [153]:
df_4.stack().groupby("Város").mean()

  df_4.stack().groupby("Város").mean()


Termék,Termék A,Termék B
Város,Unnamed: 1_level_1,Unnamed: 2_level_1
Budapest,124.25,105.5
Debrecen,137.75,135.5


In [154]:
df_4

Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Bolt 1,171,95,149,81
Budapest,Bolt 2,97,134,132,60
Debrecen,Bolt 1,75,192,163,58
Debrecen,Bolt 2,132,152,173,148


In [152]:
df_4.T # megcseréli az indexeket és az oszlopokat

Unnamed: 0_level_0,Város,Budapest,Budapest,Debrecen,Debrecen
Unnamed: 0_level_1,Bolt,Bolt 1,Bolt 2,Bolt 1,Bolt 2
Termék,Hónap,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Termék A,Január,171,97,75,132
Termék A,Február,95,134,192,152
Termék B,Január,149,132,163,173
Termék B,Február,81,60,58,148


# DataFrame-ek összekapcsolása

In [7]:
%pip install jinja2

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.1.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [8]:
from IPython.display import display, HTML

In [9]:
def display_side_by_side(expressions: list[str]):
    """Display tables side by side, aligned to the top, with non-wrapping captions."""
    output = "<div style='display: flex; align-items: flex-start;'>"        
    combined = {expression: eval(expression) for expression in expressions}

    for caption, df in combined.items():
        output += f"""
        <div style='margin-right: 20px;'>
            <div style='white-space: nowrap; text-align: center; margin-bottom: 5px; font-family: monospace;'>{caption}</div>
            {df.style.set_table_attributes("style='display:inline'")._repr_html_()}
        </div>
        """

    output += "</div>"
    display(HTML(output))

In [12]:
display_side_by_side(["df_4", "df_4.stack()"])



Unnamed: 0_level_0,Termék,Termék A,Termék A,Termék B,Termék B
Unnamed: 0_level_1,Hónap,Január,Február,Január,Február
Város,Bolt,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Budapest,Bolt 1,139,193,139,87
Budapest,Bolt 2,86,173,186,96
Debrecen,Bolt 1,130,124,130,52
Debrecen,Bolt 2,138,135,165,180

Unnamed: 0_level_0,Unnamed: 1_level_0,Termék,Termék A,Termék B
Város,Bolt,Hónap,Unnamed: 3_level_1,Unnamed: 4_level_1
Budapest,Bolt 1,Február,193,87
Budapest,Bolt 1,Január,139,139
Budapest,Bolt 2,Február,173,96
Budapest,Bolt 2,Január,86,186
Debrecen,Bolt 1,Február,124,52
Debrecen,Bolt 1,Január,130,130
Debrecen,Bolt 2,Február,135,180
Debrecen,Bolt 2,Január,138,165


In [51]:
df1 = pd.DataFrame({
    "name": ["Anita", "Borbála", "János"],
    "age": [21, 32, 66]
})

df2 = pd.DataFrame({
    "name": ["Péter", "Norbert"],
    "age": [77, 18]
})

In [50]:
pd.concat([df1, df2])

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66
0,Péter,77
1,Norbert,18


In [49]:
display_side_by_side(["df1", "df2", "pd.concat([df1, df2])"])

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66

Unnamed: 0,name,age
0,Péter,77
1,Norbert,18

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66
0,Péter,77
1,Norbert,18


In [53]:
display_side_by_side(["df1", "df2", "pd.concat([df1, df2], ignore_index = True)"]) # új indexek a sorbarendezett elemeknek

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66

Unnamed: 0,name,age
0,Péter,77
1,Norbert,18

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66
3,Péter,77
4,Norbert,18


In [61]:
df3 = pd.DataFrame({
    "name": ["Judit", "Benedek", "Ilka"],
    "age": [19, 34, 28]
})

df4 = pd.DataFrame({
    "height": [156, 192, 188],
    "weight": [77, 103, 96]
})

In [62]:
# ezekre is használhatjuk a concat fv-t, oszlopok mentén fűzzük össze őket
display_side_by_side(["df3", "df4", "pd.concat([df3, df4], axis = 'columns')"])

Unnamed: 0,name,age
0,Judit,19
1,Benedek,34
2,Ilka,28

Unnamed: 0,height,weight
0,156,77
1,192,103
2,188,96

Unnamed: 0,name,age,height,weight
0,Judit,19,156,77
1,Benedek,34,192,103
2,Ilka,28,188,96


In [29]:
# alapból egyébként rows mentén történik az összefűzés, ez eltérő oszlopnevek mellett így néz ki:
pd.concat([df3, df4]) # vagy pd.concat([df3, df4], axis = 'rows')

Unnamed: 0,name,age,height,weight
0,Judit,19.0,,
1,Benedek,34.0,,
2,Ilka,28.0,,
0,,,156.0,77.0
1,,,192.0,103.0
2,,,188.0,96.0


In [38]:
# másik módja ennek, ez értelemszerűen módosítja a 'df3"-at
# df3[["height", "weight"]] = df4
# df3

Unnamed: 0,name,age,height,weight
0,Judit,19,156,77
1,Benedek,34,192,103
2,Ilka,28,188,96


In [64]:
df3

Unnamed: 0,name,age
0,Judit,19
1,Benedek,34
2,Ilka,28


In [70]:
display_side_by_side(["df1", "df2", "df3", "pd.concat([df1, df2, df3], keys = ['df1', 'df2', 'df3'])"]) 
# így gyakorlatilag multiindex jön létre

Unnamed: 0,name,age
0,Anita,21
1,Borbála,32
2,János,66

Unnamed: 0,name,age
0,Péter,77
1,Norbert,18

Unnamed: 0,name,age
0,Judit,19
1,Benedek,34
2,Ilka,28

Unnamed: 0,Unnamed: 1,name,age
df1,0,Anita,21
df1,1,Borbála,32
df1,2,János,66
df2,0,Péter,77
df2,1,Norbert,18
df3,0,Judit,19
df3,1,Benedek,34
df3,2,Ilka,28


In [73]:
df5 = pd.DataFrame({
    "Név": ["Gergő", "Karcsi", "Zoli"],
    "Kor": [19, 77, 27]
})

df6 = pd.DataFrame({
    "Név": ['Kálmán', "József", "Sándor"],
    "Kor": [77, 89, 11],
    "Város": ["Nyíregyháza", "Sárospatak", "Kerepes"]
})

In [79]:
display_side_by_side(["df5", "df6", "pd.concat([df5, df6], join = 'inner')"])

Unnamed: 0,Név,Kor
0,Gergő,19
1,Karcsi,77
2,Zoli,27

Unnamed: 0,Név,Kor,Város
0,Kálmán,77,Nyíregyháza
1,József,89,Sárospatak
2,Sándor,11,Kerepes

Unnamed: 0,Név,Kor
0,Gergő,19
1,Karcsi,77
2,Zoli,27
0,Kálmán,77
1,József,89
2,Sándor,11


In [88]:
display_side_by_side(["df5", "df6", "pd.concat([df5, df6], join = 'outer')"])

Unnamed: 0,Név,Kor
0,Gergő,19
1,Karcsi,77
2,Zoli,27

Unnamed: 0,Név,Kor,Város
0,Kálmán,77,Nyíregyháza
1,József,89,Sárospatak
2,Sándor,11,Kerepes

Unnamed: 0,Név,Kor,Város
0,Gergő,19,
1,Karcsi,77,
2,Zoli,27,
0,Kálmán,77,Nyíregyháza
1,József,89,Sárospatak
2,Sándor,11,Kerepes


In [92]:
# ebben a példában egy embert a neve és városa azonosít

dfone = pd.DataFrame({
    "Name": ['Aladár', 'László', 'Margit', 'Éva'],
    'City': ['Siklós', 'Keszthely', 'Veszprém', 'Tárnok'],
    'Age': [43, 54, 32, 67]
})

dftwo = pd.DataFrame({
    "Name": ['Árpád', 'Éva', 'László', 'Aladár', 'Margit'],
    "City": ["Budapest", "Tárnok", "Eger", "Budaörs", "Veszprém"],
    "Bér": [250000, 812000, 1200000, 325000, 2105000]
})

In [94]:
# merge - megnézte a két df-et, megnézte a közös oszlopokat, megnézte ezekben a közös értékeket és ez alapján csinált egy dataframe-et
display_side_by_side(["dfone", "dftwo", "pd.merge(dfone, dftwo)"])

Unnamed: 0,Name,City,Age
0,Aladár,Siklós,43
1,László,Keszthely,54
2,Margit,Veszprém,32
3,Éva,Tárnok,67

Unnamed: 0,Name,City,Bér
0,Árpád,Budapest,250000
1,Éva,Tárnok,812000
2,László,Eger,1200000
3,Aladár,Budaörs,325000
4,Margit,Veszprém,2105000

Unnamed: 0,Name,City,Age,Bér
0,Margit,Veszprém,32,2105000
1,Éva,Tárnok,67,812000


In [96]:
display_side_by_side(["df5", "df6", "pd.merge(df5, df6)"]) # üres mert nem voltak közös adatok a közös oszlopok alapján

Unnamed: 0,Név,Kor
0,Gergő,19
1,Karcsi,77
2,Zoli,27

Unnamed: 0,Név,Kor,Város
0,Kálmán,77,Nyíregyháza
1,József,89,Sárospatak
2,Sándor,11,Kerepes

Unnamed: 0,Név,Kor,Város


In [98]:
dfthree = pd.DataFrame({
    'Név': ['Anna', 'Bela', 'Cecilia', 'Denes' ],
    'Város': ['Budapest', 'Debrecen', 'Szeged', 'Pecs' ],
    'Osztály': ['IT', 'HR', 'FIÓK', 'FIÓK']
})

dffour = pd.DataFrame({
    'Osztály': ["FIÓK", "HR", "IT"],
    'Home Office': [False, True, True],
    'Jogosultság': ['Széf', 'Fizetések', 'Adatbázisok'],
    'Bérezés': ['Bérsávos', 'Dinamikus', 'Dinamikus']
})

In [100]:
display_side_by_side(["dfthree", "dffour", "pd.merge(dfthree, dffour)"])

Unnamed: 0,Név,Város,Osztály
0,Anna,Budapest,IT
1,Bela,Debrecen,HR
2,Cecilia,Szeged,FIÓK
3,Denes,Pecs,FIÓK

Unnamed: 0,Osztály,Home Office,Jogosultság,Bérezés
0,FIÓK,False,Széf,Bérsávos
1,HR,True,Fizetések,Dinamikus
2,IT,True,Adatbázisok,Dinamikus

Unnamed: 0,Név,Város,Osztály,Home Office,Jogosultság,Bérezés
0,Anna,Budapest,IT,True,Adatbázisok,Dinamikus
1,Bela,Debrecen,HR,True,Fizetések,Dinamikus
2,Cecilia,Szeged,FIÓK,False,Széf,Bérsávos
3,Denes,Pecs,FIÓK,False,Széf,Bérsávos


In [5]:
# mi is megmondhatjuk mi alapján történjen a merge-ölés, pl. itt nem jó, ha a bérezés alapján történik
dffive = pd.DataFrame({
    'Név': ['Anna', 'Béla', 'Cecília', 'Dénes' ],
    'Város': ['Budapest', 'Debrecen', 'Szeged' , 'Pecs' ],
    'Osztály': ['IT', 'HR', 'FIÓK', 'FIOK'],
    'Bérezés': ['Esedékes', 'Kiutalva', 'Kiutalva', 'Esedekes']
})

dfsix = pd.DataFrame({
    'Osztály': ["FIÓK", "HR", "IT"],
    'Home Office': [False, True, True],
    'Jogosultság': ['Széf', 'Fizetések', 'Adatbázisok'],
    'Bérezés': ['Bérsávos', 'Dinamikus', 'Dinamikus']
})

In [7]:
display_side_by_side(["dffive", "dfsix", "pd.merge(dffive, dfsix, on = 'Osztály')"])

Unnamed: 0,Név,Város,Osztály,Bérezés
0,Anna,Budapest,IT,Esedékes
1,Béla,Debrecen,HR,Kiutalva
2,Cecília,Szeged,FIÓK,Kiutalva
3,Dénes,Pecs,FIOK,Esedekes

Unnamed: 0,Osztály,Home Office,Jogosultság,Bérezés
0,FIÓK,False,Széf,Bérsávos
1,HR,True,Fizetések,Dinamikus
2,IT,True,Adatbázisok,Dinamikus

Unnamed: 0,Név,Város,Osztály,Bérezés_x,Home Office,Jogosultság,Bérezés_y
0,Anna,Budapest,IT,Esedékes,True,Adatbázisok,Dinamikus
1,Béla,Debrecen,HR,Kiutalva,True,Fizetések,Dinamikus
2,Cecília,Szeged,FIÓK,Kiutalva,False,Széf,Bérsávos


In [9]:
pd.merge(dffive, dfsix, on = 'Osztály', suffixes = [" Személy", " Pozíció"])

Unnamed: 0,Név,Város,Osztály,Bérezés Személy,Home Office,Jogosultság,Bérezés Pozíció
0,Anna,Budapest,IT,Esedékes,True,Adatbázisok,Dinamikus
1,Béla,Debrecen,HR,Kiutalva,True,Fizetések,Dinamikus
2,Cecília,Szeged,FIÓK,Kiutalva,False,Széf,Bérsávos


In [11]:
employees = pd.DataFrame({
    'name': ['István', 'Mária', 'Csaba', 'Ádám'],
    'department': ['HR', 'IT', 'HR', 'Finance']
})

departments = pd.DataFrame({
    'department_name': ['HR', 'IT', 'Finance', 'Marketing'],
    'manager': ['Sándor', 'József', 'Benedek', 'Árpád']
})

In [16]:
display_side_by_side(['employees', 'departments', 'pd.merge(employees, departments, left_on = "department", right_on = "department_name")'])

Unnamed: 0,name,department
0,István,HR
1,Mária,IT
2,Csaba,HR
3,Ádám,Finance

Unnamed: 0,department_name,manager
0,HR,Sándor
1,IT,József
2,Finance,Benedek
3,Marketing,Árpád

Unnamed: 0,name,department,department_name,manager
0,István,HR,HR,Sándor
1,Mária,IT,IT,József
2,Csaba,HR,HR,Sándor
3,Ádám,Finance,Finance,Benedek


In [127]:
students = pd.DataFrame({
    'student_name': ['Ádam', 'Bence', 'Csilla', 'Dora', 'Eszter'],
    'course': ['Matematika', 'Fizika', 'Matematika', 'Kemia', 'Matematika'],
    'teacher': ['Dr. Nagy', 'Dr. Kiss', 'Dr. Toth', 'Dr. Toth', 'Dr. Kiss']
})

course_schedule = pd. DataFrame({
    'subject': ['Matematika', 'Matematika', 'Fizika', 'Kemia'],
    'professor': ['Dr. Nagy', 'Dr. Kiss', 'Dr. Kiss', 'Dr. Toth'],
    'credits': [0, 7, 7, 3]
})

In [20]:
pd.merge(students, course_schedule, left_on = ["course", "teacher"], right_on = ["subject", "professor"])

Unnamed: 0,student_name,course,teacher,subject,professor,credits
0,Ádam,Matematika,Dr. Nagy,Matematika,Dr. Nagy,0
1,Bence,Fizika,Dr. Kiss,Fizika,Dr. Kiss,7
2,Dora,Kemia,Dr. Toth,Kemia,Dr. Toth,3
3,Eszter,Matematika,Dr. Kiss,Matematika,Dr. Kiss,7


In [21]:
pd.merge(students, course_schedule, left_on = ["course", "teacher"], right_on = ["subject", "professor"]).drop(["subject", "professor"], axis = "columns")

Unnamed: 0,student_name,course,teacher,credits
0,Ádam,Matematika,Dr. Nagy,0
1,Bence,Fizika,Dr. Kiss,7
2,Dora,Kemia,Dr. Toth,3
3,Eszter,Matematika,Dr. Kiss,7


In [23]:
pd.merge(students, course_schedule, left_on = ["course", "teacher"], right_on = ["subject", "professor"], how = 'left')

Unnamed: 0,student_name,course,teacher,subject,professor,credits
0,Ádam,Matematika,Dr. Nagy,Matematika,Dr. Nagy,0.0
1,Bence,Fizika,Dr. Kiss,Fizika,Dr. Kiss,7.0
2,Csilla,Matematika,Dr. Toth,,,
3,Dora,Kemia,Dr. Toth,Kemia,Dr. Toth,3.0
4,Eszter,Matematika,Dr. Kiss,Matematika,Dr. Kiss,7.0


In [25]:
pd.merge(students, course_schedule, left_on = ["course", "teacher"], right_on = ["subject", "professor"], how = 'right')

Unnamed: 0,student_name,course,teacher,subject,professor,credits
0,Ádam,Matematika,Dr. Nagy,Matematika,Dr. Nagy,0
1,Eszter,Matematika,Dr. Kiss,Matematika,Dr. Kiss,7
2,Bence,Fizika,Dr. Kiss,Fizika,Dr. Kiss,7
3,Dora,Kemia,Dr. Toth,Kemia,Dr. Toth,3


In [26]:
pd.merge(students, course_schedule, left_on = ["course", "teacher"], right_on = ["subject", "professor"], how = 'outer')

Unnamed: 0,student_name,course,teacher,subject,professor,credits
0,Bence,Fizika,Dr. Kiss,Fizika,Dr. Kiss,7.0
1,Dora,Kemia,Dr. Toth,Kemia,Dr. Toth,3.0
2,Eszter,Matematika,Dr. Kiss,Matematika,Dr. Kiss,7.0
3,Ádam,Matematika,Dr. Nagy,Matematika,Dr. Nagy,0.0
4,Csilla,Matematika,Dr. Toth,,,


# Aggregálás

In [13]:
df7 = pd.DataFrame({
    "col_a": np.random.randint(-100, 100, 10),
    "col_b": np.random.randint(0, 200, 10),
    "col_c": np.random.randint(100, 1000, 10)
})

df7

Unnamed: 0,col_a,col_b,col_c
0,58,199,917
1,-1,116,148
2,-31,156,475
3,-60,14,994
4,59,38,236
5,-43,101,551
6,-61,151,993
7,11,166,302
8,-4,67,659
9,37,22,664


In [14]:
# átlag
df7.mean()

col_a     -3.5
col_b    103.0
col_c    593.9
dtype: float64

In [15]:
df7.mean(axis = 'columns')

0    391.333333
1     87.666667
2    200.000000
3    316.000000
4    111.000000
5    203.000000
6    361.000000
7    159.666667
8    240.666667
9    241.000000
dtype: float64

In [16]:
# mutatók kirajzoltatása
df7.describe()

Unnamed: 0,col_a,col_b,col_c
count,10.0,10.0,10.0
mean,-3.5,103.0,593.9
std,45.166974,65.382634,309.301884
min,-61.0,14.0,148.0
25%,-40.0,45.25,345.25
50%,-2.5,108.5,605.0
75%,30.5,154.75,853.75
max,59.0,199.0,994.0


In [17]:
# category oszlop létrehozása a df7 DataFrame-ben, amiben A, B és C értékek helyezkednek el véletlenszerűen
df7["category"] = np.array(["A", "B", "C"])[np.random.randint(0, 3, 10)] 
df7

Unnamed: 0,col_a,col_b,col_c,category
0,58,199,917,B
1,-1,116,148,C
2,-31,156,475,C
3,-60,14,994,A
4,59,38,236,B
5,-43,101,551,A
6,-61,151,993,B
7,11,166,302,A
8,-4,67,659,B
9,37,22,664,A


In [18]:
df7.groupby('category').mean()

Unnamed: 0_level_0,col_a,col_b,col_c
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,-13.75,75.75,627.75
B,13.0,113.75,701.25
C,-16.0,136.0,311.5


In [19]:
df7.groupby('category').describe().stack().unstack('category')

  df7.groupby('category').describe().stack().unstack('category')


Unnamed: 0_level_0,col_a,col_a,col_a,col_b,col_b,col_b,col_c,col_c,col_c
category,A,B,C,A,B,C,A,B,C
count,4.0,4.0,2.0,4.0,4.0,2.0,4.0,4.0,2.0
mean,-13.75,13.0,-16.0,75.75,113.75,136.0,627.75,701.25,311.5
std,45.39732,57.463032,21.213203,71.84416,74.338752,28.284271,287.203035,341.520497,231.223917
min,-60.0,-61.0,-31.0,14.0,38.0,116.0,302.0,236.0,148.0
25%,-47.25,-18.25,-23.5,20.0,59.75,126.0,488.75,553.25,229.75
50%,-16.0,27.0,-16.0,61.5,109.0,136.0,607.5,788.0,311.5
75%,17.5,58.25,-8.5,117.25,163.0,146.0,746.5,936.0,393.25
max,37.0,59.0,-1.0,166.0,199.0,156.0,994.0,993.0,475.0


In [20]:
# aggregate, több metódust is megadhatunk neki
df7.groupby('category').aggregate('mean')

Unnamed: 0_level_0,col_a,col_b,col_c
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,-13.75,75.75,627.75
B,13.0,113.75,701.25
C,-16.0,136.0,311.5


In [21]:
df7.groupby('category').aggregate(['mean', 'median', 'std']) 

Unnamed: 0_level_0,col_a,col_a,col_a,col_b,col_b,col_b,col_c,col_c,col_c
Unnamed: 0_level_1,mean,median,std,mean,median,std,mean,median,std
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
A,-13.75,-16.0,45.39732,75.75,61.5,71.84416,627.75,607.5,287.203035
B,13.0,27.0,57.463032,113.75,109.0,74.338752,701.25,788.0,341.520497
C,-16.0,-16.0,21.213203,136.0,136.0,28.284271,311.5,311.5,231.223917


In [22]:
df7.groupby('category').aggregate({
    'col_a': ['mean', 'median', 'std'],
    'col_b': 'max'
    }) 

Unnamed: 0_level_0,col_a,col_a,col_a,col_b
Unnamed: 0_level_1,mean,median,std,max
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A,-13.75,-16.0,45.39732,166
B,13.0,27.0,57.463032,199
C,-16.0,-16.0,21.213203,156


In [23]:
df7.groupby('category').aggregate({
    'col_a': ['mean', 'median', 'std'],
    'col_b': 'max',
    'col_c': list
    }) 

Unnamed: 0_level_0,col_a,col_a,col_a,col_b,col_c
Unnamed: 0_level_1,mean,median,std,max,list
category,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
A,-13.75,-16.0,45.39732,166,"[994, 551, 302, 664]"
B,13.0,27.0,57.463032,199,"[917, 236, 993, 659]"
C,-16.0,-16.0,21.213203,156,"[148, 475]"


In [24]:
df7.groupby('category').agg(
    MEAN = ('col_a', 'mean'),
    CONCATENATED = ("col_c", lambda x: "_".join(map(str, x)))
)

Unnamed: 0_level_0,MEAN,CONCATENATED
category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,-13.75,994_551_302_664
B,13.0,917_236_993_659
C,-16.0,148_475


In [25]:
df7

Unnamed: 0,col_a,col_b,col_c,category
0,58,199,917,B
1,-1,116,148,C
2,-31,156,475,C
3,-60,14,994,A
4,59,38,236,B
5,-43,101,551,A
6,-61,151,993,B
7,11,166,302,A
8,-4,67,659,B
9,37,22,664,A


In [26]:
df7.groupby('category').sum()

Unnamed: 0_level_0,col_a,col_b,col_c
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,-55,303,2511
B,52,455,2805
C,-32,272,623


In [28]:
# filter
df7.groupby('category').filter(lambda x: x["col_a"].sum() > 50)

Unnamed: 0,col_a,col_b,col_c,category
0,58,199,917,B
4,59,38,236,B
6,-61,151,993,B
8,-4,67,659,B


In [29]:
df7.groupby('category').transform(lambda x: x - x.mean())

Unnamed: 0,col_a,col_b,col_c
0,45.0,85.25,215.75
1,15.0,-20.0,-163.5
2,-15.0,20.0,163.5
3,-46.25,-61.75,366.25
4,46.0,-75.75,-465.25
5,-29.25,25.25,-76.75
6,-74.0,37.25,291.75
7,24.75,90.25,-325.75
8,-17.0,-46.75,-42.25
9,50.75,-53.75,36.25


In [68]:
df8 = pd.DataFrame({
     "col_a": [1, 1, 1, 2, 2, 2, 2, 3, 3, 3],
     "col_b": [1, 2, 3, 10, 20, 30, 40, 100, 200, 300]
})
df8

Unnamed: 0,col_a,col_b
0,1,1
1,1,2
2,1,3
3,2,10
4,2,20
5,2,30
6,2,40
7,3,100
8,3,200
9,3,300


In [70]:
# nem feltétlen kell új oszlopot létrehozni a df-ben, hogy groupby-olni tudjunk
cat = [0, 0, 0, 1, 1, 1, 1, 2, 2, 2]
df8.groupby(cat).mean()

Unnamed: 0,col_a,col_b
0,1.0,2.0
1,2.0,25.0
2,3.0,200.0


In [72]:
def create_groups(idx):
    if idx % 3 == 0:
        return "A"
    if idx % 3 == 1:
        return "B"
    return "C"

In [77]:
df8

Unnamed: 0,col_a,col_b
0,1,1
1,1,2
2,1,3
3,2,10
4,2,20
5,2,30
6,2,40
7,3,100
8,3,200
9,3,300


In [76]:
df8.groupby(create_groups).sum()

Unnamed: 0,col_a,col_b
A,8,351
B,6,122
C,6,233


In [79]:
df8.groupby([cat, create_groups]).mean()

Unnamed: 0,Unnamed: 1,col_a,col_b
0,A,1.0,1.0
0,B,1.0,2.0
0,C,1.0,3.0
1,A,2.0,25.0
1,B,2.0,20.0
1,C,2.0,30.0
2,A,3.0,300.0
2,B,3.0,100.0
2,C,3.0,200.0


# Pivotálás

In [81]:
pd.DataFrame.pivot_table?

[31mSignature:[39m
pd.DataFrame.pivot_table(
    self,
    values=[38;5;28;01mNone[39;00m,
    index=[38;5;28;01mNone[39;00m,
    columns=[38;5;28;01mNone[39;00m,
    aggfunc: [33m'AggFuncType'[39m = [33m'mean'[39m,
    fill_value=[38;5;28;01mNone[39;00m,
    margins: [33m'bool'[39m = [38;5;28;01mFalse[39;00m,
    dropna: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
    margins_name: [33m'Level'[39m = [33m'All'[39m,
    observed: [33m'bool | lib.NoDefault'[39m = <no_default>,
    sort: [33m'bool'[39m = [38;5;28;01mTrue[39;00m,
) -> [33m'DataFrame'[39m
[31mDocstring:[39m
Create a spreadsheet-style pivot table as a DataFrame.

The levels in the pivot table will be stored in MultiIndex objects
(hierarchical indexes) on the index and columns of the result DataFrame.

Parameters
----------
values : list-like or scalar, optional
    Column or columns to aggregate.
index : column, Grouper, array, or list of the previous
    Keys to group by on the pivot table 

In [30]:
%pip install seaborn

Collecting seaborn
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting matplotlib!=3.6.1,>=3.4 (from seaborn)
  Downloading matplotlib-3.10.7-cp313-cp313-win_amd64.whl.metadata (11 kB)
Collecting contourpy>=1.0.1 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading contourpy-1.3.3-cp313-cp313-win_amd64.whl.metadata (5.5 kB)
Collecting cycler>=0.10 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading fonttools-4.60.1-cp313-cp313-win_amd64.whl.metadata (114 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading kiwisolver-1.4.9-cp313-cp313-win_amd64.whl.metadata (6.4 kB)
Collecting pillow>=8 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading pillow-12.0.0-cp313-cp313-win_amd64.whl.metadata (9.0 kB)
Collecting pyparsing>=3 (from matplotlib!=3.6.1,>=3.4->seaborn)
  Downloading pyparsing-3.2.5-py3-none


[notice] A new release of pip is available: 25.1.1 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [31]:
import seaborn as sns

In [None]:
data = pd.read_csv('titanic.csv') 
data.head()

# sajnos az adatbázis messze nem tartalmazza a teljes utaslistát, így az adatok nagyon megtévesztőek... 
# így az adatbázis a katasztrófa valós adatainak és összefüggéseinek megismerésére nem alkalmas!

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [91]:
data

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True


In [93]:
# túlélési arányok, esélyek osztálok és nemek alapján
data.groupby(['class', 'sex'])['survived'].mean()

class   sex   
First   female    0.968085
        male      0.368852
Second  female    0.921053
        male      0.157407
Third   female    0.500000
        male      0.135447
Name: survived, dtype: float64

In [97]:
# harmadik osztályon utazó nők (ismét, nagyon megtévesztő adatok, mivel az adatbázis közel sem teljes...)
data[(data['class'] == 'Third') & (data['sex'] == 'female')]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
8,1,3,female,27.0,0,2,11.1333,S,Third,woman,False,,Southampton,yes,False
10,1,3,female,4.0,1,1,16.7000,S,Third,child,False,G,Southampton,yes,False
14,0,3,female,14.0,0,0,7.8542,S,Third,child,False,,Southampton,no,True
18,0,3,female,31.0,1,0,18.0000,S,Third,woman,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
863,0,3,female,,8,2,69.5500,S,Third,woman,False,,Southampton,no,False
875,1,3,female,15.0,0,0,7.2250,C,Third,child,False,,Cherbourg,yes,True
882,0,3,female,22.0,0,0,10.5167,S,Third,woman,False,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False


In [100]:
data.groupby(['class', 'sex'])['survived'].mean().unstack()

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,0.968085,0.368852
Second,0.921053,0.157407
Third,0.5,0.135447


In [104]:
data.pivot_table('survived', index = 'class', columns = 'sex', aggfunc = 'mean')

sex,female,male
class,Unnamed: 1_level_1,Unnamed: 2_level_1
First,0.968085,0.368852
Second,0.921053,0.157407
Third,0.5,0.135447


In [116]:
# életkor alapján felbontjuk az adatokat, így keletkező kategóriák: 0-15, 15-60, 60-100)
age = pd.cut(data['age'], [0, 15, 60, 100]) 

In [117]:
# tehát a 0. rekord egy 15 és 60 év közötti személyt tartalmaz
age

0      (15.0, 60.0]
1      (15.0, 60.0]
2      (15.0, 60.0]
3      (15.0, 60.0]
4      (15.0, 60.0]
           ...     
886    (15.0, 60.0]
887    (15.0, 60.0]
888             NaN
889    (15.0, 60.0]
890    (15.0, 60.0]
Name: age, Length: 891, dtype: category
Categories (3, interval[int64, right]): [(0, 15] < (15, 60] < (60, 100]]

In [119]:
data.pivot_table('survived', index = ['sex', age], columns = 'class', aggfunc = 'mean')

  data.pivot_table('survived', index = ['sex', age], columns = 'class', aggfunc = 'mean')


Unnamed: 0_level_0,class,First,Second,Third
sex,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,"(0, 15]",0.666667,1.0,0.533333
female,"(15, 60]",0.975,0.90625,0.422535
female,"(60, 100]",1.0,,1.0
male,"(0, 15]",1.0,1.0,0.321429
male,"(15, 60]",0.418605,0.057471,0.131222
male,"(60, 100]",0.083333,0.333333,0.0


In [124]:
data.pivot_table(index = 'sex', columns = 'class',
                 aggfunc = {'survived': 'mean', 'age': 'max'}) 

Unnamed: 0_level_0,age,age,age,survived,survived,survived
class,First,Second,Third,First,Second,Third
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
female,63.0,57.0,63.0,0.968085,0.921053,0.5
male,80.0,70.0,74.0,0.368852,0.157407,0.135447


In [126]:
data.pivot_table('survived', index = 'sex', columns = 'class', aggfunc = 'mean', margins = True)

class,First,Second,Third,All
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
female,0.968085,0.921053,0.5,0.742038
male,0.368852,0.157407,0.135447,0.188908
All,0.62963,0.472826,0.242363,0.383838


Adatok kiírása:
- `students.to_csv('students.csv')`
- `students.to_excel('students.xlsx, sheet_name = 'students')`
- `data.pivot_table('survived', index = ['sex', age], columns = 'class', aggfunc = 'mean').to_excel('titanic.xlsx', sheet_name = 'titanic')`

Adatok beolvasása:
- `data_2 = pd.read_excel('titanic.xlsx', sheet_name = 'titanic')`