<img src="
https://raw.githubusercontent.com/minorharpman/ai_prog_pub/main/pandas/csoportositas.png"
 width="1000">

## Pandas: csoportosítás

In [1]:
# Importáljuk a pandas könyvtárat, amit általában "pd" néven szokás rövidíteni.
# A pandas egy Python könyvtár táblázatos (Excel-szerű) adatok kezelésére.
import pandas as pd

In [2]:
# Beolvasunk egy Excel fájlt DataFrame-be.
# A pd.read_excel() függvény egy Excel fájlt olvas be és DataFrame-et ad vissza.
# A DataFrame a pandas egyik legfontosabb adattípusa, egy táblázatszerű adatstruktúra.
df = pd.read_excel("mobil_bob_shop.xlsx")

In [3]:
# Új oszlopot hozunk létre 'bevétel' néven.
# A df['mennyiség'] és df['ár'] oszlopokat összeszorozzuk soronként.
# Ez szintén egy pandas Series típusú objektum, amit új oszlopként tárolunk.
df['Bevétel'] = df['Mennyiség'] * df['Ár']
df

Unnamed: 0,Termék,Mennyiség,Ár,Bevétel (eFt),Kategória,Régió,Akció,Dátum,Bevétel
0,Samsung Galaxy Watch,29,31367,909.643,Kiegészítő,Székesfehérvár,False,2025-06-15,909643
1,iPad Pro,14,118223,1655.122,Tablet,Székesfehérvár,True,2025-07-09,1655122
2,Oppo Find X5,10,176109,1761.090,Mobiltelefon,Szeged,False,2025-06-04,1761090
3,Panasonic TX,28,488628,13681.584,TV,Kecskemét,False,2025-05-29,13681584
4,Samsung QLED,20,748406,14968.120,TV,Győr,True,2025-06-07,14968120
...,...,...,...,...,...,...,...,...,...
995,Oppo Find X5,16,405636,6490.176,Mobiltelefon,Kecskemét,False,2025-04-15,6490176
996,MacBook Air,13,229292,2980.796,Laptop,Szeged,False,2025-04-30,2980796
997,Samsung Galaxy Tab S8,20,178929,3578.580,Tablet,Pécs,True,2025-07-11,3578580
998,Panasonic TX,17,178137,3028.329,TV,Pécs,False,2025-05-04,3028329


In [4]:
# Megnézzük az első néhány sort, hogy lássuk, hogyan néz ki az adatkeret.
df.head()

Unnamed: 0,Termék,Mennyiség,Ár,Bevétel (eFt),Kategória,Régió,Akció,Dátum,Bevétel
0,Samsung Galaxy Watch,29,31367,909.643,Kiegészítő,Székesfehérvár,False,2025-06-15,909643
1,iPad Pro,14,118223,1655.122,Tablet,Székesfehérvár,True,2025-07-09,1655122
2,Oppo Find X5,10,176109,1761.09,Mobiltelefon,Szeged,False,2025-06-04,1761090
3,Panasonic TX,28,488628,13681.584,TV,Kecskemét,False,2025-05-29,13681584
4,Samsung QLED,20,748406,14968.12,TV,Győr,True,2025-06-07,14968120


* A pandas.DataFrame.groupby() egy nagyon hasznos módszer a csoportosított adatelemzésre Pythonban. Lehetővé teszi, hogy egy DataFrame-et egy vagy több oszlop alapján csoportosíts, majd ezekre a csoportokra összesítő műveleteket

In [5]:
# Összesítjük a termékek eladott mennyiségét kategóriánként.
# A groupby() függvény logikailag "szétválasztja" a táblázatot a 'kategória' értékek szerint.
# Ezután a ['mennyiség'].sum() összegzi az eladásokat kategóriánként.
kategoriai_mennyiseg = df.groupby('Kategória')['Mennyiség'].sum()
kategoriai_mennyiseg

Kategória
Kiegészítő      6669
Laptop          4148
Mobiltelefon    3642
TV              4385
Tablet          4068
Name: Mennyiség, dtype: int64

In [6]:
# DataFrameGroupBy objektum, nem ad vissza adatot
# DataFrame - kétdimenziós táblázat
test = df.groupby('Kategória')
test

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000026B0D6216D0>

In [7]:
# SeriesGroupBy  objektum, nem ad vissza adatot
# Series - egydimenziós (oszlop vagy sor)
test = df.groupby('Kategória')['Mennyiség']
test

<pandas.core.groupby.generic.SeriesGroupBy object at 0x0000026B0D620410>

In [8]:
test.sum() # összeg
#test.mean() # átlag
#test.median() # középérték
#test.max() # max
#test.min() # min

Kategória
Kiegészítő      6669
Laptop          4148
Mobiltelefon    3642
TV              4385
Tablet          4068
Name: Mennyiség, dtype: int64

In [9]:
# Megnézzük az árbevételt kategóriánként.
# Hasonló a fentihez, de most a 'bevétel' oszlopot összegezzük a kategóriák szerint.
kategoriai_bevetel = df.groupby('Kategória')['Bevétel'].sum()
kategoriai_bevetel

Kategória
Kiegészítő       279322964
Laptop          1836413286
Mobiltelefon    1205240097
TV              1960771218
Tablet           981802992
Name: Bevétel, dtype: int64

In [10]:
# Dátum szerint csoportosítjuk a bevételeket, és időbeli trendet nézünk.
# Ez hasznos lehet, ha pl. napi/havi eladásokat akarunk vizsgálni.
# Feltételezzük, hogy a 'dátum' oszlop pandas datetime típusú (ha nem, előbb át kell alakítani).
napi_bevetel = df.groupby('Dátum')['Bevétel'].sum()
napi_bevetel

Dátum
2025-04-10    73101710
2025-04-11    75452978
2025-04-12    54924875
2025-04-13    29990519
2025-04-14    27014581
                ...   
2025-07-15    48818654
2025-07-16    87826730
2025-07-17    69395507
2025-07-18    83186804
2025-07-19    91908620
Name: Bevétel, Length: 101, dtype: int64

In [11]:
# Megnézzük, régiónként hogyan alakult az árbevétel.
# groupby('régió') szerint csoportosítunk, majd a bevételeket összegezzük.
regionalis_bevetel = df.groupby('Régió')['Bevétel'].sum()
regionalis_bevetel

Régió
Budapest          609888932
Debrecen          768708018
Győr              594295180
Kecskemét         629929727
Miskolc           826273200
Nyíregyháza       661992943
Pécs              681153765
Szeged            654882235
Székesfehérvár    836426557
Name: Bevétel, dtype: int64

# Többszintű csoportosítás

In [16]:
# Többszintű csoportosítás – régió + kategória
# A groupby(['Régió', 'Kategória']) többszintű csoportosítást végez, először régió szerint, majd azon belül kategória szerint.
# A ['Bevétel'] kiválasztja azt az oszlopot, amit összegezni akarunk.
# A .sum() metódus összeadja a bevételeket minden csoportban.
# Az eredmény egy ún. MultiIndex Series (két szintű indexű sorozat).
regio_kategoria = df.groupby(['Régió', 'Kategória'])['Bevétel'].sum()
regio_kategoria

Régió           Kategória   
Budapest        Kiegészítő       23864765
                Laptop          186734321
                Mobiltelefon    158699297
                TV              155631485
                Tablet           84959064
Debrecen        Kiegészítő       25419251
                Laptop          293537399
                Mobiltelefon    106006430
                TV              249737722
                Tablet           94007216
Győr            Kiegészítő       36093540
                Laptop          135555601
                Mobiltelefon     90613249
                TV              210531974
                Tablet          121500816
Kecskemét       Kiegészítő       41315127
                Laptop          166374221
                Mobiltelefon    119437359
                TV              204175278
                Tablet           98627742
Miskolc         Kiegészítő       29533520
                Laptop          283890982
                Mobiltelefon    143049292
     

In [13]:
##Gyakorlás
# 1. az első sortól lejátszás
# 2. külön munkafüzet (https://colab.research.google.com/) kód átmásolása
# 3. saját excel fájl feltöltés, az oszlopok átnevezése, tesztelés
# Visszajelzés, kérdések

# Összefoglalás

# DataFrame kiírása Excel fájlba

In [19]:
# index=False kikapcsolja a sorszámok mentését
# regio_kategoria.to_excel('output.xlsx', index=False)
# Itt Régio, Kategoria index van, be kell kapcsolni!
regio_kategoria.to_excel('output.xlsx', index=True)