Ebben a projektben a DataFrames szűrés és kiválasztás alapvető fogalmaival foglalkozunk.

Két fő módszer létezik az adatok lekérdezésére (vagyis szűrésére) a DataFramesben:

     .loc[] használata
     .query() használata

A .query() metódus általában könnyebben olvasható, de kevésbé hatékony, mint a .loc. Másrészt a .loc[] sokkal "bonyolultabbnak" tűnik, de ha egyszer rátekered a fejed, megérted a Pandák és indexének belső tulajdonságait.

#### Kiválasztás összefoglalója: Logikai tömbök

Talán emlékszik a "Szűrési sorozat" projektünkből, hogy a .loc választó logikai tömböket fogad el a kijelölés végrehajtásához. Tehát a sorozat példájához hasonlóan építsünk fel egy logikai tömböt, amely csak amerikai vállalatokat választhat ki. Vagyis: Apple, Alphabet, Microsoft, Dell, Meta, Intel és IBM.

Ezt a logikai tömböt kézzel fogjuk összeállítani. Kapcsolja be a labort, hogy működés közben lássa.

In [2]:
import pandas as pd
# Lists of data
data = {'Revenue': [274515,200734,182527,181945,143015,129184,92224,85965,84893,
                    82345,77867,73620,69864,63191],
        'Employees': [147000,267937,135301,878429,163000,197000,158000,58604,
                      109700,350864,110600,364800,85858,243540],
        'Sector': ['Consumer Electronics','Consumer Electronics','Software Services',
                   'Chip Manufacturing','Software Services','Consumer Electronics',
                   'Consumer Electronics','Software Services','Consumer Electronics',
                   'Consumer Electronics','Chip Manufacturing','Software Services',
                   'Software Services','Consumer Electronics'],
        'Founding Date':['01-04-1976','13-01-1969','04-09-1998','20-02-1974',
                         '04-04-1975','15-09-1987','01-02-1984','04-02-2004',
                         '07-04-1946','01-01-1910','18-07-1968','16-06-1911',
                         '11-11-1998','07-03-1918'],
        'Country':['USA','South Korea','USA','Taiwan','USA','China','USA','USA',
                   'Japan','Japan','USA','USA','China','Japan']} 
index = ['Apple','Samsung','Alphabet','Foxconn','Microsoft','Huawei',
         'Dell Technologies','Meta','Sony','Hitachi','Intel','IBM',
         'Tencent','Panasonic']

In [3]:
df = pd.DataFrame(data, index=index)
df["Revenue per Employee"] = df["Revenue"] / df["Employees"]

In [4]:
# A boolean tömb
df.loc[[
    True,      # Apple
    False,     # Samsung
    True,      # Alphabet
    False,     # Foxconn
    True,      # Microsoft
    False,     # Huawei
    True,      # Dell
    True,      # Meta
    False,     # Sony
    False,     # Hitachi
    True,      # Intel
    True,      # IBM
    False,     # Tencent
    False,     # Panasonic
]]

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393
Dell Technologies,92224,158000,Consumer Electronics,01-02-1984,USA,0.583696
Meta,85965,58604,Software Services,04-02-2004,USA,1.466879
Intel,77867,110600,Chip Manufacturing,18-07-1968,USA,0.704042
IBM,73620,364800,Software Services,16-06-1911,USA,0.201809


Most, ahogy korábban említettük, soha nem fogjuk kézzel létrehozni ezeket a logikai tömböket, 

hanem logikai kifejezésekkel fogjuk "generálni". Sorozatos gyakorlatunkban láthattuk, 

hogyan hozhatunk létre logikai tömbök és logikai kifejezések széles választékát. 

És itt az érdekes rész! Emlékszel, hogy a DataFrame oszlopok is sorozatok?? 

Ezáltal a DataFrames-ben a kiválasztás csak az oszlopaink logikai kifejezéseinek kombinálásáról szól.

Például itt van az előző kijelölésnek megfelelő logikai kifejezés:


In [5]:
df['Country'] == 'USA'

Apple                 True
Samsung              False
Alphabet              True
Foxconn              False
Microsoft             True
Huawei               False
Dell Technologies     True
Meta                  True
Sony                 False
Hitachi              False
Intel                 True
IBM                   True
Tencent              False
Panasonic            False
Name: Country, dtype: bool

In [11]:
#Eggyütt alkalmazva
df.loc[df['Country'] == 'USA']

147000

In [7]:
df.loc[df['Sector'] == 'Software Services']

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393
Meta,85965,58604,Software Services,04-02-2004,USA,1.466879
IBM,73620,364800,Software Services,16-06-1911,USA,0.201809
Tencent,69864,85858,Software Services,11-11-1998,China,0.813716


Válasszon cégeket a „Szoftverszolgáltatások” szektorból

Hozzon létre egy kifejezést azoknak a vállalatoknak a kiválasztásához, amelyek szektora "Szoftverszolgáltatás". Tárolja az eredményt a df_software változóban.


In [None]:
df_software = df.loc[df['Sector'] == 'Software Services']

Válassza ki azokat a cégeket, amelyek kevesebb alkalmazottal rendelkeznek, mint az Apple-nél

Válassza ki azokat a vállalatokat, amelyeknek kevesebb alkalmazottja van, mint az Apple-nek, és tárolja az eredményt a df_low_employees fájlban.


In [12]:

df_low_employees = df.loc[df['Employees'] < df.loc['Apple', 'Employees']]

Szűrje ki azokat a cégeket, amelyek bevétele meghaladja az átlagot

Válassza ki azokat a vállalatokat, amelyek bevételi értéke meghaladja az átlagot/átlagot. Tárolja az eredményeket a df_high_revenue változóban.

In [None]:
df_high_revenue = df.loc[df['Revenue'] > df['Revenue'].mean()]

#### Kifejezés kombinálása logikai operátorokkal

Hasonlóan ahhoz, amit a Series-nél tettünk, több kifejezést is kombinálhatunk logikai operátorokkal: és (&), vagy (|) és nem (~). 

A DataFrames érdekes "csavarja", hogy most már kombinálhatjuk a különböző oszlopok műveleteit, összetett lekérdezéseket és szűrőket építve.

Például kezdje újra azokkal a társaságokkal, amelyek bevétele nagyobb, mint az átlag:

     Kövesse a kapcsolódó laborban.

In [None]:
df.loc[df['Revenue'] > df['Revenue'].mean()]


Kibővíthetjük ezt a műveletet, beleértve a csak amerikai cégeket is, a & operátor használatával:


In [None]:
df.loc[(df['Revenue'] > df['Revenue'].mean()) & (df['Country'] == 'USA')]


Változtassunk, és szűrjük ki azokat a cégeket, amelyek NEM amerikaiak (figyeljük meg a ~ operátort):


In [13]:
df.loc[(df['Revenue'] > df['Revenue'].mean()) & ~(df['Country'] == 'USA')]

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756


In [None]:
df.loc[(df['Revenue'] > df['Revenue'].mean()) & (df['Country'] != 'USA')]

In [14]:
df.loc[(df['Revenue'] > df['Revenue'].mean()) & ~(df['Country'] == 'USA')]
# which is equivalent to saying (different than):
df.loc[(df['Revenue'] > df['Revenue'].mean()) & (df['Country'] != 'USA')]


Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756


#### Fontos! A kifejezések között zárójelek szükségesek

A fenti példából talán észrevetted, de ez elég fontos ahhoz, hogy külön említést érdemelj. 

Tekintettel arra, hogy a pandákban használt logikai operátorok a következő szimbólumok: 

&, | és ~, ezek elsőbbsége nem a várt módon működik logikai kifejezésekkel. 

Ezért a kifejezéseket MINDIG zárójelben kell foglalnunk. Például a fenti 

kifejezés teljesen más eredményt ad, ha kihagyjuk a zárójeleket az Ország kifejezésből:

In [15]:
df.loc[(df['Revenue'] > df['Revenue'].mean()) & df['Country'] != 'USA']


Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756
Dell Technologies,92224,158000,Consumer Electronics,01-02-1984,USA,0.583696
Meta,85965,58604,Software Services,04-02-2004,USA,1.466879
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan,0.773865
Hitachi,82345,350864,Consumer Electronics,01-01-1910,Japan,0.234692


Válassza ki azokat a nem amerikai vállalatokat, ahol az alkalmazottak száma meghaladja az átlagot

Válasszon ki minden olyan vállalatot, ahol az alkalmazottak száma meghaladja az átlagot, és az ország NEM az USA. Tárolja az eredményeket a df_employee_non_usa változóban.


In [None]:
df_employee_non_usa = df.loc[(df['Country'] != 'USA') & (df['Employees'] > df['Employees'].mean())]

Keresse meg azokat a nem amerikai vállalatokat, amelyeknél az egy alkalmazottra jutó bevétel a medián alatt van

Válassza ki azokat a vállalatokat, amelyeknél az egy alkalmazottra jutó bevétel a medián alatt van, és amelyek olyan országból származnak, amely nem az USA. Az eredményeket a df_low_rev_employee változóban tárolja.


In [None]:
df_low_rev_employee = df.loc[(df['Country'] != 'USA') & (df['Revenue per Employee'] < df['Revenue per Employee'].median())]

Amerikai vállalatok a „Szoftverszolgáltatások” szektorból, amelyek bevétele/alkalmazottja az átlag felett van

Válasszon ki olyan vállalatokat a „Szoftverszolgáltatások” szektorban az „USA-ból”, amelyeknek az egy alkalmazottra jutó bevétel értéke nagyobb, mint az átlag. Tárolja az eredményt a df_usa_software_high_efficiency változóban

In [None]:
df_usa_software_high_efficiency = df.loc[(df['Country'] == 'USA') &
                                         (df['Sector'] == 'Software Services') &
                                         (df['Revenue per Employee'] > df['Revenue per Employee'].mean())]

#### A ".query()" metódus

A query() egy "modernebb" (hogy bizonyos értelemben) módszer a DataFrames szűrésére és kijelölésére. A valóságban többnyire szintaktikai cukor van a .loc választó tetején. De néha praktikus. Jobban olvasható, és intuitívabbnak tűnik.

Felmerülhet a kérdés, miért kezdjük a .loc választóval, ha a .query() jobban olvasható? Ennek az az oka, hogy a .loc SOKKAL erősebb, mint a .query(), és ami még fontosabb, a .loc megértésével a logikai tömbök és a Pandák indexválasztásának alapelveit is megértjük. Ennek ellenére vessünk egy pillantást a .query()-re:

Ez a metódus csak egy karakterláncot kap egy logikai kifejezéssel az értékeléshez. Nézzünk meg néhány példát, és ügyeljen arra, hogy kövesse a jegyzetfüzetet.
Az összes amerikai vállalat szűrése:

In [16]:
df.query("Country == 'USA'")

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Microsoft,143015,163000,Software Services,04-04-1975,USA,0.877393
Dell Technologies,92224,158000,Consumer Electronics,01-02-1984,USA,0.583696
Meta,85965,58604,Software Services,04-02-2004,USA,1.466879
Intel,77867,110600,Chip Manufacturing,18-07-1968,USA,0.704042
IBM,73620,364800,Software Services,16-06-1911,USA,0.201809


Vállalatok, amelyek országa eltér az USA-tól:

In [17]:
df.query("Country != 'USA'")

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Foxconn,181945,878429,Chip Manufacturing,20-02-1974,Taiwan,0.207125
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan,0.773865
Hitachi,82345,350864,Consumer Electronics,01-01-1910,Japan,0.234692
Tencent,69864,85858,Software Services,11-11-1998,China,0.813716
Panasonic,63191,243540,Consumer Electronics,07-03-1918,Japan,0.259469


Amint láthatja, a kifejezés csak természetes, szintaxisa úgy néz ki, mint az SQL és a Python kombinációja. Közvetlenül beírjuk az oszlop nevét, és az értéket idézőjelek veszik körül.
#### Logikai operátorok

Használhatunk logikai kifejezéseket és összekötőket a .query() függvényben, de 

a .loc-tól eltérően a reguláris és, vagy és nem operátorokat fogjuk használni. 

Lássunk néhány példát:
NEM az USA-ból és a "Consumer Electronics" szektorból származó vállalatok:

In [18]:
df.query("Country != 'USA' and Sector == 'Consumer Electronics'")

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan,0.773865
Hitachi,82345,350864,Consumer Electronics,01-01-1910,Japan,0.234692
Panasonic,63191,243540,Consumer Electronics,07-03-1918,Japan,0.259469


In [19]:
df.query("Sector == 'Consumer Electronics' and not (Country == 'USA')")


Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Samsung,200734,267937,Consumer Electronics,13-01-1969,South Korea,0.749184
Huawei,129184,197000,Consumer Electronics,15-09-1987,China,0.655756
Sony,84893,109700,Consumer Electronics,07-04-1946,Japan,0.773865
Hitachi,82345,350864,Consumer Electronics,01-01-1910,Japan,0.234692
Panasonic,63191,243540,Consumer Electronics,07-03-1918,Japan,0.259469


Kínából vagy Tajvanról származó vállalatok

In [None]:
df.query("Country == 'China' or Country == 'Taiwan'")

#### Speciális karakterek: változók és oszlopok szóközzel

Ha olyan oszlopra próbál hivatkozni, amely szóközöket tartalmaz, akkor az oszlop nevét backtick-ekkel (`) kell körülvennie. Példa:


In [None]:
df.query("`Founding Date` == '04-02-2004'")


Ha a kontextusból szeretne hivatkozni a változókra, akkor a változó nevét a @ karakterrel fűzheti hozzá. 

Például az összes olyan vállalat lekérdezéséhez, amelynek bevétele meghaladja 

az átlagot, tárolhatjuk az átlagos bevételt egy másik változóban, 

majd hivatkozhatunk rá a lekérdezésünkből:


In [None]:
mean_revenue = df['Revenue'].mean()
df.query("Revenue > @mean_revenue")


In [None]:
median_rev_per_employee = df['Revenue per Employee'].median()
df.query("`Revenue per Employee` > @median_rev_per_employee")


#### Összetett kifejezések a ".loc"-ban

Végül egy másik példát mutatok be, amely egy kis érvelést igényel, hogy megértse. 

Ne aggódjon, ha nem kattan azonnal, ez egy fejlettebb "szolgáltatás", amely a 

logikai tömbök és az indexkiválasztás működéséhez kapcsolódik.

Az Egy alkalmazottonkénti bevétel oszlop egy „számított” oszlop, és elméletileg 

nincs szükségem rá, hogy a DataFrame-emben memóriát foglaljon el. Ha a "Rev per 

alkalmazott" alapján szeretnék lekérdezni, akkor a .loc kijelölést a következő

kifejezéssel hajthatom végre, egyszerre:

In [20]:
df.loc[
    (df['Revenue'] / df['Employees']) > 1
]

Unnamed: 0,Revenue,Employees,Sector,Founding Date,Country,Revenue per Employee
Apple,274515,147000,Consumer Electronics,01-04-1976,USA,1.867449
Alphabet,182527,135301,Software Services,04-09-1998,USA,1.349044
Meta,85965,58604,Software Services,04-02-2004,USA,1.466879


Ebben az esetben úgy tűnik, hogy a .loc mindkettőt megkapja, egy logikai 

"rev/alkalmazott > 1" műveletet, de egy df['Revenue'] / df['Employees'] aritmetikai 

kifejezést is. A valóságban a rendszer először az aritmetikai kifejezést értékeli 

ki, és az eredményt összehasonlítja a maradék > 1-gyel, ami egy logikai tömböt eredményez.

Ez ismét egy kicsit fejlettebb, és megköveteli, hogy teljesen a .loc és az 

indexkiválasztás köré tekerje a fejét. A kapcsolódó gyakorlati projektek segítenek 

teljes mértékben megérteni ezeket a fogalmakat.