Most itt az ideje gyakorolni a feltételes kijelölést a sorozattal. Ugyanazokat az adatokat fogjuk felhasználni, mint korábban a Vállalatok bevételeinél.
A feltételes kijelölés olyan, mint a "szűrés" vagy a "lekérdezés" (ha ismeri az SQL-t). Ez lehetővé teszi számunkra, hogy a következő típusú kérdésekre válaszoljunk:

     mely cégek kerestek X dollárnál többet?
     mely cégek kerestek X dollárnál kevesebbet?
     milyen cégek csináltak X és $Y között?

Logikai tömbök

Elkezdjük bemutatni a logikai tömbök fogalmát (ami viszont a NumPy koncepciója, de ennek befejezéséhez nem szükséges ismernie a NumPy-t).

Ez az elgondolás az elején kissé furcsán hangozhat, de bízzon bennünk, a következő részben mindennek lesz értelme.

A logikai tömbök egy olyan kijelölési mód, amelyben átadjuk a sorozat teljes indexét, és jelezzük, hogy mely elemeket szeretnénk kijelölni, és melyeket kihagyjuk. Ezt a logikai értékek átadásával jelezzük: igaz és hamis.

Nézzünk egy példát, hogy világosabb legyen. Logikai tömböket fogunk használni csak az amerikai vállalatok kiválasztásához. Vagyis: Apple, Alphabet, Microsoft, Dell, Meta, Intel és IBM.

A logikai tömbök használatával a True értéket minden egyes vállalatnál át kell adnunk, és a False értéket a többi vállalatnak. \
<img src = 'log_array.jpg'>

In [1]:
import pandas as pd
companies = [
    'Apple', 'Samsung', 'Alphabet', 'Foxconn',
    'Microsoft', 'Huawei', 'Dell Technologies',
    'Meta', 'Sony', 'Hitachi', 'Intel',
    'IBM', 'Tencent', 'Panasonic'
]

s = pd.Series([
    274515, 200734, 182527, 181945, 143015,
    129184, 92224, 85965, 84893, 82345,
    77867, 73620, 69864, 63191],
    index=companies,
    name="Top Technology Companies by Revenue")

Kérjük, vegye figyelembe, hogy az átadott logikai értékek listájának (vagy tömbjének) EQUAL hosszúságúnak kell lennie a sorozatindexével. Igaz vagy hamis értéket kell átadnunk az index ÖSSZES értékéhez. Ha nem vagyunk kíváncsiak egy elem kiválasztására, csak a False értéket adjuk meg.

Most úgy tűnhet, hogy ez az adatkiválasztás "nem hatékony" módja. Mi történik, ha 1 millió rekordja van? Mindegyik rekordhoz igaz vagy hamis értéket kell beírnia? Természetesen nem! A következő részben világossá válik, hogy miért fontosak a logikai tömbök.


In [2]:
#Boolean arrays
s.loc[[
    True,      # Apple
    False,     # Samsung
    True,      # Alphabet
    False,     # Foxconn
    True,      # Microsoft
    False,     # Huawei
    True,      # Dell
    True,      # Meta
    False,     # Sony
    False,     # Hitachi
    True,      # Intel
    True,      # IBM
    False,     # Tencent
    False,     # Panasonic
]]

Apple                274515
Alphabet             182527
Microsoft            143015
Dell Technologies     92224
Meta                  85965
Intel                 77867
IBM                   73620
Name: Top Technology Companies by Revenue, dtype: int64

Csak a japán cégeket válassza ki

Hozzon létre egy logikai tömböt, amely csak a sorozatunkban szereplő japán vállalatokat fogja kiválasztani:

     Sony
     Hitachi
     Panasonic

Tárolja a tömböt a japanese_boolean_array változóban.

Ugyanezen tömb segítségével válassza ki a vállalatokat a sorozatból, és tárolja őket egy másik japanese_companies nevű változóban.


In [3]:
japanese_boolean_array = [
    False,      # Apple
    False,     # Samsung
    False,      # Alphabet
    False,     # Foxconn
    False,      # Microsoft
    False,     # Huawei
    False,      # Dell
    False,      # Meta
    True,     # Sony
    True,     # Hitachi
    False,      # Intel
    False,      # IBM
    False,     # Tencent
    True,     # Panasonic
]
#japanese_boolean_array

In [4]:
#A Japán cégek
japanese_companies = s.loc[japanese_boolean_array]

Most van az, amikor ezek a logikai tömbök igazán hasznosak lesznek (és remélhetőleg végre kattintanak).

Kiderült, hogy a sorozatok elfogadják az összehasonlító operátorokat (vagy logikai operátorokat), például "nagyobb, mint" (>), "kisebb, mint" (<) stb. Az érdekes tulajdonság az, hogy ezen operátorok bármelyikének sorozatra való alkalmazása eredményeképpen egy logikai tömb!.

Lássunk egy példát: a jegyzetfüzetben van egy példa az s > 100_000 kifejezésre. Ez alapvetően arra vonatkozik, hogy a sorozat mely értékei "nagyobbak" 100 000-nél (ami viszont azt jelenti, hogy hány cég bevétele haladja meg a 100 milliárd dollárt).

Ennek a kifejezésnek az eredménye a logikai sorozat:


In [5]:
'''
Apple                 True
Samsung               True
Alphabet              True
Foxconn               True
Microsoft             True
Huawei                True
Dell Technologies    False
Meta                 False
Sony                 False
Hitachi              False
Intel                False
IBM                  False
Tencent              False
Panasonic            False

'''

'\nApple                 True\nSamsung               True\nAlphabet              True\nFoxconn               True\nMicrosoft             True\nHuawei                True\nDell Technologies    False\nMeta                 False\nSony                 False\nHitachi              False\nIntel                False\nIBM                  False\nTencent              False\nPanasonic            False\n\n'

Kombinálhatjuk ezt a "feltételes" kifejezést a korábban látott kiválasztási módszerrel, hogy egy nagyon hatékony szűrő- és lekérdező rendszert állítsunk össze.

Példa, kérdezzük meg:

Melyek azok a cégek, amelyek bevétele meghaladja a 100 milliárd dollárt?

Csak kombinálnunk kell a .loc kifejezést a logikai tömbünkkel:

In [6]:

s.loc[s > 100_000]
s > 100_000

Apple                 True
Samsung               True
Alphabet              True
Foxconn               True
Microsoft             True
Huawei                True
Dell Technologies    False
Meta                 False
Sony                 False
Hitachi              False
Intel                False
IBM                  False
Tencent              False
Panasonic            False
Name: Top Technology Companies by Revenue, dtype: bool

Bármilyen operátort használhatunk: egyenlő (==), különbözik (vagy nem egyenlő !=), nagyobb, mint (>), nagyobb vagy egyenlő (>=) stb.

In [7]:
more_150_rev = s.loc[ s > 150_000]
more_150_rev

Apple       274515
Samsung     200734
Alphabet    182527
Foxconn     181945
Name: Top Technology Companies by Revenue, dtype: int64

Sorozat metódusainak kombinálása összehasonlító operátorokkal

Ez természetesnek tűnik az előző részben látottak alapján, de érdemes megemlíteni. Kombinálhatja az összehasonlító operátorokat a Series metódusokkal, hogy általánosabb kifejezéseket kapjon. Például válasszuk ki a LEGJOBB bevétellel rendelkező céget:

In [8]:
s.loc[s == s.max()]

Apple    274515
Name: Top Technology Companies by Revenue, dtype: int64

In [9]:
s.loc[s > s.mean()]

Apple        274515
Samsung      200734
Alphabet     182527
Foxconn      181945
Microsoft    143015
Huawei       129184
Name: Top Technology Companies by Revenue, dtype: int64

Vagy egy összetettebb kifejezés lehet azoknak a cégeknek a megtalálása, amelyek bevétele meghaladja az átlagos + egy szórást (ezekkel a fogalmakkal a Leíró statisztikák című sávunk foglalkozik; most ne aggódjon a technikai részletek miatt):

In [10]:
s.loc[s > (s.mean() + s.std())]

Apple      274515
Samsung    200734
Name: Top Technology Companies by Revenue, dtype: int64

Logikai operátorok

A logikai operátorok a feltételek "összefűzésére" használt és vagy nem kifejezések. Ismerősnek kell lenniük a Python-háttérből. A Pandasban vannak logikai operátoraink is, amelyek segítségével "bonyolultabb" kiválasztási kifejezéseket hozhatunk létre, de ezek nem azok, és, vagy nem úgy, mint a Pythonban, ezek:

     &  ÉS 
     |  VAGY
     ~  NEM

Lássuk őket működés közben a VAGY operátor (|) használatával. Kiszámítjuk azt a kifejezést, amely kiválasztja azokat a vállalatokat, amelyek bevétele meghaladja a 150 000 USD-t, VAGY kevesebb, mint 80 000 USD. Grafikusan a következő cégeket szeretnénk kiválasztani:

<img src='bool_op.jpg'>

Most fogalmazzuk meg teljesen, a | segítségével (OR) operátor. FONTOS! Amikor az összehasonlító kifejezéseket logikai operátorokkal kombináljuk, minden kifejezést zárójelbe kell helyeznünk:

In [11]:
(s > 150_000) | (s < 80_000)

Apple                 True
Samsung               True
Alphabet              True
Foxconn               True
Microsoft            False
Huawei               False
Dell Technologies    False
Meta                 False
Sony                 False
Hitachi              False
Intel                 True
IBM                   True
Tencent               True
Panasonic             True
Name: Top Technology Companies by Revenue, dtype: bool

Kiválasztással kombinálva

Itt az ideje, hogy a logikai operátorokat a kiválasztás (.loc) metódussal használjuk. Használjuk most ugyanazt a kifejezést, mint korábban a kívánt cégek kiválasztásához:

In [12]:
s.loc[(s > 150_000) | (s < 80_000)]

Apple        274515
Samsung      200734
Alphabet     182527
Foxconn      181945
Intel         77867
IBM           73620
Tencent       69864
Panasonic     63191
Name: Top Technology Companies by Revenue, dtype: int64

Példa a NOT ~ operátorral

A NOT operátor általában "invertál" (vagy tagad egy kifejezést). Tehát a következő két kifejezés egyenértékű:

     150 000 millió dollár vagy annál nagyobb bevétellel rendelkező vállalatok
     Vállalatok, amelyek bevétele nem kevesebb, mint 150 000 millió USD

A jegyzetfüzetben vannak ezek a példák; próbálja ki őket, és látni fogja, hogy ugyanazokat az értékeket adják vissza.

In [13]:
s.loc[s >= 150_000]

Apple       274515
Samsung     200734
Alphabet    182527
Foxconn     181945
Name: Top Technology Companies by Revenue, dtype: int64

In [14]:
s.loc[~(s < 150_000)]

Apple       274515
Samsung     200734
Alphabet    182527
Foxconn     181945
Name: Top Technology Companies by Revenue, dtype: int64

Válassza ki azokat a cégeket, amelyek a legtöbb és kevesebb bevétellel rendelkeznek

Használja a feltételes kijelölést és a logikai operátorokat a LEGTÖBB és KEVESEBB bevétellel rendelkező két vállalat kiválasztásához. Tárolja az eredményeket a most_and_less_rev változóban. Próbáld meg a sorozat .max() és .min() metódusait használni.

Vizuálisan a következőnek kell lennie:

<img src = 'task4.jpg'>

In [16]:
most_and_less_rev = s.loc[ (s == s.max()) | (s == s.min()) ]


Válasszon olyan cégeket, amelyek bevétele 150 000 millió között van

Válogass ki azon cégek közül, amelyek bevétele 150 000 között van. Tárolja a kiválasztás eredményeit a következő változóban:_80_és_150.

Vizuálisan a következő cégeket kell kiválasztania:

<img src = 'task5.jpg'>

In [None]:
between_80_and_150 = s.loc[(s > 80_000) & (s < 150_000)]