# Összetett adatszerkezetek

Az egyszerű szám és szöveges adatokon túl a Python nagyon sokféle összetett adatszerkezettel rendelkezik, különösen ha a csomagként beimportálható változatokat is hozzászámítjuk. A beépített szerkezeteket mindenképp érdemes ismerni, hiszen lépten-nyomon találkozunk velük. Ezek:

- list : értéklista
- set : halmaz
- dict : szótár (kulcs-érték párok)
- tuple : fix érték lista (nem bővíthető)

Bármelyiket létrehozhatjuk a nevével (üresen, vagy paraméterből létrehozva az értékeit) de mindegyiknek van valamilyen speciális jelölés is. (lásd alább)

Valamennyi struktúra iterálható (iterable) ami annyit tesz, hogy az elemein végig lehet lépkedni, vagy ha úgy tetszik, értékeket lehet belőlük sorra kivenni. Ez azért érdekes, mert pythonban sok olyan szerkezet van, ami ilyen `iterable` képességű objektumokkal dolgozik. Mint látni fogjuk, így működnek a ciklusok vagy a struktúragenerátorok.  

Mivel ezek a szerkezetek mind több adatot tárolnak (csak kicsit másként) át is alakíthatók egymásba.

## Listák (list)

A lista értékek rendezett módosítható sorozata. Tehát megmarad a sorrendiségi információ és utólag módosíthatod is őket (rakhatsz hozzá elemet, törölhetsz belőle és lehet benne ugyanaz többször).

A lista ugyanúgy indexelhető mint a korábban látott string.

In [None]:
# lista jele [], bármilyen típus lehet benne vesszővel felsorolva:
adatok = [2, 8.4, "szöveg"]

# a sorrend számít, két lista csak akkor egyenlő
# ha az elemei és a sorrendjük is azonos!

[2, 4, 1] == [2, 1, 4]

False

In [None]:
# A lista indexelhető. A szögletes zárójellel elérhetjük bármely elemét.
# az indexek nullától kezdődnek, tehát az első elem indexe 0!

számok = [10,20,30,50,60]
számok[0] # az első szám

In [None]:
# az index lehet negatív is, akkor "hátulról" számol
számok[-1] # az utolsó szám

In [None]:
# az index lehet tartomány (kettősponttal megadva) akkor az eredmény egy lista
# ha a tartomány elejét nem adjuk meg akkor az 0, ha a végét akkor a "végéig".
számok[0:2] # az első két szám
számok[:] # az összes szám (tehát a teljes lista)
számok[-2:] # az utolsó két szám

In [None]:
# ha a tartományt fordítva adjuk meg az nem hiba, csak üres lista
számok[2:1]

In [None]:
# Más adatokat is átalakíthatunk listává:
list("szöveg")

In [None]:
# a lényeg, hogy iterálható (iterable) legyen amit a list paraméterébe teszünk:
list(("a", 5)) # tuple átalakítása listává
list({9,8,3,1}) # halmaz átalakítása listává

In [None]:
# a range függvény eredménye is iterable
list(range(10,20,2)) # 10-től 20-ig, számok kettesével

In [None]:
# Az összadás jel (+) a listákon összefűzésként van definiálva:
[1,"Péter",8] + ["Lajos", 42]

In [None]:
# A listákat módosíthatjuk. Például felülírhatjuk egy elemét
számok = [10,20,30]
számok[0] = 100 # az első elem legyen inkább 100
számok # a lista megváltozott.

In [None]:
# vagy hozzáfűzhetünk egy új adatot:
számok.append("valami") # tegyünk a végére 'valami'-t
számok

In [None]:
# vagy kitörölhetjük:
del(számok[1:3]) # töröljük a két középső adatot
számok

Ha a fenti kódblokkot kétszer lefuttatot (újra megnyomod a play gombot) mi történik? Vajon miért?

In [None]:
# a listában bármilyen érték lehet, tehát akár lista is:
listalista = [[1,2,3], ['a','b','c'], [10,20,30]]
listalista

Találd ki mi lesz a következő sor eredménye még mielőtt lefuttatnád!

In [None]:
# ha listában lista van, akkor kétszer is indexelhetjük
# (az első indexel a belső listát kapjuk amit tovább indexelhetünk)
listalista[1][1]

In [None]:
# a listának van hossza
len([1,2,3])

In [None]:
# és megnézhetjük, hogy szerepel-e valami benne vagy sem:
"kakadu" in ["fürj", "fácán", "kakadu"]

In [None]:
# vagy éppen sorbarendezhetjük benne az adatokat (abc, vagy nagyság szerint)
sorted(["kakadu", "fürj", "fácán"])

# Tuple (adat N-es)

A tuple nagyon hasonlít a listára, de azzal ellentétben nem módosítható. Ugyanúgy lehetnek benne különböző típusok és lehet akármilyen hosszú. De ha már egyszer létrehoztuk akkor az úgy marad. Legfeljebb csinálhatunk belőle egy másikat.

Cserébe kevesebb memóriát fogyaszt és valamivel gyorsabb. Mivel a tuple immutable (sosem változik meg) ezért `hashable` is, tehát használhatjuk kulcsként (lásd alább). Akkor használd ha ez számít, de leginkább azt jegyezd meg, hogy a (sokszor zárójelek közötti) vesszővel felsorolt értékek egy tuple-t jelölnek, ugyanis elég sok helyen adunk meg így adatot a programkönyvtárakban.

Mikor használd:
- Ha kifejezetten szeretnéd, hogy ne változzon.
- Ha kulcsként szeretnéd használni dict-ben vagy elemként set-ben.
- Ha logikailag egy összetartozó, "érték-csomagot" tárolsz (pl. koordináták).

Előnyök:
- Gyorsabb és memóriatakarékosabb a listánál.
- Biztonságos, mert nem lehet módosítani.

Hátrányok:
- Nem lehet utólag szerkeszteni, újat kell létrehozni.

In [None]:
adatpár = ("Ákos", 22)
adatpár

('Ákos', 22)

In [None]:
# a tuple-ben is számít a sorrend:
("Péter", "Kinga") == ("Kinga", "Péter") # ők nem egyenlőek

In [None]:
# ugyanúgy tudjuk indexelni őket, mint a listákat vagy szövegeket:
adatpár[0] # első
adatpár[-1] # utolsó

In [None]:
# átalakíthatunk valami mást fix hosszú tuple-é:
tuple("szöveg") # szövegből tuple
tuple([3,4,5]) # listából tuple

A tuple körül gyakran látunk zárójelet. Mivel a zárójelet műveletek sorrendjének meghatározásához is használjuk, itt lehet némi kavarodás. Például a (-4) az mi? Vajon -4 amit csak azért tettünk zárójelbe, hogy biztosak legyünk benne, hogy negatív, vagy ez egy egy elemű tuple?

A python szemszögéből a tuple lényege nem a zárójel (sokszor nem is kell hozzá), hanem a vessző. Csak akkor számít valami tuple-nek, ha van benne vessző. Ha nincs vessző benne, az nem tuple. A zárójelet inkább csak azért tesszük ki, hogy ne keveredjen valami mással, például függvény paraméterek felsorolásával.

In [None]:
# ez itt egy egy elemű tuple
(-5,) # a vessző után nem írunk semmit csak azért van ott hogy tuple legyen

In [None]:
# igazából így is írhatnád, így is egy egy elemű tuple csak kicsit zavarosabb
-5,

In [None]:
# ez viszont egy -5-ös szám, zárójelben. Ez nem tuple.
(-5)

A tuple mindenféle adatot tárolhat. Olyat is, ami módosítható. Ettől még ő maga módosíthatatlan!

In [None]:
# A tuple-ben is lehet mindenféle adat:
(("másik","tuple"), ["lista",9], 99, "péter")

In [None]:
# az hogy a tuple megváltoztathatlan (immutable) nem jelenti azt
# hogy a benne lévő adatot ne tudnánk megváltoztatni:

adatok = ([], [9]) # üres lista és egy egy elemű lista párosa
print(adatok)
adatok[0].append(100) # az első listába tegyünk adatot
adatok[1][0] = 99 # írjuk felül a második lista első (egyetlen) elemét
print(adatok)

In [None]:
# Maga a tuple az amit nem lehet megváltoztatni!
# szedd ki a megjegyzést és szép nagy hibát kapsz!

# adatok[0] = [2,3,4] # írjuk felül az első listát egy másikkal

A tuple-t gyakran használják arra is, hogy egyszerre adjanak értéket több változónak. Ha az egyenlőségjel bal oldalán több cimke van vesszővel felsorolva, a python megpróbálja a jobb oldalon lévő összetett szerkezetet "kicsomagolni" és elemenként a felcimkézni.

In [None]:
a, b, c = (1,2,3) # egyszerre cimkézzük fel a három számot!

b # tehát a b-be a kettő kerül

In [None]:
# A tuple lényege a vessző, nem a zárójel, az értékadás (cimkézés) jobb oldalán
# felismeri zárójel nélkül is, tehát nyugodtan elhagyhatod:
a, b, c = 1, 2, 3 # így is írhatod

In [None]:
# ha nem tudja kicsomagolni mert más a darabszámuk, hibát kapunk
a,b = 1,2,3 # nem lehet több... <---- Hiba!
a,b,c = 1,2 # de kevesebb se!  <---- Hiba!

## Halmaz (set)
A halmazok vesszővel elválasztott értékek kapcsos zárójelek között. Hasonlóan az eddigiekhez, bármilyen típusú érték lehet bennük (amennyiben az "hashable").

A halmaz lényege, hogy nem nagyon foglalkozik a sorrenddel, se a darabszámmal, csak azzal, hogy valami része-e vagy sem. Tehát ha többször tesszük bele ugyanazt az csak egyszer marad meg (és a sorrend se rögzül).

In [None]:
{5,4,5,8,8,8,4,4} # ez egy halmaz

In [None]:
# halmazzá is át tudunk alakítani valami mást:
set("csecsebecse")

In [None]:
# a halmazban nincs sorrend, így indexe sincs
halmaz = {9,4,5}

# halmaz[3] # <-- ez tehát nem jó

# de adhatsz hozzá további elemeket
halmaz.add(42)

#de megnézheted, hogy egy elem benne van-e vagy sem
9 in halmaz


In [None]:
# Természetesen a halmazokkal tudunk halmazműveleteket végezni!
h1 = {1,2,3,4}
h2 = {3,4,5,6}

h1 & h2 # metszet

In [None]:
h1 | h2 # unió

In [None]:
h1 - h2 # különbség

In [None]:
# sajnos a halmaz maga sem 'hashable'
# így aztán a set-ek set-je nem működik...  :-(

# {h1, h2} # <--- hibát kapsz ha kiveszed a sor elejéről a megjegyzést

In [None]:
# ezzel szemben az immutable értékek mindig hashable-k, ide értve a tuple-t is.
{ (1,2,3), "Péter" } # <--- ez teljesen rendben van, a halmazban lehet tuple és str is

In [None]:
# mivel a halmazban minden elem csak egyszer lehet,
# használhatjuk duplikáció szűrésre!

adatok = [4,4,4,4,4,6,6,8,8,8,8]
list(set(adatok)) # átalakítjuk halmazzá majd vissza

[8, 4, 6]

## Szótárak (dict)

A lista és a szótár talán a leggyakrabban használt python tárolóstruktúra. A szótár (avagy python nyelven dict) kulcs->érték párokat tárol, vagyis olyasmi mint egy szótár, csak a kulcs nem csak egy adott szó lehet, hanem gyakorlatilag bármi (igazából 'hashable' kell legyen).

A lényeg, hogy szótár minden kulcsból pontosan egyet tartalmazhat de az érték ami a kulcshoz van rendelve már lehet ugyanaz. Ha ugyanazt a kulcsot adjuk meg, akkor az újabb felülírja a régit.

Jelölése a halmazéhoz hasonlatos (kapcsos zárójelek közötti vesszővel elválasztott lista) csak épp itt mindig két dolog lesz egymás után kettősponttal: egy kulcs és egy érték.

A szótár értelme az, hogy a kulcs alapján hatékonyan (gyorsan) meg tudja találni a hozzá rendelt értéket. Jól használható például konfiguráció tárolására, vagy nehezen/lassan kiszámolható értékek mentésére (cache).

In [None]:
# így néz ki egy szótár:
szótár = { "python":100, "c": 100, "java":68, "php":30 }

# de gyakran inkább külön sorba írják, hogy jobban olvasható legyen:
szótár = {
    "python": 100,
    "c":      100,  # <--- két érték lehet ugyanaz (100)
    "java":   68,
    "c":      99,   # <--- ha a kulcs ugyanaz, csak a későbbi számít
    "php":    30,   # <--- itt meghagyhatod a vesszőt, nem hiba
}
szótár

In [None]:
# a szótárat a kulcsokkal tudod indexelni:
szótár["java"]
# és akkor megtalálja a hozzá rendelt értéket

In [None]:
# és felül is írhatjuk ugyanúgy mint a list esetében:

szótár["python"] = 200
szótár

In [None]:
# ha olyan indexű elembe teszünk értéket ami még nincs, az nem hiba:
szótár["fortran"] = 77 # most már akkor ilyen is van...
szótár

In [None]:
# ezzel szemben, ha olyan indexet szeretnénk elérni ami nincs, az KeyError!
#szótár["francia"] # <-- szedd ki a megjegyzést és hibát kapsz.

A szótárakban értékpárok vannak, de ha nekünk csak az egyik kell (csak az érték vagy csak a kulcs) azt is lekérdezhetjük:

In [None]:
szótár.keys() # csak a kulcsok

In [None]:
szótár.values() # csak az értékek

A szótár *értéke* bármi lehet (tehát mondjuk halmaz vagy lista is), kulcs viszont csak `hashable` érték lehet.

In [None]:
fura_dict = {
    (4,5): {9,2}, # <-- kulcs: tuple, érték: set
    "Zsófia": 8, # <-- kulcs: str, érték: int
    # [3] : 2.5, # <-- ilyen nem lehet mert a kulcs list
    }

No de mi történik, ha olyan kulcsot szeretnénk elérni amilyen nincs? Nos, ekkor sajnos `KeyError` hibát kapunk. Ez nem mindig szerencsés, hiszen könnyen előfordulhat, hogy nem tudjuk előre van-e a szótárban ilyen kulcs vagy nincs (mert például külső forrásból, adatbázisból, hálózatról származik és nem mi adtuk meg). Mit tehetünk ilyenkor?

In [None]:
adatok = {"name": "Nagy Péter", "height": 177}

# ez hibát dobna, mert nincs megadva "age" kulcs:
# adatok["age"]

# segít nekünk a get metódus:
age = adatok.get("age") # ha nincs, egyszerűen None-t kapunk és nem hibát.
print("életkor:", age) # írjuk ki (hogy lássuk None-e)

# Ha nem tetszik a None, megadhatunk mi is alapértelmezett értéket!
city = adatok.get("city", "Budapest")
print("város:", city) # ha nincs "city" kulcs akkor "Budapest" lesz


Ha konkrétan az érdekel minket, hogy létezik-e az adott kulcs (az értéke nem kell) arra létezik külön operátor: az `in`!

In [None]:
"name" in adatok # van "name" kulcs az adatok szótárban?

In [None]:
"age" in adatok

# "Hashable" és immutabilitás

Ha kíváncsi vagy, miért van ez a kavarás a `hashable` értékekkel, igazából nagyon egyszerű: azt nevezzük hashable-nek, amiből lehet "hash"-t készíteni, vagyis egy állandó értéket, ami soha nem változik meg. Namármost, az olyan szerkezetből, ami össze-vissza változik, mint például a lista vagy a set, meglehetősen nehéz egy konstans, állandó dolgot készíteni, mert ugye bármikor megváltozhat. A dict (kulcsa) és a set is arra épít, hogy van egy ilyen állandó dolog (hash) ami alapján gyorsan tud keresni. Ha nincs hash, akkor nem tud, ennyi az egész.

Ezért jó (többek közt) nekünk, hogy a tuple vagy a string immutable (nem változhat), mert akkor nyugodtan lehet neki hash-e.

Mivel felettébb bosszantó, hogy nem rakhatunk halmazba halmazokat (ami azért elég logikus lenne), a modern pythonban létrehoztak egy módosíthatatlan halmazt is ami már `hashable`. Ez a `frozenset`.

In [None]:
a = frozenset((5,5,5,7,7,7))
b = frozenset((5,10))

{ a, b, a|b , a-b, a&b } # <- teljesen ok, frozenset lehet a set-ben


In [None]:
# értelemszerűen frozenset-et nem tudod módosítani.
# a.add(9) # <-- ez nem fog menni...

Az osztályoknál látni fogjuk, hogy a python nagy szabadságot ad nekünk: igazából bármi lehet `hashable` aminek van `__hash__` függvénye, vagyis ha mi ki tudunk ilyet találni.

# Előretekintés: Egyéb típusok

Ezek a python beépített összetett (tároló) típusai. Ha ennél ravaszabb (hatékonyabb) dologra van szükségünk, az sem gond, számtalan programkönyvtár közül választhatunk, ahonnan újabb típusokat kaphatunk.

A `collection` modulban rengeteg ilyen szerkezetet találunk:

- Counter: elemszámáló (mint a set de nyilvántartja a darabszámot)
- OrderedDict: mint a dict, de a sorrend is számít
- defaultdict: mint a dict, de ha hiányzik a kulcs magától létrehoz értéket
- deque: mint a lista, akkor jó, ha főleg az elejére-végére pakolsz
- namedtuple: mint a tuple, de index helyett neve lehet az értékeknek

Az `array` csomagban találunk olyan "listát" amiben csak azonos típusú dolgok lehetnek cserébe hatékonyabb (a programozók többnyire ezt hívják tömbnek), de ugyanerre a célra használhatjuk a `numpy`-t is, amivel fogunk még foglalkozni!

Persze vannak bonyolultabb struktúrákat támogató megoldások is (pl. a `heapq` vagy `bisect` modulban) de ezeket meghagyjuk a programozóknak :).