# A Python beépített adatszerkezetei II. (Python collections - part II.) 

## Szótárak, kulcs-érték párok (Dictionaries)

Gyakran előfordul olyan probléma, hogy különböző dolgokat kell eltárolnunk, amelyek nem valamilyen index alapján azonosíthatók, hanem valamilyen kulcs alapján.

Például egy telefonkönyvben (tudjátok mi az a telefonkönyv?) nevekhez rendelünk telefonszámot, egy angol-francia szótárban angol szavakhoz a megfelelő francia szót, vagy esetleg szavakat, országokhoz a fővárosaikat, hallgatókhoz a felvett tárgyaikat, írókhoz a könyveiket, stb.

Országokhoz rendeljük hozzá a fővárosukat.
```
Hungary -> Budapest
France -> Paris
Australia -> Canberra
Spain -> Madrid
```

Személyekhez rendeljük a hangszereket, amelyeken játszani tudnak.
```
Anna -> [hegedű, cselló, trombita]
Béla -> [tangóharmonika]
Gábor -> [dob, okarina]
```

Lehet-e az eddig tanult adatszerkezetekkel eltárolni ilyen (kulcs, érték) párokból álló elemeket?

In [1]:
capitals = [
    ("Hungary", "Budapest"), 
    ("France", "Paris"), 
    ("Australia", "Canberra"), 
    ("Spain", "Madrid")
]

In [2]:
def capital_of_a_country(capitals, country):
    for country_name, capital_name in capitals:
        if country_name == country:
            return capital_name
    
    # Country is not found
    return None    
    
    
print(capital_of_a_country(capitals, "Spain"))
print(capital_of_a_country(capitals, "Austria"))

Madrid
None


Mennyi ideig tart, amíg egy adott kulcshoz megtaláljuk a megfelelő értéke? Függ-e ez a párokból álló lista hosszától? Szokás ezt az adatszerkezetet asszociatív listának is nevezni.

Nekünk olyan adatszerkezet lenne megfelelő, ahol
* a kulcs alapján történő keresés 
* kulcs alapján új elem beszúrása
* kulcs alapján elem törlése

gyors műveletek.

Sajnos a (kulcs, érték) párokból álló lista mindhárom műveletre lassú. Azonban szerencsénk van, van egy olyan adatszerkezet, amely átlagosan konstans idő alatt képes mindhárom műveletre és csak nagyon ritkán, a körülmények szerencsétlen együttállása esetén lesz alkalmanként egy-egy ilyen művelet lassú. Emellett a tárhely, amit foglal, szintén nem nagyobb, mint az elemek tárolásával arányos méretű hely.

Erről sokkal többet fogtok tanulni algoritmuselméleti órákon. Legyen most annyi elég, hogy kétféle módon lehet hatékony adatszerkezetet készíteni erre a problémára, az egyik gyors és mutable, a másik kicsit lassabb, de immutable és csak rendezhető kulcsokra készíthető el.

Pythonban az első van implementálva a beépített adatszerkezetek között, nevezetesen a hash-tábla alapú. Ennek az adatszerkezetnek a neve `dictionary`.

A hash-tábla alapötlete, hogy van egy hash-függvénynek nevezett $h$ függvény a háttérben, ami a $k$ kulcsot $h(k)$-va viszi úgy, hogy különböző kulcsok nagy valószínűséggel különböző értékre képződnek le, az értéket pedig (a kulccsal együtt) egy tömb $h(k)$-adik indexénél tároljuk el.

In [3]:
# {key1: value1, key2: value2, ....}

country_capitals = {
    "Hungary": "Budapest", 
    "France": "Paris", 
    "Australia": "Canberra", 
    "Spain": "Madrid"
}

In [4]:
countries = ["Hungary", "France", "Australia", "Spain"]
capitals = ["Budapest", "Paris", "Canberra", "Madrid"]

# dict-comprehension
{country: capital for country, capital in zip(countries, capitals)}

{'Hungary': 'Budapest',
 'France': 'Paris',
 'Australia': 'Canberra',
 'Spain': 'Madrid'}

In [5]:
dict(zip(countries, capitals))

{'Hungary': 'Budapest',
 'France': 'Paris',
 'Australia': 'Canberra',
 'Spain': 'Madrid'}

In [6]:
# Az `in` kulcsszót használjuk annak a tesztelésére, hogy valami előfordul-e kulcsként a szótárban.

print("Portugal" in country_capitals)

print("Spain" in country_capitals)

False
True


In [8]:
# Adott kulcshoz tartozó érték lekérdezése

country_capitals["France"]

'Paris'

In [9]:
country_capitals["Italy"]

KeyError: 'Italy'

In [10]:
country_capitals.get("France")

'Paris'

In [11]:
# Ha nincs ilyen kulcs, kérhetünk default értéket is

print(country_capitals.get("Italy"))

print(country_capitals.get("Italy", "I do not know."))

None
I do not know.


In [12]:
# Iterálás egy szótáron:

for country in country_capitals:
    print(country)

Hungary
France
Australia
Spain


In [13]:
for country in country_capitals.keys():
    print(country)

Hungary
France
Australia
Spain


In [14]:
for capital in country_capitals.values():
    print(capital)

Budapest
Paris
Canberra
Madrid


In [15]:
for country, capital in country_capitals.items():
    print(f"The capital of {country} is {capital}.")

The capital of Hungary is Budapest.
The capital of France is Paris.
The capital of Australia is Canberra.
The capital of Spain is Madrid.


In [16]:
country_capitals["Serbia"] = "Belgrade"

country_capitals

{'Hungary': 'Budapest',
 'France': 'Paris',
 'Australia': 'Canberra',
 'Spain': 'Madrid',
 'Serbia': 'Belgrade'}

In [17]:
capital_of_france =  country_capitals.pop("France")

print(capital_of_france)

country_capitals

Paris


{'Hungary': 'Budapest',
 'Australia': 'Canberra',
 'Spain': 'Madrid',
 'Serbia': 'Belgrade'}

In [18]:
country_capitals.pop("Austria")

KeyError: 'Austria'

In [19]:
del country_capitals["Spain"]

country_capitals

{'Hungary': 'Budapest', 'Australia': 'Canberra', 'Serbia': 'Belgrade'}

Egy hash-függvény csak immutable dolgokat tud hash-elni, ha ugyanis megváltozna (mutálódna) a kulcs, akkor többé nem tudnánk megkeresni a hozzá tartozó értéket, hiszen $f(k)$ helyett az $f(k')$ helyen próbálnánk keresni az értéket, de az az $f(k)$ helyen van eltárolva.

In [21]:
d = {}

d["Hello"] = 1
d[10] = 2

d

{'Hello': 1, 10: 2}

In [None]:
d[[1, 2]] = 3

Lista tehát nem használható dictionary kulcsaként, de tuple igen. Minden olyan dolog lehet kulcs, ami hashelhető.

## Halmazok (Sets)

A halmaz olyan adatszerkezet, amely csupa különböző elemet tartalmaz. Ez persze implicit módon azt is jelenti, hogy a halmazba tett elemeket össze kell tudnunk hasonlítani egyenlőség szempontjából. Ami viszont nem egyértelmű, hogy halmazba csak hash-elhető elem kerülhet. Ennek az az oka, hogy a halmaz adatszerkezet Pythonban ismét hash-táblával van implementálva.

Ugyan első hallásra a `dictionary` és a `set` nagyon különböző adatszerkezetnek tűnhet, valójában nagyon hasonló módon vannak implementálva.

In [22]:
# Ugyanúgy kapcsos zárójel határolja az elemeket, mint a dictionary-nél,
# ez is mutatja, hogy szoros kapcsolat van a két adatszerkezet között

{"fej", "írás", "írás", "írás", "fej"}

{'fej', 'írás'}

In [23]:
string = "kukkkuuuurrrriiiikuuuuuuuu"

letters = set()  # a {} az üres dict-et jelöli
for char in string:
    letters.add(char)
    

letters  

{'i', 'k', 'r', 'u'}

In [24]:
# Set comprehension

{char for char in string}

{'i', 'k', 'r', 'u'}

In [25]:
s = {1, 2, 3, 4, 5}
t = {4, 5, 6}
u = {5, 6}

print(s.union(t))
print(s | t)
print()

print(s.intersection(t))
print(s & t)

print(u.issubset(t))
print(s.issuperset(u))

{1, 2, 3, 4, 5, 6}
{1, 2, 3, 4, 5, 6}

{4, 5}
{4, 5}
True
False


In [26]:
s = {1, 2, 3}

lst = [1, 1, 2, 4, 5]

s.update(lst)

print(s)

{1, 2, 3, 4, 5}


In [27]:
s = {1, 2, 3}

lst = [1, 1, 2, 4, 5]

s.difference_update(lst)

print(s)

{3}


A halmaz mutable adatszerkezet, azonban a listához hasonlóan ennek is létetzik immutable párja, a `frozenset`.

```python
s = frozenset({1, 2, 3})
```

Feladat: Számoljuk meg egy szövegben a betűk előfordulásainak számát.

In [28]:
text = "The most disastrous thing that you can ever learn is your first programming language. - Alan Kay"

In [29]:
def count_letters(string):
    counts = {}
    for char in string:
        if char in counts:
            counts[char] += 1
        else:
            counts[char] = 1
    
    return counts


print(count_letters(text))

{'T': 1, 'h': 3, 'e': 5, ' ': 16, 'm': 3, 'o': 5, 's': 6, 't': 6, 'd': 1, 'i': 5, 'a': 9, 'r': 7, 'u': 4, 'n': 6, 'g': 5, 'y': 3, 'c': 1, 'v': 1, 'l': 3, 'f': 1, 'p': 1, '.': 1, '-': 1, 'A': 1, 'K': 1}


In [30]:
def count_letters_2(string):
    counts = {}
    for char in string:
        counts[char] = counts.get(char, 0) + 1
    
    return counts


print(count_letters_2(text))

{'T': 1, 'h': 3, 'e': 5, ' ': 16, 'm': 3, 'o': 5, 's': 6, 't': 6, 'd': 1, 'i': 5, 'a': 9, 'r': 7, 'u': 4, 'n': 6, 'g': 5, 'y': 3, 'c': 1, 'v': 1, 'l': 3, 'f': 1, 'p': 1, '.': 1, '-': 1, 'A': 1, 'K': 1}


## Egyéb hasznos adatszerkezetek (More collections)

További gyakran használatos adatszerkezetek érhetők el a `collections` könyvtárban. Az itt implementált adatszerkezeteket be kell importálni, hogy használni tudjuk.

In [31]:
# Ezen a módon a collections könyvtár tartalma elérhetővé válik a collections-prefixszel
import collections

d = collections.defaultdict(int)

print(d)

defaultdict(<class 'int'>, {})


In [32]:
# Az importált modult egy alias-szal látunk el és így lehet hivatkozni a modul függvényeire, osztályaira
import collections as cl

d = cl.defaultdict(int)

print(d)

defaultdict(<class 'int'>, {})


In [33]:
# Iyl módon a futó kód globális névteréből lesz elérhető a beimportált függvény vagy osztály
from collections import defaultdict

d = defaultdict(int)

print(d)

defaultdict(<class 'int'>, {})


A `defaultdict` egy olyan szótár, amely nem dob hibát, ha nemlétező kulcsot keresünk benne, hanem ilyenkor beteszi az új kulcsot egy alapértelmezett értékkel: `defaultdict(int)` esetén a default érték 0, `defaultdict(list)` esetén az üres lista, `defaultdict(set)` esetén az üres halmaz.

In [34]:
def count_letters_3(string):
    counts = defaultdict(int)
    for char in string:
        counts[char] += 1 
    
    return counts


print(count_letters_3(text))

defaultdict(<class 'int'>, {'T': 1, 'h': 3, 'e': 5, ' ': 16, 'm': 3, 'o': 5, 's': 6, 't': 6, 'd': 1, 'i': 5, 'a': 9, 'r': 7, 'u': 4, 'n': 6, 'g': 5, 'y': 3, 'c': 1, 'v': 1, 'l': 3, 'f': 1, 'p': 1, '.': 1, '-': 1, 'A': 1, 'K': 1})


Mivel megszámlálni elemeket elég gyakori feladat, erre van egy külön osztály, ami ezt a problémát oldja meg.

In [35]:
from collections import Counter


def count_letters_4(string):
    return Counter(string)


counter = count_letters_4(text)

print(counter.most_common(n=5))
print()
print(counter.items())

[(' ', 16), ('a', 9), ('r', 7), ('s', 6), ('t', 6)]

dict_items([('T', 1), ('h', 3), ('e', 5), (' ', 16), ('m', 3), ('o', 5), ('s', 6), ('t', 6), ('d', 1), ('i', 5), ('a', 9), ('r', 7), ('u', 4), ('n', 6), ('g', 5), ('y', 3), ('c', 1), ('v', 1), ('l', 3), ('f', 1), ('p', 1), ('.', 1), ('-', 1), ('A', 1), ('K', 1)])


Végül egy jópofa adatszerkezetről lesz szó, a `namedtuple`-ről, ami egy olyan tuple, ahol a mezők nem csak index alapján, hanem név alapján is elérhetők.

In [36]:
def seconds_to_time(seconds):
    """Convert time in seconds to hour, minute, second format"""
    minutes, seconds = divmod(seconds, 60)
    hours, minutes = divmod(minutes, 60)
    return hours, minutes, seconds


seconds_to_time(10000)

(2, 46, 40)

In [37]:
from collections import namedtuple

Time = namedtuple("Time", ["hour", "minute", "second"])


def seconds_to_time_2(seconds):
    """Convert time in seconds to hour, minute, second format"""
    minutes, seconds = divmod(seconds, 60)
    hours, minutes = divmod(minutes, 60)
    return Time(hour=hours, minute=minutes, second=seconds)


result = seconds_to_time_2(10000)
print(result)
print()

print(result.hour)
print(result.minute)
print(result.second)

Time(hour=2, minute=46, second=40)

2
46
40


# Kivételkezelés (Exception handling)

In [38]:
1 / 0

ZeroDivisionError: division by zero

In [39]:
a + 10

NameError: name 'a' is not defined

In [40]:
int("12.345")

ValueError: invalid literal for int() with base 10: '12.345'

Kivételek mindig is előfordulhatnak, azaz olyan helyzetek, amikor a számolás értelmetlen, vagy egy fájlt kell megnyitni, ami nem is létezik, egy adatbázishoz kapcsolódunk, ahol nem jó a jelszó, vagy nem elérhető a szerver, valamit konvertálni kell valami mássá, de nem lehetséges.

Pl. konvertáljuk egy sztringet egész számmá, ha ez lehetséges.

In [41]:
def convert_to_int(s):
    return int(s)


print(convert_to_int("100"))

convert_to_int("10.0")

100


ValueError: invalid literal for int() with base 10: '10.0'

Hogyan lehetünk biztosak abban, hogy egy stringet egész számként tudunk értelmezni?

In [42]:
def convert_to_int(string):
    if string.isnumeric():
        return int(string)
    
    return None


print(convert_to_int("123"))
print(convert_to_int("45.67"))
print(convert_to_int("-2"))

123
None
None


Mi lenne, ha nem mi próbálnánk kitalálni, hogy mi lenne a jó, hanem hagynánk, hogy a Python `int` konverziós függvénye *megpróbálja* a konverziót, aztán ha sikerül, akkor jó, ha meg nem, akkor meg kitalálunk valamit.

In [43]:
def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
    
    return None


print(convert_to_int("100"))
print(convert_to_int("10.0"))
print(convert_to_int("-3"))

100
Cannot convert 10.0 to an integer.
None
-3


Később látni fogjuk, hogy nem csak egyfajta kivételt kell / lehet lekezelni, hanem akár többféle hibaok is előfordulhat. 

Egy tipikus ilyen helyzet a fájlbeolvasás, ahol lehet, hogy a 
* fájl nem található
* nincs jogunk olvasni a fájlt
* hibás a formátuma
* nem dekódolható a szöveg, mert más karakterkészlet szerepel benne, mint amire számítunk
* stb.

Az általános szintaxisa a kivételek kezelésének / elkapásának a `try - except` konstrukció:

```python
try:
    try_something()
except SomeError_1:
    do_something_1()
...
except SomeError_n:
    do_something_n
finally:
    execute_anyway()
```

In [44]:
# Az előforduló hibát akár újra is lehet dobni azért, hogy a minket hívó függvényhez is eljusson a hiba

def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
        raise 
        
        
convert_to_int("12.34")

Cannot convert 12.34 to an integer.


ValueError: invalid literal for int() with base 10: '12.34'

In [45]:
# Vagy dobhatunk saját magunk által definiált hibát is:
class MyError(Exception):
    pass


def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
        raise MyError("Catch me if you can.")
         
convert_to_int("12.34")

Cannot convert 12.34 to an integer.


MyError: Catch me if you can.

# Fájlműveletek (File handling)

In [46]:
filepath = "./data/P0022_names.txt"

# A felkiáltójellel Jupyterben az operációs rendszer parancsait tudom meghívni, pl. Linux alatt a `head` parancsot
!head -n 5 $filepath

MARY
PATRICIA
LINDA
BARBARA
ELIZABETH


In [47]:
names = []
f = open(filepath, "r")

while (line := f.readline()):
    names.append(line)

f.close()

In [48]:
print(names[:5])

['MARY\n', 'PATRICIA\n', 'LINDA\n', 'BARBARA\n', 'ELIZABETH\n']


In [49]:
names = []
# Megnyitunk egy fájlt olvasásra
f = open(filepath, "r")

while (line := f.readline()):
    names.append(line.rstrip())

# A megnyitott fájlt bezárjuk
f.close()   

names[:5]

['MARY', 'PATRICIA', 'LINDA', 'BARBARA', 'ELIZABETH']

In [50]:
names = []
f = open(filepath, "r")

lines = f.readlines()

f.close()

lines[:5]

['MARY\n', 'PATRICIA\n', 'LINDA\n', 'BARBARA\n', 'ELIZABETH\n']

In [51]:
names = []
f = open(filepath, "r")

lines = f.read().splitlines()

f.close() 

lines[:5]

['MARY', 'PATRICIA', 'LINDA', 'BARBARA', 'ELIZABETH']

In [52]:
# Fájl megnyitás with-utasítással, a blokk végén automatikusan zárja a fájlt

with open(filepath, "r") as f:
    content = f.read().splitlines()
    

content[:5]    

['MARY', 'PATRICIA', 'LINDA', 'BARBARA', 'ELIZABETH']

HF: Ebben a fájlban keresztnevek vannak. Hány olyan lényegében különböző névpár van, hogy a pár második eleme az első névnek a megfordítottja?

pl. ("NORA", "ARON")


Az ("ARON", "NORA") pár nem különbözik lényegében az előzőtől.

A nevek kezdőbetűit tekintve melyik az 5 leggyakoribb? W-vel vagy C-vel kezdődik több név?