# A Python beépített adatszerkezetei II. (Python collections - part II.) 

## Lista-összeállítás vagy listaképzés (List comprehension)

In [None]:
lst = []
for x in range(10):
    lst.append(x)
    
    
print(lst)

# Ez is működne erre az egyszerű feladatra:
# lst = list(range(10))

In [None]:
lst = [x for x in range(10)]

print(lst)

In [None]:
lst = []
for x in range(10):
    lst.append(2*x)
    
print(lst)


lst = [2*x for x in range(10)]   
print(lst)

In [None]:
lst = []
for x in range(10):
    if x % 2 == 0:
        lst.append(x)

print(lst)        


lst = [x for x in range(10) if x % 2 == 0]   
print(lst)

In [None]:
lst = []
for x in range(10):
    y = 2*x + 1
    if y % 3 == 0:
        lst.append(y)
                
print(lst)


lst = [2*x + 1 for x in range(10) if (2*x + 1) % 3 == 0]
print(lst)

In [None]:
# Python 3.8-tól kezdve
lst = [y for x in range(10) if (y := 2*x + 1) % 3 == 0]

print(lst)

# Rendezett $n$-esek (Tuple)

A `tuple` típussal már találkoztunk, ha egy függvénynek több visszatérési értéke van, akkor azokat vesszővel elválasztva adjuk meg, ami egy tuple: különböző típusú elemek adott sorrendben, vesszővel elválasztva, esetleg zárójelek között.

In [None]:
t = 1, "a", int

print(t)
print(type(t))

In [None]:
# Az elemeket felsorolva zárójelben is megadhatjuk

t = (1, "a", int)

print(t)

A tuple-nek két fő felhasználása van. Egyrészt függvény visszatérési értékként általában rövid, és tipikusan különböző típusú elemeket tartalmaz. A másik felhasználási mód, hogy olyan, mint egy lista, azzal a különbséggel, hogy a tuple immutable, azaz nem lehet hozzávenni új elemeket, nem lehet törölni, nem lehet megváltoztatni.

In [None]:
lst = [1, 2, 3, 4, 5]

t = tuple(lst)

print(t)

```python
t0 = ()
t1 = (10,)
t2 = (10, 20)
t3 = (10, 20, 30)
...
```

Ugyanúgy lehet indexelni őket, mint listákat és ugyanúgy lehet végigiterálni rajtuk, mint egy listán. A tuple általában kevesebb memóriát foglal, mint az ugyanazon elemeket tartalmazó lista, de a fő előnye, hogy a kód nem tudja véletlenül módosítani őket, mint a listát.

Ha azonban a tuple tartalmaz mutable elemet, az azért mégiscsak módosítható lesz.

In [None]:
t = (1, 2, 3)

t[0] = 10

In [None]:
t = ([1, 2], "hello")

t[0].append(3)

t

**HF**: Egy adott sztringből távolítsuk el az egymás mellett álló ismétlődő karaktereket. Példa: "kukkkuuuurrrriiiikuuuuuuuu" -> "kukuriku"

```python
def remove_consecutive_duplicates(string):
    pass
```

## Szótárak, kulcs-érték párok (Dictionaries)

Gyakran előfordul olyan probléma, hogy különböző dolgokat kell eltárolnunk, amelyek nem valamilyen index alapján azonosíthatók, hanem valamilyen kulcs alapján.

Például egy telefonkönyvben nevekhez rendelünk telefonszámot, egy angol-francia szótárban angol szavakhoz a megfelelő francia szót, vagy esetleg szavakat, országokhoz a fővárosaikat, hallgatókhoz a felvett tárgyaikat, írókhoz a könyveiket, stb.

Országokhoz rendeljük hozzá a fővárosukat.
```
Hungary -> Budapest
France -> Paris
Australia -> Canberra
Spain -> Madrid
```

Személyekhez rendeljük a hangszereket, amelyeken játszani tudnak.
```
Anna -> [hegedű, cselló, trombita]
Béla -> [tangóharmonika]
Gábor -> [dob, okarina]
```

Lehet-e az eddig tanult adatszerkezetekkel eltárolni ilyen (kulcs, érték) párokból álló elemeket?

In [None]:
capitals = [
    ("Hungary", "Budapest"), 
    ("France", "Paris"), 
    ("Australia", "Canberra"), 
    ("Spain", "Madrid")
]

In [None]:
def capital_of_a_country(capitals, country):
    for country_name, capital_name in capitals:
        if country_name == country:
            return capital_name
    
    # Country is not found
    return None    
    
    
print(capital_of_a_country(capitals, "Spain"))
print(capital_of_a_country(capitals, "Austria"))

* Mennyi ideig tart, amíg egy adott kulcshoz megtaláljuk a megfelelő értéket? 
* Függ-e ez a párokból álló lista hosszától? 

Szokás ezt az adatszerkezetet asszociatív listának is nevezni.

Nekünk olyan adatszerkezet lenne megfelelő, ahol
* a kulcs alapján történő keresés 
* kulcs alapján új elem beszúrása
* kulcs alapján elem törlése

gyors műveletek.

Sajnos a (kulcs, érték) párokból álló lista mindhárom műveletre lassú. Azonban szerencsénk van, van egy olyan adatszerkezet, amely átlagosan konstans idő alatt képes mindhárom műveletre és csak nagyon ritkán, a körülmények szerencsétlen együttállása esetén lesz alkalmanként egy-egy ilyen művelet lassú. Emellett a tárhely, amit foglal, szintén nem nagyobb, mint az elemek tárolásával arányos méretű hely.

Erről sokkal többet fogtok tanulni algoritmuselméleti órákon. Legyen most annyi elég, hogy kétféle módon lehet hatékony adatszerkezetet készíteni erre a problémára, az egyik gyors és mutable, a másik kicsit lassabb, de immutable és csak rendezhető kulcsokra készíthető el.

Pythonban az első van implementálva a beépített adatszerkezetek között, nevezetesen a hash-tábla alapú. Ennek az adatszerkezetnek a neve `dictionary` (`szótár`, `dict`).

A hash-tábla alapötlete, hogy van egy hash-függvénynek nevezett $h$ függvény a háttérben, ami a $k$ kulcsot $h(k)$-va viszi úgy, hogy különböző kulcsok nagy valószínűséggel különböző értékre képződnek le, az értéket pedig (a kulccsal együtt) egy tömb $h(k)$-adik indexénél tároljuk el.

In [None]:
# {key1: value1, key2: value2, ....}

country_capitals = {
    "Hungary": "Budapest", 
    "France": "Paris", 
    "Australia": "Canberra", 
    "Spain": "Madrid"
}

In [None]:
countries = ["Hungary", "France", "Australia", "Spain"]
capitals = ["Budapest", "Paris", "Canberra", "Madrid"]

# dict-comprehension
{country: capital for country, capital in zip(countries, capitals)}

In [None]:
dict(zip(countries, capitals))

In [None]:
# Az `in` kulcsszót használjuk annak a tesztelésére, hogy valami előfordul-e kulcsként a szótárban.

print("Portugal" in country_capitals)

print("Spain" in country_capitals)

In [None]:
# Adott kulcshoz tartozó érték lekérdezése

country_capitals["France"]

In [None]:
country_capitals["Italy"]

In [None]:
country_capitals.get("France")

In [None]:
# Ha nincs ilyen kulcs, kérhetünk default értéket is

print(country_capitals.get("Italy"))

print(country_capitals.get("Italy", "I do not know."))

In [None]:
# Iterálás egy szótáron:

for country in country_capitals:
    print(country)

In [None]:
for country in country_capitals.keys():
    print(country)

In [None]:
for capital in country_capitals.values():
    print(capital)

In [None]:
for country, capital in country_capitals.items():
    print(f"The capital of {country} is {capital}.")

In [None]:
country_capitals["Serbia"] = "Belgrade"

country_capitals

In [None]:
capital_of_france =  country_capitals.pop("France")

print(capital_of_france)

country_capitals

In [None]:
country_capitals.pop("Austria")

In [None]:
del country_capitals["Spain"]

country_capitals

Egy hash-függvény csak immutable dolgokat tud hash-elni, ha ugyanis megváltozna (mutálódna) a kulcs, akkor többé nem tudnánk megkeresni a hozzá tartozó értéket, hiszen $f(k)$ helyett az $f(k')$ helyen próbálnánk keresni az értéket, de az az $f(k)$ helyen van eltárolva.

In [None]:
d = {}

d["Hello"] = 1
d[10] = 2

d

In [None]:
d[[1, 2]] = 3

Lista tehát nem használható dictionary kulcsaként, de tuple igen. Minden olyan dolog lehet kulcs, ami hashelhető.

## Halmazok (Sets)

A halmaz olyan adatszerkezet, amely csupa különböző elemet tartalmaz. Ez persze implicit módon azt is jelenti, hogy a halmazba tett elemeket össze kell tudnunk hasonlítani egyenlőség szempontjából. Ami viszont nem egyértelmű, hogy halmazba csak hash-elhető elem kerülhet. Ennek az az oka, hogy a halmaz adatszerkezet Pythonban ismét hash-táblával van implementálva.

Ugyan első hallásra a `dictionary` és a `set` nagyon különböző adatszerkezetnek tűnhet, valójában nagyon hasonló módon vannak implementálva.

In [None]:
# Ugyanúgy kapcsos zárójel határolja az elemeket, mint a dictionary-nél,
# ez is mutatja, hogy szoros kapcsolat van a két adatszerkezet között

{"fej", "írás", "írás", "írás", "fej"}

In [None]:
string = "kukkkuuuurrrriiiikuuuuuuuu"

letters = set()  # a {} az üres dict-et jelöli
for char in string:
    letters.add(char)
    

letters  

In [None]:
# Set comprehension

{char for char in string}

In [None]:
s = {1, 2, 3, 4, 5}
t = {4, 5, 6}
u = {5, 6}

print(s.union(t))
print(s | t)
print()

print(s.intersection(t))
print(s & t)

print(u.issubset(t))
print(s.issuperset(u))

In [None]:
s = {1, 2, 3}

lst = [1, 1, 2, 4, 5]

s.update(lst)

print(s)

In [None]:
s = {1, 2, 3}

lst = [1, 1, 2, 4, 5]

s.difference_update(lst)

print(s)

A halmaz mutable adatszerkezet, azonban a listához hasonlóan ennek is létetzik immutable párja, a `frozenset`.

```python
s = frozenset({1, 2, 3})
```

**Feladat**: Számoljuk meg egy szövegben a betűk előfordulásainak számát.

In [None]:
text = "The most disastrous thing that you can ever learn is your first programming language. - Alan Kay"

In [None]:
def count_letters(string):
    counts = {}
    for char in string:
        pass
    
    return counts


print(count_letters(text))

In [None]:
def count_letters(string):
    counts = {}
    for char in string:
        if char in counts:
            counts[char] += 1
        else:
            counts[char] = 1
    
    return counts


print(count_letters(text))

In [None]:
def count_letters_2(string):
    counts = {}
    for char in string:
        counts[char] = counts.get(char, 0) + 1
    
    return counts


print(count_letters_2(text))

## Egyéb hasznos adatszerkezetek (More collections)

További gyakran használatos adatszerkezetek érhetők el a `collections` könyvtárban. Az itt implementált adatszerkezeteket be kell importálni, hogy használni tudjuk.

In [None]:
# Ezen a módon a collections könyvtár tartalma elérhetővé válik a collections-prefixszel
import collections

d = collections.defaultdict(int)

print(d)

In [None]:
# Az importált modult egy alias-szal látunk el és így lehet hivatkozni a modul függvényeire, osztályaira
import collections as cl

d = cl.defaultdict(int)

print(d)

In [None]:
# Ezen a módon a futó kód globális névteréből lesz elérhető a beimportált függvény vagy osztály.
from collections import defaultdict

d = defaultdict(int)

print(d)

A `defaultdict` egy olyan szótár, amely nem dob hibát, ha nemlétező kulcsot keresünk benne, hanem ilyenkor beteszi az új kulcsot egy alapértelmezett értékkel: `defaultdict(int)` esetén a default érték 0, `defaultdict(list)` esetén az üres lista, `defaultdict(set)` esetén az üres halmaz.

In [None]:
def count_letters_3(string):
    counts = defaultdict(int)
    for char in string:
        counts[char] += 1 
    
    return counts


print(count_letters_3(text))

Mivel megszámlálni elemeket elég gyakori feladat, erre van egy külön osztály, ami ezt a problémát oldja meg.

In [None]:
from collections import Counter


def count_letters_4(string):
    return Counter(string)


counter = count_letters_4(text)

print(counter.most_common(n=5))
print()
print(counter.items())

Végül egy jópofa adatszerkezetről lesz szó, a `namedtuple`-ről, ami egy olyan tuple, ahol a mezők nem csak index alapján, hanem név alapján is elérhetők.

In [None]:
def seconds_to_time(seconds):
    """Convert time in seconds to hour, minute, second format"""
    minutes, seconds = divmod(seconds, 60)
    hours, minutes = divmod(minutes, 60)
    return hours, minutes, seconds


seconds_to_time(10000)

In [None]:
from collections import namedtuple

Time = namedtuple("Time", ["hour", "minute", "second"])


def seconds_to_time_2(seconds):
    """Convert time in seconds to hour, minute, second format"""
    minutes, seconds = divmod(seconds, 60)
    hours, minutes = divmod(minutes, 60)
    return Time(hour=hours, minute=minutes, second=seconds)


result = seconds_to_time_2(10000)
print(result)
print()

print(result.hour)
print(result.minute)
print(result.second)

# Kivételkezelés (Exception handling)

In [2]:
1 / 0

ZeroDivisionError: division by zero

In [1]:
#a + 10

NameError: name 'a' is not defined

In [None]:
int("12.345")

Kivételek mindig is előfordulhatnak, azaz olyan helyzetek, amikor a számolás értelmetlen, vagy egy fájlt kell megnyitni, ami nem is létezik, egy adatbázishoz kapcsolódunk, ahol nem jó a jelszó, vagy nem elérhető a szerver, valamit konvertálni kell valami mássá, de nem lehetséges.

Pl. konvertáljuk egy sztringet egész számmá, ha ez lehetséges.

In [None]:
def convert_to_int(s):
    return int(s)


print(convert_to_int("100"))

convert_to_int("10.0")

Hogyan lehetünk biztosak abban, hogy egy stringet egész számként tudunk értelmezni?

In [None]:
def convert_to_int(string):
    if string.isnumeric():
        return int(string)
    
    return None


print(convert_to_int("123"))
print(convert_to_int("45.67"))
print(convert_to_int("-2"))

Mi lenne, ha nem mi próbálnánk kitalálni, hogy mi lenne a jó, hanem hagynánk, hogy a Python `int` konverziós függvénye *megpróbálja* a konverziót, aztán ha sikerül, akkor jó, ha meg nem, akkor meg kitalálunk valamit.

In [None]:
def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
    
    return None


print(convert_to_int("100"))
print(convert_to_int("10.0"))
print(convert_to_int("-3"))

Később látni fogjuk, hogy nem csak egyfajta kivételt kell / lehet lekezelni, hanem akár többféle hibaok is előfordulhat. 

Egy tipikus ilyen helyzet a fájlbeolvasás, ahol lehet, hogy a 
* fájl nem található
* nincs jogunk olvasni a fájlt
* hibás a formátuma
* nem dekódolható a szöveg, mert más karakterkészlet szerepel benne, mint amire számítunk
* stb.

Az általános szintaxisa a kivételek kezelésének / elkapásának a `try - except` konstrukció:

```python
try:
    try_something()
except SomeError_1:
    do_something_1()
...
except SomeError_n:
    do_something_n()
else:
    do_this_when_there_was_no_exception()
finally:
    execute_anyway()
```

In [None]:
# Az előforduló hibát akár újra is lehet dobni azért, hogy a minket hívó függvényhez is eljusson a hiba

def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
        raise 
        
        
convert_to_int("12.34")

In [None]:
# Vagy dobhatunk saját magunk által definiált hibát is:
class MyError(Exception):
    pass


def convert_to_int(s):
    try:
        return int(s)
    except ValueError:
        print(f"Cannot convert {s} to an integer.")
        raise MyError("Catch me if you can.")
         
result = convert_to_int("12.34")

In [None]:
def division(x, y):
    try:
        result = x / y
    except ZeroDivisionError:
        print("division by zero error!")
    else:
        print(f"The result is {result}")
    finally:
        print("This will execute anyway")

In [None]:
division(1, 2)

In [None]:
division(1, 0)