# Datové struktury z modulu collections

Modul `collections` obsahuje celou řadu zajímavých datováých struktur, které na první pohled umí to samé jako slovníky, seznamy či ntice, ale přidávají k tomu i něco navíc.

## OrderedDict

Pro začátek si dáme něco jednoduchého. `OrderedDict` je v podstatě obyčejný slovník, který ale umí zachovávat pořadí vložených prvků, a také pár dalších drobností, které s pořadím prvků souvisí.

In [1]:
from collections import OrderedDict

In [2]:
slovnik = OrderedDict()

slovnik["třešeň"] = 0
slovnik["banán"] = 3
slovnik["jablko"] = 4
slovnik["hruška"] = 1
slovnik["pomeranč"] = 2
slovnik["kiwi"] = 1

slovnik

OrderedDict([('třešeň', 0),
             ('banán', 3),
             ('jablko', 4),
             ('hruška', 1),
             ('pomeranč', 2),
             ('kiwi', 1)])

Metoda `popitem` například existuje i u klasických slovníků, ale u `OrderedDict` si můžeme být jisti, že nám vrátí opravdu první či poslední vloženou dvojici:

In [3]:
slovnik.popitem()

('kiwi', 1)

In [4]:
slovnik.popitem(last=False)

('třešeň', 0)

Když upravíme hodnotu nějakého klíče, zůstane pořadí nezměněno:

In [5]:
slovnik["jablko"] = 10
slovnik

OrderedDict([('banán', 3), ('jablko', 10), ('hruška', 1), ('pomeranč', 2)])

Se změnou pořadí nám může pomoci metoda `move_to_end`:

In [6]:
slovnik.move_to_end("jablko")
slovnik.move_to_end("pomeranč", last=False)
slovnik

OrderedDict([('pomeranč', 2), ('banán', 3), ('hruška', 1), ('jablko', 10)])

Na důležitý rozdíl narazíme i při porovnávání. U bězných slovníků se při porovnávání zabýváme jen jejich obsahem, ale u `OrderedDict` musí být totožný obsah i pořadí prvků:

In [7]:
sl1 = OrderedDict([("chleba", 1), ("mouka", 3), ("máslo", 2)])
sl2 = OrderedDict([("mouka", 3), ("máslo", 2), ("chleba", 1)])

sl1 == sl2

False

In [8]:
sl1.move_to_end("chleba")

sl1 == sl2

True

## defaultdict

`defaultdict` je, jak už název napovídá, slovník s podporou výchozích hodnot. Při získávání hodnot z normálního slovníku si musíte být jisti, že klíč ve slovníku existuje, nebo použít podmínky či výjimky k odchycení případné chyby. `defaultdict` umí pracovat i s neexistujícími klíči a místo chyby vrátit výchozí hodnotu. Pojďme si to ukázat na příkladu, kdy budeme chtít vypočítat počty výskytů znaků v textu.

Příprava slovníku dopředu je velmi nepraktická, protože stačí zapomenout na jeden znak, který se pak ve zpracovaném textu objeví, a program přestane fungovat. Pojďme raději ověřovat, zda se už znak ve slovníku nachází:

In [9]:
from collections import defaultdict

text = "Advanced Python"

In [10]:
pocet = {}

for znak in text.lower():
    if znak in pocet:
        pocet[znak] += 1
    else:
        pocet[znak] = 1

pocet

{' ': 1,
 'a': 2,
 'c': 1,
 'd': 2,
 'e': 1,
 'h': 1,
 'n': 2,
 'o': 1,
 'p': 1,
 't': 1,
 'v': 1,
 'y': 1}

In [11]:
pocet["e"]

1

S použitím `defaultdict` se již nebudeme muset ohlížet na to, zda klíč ve slovníku existuje či nikoli. Při vytváření `defaultdict` mu jako parametr zadáme funkci, která se má zavolat v případě, že se pokusíme přistoupit k hodnotě neexistujícího klíče. Taková funkce může jednoduše vrátit nějakou výchozí hodnotu, nebo obsahovat i složitější logiku:

In [12]:
def vychozi_hodnota():
    return 0

pocet = defaultdict(vychozi_hodnota)

for znak in text.lower():
    pocet[znak] += 1

pocet

defaultdict(<function __main__.vychozi_hodnota>,
            {' ': 1,
             'a': 2,
             'c': 1,
             'd': 2,
             'e': 1,
             'h': 1,
             'n': 2,
             'o': 1,
             'p': 1,
             't': 1,
             'v': 1,
             'y': 1})

Když se zeptáme na neexistující klíč, dostaneme výchozí hodnotu:

In [13]:
pocet["w"]

0

Takto jednoduché a jednoúčelové funkce se dají zapsat i na jeden řádek a klidně přímo do argumentu vytvářeného slovníku. Takovým funkcím se říká anonymní a podíváme se na ně podrobněji v sedmé lekci:

In [14]:
pocet = defaultdict(lambda: 0)

for znak in text.lower():
    pocet[znak] += 1

pocet

defaultdict(<function __main__.<lambda>>,
            {' ': 1,
             'a': 2,
             'c': 1,
             'd': 2,
             'e': 1,
             'h': 1,
             'n': 2,
             'o': 1,
             'p': 1,
             't': 1,
             'v': 1,
             'y': 1})

V tomto konkrétním příkladu bychom mohli místo vlastní funkce použít třídu `int`, která, je-li zavolána bez argumentů, také vrací nulu:

In [15]:
pocet = defaultdict(int)

for znak in text.lower():
    pocet[znak] += 1

pocet

defaultdict(int,
            {' ': 1,
             'a': 2,
             'c': 1,
             'd': 2,
             'e': 1,
             'h': 1,
             'n': 2,
             'o': 1,
             'p': 1,
             't': 1,
             'v': 1,
             'y': 1})

Výchozí hodnota nemusí být jen číslo. Co když budeme chtít místo počtu výskytů znaku znát všechny indexy na nichž se v textu vyskytuje? Jednoduše v našem příkladu použijeme prázný list jako výchozí hodnotu. Do takto připravených prázdných seznamů pak už můžeme bez obav přímo vkládat hodnoty:

In [16]:
pocet = defaultdict(list)

for index, znak in enumerate(text.lower()):
    pocet[znak].append(index)

pocet

defaultdict(list,
            {' ': [8],
             'a': [0, 3],
             'c': [5],
             'd': [1, 7],
             'e': [6],
             'h': [12],
             'n': [4, 14],
             'o': [13],
             'p': [9],
             't': [11],
             'v': [2],
             'y': [10]})

## Counter

U podobného příkladu ještě zůstaneme a podíváme se na `Counter`, což je další datová struktura postavená nad slovníkem. `Counter` je slovník, který umí automaticky spočítat počty výskytů prvků v zadané sekvenci a uložit je do běžného slovníku.

In [17]:
from collections import Counter

In [18]:
seznam = ["vejce", "vejce", "vejce", "vejce", "rohlík", "rohlík", "rohlík", "rohlík", "fazole", "párek", "párek", "párek"]
counter = Counter(seznam)
counter

Counter({'fazole': 1, 'párek': 3, 'rohlík': 4, 'vejce': 4})

Counter lze také vytvořit zadáním jednotlivých prvků a jejich počtu:

In [19]:
counter1 = Counter(a=4, b=2, c=0, d=-2)
counter2 = Counter(a=1, b=2, c=0, d=-2)

Metoda `elements` nám pak umožňuje získat všechny prvky v originálním počtu:

In [20]:
list(counter1.elements())

['a', 'a', 'a', 'a', 'b', 'b']

Jednotlivé čítače lze od sebe odečíst:

In [21]:
counter1.subtract(counter2)
counter1

Counter({'a': 3, 'b': 0, 'c': 0, 'd': 0})

Také jsme jednoduše schopni zjistit, které prvky jsou v čítači nejpočetnější:

In [22]:
counter2.most_common(1)

[('b', 2)]

In [23]:
counter2.most_common(2)

[('b', 2), ('a', 1)]

## namedtuple

Dost bylo slovníků. Pojďme se podívat na speciální ntici, k jejímž prvkům lze přistupovat pomocí jmen stejně jako k atributům u tříd.

Nejprve si vytvoříme něco na způsob vlastního datového typu, který bude mít jméno a také seznam pojmenovaných atributů:

In [24]:
from collections import namedtuple

Osoba = namedtuple("Osoba", ["jmeno", "prijmeni", "vek"])

A nyní už můžeme vytvořit konkrétní osobu. Jednotlivé atributy můžeme zadat jako pojmenované argumenty, poziční argumenty a nebo kombinaci obojího:

In [25]:
os = Osoba("Pepa", "Novák", 33)
os = Osoba("Pepa", "Novák", vek=33)
os = Osoba(jmeno="Pepa", prijmeni="Novák", vek=33)

Výsledek bude vždy stejný:

In [26]:
os

Osoba(jmeno='Pepa', prijmeni='Novák', vek=33)

K obsahu pojmenované ntice můžeme přistupovat jako k atributům u tříd pomocí tečkové notace:

In [27]:
os.jmeno

'Pepa'

In [28]:
os.vek

33

Pořád se ovšem jedná o ntici, takže máme možnost iterovat skrze její obsah:

In [29]:
for parametr in os:
    print(parametr)

Pepa
Novák
33


Nebo ji rozbalit do proměnných:

In [30]:
jmeno, prijmeni, vek = os
print(jmeno, prijmeni, vek)

Pepa Novák 33


## deque

Už jsme tady měli speciální případy slovníků a ntic. `deque` je poslední do party a jedná se o speciální seznam. Ke známým metodám `append`, `extend` a `pop` přidává jejich varianty `appendleft`, `extendleft` a `popleft`, které dělají totéž, ale na levé straně seznamu.

In [31]:
from collections import deque

In [32]:
d = deque("cdefg")

In [33]:
d.appendleft("b")
d

deque(['b', 'c', 'd', 'e', 'f', 'g'])

In [34]:
d.popleft()

'b'

In [35]:
d.extendleft(["b", "a"])
d

deque(['a', 'b', 'c', 'd', 'e', 'f', 'g'])

Možná nejzajímavjší vlastností je však možnost definovat maximální délku `deque`. Pokud je pak maximální délka překročena při vkládání nového prvku, je prvek z opačné strany `deque` smazán:

In [36]:
d = deque([1, 2, 3, 4], maxlen=5)
d

deque([1, 2, 3, 4])

In [37]:
d.append(5)
d

deque([1, 2, 3, 4, 5])

In [38]:
d.append(6)
d

deque([2, 3, 4, 5, 6])

In [39]:
d.appendleft(0)
d

deque([0, 2, 3, 4, 5])

# Úkol

Ke každé datové struktuře, kterou jsme si dnes představili, vymyslete (a případně i naimplementujte) příklad reálného použití. Fantazii se meze nekladou. Pokud by byla implementace příkladu použití příliš složitá, postačí slovní popis.

Řešení a případné dotazy zasílejte na email frenzy.madness@gmail.com