## Kolekcje w języku Python ##

W laboratorium zostaną opisane wybrane typy kolekcji, najczęściej używane w praktyce oraz funkcje i klasy działające na tych kolekcjach. W poprzednim laboratorium zostały przekazane podstawowe informacje o listach, tuplach i zbiorach. W tym rozdziale główny nacisk został położony na moduł standardowy `collections`.

### Klasa `ChainMap`

Klasa umożliwia efektywne łączenie wielu słowników w jednej strukturze. Nie wykonuje fizycznego łączenia, a scalanie odbywa się na poziomie mapowania konkretnych kluczy w słownikach. W przypadku, gdy słowniki nie są rozłączne parami (zawierają te same klucze), priorytet ma słownik przekazany jako pierwszy.

In [1]:
from collections import ChainMap

def_params = { 'p1': 'v1', 'p2': 'v2' }
params_from_file = { 'p2': 'v2', 'p3': 'v3' }

params = ChainMap(def_params, params_from_file)

print(params['p1'])
print(params['p2'])
print(params['p3'])


v1
v2
v3


Dodatkowo do istniejącej kolekcji słowników można dodawać kolejne, za pomocą funkcji `new_child`.

### Klasa `Counter`

Bardzo przydatna klasa do zliczania wystąpień elementów kolekcji. W konstruktorze należy przekazać instancje kolekcji na, której wykonywane będą obliczenia.

In [4]:
from collections import Counter

lst=[1,1,2,2,3,3,3,3]

counter = Counter(lst)

print(counter.most_common()) # najczęściej występujące elementy

counter = Counter('Ala ma kota') # łańcuch znaków jest typu iterable

print(counter.most_common(3)) # trzy najczęściej występujące

counter = Counter('Ala ma kota'.split())

print(counter.most_common())

[(3, 4), (1, 2), (2, 2)]
[('a', 3), (' ', 2), ('A', 1)]
[('Ala', 1), ('ma', 1), ('kota', 1)]


Dodatkowo klasa `counter` zawiera wiele przedefiniowanych operatorów dwuargumentowych np. `+`, `-`, `*`, `/`, co umożliwia wykonywanie operacji na oryginalnych kolekcjach, dodawania, odejmowania, mnożenia i dzielenia odpowiadającym elementom obu kolekcji.

### Klasa `OrderedDict`

Kolekcja przechowuje kolejność dodawania kolejnych kluczy. Klasa ta zawiera zbiór wszystkich funkcji słownika, a wywołanie funkcji `popitem`, spowoduje zwrócenie i usunięcie ostatnio dodanego elementu.

In [23]:
from collections import OrderedDict

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
sorted = Counter(lst).most_common()
print(sorted)
od = OrderedDict(sorted)
print(od.popitem(False)) # parametr last typu bool, niewystępujący w dict

d = dict(sorted)
print(d.popitem())

[(1, 7), (2, 5), (3, 3)]
(1, 7)
(3, 3)


## Przydatne klasy i funkcje

### Funkcja `zip`

Funkcja umożliwia łączenie kolekcji i iterowanie po wyniku. Każda iteracja złączonych kolekcji przechowywana jest jako tupla.

In [26]:
users = ['Lukasz Strak', 'Jan Kowalski']
ids = [1,2]

for user, id in zip(users, ids):
    print(f'{user} {id:4}') # :4 oznacza pad left do 4 znaków (wyrównanie do prawej przy użyciu spacji)

Lukasz Strak    1
Jan Kowalski    2


### Funkcja `enumarate`

Iterując po kolekcji niejednokrotnie przydatne jest posiadanie aktualnego numeru iteracji. Można w tym celu użyć funkcji `enumerate`, która zwraca listę tupli, która pod indeksem zero zawiera numer elementu, a w kolejnym sam element.

In [27]:
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
for i, elem in enumerate(lst):
    print(i, elem)


0 1
1 2
2 3
3 3
4 2
5 1
6 1
7 1
8 2
9 2
10 3
11 1
12 2
13 1
14 1


Przy użyciu funkcji `enumarate` łatwo rzutować listę na słownik.

In [28]:
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
d = dict(enumerate(lst))
print(d)

{0: 1, 1: 2, 2: 3, 3: 3, 4: 2, 5: 1, 6: 1, 7: 1, 8: 2, 9: 2, 10: 3, 11: 1, 12: 2, 13: 1, 14: 1}


### Funkcja `sorted`

Sortowanie listy typów wbudowanych jest prostym zadaniem. Wystarczy użyć funkcji wbudowanej `sorted`. Do funkcji łatwo przekazać wyrażenie _lambda_, które umożliwia określenie elementu, który będzie użyty do sortowania.

In [2]:
sorted([5, 2, 3, 1, 4])
[5, 2, 3, 1, 4].sort() # adekwatny zapis przy użyciu funkcji sort

d = {'tomato': 1, 'apple': 3, 'lemon': 8, 'orange': 5, 'grape': 2}

# sortowanie słownika na podstawie klucza

print(sorted(d.items(), key=lambda x: x[0]))

# sortowanie słownika na podstawie wartości

print(sorted(d.items(), key=lambda x: x[1]))

# sortowanie słownika na podstawie długości klucza

print(sorted(d.items(), key=lambda x: len(x[0])))

[('apple', 3), ('grape', 2), ('lemon', 8), ('orange', 5), ('tomato', 1)]
[('tomato', 1), ('grape', 2), ('apple', 3), ('orange', 5), ('lemon', 8)]
[('apple', 3), ('lemon', 8), ('grape', 2), ('tomato', 1), ('orange', 5)]


Funkcję `sorted` można użyć wraz z klasą `OrderedDict`.

In [8]:
from collections import OrderedDict

d = {'tomato': 1, 'apple': 3, 'lemon': 8, 'orange': 5, 'grape': 2}

od = OrderedDict(sorted(d.items(), key=lambda x: x[1]))

for i, (key, val) in enumerate(od.items()):
    print(f'{i+1}|{key:8}|{val}')

print(f'The longest word: {od.popitem(False)}')

1|tomato  |1
2|grape   |2
3|apple   |3
4|orange  |5
5|lemon   |8
The longest word: ('tomato', 1)


### Klasa `Shelve`

Jeśli chcemy zachować dane, najczęściej stosowaną techniką jest implementacja własnej funkcji `load` i `save`, działającej na kolekcji. Można również użyć klasy wbudowanej `Shelve`, której bazuje na słowniku.

In [13]:
import shelve

with shelve.open('defaults.db') as shelf:
    shelf['file_name'] = 2

with shelve.open('defaults.db') as shelf:
    print(shelf['file_name'])

2


Dodając identyfikator do słownika można tworzyć proste kolekcje, które w łatwy sposób można serializować do pliku.

In [11]:
import shelve

users = [{ 'first_name': 'Lukasz', 'last_name': 'Strak' }, # można użyć tupli
         { 'first_name': 'Jan', 'last_name': 'Kowalski' }]

with shelve.open('users.db') as shelf:
    for id, user in enumerate(users):
        shelf[str(id)] = user

with shelve.open('users.db') as shelf:
    print(shelf['0'])

{'first_name': 'Lukasz', 'last_name': 'Strak'}


### Funkcja `filter`

Filtrowanie danych w języku Python jest możliwe m.in. dzięki bardzo pomocnej funkcji `filter`. W pierwszym argumencie należy przekazać wyrażenie _lambda_ lub wskaźnik na funkcję, która wywołana zostanie dla każdego elementu kolekcji podanej w drugim parametrze. Zwracany wynik jest _lazy_ czyli jego ewaluacja następuje w momencie użycia np. w pętli `for` lub po rzutowaniu na listę.

In [16]:
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]

print(list(filter(lambda x: x % 2 ,lst)))

print(list(filter(lambda x: x > 2 ,lst)))

for x in filter(lambda x: x < 2, lst):
    print(x)

[1, 3, 3, 1, 1, 1, 3, 1, 1, 1]
[3, 3, 3]
1
1
1
1
1
1
1


### Funkcja `map`

Konwersja każdego elementu kolekcji na inny typ jest częstym zadaniem programisty. Funkcja `map` ułatwia to zadanie. Jego sygnatura jest identyczna jak w przypadku `filter`.

In [18]:
users = [{ 'first_name': 'Lukasz', 'last_name': 'Strak' }, # można użyć tupli
         { 'first_name': 'Jan', 'last_name': 'Kowalski' }]

names = map(lambda x: x['first_name'], users)
print(list(names))

['Lukasz', 'Jan']


### Funkcja `reduce`

Funkcja `reduce` powoduje zwrócenie jednej wartości obliczonej na podstawie kolekcji elementów.

In [19]:
from functools import reduce

lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]

sum_all = reduce(lambda x, y: x+y, lst)

print(sum_all)
print(sum(lst))

26
26


W pierwszej iteracji za `x` i `y` zostaną podstawione wartości 1, 2. W następnej iteracji za `x` i `y` zostaną podstawione wartości 3 (wynik poprzedniego działania) oraz 3. Jeszcze w następnej 6 (wynik działania (1+2)+3) i 3.

### Funkcja `deque`

Jedną z podstawowych struktur danych jest kolejka (_queueu_). Funkcja `deque` umożliwia przekształcenie listy w kolejkę (_FIFO_). Dodatkowo konstruktor posiada bardzo przydatny parametr `max` za pomocą, którego można stworzyć _cache_. Kolekcja zawiera również wiele przydatnych funkcji m.in. `count` zliczającej liczbę wystąpień wartości w kolejce oraz `pop` / `popleft` zwracające ostatni / pierwszy element z kolejki, usuwając go.

In [22]:
from collections import deque

deq = deque(maxlen=5)

for i in range(10):
    deq.append(i)
    print(deq)

print(deq.count("1"))

print(deq.pop())
print(deq.popleft())

deque([0], maxlen=5)
deque([0, 1], maxlen=5)
deque([0, 1, 2], maxlen=5)
deque([0, 1, 2, 3], maxlen=5)
deque([0, 1, 2, 3, 4], maxlen=5)
deque([1, 2, 3, 4, 5], maxlen=5)
deque([2, 3, 4, 5, 6], maxlen=5)
deque([3, 4, 5, 6, 7], maxlen=5)
deque([4, 5, 6, 7, 8], maxlen=5)
deque([5, 6, 7, 8, 9], maxlen=5)
0
9
5


## Funkcja `defaultdict`

Niejednokrotnie może się zdarzyć, że słownik zawiera złożone kolekcje. Funkcja `defaultdict` tworzy typ, który zaraz po stworzeniu klucza będzie zawierał zainicjowany typ przechowywanej wartości.

In [23]:
from collections import defaultdict

transactions = { '123': { 'account_id': 1, 'value': 1 },
                 '124': { 'account_id': 2, 'value': 2 },
                 '125': { 'account_id': 1, 'value': 5 },
                 '126': { 'account_id': 1, 'value': 5 }}

history = defaultdict(list)

for trans_id, trans_param in transactions.items():
    history[trans_param['account_id']].append(trans_param['value'])

print(history.items())

dict_items([(1, [1, 5, 5]), (2, [2])])


### Funkcja `namedtuple`

Największą wadą tupli jest konieczność znajomości ścisłej kolejności elementów jakie przechowuje (podobnie jak elementy listy). Dotyczy to zarówno odczytywania ich poprzez rozpakowanie oraz poprzez nawiasy kwadratowe z indeksem. Funkcja `namedtuple` to fabryka, która tworzy prostą strukturę (typ danych języka Python). Tworzenie instancji odbywa się poprzez wywołanie na otrzymanym typie konstruktora, w którym musimy podać wartości każdego z pól. Dodatkowo funkcja ta jest wspierana przez edytory języka Python i pozwala na korzystanie z podopowiadania nazw. Największą wadą jest to, że po stworzeniu instancji nie ma możliwości zmiany jakiejkolwiek wartości (tuple z definicji są niezmienne _immutable_). Istnieje możliwość obejścia problemu przy użyciu funkcji `_replace`, jednak tworzona jest wtedy nowa instancja.

In [24]:
from collections import namedtuple

User = namedtuple('User', ['first_name', 'last_name'])

user_col = [User('Lukasz', 'Strąk'), User(first_name='Jan', last_name='Kowalski')]
print(user_col)
for user in user_col:
    print(f'{user.first_name} - {user.last_name}')

[User(first_name='Lukasz', last_name='Strąk'), User(first_name='Jan', last_name='Kowalski')]


Funkcja umożliwia przekazywanie opcjonalnych pól oraz wartości domyślnych. Służy do tego parametr `defaults`, który zawiera listę domyślnych wartości dla nieprzekazanych pól (w odwrotnej kolejności).

In [26]:
User = namedtuple('User', ['first_name', 'last_name', 'credit_card'], defaults=[False])

user_col = [User('Lukasz', 'Strąk', True), User(first_name='Jan', last_name='Kowalski')]

print(user_col)

[User(first_name='Lukasz', last_name='Strąk', credit_card=True), User(first_name='Jan', last_name='Kowalski', credit_card=False)]


##Bibliografia

- https://docs.python.org/3.8/library/shelve.html
- https://medium.com/@vmsp/less-known-bits-of-the-python-standard-library-46dc88490115
- https://stackabuse.com/introduction-to-pythons-collections-module
- https://docs.python.org/3.8/library/collections.html
- https://towardsdatascience.com/five-cool-python-looping-tips-14f6f44bcfc7

## Zadania do wykonania

### Zadanie 1

Liczbę $\pi$ można obliczyć stosując metodę Monte Carlo. Polega ona na wielokrotnym obliczeniu nierówności:
$$ x^2 + y^2 \leq 1$$. Należy wylosować punkt $x', y' \in [0,1]$ i jeśli spełnia on nierówność należy dodać go do sumy punktów spełniających nierówność. Następnie otrzymaną sumę należy pomnożyć przez cztery i podzielić przez liczbę wszystkich prób. Wyznacz dokładność zależną od liczby prób.

Podpowiedź: do losowania można użyć funkcji `random.uniform`.

### Zadanie 2

Dla $k$ kolejek zaimplementuj karuzelowy algorytm przydziału zadań. Przykładowo dla trzech kolejek:
1. `ABC`
2. `DE`
3. `F`

Zostaną obsłużone zadania wg. kolejności: `ADFBEC`.

### Zadanie 3

Stwórz kolekcję książek zawierającą takie pola jak `tytuł`, `gatunek`, `autor`, `isbn`. Napisz trzy funkcje, (i) zapisującą kolekcję, (ii) odczytującą kolekcję, (iii) obliczająca statystykę wg. gatunku i autora.

### Zadanie 4

Za pomocą `namedtuple` i innych poznanych kolekcji zaimplementuj algorytm tworzący drzewo binarne.

### Zadanie 1

In [7]:
import numpy as np
import math

def monte_carlo(number_of_trials):
    points = 0
    for i in range(number_of_trials):
        x = np.random.uniform(0, 1)
        y = np.random.uniform(0, 1)
        if x**2 + y**2 > 1:
            continue
        else:
            points += 1
    result = (points * 4) / number_of_trials
    absolute_error = abs(math.pi - result)
    relative_error = absolute_error / math.pi
    accuracy = 1 - relative_error
    print(f'The result is: {result}')
    print(f'The relative error is: {relative_error}')
    print(f'The accuracy is: {accuracy}')


monte_carlo(1000000)

The result is: 3.1468
The relative error is: 0.0016575498431524668
The accuracy  is: 0.9983424501568475


In [None]:
### Zadanie 2

In [1]:
import numpy as np
from collections import deque

def queue(number_of_queues):
    list_of_tasks = []
    list_of_queues = []
    max_length = 0

    for i in range(1,number_of_queues+1):

        deq = deque(maxlen = np.random.randint(1,4))

        for j in range(1,deq.maxlen+1):
            deq.append(np.random.randint(1,9))
        print(f'queue {i}: {deq}')

        list_of_queues.append(deq)

    for list in list_of_queues:
        if max_length < len(list):
            max_length=len(list)

    for j in range(1,max_length+1):
        for i in range(0,number_of_queues):
            temp = list_of_queues[i]
            #print(temp)
            if temp:
                list_of_tasks.append(temp.popleft())

    print(f'list of tasks: {list_of_tasks}')

queue(5)

queue 1: deque([3, 5, 2], maxlen=3)
queue 2: deque([2], maxlen=1)
queue 3: deque([5, 3, 5], maxlen=3)
queue 4: deque([3, 2], maxlen=2)
queue 5: deque([8, 8, 1], maxlen=3)
list of tasks: [3, 2, 5, 3, 8, 5, 3, 2, 8, 2, 5, 1]


### Zadanie 3

In [2]:
from collections import namedtuple

Book = namedtuple('Book', ['title', 'genre', 'author', 'isbn'])
books = []

def create_book(title, genre, author, isbn):
    new_book = Book(title, genre, author, isbn)
    books.append(new_book)
    print('Książka została dodana.')

def read_books():
    x = 1
    for i in books:
        print()
        print(f'Książka o numerze {x} to: ')
        print(i)
        x += 1

def statistics_genres(genre):
    x = 0
    genres = []
    for book in books:
        genres.append(books[x].genre)
        x += 1

    print(f'Książki z kategorii {genre}:')
    print(genres.count(genre))

def statistics_authors(author):
    x = 0
    authors = []
    for book in books:
        authors.append(books[x].author)
        x += 1

    print(f'Książki autora {author}:')
    print(authors.count(author))

create_book('Odrodzone Królestwo', 'historyczna', 'Elżbieta Cherezińska', '23495923')
create_book('Diuna', 'fantasy', 'Frank Herbert', '2343453423')
create_book('Jonathan Strange i pan Norrell', 'fantasy', 'Susanna Clark', '738463423')
create_book('Piranesi', 'fantasy', 'Susanna Clark', '183854423')
create_book('Pacjentka', 'kryminał', 'Alex Michaelides', '738463423')
create_book('Run Away', 'kryminał', 'Harlan Coben', '645463423')

read_books()
print()
statistics_genres('fantasy')
statistics_genres('kryminał')
statistics_authors('Frank Herbert')
statistics_authors('Susanna Clark')

Książka została dodana.
Książka została dodana.
Książka została dodana.
Książka została dodana.
Książka została dodana.
Książka została dodana.

Książka o numerze 1 to: 
Book(title='Odrodzone Królestwo', genre='historyczna', author='Elżbieta Cherezińska', isbn='23495923')

Książka o numerze 2 to: 
Book(title='Diuna', genre='fantasy', author='Frank Herbert', isbn='2343453423')

Książka o numerze 3 to: 
Book(title='Jonathan Strange i pan Norrell', genre='fantasy', author='Susanna Clark', isbn='738463423')

Książka o numerze 4 to: 
Book(title='Piranesi', genre='fantasy', author='Susanna Clark', isbn='183854423')

Książka o numerze 5 to: 
Book(title='Pacjentka', genre='kryminał', author='Alex Michaelides', isbn='738463423')

Książka o numerze 6 to: 
Book(title='Run Away', genre='kryminał', author='Harlan Coben', isbn='645463423')

Książki z kategorii fantasy:
3
Książki z kategorii kryminał:
2
Książki autora Frank Herbert:
1
Książki autora Susanna Clark:
2


### Zadanie 4

In [1]:
class Node:
    def __init__(self, val):
        self.val = val
        self.leftChild = None
        self.rightChild = None
    
    def get(self):
        return self.val
    
    def set(self, val):
        self.val = val
        
    def getChildren(self):
        children = []
        if(self.leftChild != None):
            children.append(self.leftChild)
        if(self.rightChild != None):
            children.append(self.rightChild)
        return children
        
class BST:
    def __init__(self):
        self.root = None

    def setRoot(self, val):
        self.root = Node(val)

    def insert(self, val):
        if(self.root is None):
            self.setRoot(val)
        else:
            self.insertNode(self.root, val)

    def insertNode(self, currentNode, val):
        if(val <= currentNode.val):
            if(currentNode.leftChild):
                self.insertNode(currentNode.leftChild, val)
            else:
                currentNode.leftChild = Node(val)
        elif(val > currentNode.val):
            if(currentNode.rightChild):
                self.insertNode(currentNode.rightChild, val)
            else:
                currentNode.rightChild = Node(val)

    def find(self, val):
        return self.findNode(self.root, val)

    def findNode(self, currentNode, val):
        if(currentNode is None):
            return False
        elif(val == currentNode.val):
            return True
        elif(val < currentNode.val):
            return self.findNode(currentNode.leftChild, val)
        else:
            return self.findNode(currentNode.rightChild, val)