# 3. STRUKTURY DANYCH

## 3.1. LISTS VS TUPLES
List i tuple są to dwa podstawowe typy tablicowe w pythonie - obydwa zajmują ciągłą przestrzeń adresową. Implementacja obydwu struktur jest zbliżona.

Złożoność obliczeniowa:

| Operation     | List          | Tuple   |
| ------------- |---------------| ------- |
| get item      | O(1)          | O(1)    |
| set item      | O(1)          |  -      |
| x in s        | O(n)          | O(n)    |


In [1]:
import timeit

In [2]:
print(timeit.timeit('lst[4]', setup='lst = [1, 10, 20, 4, 100, 4, 2, 8, 100, 3]'))
print(timeit.timeit('tup[4]', setup='tup = (2, 10, 11, 4, 100, 4, 2, 8, 100, 3)'))

0.03708221399983813
0.032494786999905045


In [3]:
print(timeit.timeit('4 in tup', setup='tup = (8, 10, 11, 4, 100, 4, 2, 8, 100, 3)'))
print(timeit.timeit('4 in lst', setup='lst = [9, 10, 20, 4, 100, 4, 2, 8, 100, 3]'))

0.06562439500021355
0.05494915300005232


#### Po co w takim wypadku używać tupli?

* Dla tupli można obliczyć funkcję skrótu (hashable)

In [4]:
imp_dict = {}
imp_tuple = (2, 3)
imp_dict[imp_tuple] = 5

In [5]:
imp_list = [2, 3]
imp_dict[imp_list] = 5

TypeError: unhashable type: 'list'

* Użycie tupli jest naturalne przy zwrocie z funkcji

In [6]:
def func():
    return 1, 2

print(type(func()))

<class 'tuple'>


* Użycie tupli poprawia czystość kodu - zaznaczamy, że obiekt jest niezmienny

## 3.2. NAMEDTUPLES

Lekkie zamienniki prostych klas. 

In [7]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
print(p.x, p.y)


class PointC(object):
    def __init__(self, x, y):
        self.x = x
        self.y = y
        
p2 = PointC(1, 3)
print(p2.x, p2.y)

1 2
1 3


In [8]:
p2 = Point(10, 20)
p2.x = 100

AttributeError: can't set attribute

In [9]:
p3 = Point(11, 21)
hash(p3)

3713075136753017431

### Podsumowanie:
* namedtuple to jednoliniowy zamiennik prostych klas, który posiada cechy tupli (niemutowalny, posiadający funkcję skrótu)
* zajmuje mniej pamięci niż zwykłe klasy
* może poprawić czytelność kodu w stosunku do zwykłych tupli

## 3.3. SET

Zbiory w pythonie.
Zaimplementowane za pomocą tablic z haszowaniem (hashtables).

In [10]:
a = set([1, 2, 3, 4, 5])
b = {4, 5, 6, 7, 8}
print(a|b)
print(a&b)
print(a-b)
print(a^b)

{1, 2, 3, 4, 5, 6, 7, 8}
{4, 5}
{1, 2, 3}
{1, 2, 3, 6, 7, 8}


Set nie zachowuje kolejności elementów i nie przechowuje duplikatów: 

In [11]:
a = set([1, 1, 1, 3, 2, 10, 4])
print(a)

{10, 1, 2, 3, 4}


Złożoności obliczeniowe:

| Operation             | Average                   | Worst case          |
| -------------         |---------------------------| ------------------- |
| a\b (suma)            | O(len(a)+len(b))          | <-                  |
| a&b (iloczyn)         | O(min(len(a), len(b)))    | <-                  |
| a-b (różnica)         | O(len(a))                 | <-                  |
| a^b (różnica sym.)    | O(len(a))                 | O(len(a) * len(b))  |
| x in a                | O(1)                      | O(n)                |

**Przykład**

Sprawdź czy dana lista zawiera szukane wartości np. czy items = [1, 2, 3, 5] zawiera needed = [3, 2]

In [12]:
items = [1, 2, 3, 5]
needed = [3, 2]

def contains(items, needed):
    for n in needed:
        if n not in items:
            return False
    return True

print(contains(items, needed))
print(contains(items, [1, 10]))

True
False


In [13]:
def contains_set(items, needed):
    # bez powtorzen
    return len(set(needed) - set(items)) == 0

print(contains(items, needed))
print(contains(items, [1, 10]))


True
False


In [14]:
import time

def timeit(func):

    def decorating(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        stop = time.time()
        print("Execution time of {}: {}".format(func.__name__, stop - start))
        return result
    return decorating

t_contains = timeit(contains)
t_contains_set = timeit(contains_set)

In [15]:
t_contains(items, needed)
t_contains_set(items, needed)

Execution time of contains: 5.0067901611328125e-06
Execution time of contains_set: 1.71661376953125e-05


True

In [16]:
items = [1, 10, 20, 30, 100, 5, 3, 2, 9, 201, 202, 203, 205, 1000, 2001, 179, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 301, 302, 303, 304, 400, 401, 402, 403, 404, 405, 406, 407, 408]
needed = [1, 9, 2, 179, 5, 201, 205, 1000, 77, 78, 69, 202, 203, 1000, 2001, 179, 90, 91, 92, 94]
t_contains(items, needed)
t_contains_set(items, needed)

Execution time of contains: 1.3828277587890625e-05
Execution time of contains_set: 1.049041748046875e-05


True

**Przykład 2**

Usuń wszystkie duplikaty z listy

In [17]:
def remove_duplicates(items):
    return list(set(items))

print(remove_duplicates(["Jan", "Tomasz", "Fryderyk", "Pudzian", "Pudzian"]))

['Jan', 'Fryderyk', 'Pudzian', 'Tomasz']


### Podsumowanie:
* set'ów można używać wtedy, gdy chcemy przeprowadzać operacje na zbiorach niepowatarzających się elementów

## 3.4. DICT

<img src="dict_img.png">

Tablica z haszowaniem. Implementacja podobna do setów. Złożoności czasowe:

| Operation             | Average                   | Worst case          |
| -------------         |---------------------------| ------------------- |
| get item              | O(1)                      | O(n)                |
| set item              | O(1)                      | O(n)                |
| delete item           | O(1)                      | O(n)                |

In [18]:
# podstawowe użycie
first = {}
first["x"] = "y"
del first["x"]
print(first.get("x", "NotFound"))

NotFound


Zajętość pamięci:

In [19]:
# set operation
import sys

a = {}
print(sys.getsizeof(a))
a["m1"] = 10
print(sys.getsizeof(a))
a["m2"] = 20
print(sys.getsizeof(a))
a["m3"] = 30
a["m4"] = 40
print(sys.getsizeof(a))
a["m5"] = 50
a["m6"] = 60
print(sys.getsizeof(a))
a["m7"] = 60
a["m8"] = 60
print(sys.getsizeof(a))

288
288
288
288
480
480


Dict początkowo alokuje pamięć na 8 kluczy. Później będzie realokował za każdym razem, gdy 2/3 slotów na klucze jest już zajętych przez jakiś wpis. Zaalokowana pamięć zwiększy się 4krotnie.

Taki mechanizm pomaga unikać kolizji pomiędzy wartościami wyliczanymi przez funkcje skrótu dla kolejnych dodawanych kluczy.

In [20]:
# Dict comprehension:
cubes = {x: x**3 for x in range(6)}
print(cubes)

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64, 5: 125}


In [21]:
countries = [("Poland", "PLN"), ("USA", "USD"), ("UK", "GBP")]

currencies = {x: y for x,y in countries}
print(currencies)

print(dict(countries))

{'USA': 'USD', 'Poland': 'PLN', 'UK': 'GBP'}
{'USA': 'USD', 'Poland': 'PLN', 'UK': 'GBP'}


Dict jest nieuporządkowany:

In [22]:
a.keys()

dict_keys(['m1', 'm8', 'm3', 'm6', 'm2', 'm4', 'm5', 'm7'])

In [23]:
members = [("John", 27), ("Annable", 28), ("Richard", 32)]
for mem, age in dict(members).items():
    print(mem)

Richard
Annable
John


Oprócz typowego użycia dict'ów jako mapy, często przydaje się też do liczenia elementów w innych strukturach danych. 

**Przykład**

Oblicz ile par liczb równe jest zadanej wartości.

In [24]:

def pairs(numbers, threshold):
    cnts = {}
    for num in numbers:
        if cnts.get(num):
            cnts[num] += 1
        else:
            cnts[num] = 1

    res = 0
    for num in cnts:
        num_cnt, pair_cnt = cnts[num], cnts.get(threshold - num, 0)
        if pair_cnt:
            if 2 * num == threshold:
                res += num_cnt * (num_cnt - 1)
            else:
                res += num_cnt * pair_cnt
    return res / 2


assert pairs([1, 2, 10, 11, 3, 3, 3, 4], 6) == 4
assert pairs([1, 2, 3], 6) == 0
assert pairs([1, 2, 3], 5) == 1
assert pairs([1, 2, 3], 1) == 0
assert pairs([1, 1, 2, 2, 2, 3, 4], 3) == 6
assert pairs([0, 1, 1, 2, 2, 2, 3, 4], 3) == 7


### Podsumowanie:
* dict można tworzyć na wiele sposobów
* jest nieuporządkowany
* posiada przydatną metodę "get", która zwraca domyślną wartość, gdy nie znalazł klucza
* czasami dostęp do klucza jest dłuższy niż O(1)
* przydaje się m.in. jako mapa (oczywiście) oraz do zliczania

  

## 3.5. DEFAULTDICT

In [25]:
from collections import defaultdict


def pairs(numbers, threshold):
    cnts = defaultdict(int)
    for num in numbers:
        cnts[num] += 1
        
    res = 0
    for num in cnts:
        num_cnt, pair_cnt = cnts[num], cnts.get(threshold - num, 0)
        if pair_cnt:
            if 2 * num == threshold:
                res += num_cnt * (num_cnt - 1)
            else:
                res += num_cnt * pair_cnt
    return res / 2


assert pairs([1, 2, 10, 11, 3, 3, 3, 4], 6) == 4
assert pairs([1, 2, 3], 6) == 0
assert pairs([1, 2, 3], 5) == 1
assert pairs([1, 2, 3], 1) == 0
assert pairs([1, 1, 2, 2, 2, 3, 4], 3) == 6
assert pairs([0, 1, 1, 2, 2, 2, 3, 4], 3) == 7

In [26]:
new_cnt = defaultdict(int)
new_cnt["x"] = 2
new_cnt["y"] = False

### Podsumowanie:
* w trakcie tworzenia obiektu defaultdict jako argument podajemy typ wartości przechowywanych w tym obiekcie
* defaultdict zwróci wartość domyślną dla typu (np 0 dla int), jeśli nie posiada żądanego klucza
* defaultdict istnieje tylko po to, żeby skrócić kod

## 3.6. COUNTER

In [27]:
from collections import Counter

def pairs(numbers, threshold):
    cnts = Counter(numbers)

    res = 0
    for num in cnts:
        num_cnt, pair_cnt = cnts[num], cnts[threshold - num]
        if pair_cnt:
            if 2 * num == threshold:
                res += num_cnt * (num_cnt - 1)
            else:
                res += num_cnt * pair_cnt
    return res / 2


assert pairs([1, 2, 10, 11, 3, 3, 3, 4], 6) == 4
assert pairs([1, 2, 3], 6) == 0
assert pairs([1, 2, 3], 5) == 1
assert pairs([1, 2, 3], 1) == 0
assert pairs([1, 1, 2, 2, 2, 3, 4], 3) == 6
assert pairs([0, 1, 1, 2, 2, 2, 3, 4], 3) == 7

In [None]:
print(Counter(["John", "Pudzian", "Kopernik", "Pudzian"]))

**Przykład**

Policz jakie kolory mieczów świetlnych występowały w Gwiezdnych Wojnach.

In [None]:
jedis = [
  {'name': 'Ahsoka Tano', 'lightsaber_color': 'green'},
  {'name': 'Anakin Skywalker', 'lightsaber_color': 'blue'},
  {'name': 'Anakin Solo', 'lightsaber_color': 'blue'},
  {'name': 'Ben Skywalker', 'lightsaber_color': 'blue'},
  {'name': 'Count Duku', 'lightsaber_color': 'red'},
  {'name': 'Darth Craidus', 'lightsaber_color': 'red'},
  {'name': 'Darth Maul', 'lightsaber_color': 'red'},
  {'name': 'Darth Vader', 'lightsaber_color': 'red'},
  {'name': 'Jacen Solo', 'lightsaber_color': 'green'},
  {'name': 'Ki-Adi-Mundi', 'lightsaber_color': 'blue'},
  {'name': 'Kit Fisto', 'lightsaber_color': 'green'},
  {'name': 'Luke Skywalker', 'lightsaber_color': 'green'},
  {'name': 'Obi-Wan Kenobi', 'lightsaber_color': 'blue'},
  {'name': 'Palpatine', 'lightsaber_color': 'red'},
  {'name': 'Plo-Koon', 'lightsaber_color': 'blue'},
  {'name': 'Qui-Gon Jinn', 'lightsaber_color': 'green'},
  {'name': 'Yoda', 'lightsaber_color': 'green'},
]

print(Counter(jedi['lightsaber_color'] for jedi in jedis))


### Podsumowanie:
* Counter zlicza występowanie poszczególnych wartości na liście.

## ZADANIE

Napisz funkcję sprawdzającą czy dwa słowa są anagramami używając struktur danych opisanych w tym rozdziale.

In [None]:
def is_anagram(first, second):
    first = sorted(first)
    second = sorted(second)
    return first == second


assert is_anagram("ooo", "bbb") == False
assert is_anagram("python", "thonpy") == True
assert is_anagram("python", "thonyp") == True
assert is_anagram("python", "tonyp") == False