# 3. STRUKTURY DANYCH

## LISTS VS TUPLES
List i tuple są to dwa podstawowe typy tablicowe w pythonie - obydwa zajmują ciągłą przestrzeń adresową. Implementacja obydwu struktur jest zbliżona.

Złożoność obliczeniowa:

| Operation     | List          | Tuple   |
| ------------- |---------------| ------- |
| get item      | O(1)          | O(1)    |
| set item      | O(1)          |  -      |
| x in s        | O(n)          | O(n)    |


In [1]:
import timeit

In [2]:
print timeit.timeit('lst[4]', setup='lst = [1, 10, 20, 4, 100, 4, 2, 8, 100, 3]')
print timeit.timeit('tup[4]', setup='tup = (2, 10, 11, 4, 100, 4, 2, 8, 100, 3)')

0.0233128070831
0.0292029380798


In [3]:
print timeit.timeit('4 in tup', setup='tup = (8, 10, 11, 4, 100, 4, 2, 8, 100, 3)')
print timeit.timeit('4 in lst', setup='lst = [9, 10, 20, 4, 100, 4, 2, 8, 100, 3]')

0.076092004776
0.0955588817596


#### Po co w takim wypadku używać tupli?

* Dla tupli można obliczyć funkcję skrótu (hashable)

In [4]:
imp_dict = {}
imp_tuple = (2, 3)
imp_dict[imp_tuple] = 5

In [5]:
imp_list = [2, 3]
imp_dict[imp_list] = 5

TypeError: unhashable type: 'list'

* Użycie tupli jest naturalne przy zwrocie z funkcji

In [6]:
def func():
    return 1, 2

print type(func())

<type 'tuple'>


* Użycie tupli poprawia czystość kodu - zaznaczamy, że obiekt jest niezmienny

## NAMEDTUPLES

Lekkie zamienniki prostych klas. 

In [9]:
from collections import namedtuple

Point = namedtuple('Point', ['x', 'y'])
p = Point(1, 2)
print p.x, p.y


class PointC(object):
    def __init__(self, x, y):
        self.x = x
        self.y = y
        
p2 = PointC(1, 3)
print p2.x, p2.y

1 2
1 3


In [10]:
p2 = Point(10, 20)
p2.x = 100

AttributeError: can't set attribute

In [13]:
p3 = Point(11, 21)
hash(p3)

3713075136753017431

### Podsumowanie:
* namedtuple to jednoliniowy zamiennik prostych klas, który posiada cechy tupli (niemutowalny, posiadający funkcję skrótu)
* zajmuje mniej pamięci niż zwykłe klasy
* może poprawić czytelność kodu w stosunku do zwykłych tupli

## SET

Zbiory w pythonie.
Zaimplementowane za pomocą tablic z haszowaniem (hashtables).

In [57]:
a = set([1, 2, 3, 4, 5])
b = {4, 5, 6, 7, 8}
print a|b
print a&b
print a-b
print a^b

set([1, 2, 3, 4, 5, 6, 7, 8])
set([4, 5])
set([1, 2, 3])
set([1, 2, 3, 6, 7, 8])


Set nie zachowuje kolejności elementów i nie przechowuje duplikatów: 

In [58]:
a = set([1, 1, 1, 3, 2, 10, 4])
print a

set([1, 2, 3, 4, 10])


Złożoności obliczeniowe:

| Operation             | Average                   | Worst case          |
| -------------         |---------------------------| ------------------- |
| a\b (suma)            | O(len(a)+len(b))          | <-                  |
| a&b (iloczyn)         | O(min(len(a), len(b))     | <-                  |
| a-b (różnica)         | O(len(a))                 | <-                  |
| a^b (różnica sym.)    | O(len(a))                 | O(len(a) * len(b))  |
| x in a                | O(1)                      | O(n)                |

**Przykład**

Sprawdź czy dana lista zawiera szukane wartości np. czy items = [1, 2, 3, 5] zawiera needed = [3, 2]

In [33]:
items = [1, 2, 3, 5]
needed = [3, 2]

def contains(items, needed):
    for n in needed:
        if n not in items:
            return False
    return True

print contains(items, needed)
print contains(items, [1, 10])

True
False


In [34]:
def contains_set(items, needed):
    # bez powtorzen
    return len(set(needed) - set(items)) == 0

print contains(items, needed)
print contains(items, [1, 10])


True
False


In [35]:
import time

def timeit(func):

    def decorating(*args, **kwargs):
        start = time.time()
        result = func(*args, **kwargs)
        stop = time.time()
        print("Execution time of {}: {}".format(func.__name__, stop - start))
        return result
    return decorating

t_contains = timeit(contains)
t_contains_set = timeit(contains_set)

In [36]:
t_contains(items, needed)
t_contains_set(items, needed)

Execution time of contains: 6.91413879395e-06
Execution time of contains_set: 1.09672546387e-05


True

In [47]:
items = [1, 10, 20, 30, 100, 5, 3, 2, 9, 201, 202, 203, 205, 1000, 2001, 179, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 301, 302, 303, 304, 400, 401, 402, 403, 404, 405, 406, 407, 408]
needed = [1, 9, 2, 179, 5, 201, 205, 1000, 77, 78, 69, 202, 203, 1000, 2001, 179, 90, 91, 92, 94]
t_contains(items, needed)
t_contains_set(items, needed)

Execution time of contains: 4.6968460083e-05
Execution time of contains_set: 4.29153442383e-05


True

**Przykład 2**

Usuń wszystkie duplikaty z listy

In [52]:
def remove_duplicates(items):
    return list(set(items))

print remove_duplicates(["Jan", "Tomasz", "Fryderyk", "Pudzian", "Pudzian"])

['Jan', 'Tomasz', 'Pudzian', 'Fryderyk']


### Podsumowanie:
* set'ów można używać wtedy, gdy chcemy przeprowadzać operacje na zbiorach niepowatarzających się elementów

## DICT

<img src="dict_img.png">

Tablica z haszowaniem. Implementacja podobna do setów. Złożoności czasowe:

| Operation             | Average                   | Worst case          |
| -------------         |---------------------------| ------------------- |
| get item              | O(1)                      | O(n)                |
| set item              | O(1)                      | O(n)                |
| delete item           | O(1)                      | O(n)                |

In [83]:
# podstawowe użycie
first = {}
first["x"] = "y"
del first["x"]
print first.get("x", "NotFound")

NotFound


Zajętość pamięci:

In [72]:
# set operation
import sys

a = {}
print sys.getsizeof(a)
a["m1"] = 10
print sys.getsizeof(a)
a["m2"] = 20
print sys.getsizeof(a)
a["m3"] = 30
a["m4"] = 40
print sys.getsizeof(a)
a["m5"] = 50
a["m6"] = 60
print sys.getsizeof(a)
a["m7"] = 60
a["m8"] = 60
print sys.getsizeof(a)

280
280
280
280
1048
1048


Dict początkowo alokuje pamięć na 8 kluczy. Później będzie realokował za każdym razem, gdy 2/3 slotów na klucze jest już zajętych przez jakiś wpis. Zaalokowana pamięć zwiększy się 4krotnie.

Taki mechanizm pomaga unikać kolizji pomiędzy wartościami wyliczanymi przez funkcje skrótu dla kolejnych dodawanych kluczy.

In [76]:
# Dict comprehension:
cubes = {x: x**3 for x in xrange(6)}
print cubes

countries = [("Poland", "PLN"), ("USA", "USD"), ("UK", "GBP")]

currencies = {x: y for x,y in countries}
print currencies

print dict(countries)

{0: 0, 1: 1, 2: 8, 3: 27, 4: 64, 5: 125}
{'Poland': 'PLN', 'UK': 'GBP', 'USA': 'USD'}
{'Poland': 'PLN', 'UK': 'GBP', 'USA': 'USD'}


Dict jest nieuporządkowany:

In [77]:
a.keys()

['m5', 'm4', 'm7', 'm6', 'm1', 'm3', 'm2', 'm8']

In [80]:
members = [("John", 27), ("Annable", 28), ("Richard", 32)]
for mem, age in dict(members).iteritems():
    print mem

Annable
John
Richard


Oprócz typowego użycia dict'ów jako mapy, często przydaje się też do liczenia elementów w innych strukturach danych. 

**Przykład**

Oblicz ile par liczb równe jest zadanej wartości.

In [93]:

def pairs(numbers, threshold):
    cnts = {}
    for num in numbers:
        if cnts.get(num):
            cnts[num] += 1
        else:
            cnts[num] = 1

    res = 0
    for num in cnts:
        num_cnt, pair_cnt = cnts[num], cnts.get(threshold - num, 0)
        if pair_cnt:
            if 2 * num == threshold:
                res += item_cnt * (item_cnt - 1)
            else:
                res += item_cnt * pair_cnt
    return res / 2


assert pairs([1, 2, 10, 11, 3, 3, 3, 4], 6) == 4
assert pairs([1, 2, 3], 6) == 0
assert pairs([1, 2, 3], 5) == 1
assert pairs([1, 2, 3], 1) == 0
assert pairs([1, 1, 2, 2, 2, 3, 4], 3) == 6
assert pairs([0, 1, 1, 2, 2, 2, 3, 4], 3) == 7
