## Övning 4
__John Landeholt__

johnlan@kth.se


__agenda:__
* Sortering (Lab 6)
* Hashning (Lab 7)
* Heap

### Sortering

<img src="https://blogs.cuit.columbia.edu/zp2130/files/2018/12/Merge_Sort.gif" style="float:right" width="33%"/>

I laboration 6 kommer vi pröva olika datastrukturers sökförmåga och sorteringsalgoritmer för att bekräfta deras `tidskomplexitet`.

De mest kända sorteringsalgoritmerna är följande:
* Quicksort $\mathcal{O}(n\log{n})$
* Mergesort $\mathcal{O}(n\log{n})$
* Counting sort $\mathcal{O}(n+k)$

När en lista är tillräckligt stor (säg 1M element), så spelar algoritmernas `tidskomplexitet` roll!

__Exempel från lab 6__

In [None]:
from shared import download_text, Song, timing
import random
songs = []
for i, data in enumerate(download_text("http://www.csc.kth.se/~lk/unique_tracks.txt")):
    try:
        track_id, song_id, artist, title = data.split('<SEP>')
        songs.append(Song(track_id, song_id, artist, title))
    except:
        pass
songs_sliced = songs[:250000]
random_song = random.choice(songs_sliced)

In [None]:
@timing
def linear_search(songs_slice, search_song):
    for s in songs:
        if s == search_song:
            return True
    return False

linear_search(songs_sliced, random_song)

In [None]:
from shared import binary_search

print(random_song)
sorted_songs = sorted(songs_sliced)
song = binary_search(sorted_songs, random_song)
print(song)

## Tentafråga
### Tildatenta 1997-04-04 [5] Betyg C

<img src="img/ö4i1.png" />



__vilken information har vi?__
* 1 miljon lotter
* varav 1000 vinstlotter
* lotterna är osorterade

Sökningen sker alltid sekventiellt och linjärt. Dvs 1, 2, 3, 4.. n

### Lösning
__osorterat__

I __snitt__ måste därmed hälften av listan gås igenom för en slumpmässigt vald lott.

Detta gör att det kommer krävas $\frac{1}{2} \cdot lotter = 0.5$ miljoner sökningar för varje slumpad lott.

Vilket resulterar i att det krävs $\text{vinstlotter} \cdot \frac{1}{2} \cdot lotter = 500$ miljoner jämförelser osorterat.

__sorterat__

Allt som krävs är att vi hittar en sorteringsalgoritm som är lägre än 500 miljoner jämförelser när $n = \text{lotter}$

`Mergesort` har en tidskomplexitet på $\mathcal{O}(n\log{n})$, så vi prövar att ansätta $n = 1M$

$\text{lotter} \cdot \log_{2}{\text{lotter}} = 20$ miljoner jämförelser.

Efter sorteringen kan vi sedan använda oss utav `binärsökning` $\mathcal{O}(\log{n})$ som resulterar i:

$\text{vinstlotter} \cdot \log_{2}{\text{lotter}} = 20000$ jämförelser.

Vi har därmed visat att det lönar sig att sortera. Vi sänkte antalet jämförelser med 2375%.

### Hashning

Visste ni att extremt mycket av pythons struktur bygger på __dictionaries__ som använder sig utav tekniken `hashning`?

In [None]:
items = 5
for k,v in str.__dict__.items():
    print(k, v)
    items -= 1
    if items == 0: break

__varför?__

Dictionaries är en typ av `hash table`. Hash tables är extremt snabba att söka i. Tidskomplexiteten är $\mathcal{O}(1)$ för __sökning__, __insättning__ och __borttagning__.

Att __accessa__ ett element i en dictionary vet man inte dens tidskomplexitet, eftersom olika hash tabeller har också olika `hashfunktioner`. Men det är i närheten av __konstant__ tid.

### Hashning

__hur?__

Vi vet sen tidigare att datastrukturen `array` har en __konstant__ access tid, men att den också har indexering, som gör det svårt att få en bra koppling till vad som finns vart.

En `hashfunktion` eliminerar detta genom att den __hashar__ en nyckel som sedan blir indexet i `arrayen` där nyckelns värde-par lagras.

__vad är hashning?__

Hashning är en teknik där man __transformerar__ ett abstrakt objekt till en sifferrepresentation.

In [None]:
print('a', '>', ord('a'))
print('b', '>', ord('b'))

### Hashning
__hur gör python?__

Nästan varje objekt/klasstyp i python har en `magicmethod` som heter __hash__ som berättar för t.ex dictionary-klassen hur objektet ska representeras som en siffra genom funktionen `hash()`

Men för denna kurs är det okej att göra en __generell__ hashfunktion, som går igenom tecken för tecken och tar reda på dess ascii-värde `ord()`, och sedan viktar det med någon 2-potens. T.ex 32.

In [None]:
def hasher(key):
    r = 0
    for char in str(key):
        r = r*32 + ord(char)
    return r

key = "john"
# Own implementation
print(hasher(key))
# builtin
print(hash(key))

__fun fact__

Pythons hash-funktion är inte perfekt.

In [None]:
#builtin
print(hash(-1) == hash(-2))
# own implementation: it has other flaws..
print(hasher(-1) == hasher(-2))

### Hashning

Skelettkod till en hashtabell

[Github](https://github.com/landeholt/tilda/blob/main/skeleton-code/hash_table.py)

In [None]:
class Hash_node:
    def __init__(self, key = None, data = None):
        self.key = key
        self.data = data
    def __repr__(self):
        return f'<hash_node containing {self.data}>'

class Hash_table:
    def __init__(self, size = 100):
        """size dictates the size of the array (bucket)"""
        # YOUR CODE HERE
        pass
    
    def __setitem__(self, key, value):
        """
        usage:
        h = Hash_table()
        h['key'] = 'value'
        """
        # YOUR CODE HERE
        pass
    def __contains__(self, key):
        """
        usage:
        h = Hash_table()
        if 'key' in h:
            print('"key" exists in h')
        """
        try:
            # YOUR CODE HERE
            return None
        except:
            raise KeyError
    @staticmethod
    def _hash(key):
        """Creates a number from the given key"""
        r = 0
        for char in str(key):
            r = r*32 + ord(char)
        return r
        

In [None]:
from shared import Hash_table as ht

h = ht(size=20)
h['john landeholt'] = 'johnlan@kth.se'
h['linda kann'] = 'lk@kth.se'
h['sten andersson'] = 'stene@kth.se'

if 'john landeholt' in h:
    print(h['john landeholt'])
if 'Barack Obama' in h:
    print(h['Barack Obama'])

In [None]:
print(h)
print(h.get_bucket())

### Heap

<img src="https://i.imgur.com/1mghTRv.png" style="float:right" width="33%"/>

__vad är en heap?__

Det är en datastruktur som är en påbyggnad av `binärträdet`. Där roten alltid är trädets __högsta__ eller __lägsta__ `prioriterade` nod.

>__Notera__: en heap är inte sorterad per definition, utan det ända som säkerställs är att roten alltid är den med __högst__ eller __lägst__ `prioritet`.

__när är en heap användbar?__

I situationer där någon form av `prioritet` finns. För då ger heap-datastrukturen möjligheten att hämta noden med bäst `prioritet` på $\mathcal{O}(1)$ tid.

__exempel__
* Vaccinering av corona
* ELO-game matchmaking (League of Legends, CSGO, Overwatch m.m)
* Load balancing (web-servrar)
* A* Search Algorithm (DD2380)
* Huffman encoding (DD1320)
* Dijkstra's Algoritm [Bästaförstsökning] (DD1320)

### Heap

Skelettkod till en heap

[Github](https://github.com/landeholt/tilda/blob/main/skeleton-code/heap.py)

Skelettkoden är för stor för att vara på slidesen, men finns på min github @landeholt

In [None]:
import operator
from shared import Heap

class Max_heap(Heap):
    def __init__(self, max_size = 500):
        compare = operator.gt
        super().__init__(max_size = max_size, compare= compare)

class Min_heap(Heap):
    def __init__(self, max_size = 500):
        compare = operator.lt
        super().__init__(max_size = max_size, compare= compare)

In [None]:
class Human:
    def __init__(self, name, age, work = None):
        self.name = name
        self.age = age
        self.work = work
        
    def __gt__(self, other):
        important_jobs = ['nurse', 'doctor']
        self_priority = self.age
        other_priority = other.age
        # random heuristic
        if self.work in important_jobs:
            self_priority += 40
        if other.work in important_jobs:
            other_priority += 40
        return self_priority > other_priority
    
    def __repr__(self):
        return f'<Human {self.name} {self.age}{" " + self.work if self.work != None else ""}>'

humans = [
    Human('John Landeholt', 25, 'TA'), 
    Human('Anders Tegnell', 64, 'doctor'), 
    Human('Maria Karlsson Osipova', 27, 'nurse'),
    Human('Liam Arenblad', 3)]

vaccinate_queue = Max_heap()
vaccinate_queue.build(humans)

while not vaccinate_queue.empty:
    print(vaccinate_queue.pop())


## KAHOOT DAGS!