## Datastrukturer

Abstrakte datastrukturer er kolleksjoner som er definert av mengde verdier og mengde av tillate operasjoner. 

### Ordnede kolleksjoner i minnet

Ordnede kolleksjoner har indeks som angir rekkefølge. Skal se at vi har to måter å organisere ordnet kolleksjon av objekter internt i minnet; linked-list og array. 

Førstnevnte er rask å modifisere siden det kun er bindinger mellom naboer. Sistnevnte må ha en spesifisert allokering i minnet for hele kolleksjonen. Det gir rask look-up siden vi har adresse til hver indeks, men er tregere å legge til eller fjerne objekter.

Litt usikker på hvordan jeg kan knytte dette til list/np.array og sånn i python.

#### Linked list

Hvert element adressen til neste elemenet i listen, slik at det kun er mulig med sekvensiell lookup. Kan lage slags implementasjon

```Python
class Node():
    def __init__(self, data=None):
        self.data = data
        self.next = None    
class LinkedList():
    ''' 
    Tilstrekkelig å spesifisere head node for å spasere over linked list
    '''
    def __init__(self):
        self.head = None
    def get_node(self, idx):
        node = self.head
        for i in range(idx):
            node = node.next
        return node
    def add(self, new_node, idx):
        '''
        Linke node på index foran til ny node. Deretter flytter gammel kobling over på ny node. 
        '''
        pre_node = self.get_node(idx-1)
        post_node = pre_node.next
        
        pre_node.next = new_node
        new_node.next = post_node
    def print_content(self):
        node = linkedlist.head
        print(node.data)
        while True:
            node = node.next
            if node == None:
                break
            else:
                print(node.data)
```                

Eksempel på implementering:

```python
node1 = Node('Monday')
node2 = Node('Tuesday')
node3 = Node('Wednesday')
node4 = Node('Thursday')

linkedlist = LinkedList()
linkedlist.head = node1
node1.next = node2
node2.next = node4

linkedlist.add(node3, 2)
linkedlist.print_content()
```

#### Array

Arrays er allokert i minnet slik at elementene ligger ved siden av hverandre. Dette gjør det enkelt å finne element i minnet når vi vet index. Nedsiden er at vi må vite hvor mange elementer vi trenger på forhånd for å allokere plassen, og det er også vanskelige å endrer array siden ved å fjerne et element må vi flytte alle de andre. Det er derfor ikke mutable og vi må lage nye objekt når vi endrer innhold.

```python
from array import ArrayType
arr = ArrayType('f', range(10000))
```

### Lineære datastrukturer

Linked-list og array har ulik representasjon i minnet og derfor litt ulike egenskaper, men vi kan utføre samme operasjoner på de og behandle de likt. Vi kan legge til, få tak i og fjerne objekter fra hvor som helst i den ordnede kolleksjonen.

Vi skal nå se på såkalte lineære datastrukturer det vi kun kan legge til og fjerne objekter som er på begynnelsen eller slutten av den ordnede kolleksjonen.

#### Queue

Kan kun få ut på begynnelse og kun legge til på slutten. Den har derfor egenskapen FIFO: first in, first out. Kan bruke liste til å implementere datastrukturen.

```python
class Queue():
    '''
    Må bestemme hva som er foran og bak. Intuitivt av høyere index er lengre bak i køen.
    '''
    def __init__(self):
        self.items = []    
    def enqueue(self, item):
        self.items.append(item)
    def dequeue(self):
        return self.items.pop(0)
    def is_empty(self):
        return self.items == [] 
```

Eksempel:
```python
queue = Queue()
items = ['Sverre', 'Ingeborg', 'Sofie']
for item in items:
    queue.enqueue(item)
def hot_potato(queue, n):
    for i in range(n):
        front = queue.dequeue()
        has_potato = front
        queue.enqueue(front)
    print(f'{has_potato} endte opp med den varme poteten!')
hot_potato(queue, 10)
```

#### Stack

Kan tenke at vi legger objektene lagvis, slik at vi kun kan legge til og få ut på toppen. Det har derfor egenskapen LIFO: last in, first out.

```python
class Stack():
    '''
    Må bestemme hva som er nede og oppe. Intuitivt av høyere index er høyere opp i stacken.
    '''
    def __init__(self):
        self.items = []
    
    def push(self, item):
        self.items.append(item)
    
    def pull(self):
        return self.items.pop()
    
    def is_empty(self):
        return self.items == [] 
```   

Eksempel hvor å sjekke om balanserte parenteser
```python
expr = '(1+(2-3*(4+(5*6)))))'
def is_balanced(expr):
    '''
    Bygger opp en stack som tømmes. Må alltid være noe på lager når vi trekker ut.
    '''
    expr = "".join([x for x in expr if x in ['(',')']])
    s = Stack()    
    index = 0
    is_balanced = True
    while index < len(expr) and is_balanced:
        ch = expr[index]
        if ch == '(':
            s.push('ch')
        else:
            if s.is_empty():
                is_balanced = False
            else:
                s.pull()
        index += 1
    return is_balanced and s.is_empty()
```

#### Deque

Kan legge til og poppe ut både foran og bak.

### hash tables

Vil utnytte instant lookup i arrays uten å måtte huske index til elementene jeg vil finne. Løsning: hash funksjon som mapper string til index i array. I high level gir dette meg en dictionary med key:value mamppings.

La $f$ være hash function

```python
def get_item(arr, input_str):
    idx = f(input_str)
    return arr[idx]
# eller bare:
arr[f(input_str)]
```

### Grafer

- Node har navn (`key`) og muligens annen informasjon (`payload`)
- Kant er kobling mellom noder
- Sti er ordnet kolleksjon av noder som er koblet med kanter


Kan implementere graf på ulike måter. En mulighet er å bruke dict av dict, der hver node er dict med navn som mapper til liste med navn på naboer.

```python
graph = {'Sverre':['Claire', 'Bob', 'Alice'],'Bob':['Anuj','Peggy']}
Alice = {'Alice':['Peggy']}
Claire = {'Claire':['Jonny', 'Thom']}
Anuj = {'Anuj':[]}
Thom = {'Thom':[]}
Jonny = {'Jonny':[]}
Peggy = {'Peggy':[]}
other = [Alice,Claire,Anuj,Thom,Jonny,Peggy]

for x in other:
    print(x)
    graph.update(x)
graph
```

#### Graphviz

Pakke for å visualisere grafer. Vil i utgangspunktet bruke det til å visualisere beslutningstrær men tror det kan ha andre anvendelser.

Tror det er litt mer generell software enn bare python pakke. Litt slitsomt at jeg må jobbe eksplisitt med filer lagret i systemet i stedet for objekter i python.

Tror det har out-fil i dot-format, som jeg konverterer til bilde format..

bruker først export_graphviz fra sklearn.tree til å lage graf i .dot format med utgangspunkt i mitt fittede beslutningstre. Deretter kan jeg spesifisere grafiske renderinger på denne filen for å få det i bilde-format, enten fra command line eller inni python

```python
from graphviz import Source
from sklearn.tree import export_graphviz
export_graphviz(
                tree_clf,
                out_file='fig.dot',
                feature_names= ..,
                class_names= ..,
                rounded=True,
                filled=True
                )
Source.from_file('fig.dot') # Får Source objekt som kan visulaiseres i notebook. Kan også lagre til fil som .png osv..
```

```python
d = Digraph() # directed graph
d.node('a')
d.node('b')
d.node('c')
d.node('d')
d.node('e')

d.edges(['ab', 'ac', 'cd', 'ce']) # tar iterable av tail,head
d
```

### Trær

Graf med spesielle egenskaper. Dukker opp i mange sammenhenger... organisere informasjon i hierarki, mer generell til mer spesifikk. Lagring av filer på disk, systematisering av ulike levende ting, beslutningstrær. Avgrensing i hvert steg.

Har retning slik at kanter er enten innkommende eller utgående

Litt terminologi og sånt:
- Rot er node uten innkommende kanter
- Barn til node er mengden av noder den har en utgående kant til
- Forelder til node er den noden den har innkommende kant fra (merk at kun én innkommende kant til hver node i tre som ikke er rot)
- Søsken er mengde av node som har samme forelder
- Undertre består av en forelder og mengden av dens etterkommere. Merk at hele treet oppfyller definisjon av undertre.
- Blad er node som ikke har barn
- Nivå til node er antallet kanter fra rot til den noden
- Høyden til treet er det største nivået til en node i treet

#### Binært tre

Kan implementere med liste av lister. Hver node som ikke er blad er representert med liste med tre element. Først element er navn på node. Andre element er list med tre element som representer undertre assosiert med node til venstre. Tredje element er tilsvarende for node til høyre.

Trenger ikke definere `BinaryTree` class; tilstrekkelig å anvende funksjoner på liste av liste.

```python
tree = ['root',
        ['a', 
         ['b',[], []],
         []],
        ['c',
         ['d',[],[]],
         ['e',[],[]]
        ]    
```

```python
def binary_tree(root):
    return [root, [], []]

def insert_left(root, new_branch):
    ''' insert subtree in second element in root list. Må pushe ting ned hvis det er der allerede'''
    t = root.pop(1)
    if len(t) > 1:
        root.insert(1, [new_branch, t, []])
    else:
        root.insert(1, [new_branch, [], []])
        
def insert_left(root, new_branch):
    ''' insert subtree in third element in root list. Må pushe ting ned hvis det er der allerede'''
    t = root.pop(2)
    if len(t) > 1:
        root.insert(2, [new_branch, [], t])
    else:
        root.insert(2, [new_branch, [], []])
```        

Eller kan implementere med nodes. Hver node er representert som instance av BinaryTree. Har referanse til barna. Kan f.eks. bruke Stack til å ha oversikt over foreldre nå vi spaserer nedover treet.

```python
class BinaryTree:
    def __init__(self, root):
        self.key = root
        self.left = None
        self.right = None
        
    # add stuff
    def insert_left(self, node):
        if not self.left:
            self.left = BinaryTree(node)
        else:
            temp = BinaryTree(node)
            temp.left = self.left
            self.left = temp
            
    def insert_right(self, node):
        if not self.right:
            self.right = BinaryTree(node)
        else:
            temp = BinaryTree(node)
            temp.right = self.right
            self.right = temp
    
    # inspect tree... kanke alltid få ut representasjon av hele objektet, men alltids greit å kunne inspect noen egenskaper.
    def get_root(self): # merk at vi alltid er i rot av et eller annet subtree
        return self.key
    
    def set_root(self, obj):
        self.key = obj
```        

Vil legge til noe helt til venstre i treet.. på slutten, altså ikke koblet direkte til rotnode i main tree. Må ha tak i node som akkurat nå er lengst til venstre og deretter legge på der.

Har annen implementajon der vi har egen high-level class som representer overordnet struktur i treet. Kan håndtere tomt tre. Alt arbeidet skjer i node som er representasjon av rot i subtree. Representere trær gjennom rotnoder.

```python
class BinarySearchTree:
    def __init__(self):
        self.root = None

    def put(self, key, val=None):
        if self.root:
            self.root.put(key, val) # vil at den skal bruke metode fra Node class... som er assosiert med rot.
        else:
            self.root = Node(key, val)

    def __setitem__(self, key, val=None):
        self.put(key, val)
```

```python
class Node:
    def __init__(self, key, val=None, parent=None,
                 left=None, right=None):
        self.key = key
        self.payload = val
        self.left = left
        self.right = right
        self.parent = parent

    def put(self, key, val=None):
        if key < self.key:
            if self.left:
                self.left.put(key, val)
            else:
                 self.left = Node(key, val, self)
        else:
            if self.right:
                self.right.put(key, val)
            else: self.right = Node(key, val, self)
    def __setitem__(self, key, val=None):
        self.put(key, val)
```

## Algoritmer

Systematiske fremgangsmåter for å oppnå mål. Kan beskrives generelt og abstrahere for eksakt implementasjon i gitt språk. Vil analysere grovt sett hvor mange operasjoner det krever. Dette vil avhenge av størrelse på input og tilfeldigheter. 	Vi gir en øvre begrensing; antall operasjon for worst case med input lengde (n).. en funksjon som avhenger av n. Kaller det for big O.

Eksempel: søke etter element i sortert liste. Gå gjennom hvert element: O(n), lineær tid. Bineær søk; partisjonere mengden i to like store deler. Hvor mange ganger kan vi dele n på 2 før vi får 1? $$\frac{n}{2^x}\implies n=2^x \implies x = log(n)$$
altså er O(n)=log(n). 

### Sorteringsalgoritmer

Sortere elementer i kolleksjon etter kriterie

#### Selection sort

Det enkleste er seleksjonsortering. Vi looper gjennom, finner element med laveste verdi og plasserer først i ny array. Deretter gjør vi tilsvarende med de n-1 resterende til det bare er ett element igjen. Antall operasjoner blir da $n\cdot(n-1)\cdot\dots\cdot 1 = n\cdot0.5\cdot n$ (hvorfor 0.5..?). Big O tar ikke hensyn til slik konstanter siden det bare ser på leddet som dominerer når n blir høy, så dette gir O(n^2).

```python
sorted_array = []
while array:
    min_value = array[0]
    for i in range(len(array)):
        if array[i] < min_value:
            min_value = array[i]
            idx = i
    sorted_array.append(array.pop(idx))
sorted_array
```

#### Insertion sort

Har sub-array med elementene med index før. Går baklengs gjennom denne subarray og flytter element mot høyre dersom de har høyere verdi slik at jeg gjør plass til det nye  elementet som skal dyttes inn. Når dette kriterie ikek oppfylt eller jeg kommer til begynnelse av sub-array så putter jeg inn element til høyre for den som ikke opfyller kriterie.

Med andre ord, for hver key går vi fremover i array og pusher elementer bakover helt til vi enten kommer til begynnelsen eller finner verdi som er lavere enn key. Da putter vi den inn på den indexen. Lengden på den 'sorterte arrayen' (som bare er del av array vi looper over) vokser med én for hve iterasjon..

```python
for i in range(1, len(array)):
    key = array[i]
    j = i-1
    
    while j >= 0 and key < array[j]:
        array[j+1] = array[j]
        j -= 1
    array[j+1] = key
```    

#### Bubble sort

Kjører n passes. For hvert element i en pass så sammenligner vi med nabo og pytter plassering dersom større enn verdi til høyre

To implementeringer:

```python
for pass_num in range(len(array)):
    for i in range(len(array)-1):
        sub_array = array[i:i+2]

        if array[i] > array[i+1]:
            array[i:i+2] = sub_array[::-1]
```    

```python
for pass_num in range(num_passes):
        for i in range(len(array)-1):
            if array[i+1] < array[i]:
                temp_val = array[i]
                array[i] = array[i+1]
                array[i+1] = temp_val
```

#### Quicksort


```python
n = 20
numbers = list(np.random.randint(0,10,n))
sorted_numbers = []
while numbers:
    smallest_num = 1e5
    for i, num in enumerate(numbers):
        if num <= smallest_num:
            smallest_num = num
            idx = i
    numbers.pop(idx)
    sorted_numbers.append(smallest_num)
sorted_numbers
```

hmmm

#### Merge sort

Eksisterer også merge sort som bruker divide and conquer til å rekursivt sortere array... har base case med 2 elementer, deler opp i subarrays ut fra pivot... tror dette er beste algoritme, men ble litt for komplisert :(((

### Søkealgoritmer

Jeg vil finne et element i en liste som oppfyller et gitt kriterium. Brute-force er å sjekke alle element som er O(n). Dersom det er mulig å sortere elementene slik at jeg for et gitt element kan si om det er for "høyt" eller "lavt" kan jeg bruke binary search som er O(logn)

#### Simple search

```python
def simple_search(array,target):
    if not array:
        return None
    i = 0
    while i <= len(array):
        if target == array[i]:
            return i
        i +=1
```

Det er enklere å søke over et lite område enn et stort. Binary search går ut på å paritsjonere listen i like stor deler og dermed avgrense til et gradvis mindre område. For å implementere må jeg huske hva som er topp og bunn i mengden jeg ser på, finne midtpunkt, finne hvilken side av midtpunkt den ligger, oppdater topp og bunn.

#### Binary search

```python
def binary_search(array, target):
    '''Returner True hvis target er i array, ellers False'''
    if not array:
        return None
    low, high = 0, len(array) -1
    while low <= high:
        mid = (high+low)//2
        if array[mid] == target:
            return True
        elif target > array[mid]:
            low = mid + 1
        else:
            high = mid -1 
    return False
```      

Kan også ta en rekursiv implementasjon. Calle funksjon eksplisitt på subarray som identifiserert av enten [:mid] eller [mid:].

Basecase: enten tom array eller array med innhold...

```python
def binary_search(array, target):
    if not array:
        return False
    else:
        mid = (len(array)) // 2
        if array[mid] == target:
            return True
        elif target > array[mid]:
            return binary_search(array[mid+1:], target) # vil ikkje ta med midtpunktet ikke sant
        else:
            return binary_search(array[:mid], target)
```

### Graf-algoritmer

Grafer er en nyttig datastruktur som kan representere hierarkisk sammenheng mellom objekter (ikke bare binært om det eksister en kobling eller ikke som i relasjoner). De består av noder og kanter.

To sentrale spørsmål:
1. Eksisterer det en kobling mellom node og annen node som oppfyller et gitt kriterium?
2. I så fall, hva er "korteste" sti?

Hva som utgjør lengden på stien avhenger om grafen er vektet eller ikke. I uvektet graf vil det tilsvare antall kanter vi må bevege oss over. Ellers blir det summen av vektene assosiert med kantene.

#### Breadth first

For å finne denne nærmeste noden som oppfyller et kriterie kan jeg bruke breadth first search. Dette bruker queue som er en enkel datastruktur med to gyldlige operasjoner: ta ut objekt fra begynnelsen av queue og legge til objekt på slutten av queue. First In First Out (FIFO) i motsetning til stack som er LIFO. Legger alle nabonodes i queue. For hvert objekt: hvis ikke oppfyller kritere: legg nabonodes til denne noden på slutten av queue og videre til neste objekt. Må huske å registrere alle nodes jeg sjekker slik at jeg ikke dobbeltsjekker og muligens går inn i uendelig loop.


Vil finne om det er en connection mellom meg og Peggy. Bruker breadth-first search på graf som ble implementert over.

```python
queue = graph['Sverre']
been_checked = []
while queue:
    name = queue.pop(0)
    neighbour_nodes = graph[name]
    if name in been_checked:
        continue
    if name == 'Peggy':
        print('Fant Peggy!')
        break
    else:
        queue += neighbour_nodes
        been_checked.append(name)
```

### Rekursjon

Rekursive algoritmer har en base-case som vi kan løse, og vi beveger oss mot base-case gjennom å rekursivt calle funksjonen. Det er et prinsipp som brukes i mange algoritmer. Illustrerer med boks av bokser.. representere boks med liste. Vil finne nøkkel.

In [36]:
main_box = [[[]], ['key',[]]]

En mulig løsning er å loope over listene i øverste nivå. Hvis listen er tom så går vi videre. Hvis den inneholder en listen så legger vi denne listen til på slutten, slik at vi søker over innhold senere. Hvis vi finner nøkkel er vi ferdig.

In [37]:
pile = main_box.copy()
while pile:
    print(pile)
    box = pile.pop(0)
    if isinstance(box,list):
        pile.extend(box)
    elif box == 'key':
        print('fant den!')
        break

[[[]], ['key', []]]
[['key', []], []]
[[], 'key', []]
['key', []]
fant den!


En rekursiv løsning er å grave oss gjennom hver boks inntil vi finner base-case der boks enten er tom eller inneholder nøkkel.

In [38]:
def search_box(box):
    print(box)
    for item in box:
        if isinstance(item, list):
            search_box(item)
        elif item == 'key':
            print('fant den!')
            break

In [39]:
search_box(main_box)

[[[]], ['key', []]]
[[]]
[]
['key', []]
fant den!
