# Gretige Algoritmen: theorie

## 1. Algemene beschouwingen

### 1.1 De gretige aanpak

Gretige algoritmen lossen optimalisatieproblemen op door bij elke stap de beste lokale keuze te maken, in de hoop het globale optimum te vinden. Gretige algoritmen zijn relatief eenvoudig en gemakkelijk te implementeren, en tegelijk efficiënt in termen van tijdscomplexiteit. Ze hebben meestal de voorkeur boven een ander algoritme bij problemen waar beiden tot een oplossing leiden. Een typisch voorbeeld is het kortstepad-probleem, dat voorkomt in elke routeplanner (bv. Google Maps). Het gretige algoritme van Dijkstra heeft de voorkeur boven het meer geavanceerde algoritme van Bellman-Ford.

Typisch werkt een gretig algoritme als volgt.

1. Begin met de begintoestand van het probleem. Dit is het startpunt van waaruit je keuzes begint te maken.

2. Evalueer alle mogelijke keuzes die je kunt maken vanuit de huidige toestand.

3. Kies de optie die op dat moment het beste lijkt, ongeacht de gevolgen op lange termijn. Dit is het ''gretige'' deel.

4. Ga naar de nieuwe toestand op basis van je gekozen optie. Dit wordt je nieuwe startpunt voor de volgende iteratie.

5. Herhaal stap 2-4 totdat je de eindtoestand bereikt of geen verdere vooruitgang meer mogelijk is.

<span style="color:#1569C7">**Voorbeeld.**</span> Neem aan dat je munten hebt met waarden `[1, 2, 5, 10]` en dat je met een minimaal aantal munten een geheel bedrag (bv. 39) moet vormen. Het gretige algoritme voor dit probleem ziet er als volgt uit.

1. Stel het 'nog te vormen bedrag' gelijk aan 39 en de 'lijst met gekozen munten' aan `[0, 0, 0, 0]`.

2. Neem de grootste muntwaarde die kleiner dan of gelijk aan het nog te vormen bedrag. In de eerste stap is dit 10.

3. Verlaag het bedrag met deze muntwaarde en voeg de munt toe aan de oplossing.

4. Herhaal stap 2-3 totdat het bedrag gelijk is aan nul. (We nemen aan dat muntwaarde 1 altijd beschikbaar is).

Een Python-programma hiervoor wordt hieronder weergegeven.  

```python
waarden = [1, 2, 5, 10]
munten = [0, 0, 0, 0]
restbedrag = 39

while restbedrag > 0:
    # overloop de lijst met munten van eind naar begin
    for i in range(n-1, -1, -1):
        # bereken het aantal gehele keren dat de volgende grootste munt in het restbedrag kan  
        aantal = restbedrag // waarden[i]
        # voeg dit aantal toe aan de lijst en verlaag het bedrag
        munten[i] = aantal
        restbedrag -= aantal * waarden[i]

print('Van de munten met waarden ', waarden, 'heb je er', munten, 'nodig om', restbedrag, 'te vormen.')
```

Het gretige algoritme leidt niet altijd tot de beste oplossing voor dit probleem. Ga dit algoritme maar eens na voor het bedrag 20 en muntwaarden `[1, 10, 16]`.

### 1.2 Technieken voor gretige algoritmen

https://www.geeksforgeeks.org/greedy-algorithms-general-structure-and-applications/

Een probleem kan vaak (benaderd) opgelost worden met een gretig algoritme, als het in kleinere delen kan worden opgesplitst. In het muntenprobleem hierboven bijvoorbeeld, kiezen we eerst zoveel mogelijk de grootste muntenwaarde, en verkleinen het bedrag vervolgens. Het resterende deelprobleem bestaat nu in het vormen van het kleinere bedrag.

Er zijn twee technieken die je concreet kan gebruiken om een gretig algoritme om te zetten in Python-code.

1. **Sortering.** In het muntenprobleem doorloopten we de lijst met muntwaarden van hoogste naar laagste waarde. Bij andere optimalisatieproblemen wil je eerst de meest dringende taak afwerken, de grootste zak opvullen, de goedkoopste leverancier nemen ...

2. **Prioriteitswachtrij.** Wanneer je bij het oplossen van het probleem de lijst dynamisch moet sorteren, bijvoorbeeld omdat je aan het begin nog niet alle gevallen kent of er gevallen worden toegevoegd, is het aangeraden om een specifieke datastructuur te gebruiken. Een ''prioriteitswachtrij'' is een geordende lijst waar elementen aan de achterzijde worden toegevoegd, en verwijdering aan de voorzijde. Op de werking hiervan gaan we in een volgende paragraaf in.

<span style="color:#1569C7">**Opgaven.**</span> Maak oefening 1.

## 2. Sorteren van lijsten

https://www.freecodecamp.org/news/python-sort-how-to-sort-a-list-in-python/

De `sort`-functie is een van de manieren waarop je een lijst kunt sorteren in Python. Wanneer je `sort` gebruikt, wordt de *in-place* gesorteerd. Dit betekent dat de oorspronkelijke lijst direct wordt aangepast. Deze functie heeft dus geen uitvoer!

De algemene syntax ziet er als volgt uit.
```python
lijst.sort(reverse=..., key=...)
```

* `lijst` is de naam van de lijst waarmee je werkt.

* `reverse` is de eerste (optionele) parameter. Deze geeft aan of de lijst oplopend, of aflopend moet worden gesorteerd. De standaardwaarde is `False`, wat betekent dat de lijst oplopend wordt gesorteerd. Als de waarde `True` is, wordt de lijst in aflopende volgorde gesorteerd.

* `key` is de tweede optionele parameter. Dit is de naam van een functie die voor elk element in de lijst de waarde teruggeeft, waarop moet worden gesorteerd.

Een eenvoudig voorbeeld met strings, die standaard alfabetisch worden geordend.

```python
getallen = [10, 8, 3, 22, 33, 7, 11, 100, 54]
getallen.sort()
print(getallen)
```
> `[3, 7, 8, 10, 11, 22, 33, 54, 100]`

### 2.1 Opgeven van een eigen sorteersleutel

Je kunt de parameter `key` gebruiken om een lijst te sorteren volgens een eigen volgorde, of een volgorde aan te geven wanneer dit niet voor de hand ligt. De functie die aan `key` is toegewezen, wordt eerst toegepast op alle elementen in de lijst en hierop wordt vervolgens gesorteerd.

Stel dat je een lijst met strings wilt sorteren op basis van hun lengte, in plaats van alfabetisch. De ingebouwde functie `len` berekent de lengte van elke string en moet je dus meegeven als 'sleutel'.

```python
programmeertalen = ["Python", "Swift","Java", "C++", "Go", "Rust"]

programmeertalen.sort(key=len)

print(programmeertalen)
```
> `['Go', 'C++', 'Java', 'Rust', 'Swift', 'Python']`

Soms komt het ook voor dat Python gewoon niet weet hoe je een gegeven lijst moet sorteren. Neem aan dat je een lijst hebt met inschrijvingen: namen met daaraan telkens een nummer gekoppeld. Als de naam op de eerste positie staat, wordt standaard hierop gesorteerd.

```python
# Naam en ID
inschrijvingen = [('Alice', 87), ('Bob', 25), ('Carol', 63)]
inschrijvingen.sort()
print(inschrijvingen)
```
> `[('Alice', 87), ('Bob', 25), ('Carol', 63)]`

Je moet in dit geval een eenvoudige functie schrijven die het nummer bepaalt van een inschrijving. Die geef je vervolgens mee als waarde voor de parameter `key`. 

```python
# Bepaal van een inschrijving het nummer
def id(inschr):
    return inschr[1]

# Naam en ID
inschrijvingen = [('Alice', 87), ('Bob', 25), ('Carol', 63)]
inschrijvingen.sort(key = id)
print(inschrijvingen)
```
> `[('Bob', 25), ('Carol', 63), ('Alice', 87)]`

<span style="color:#1569C7">**Opgaven.**</span> Maak oefeningen 2, 3 en 4.

## 3. Wachtrijen

Een wachtrij (*queue*) is een lineaire datastructuur die het FIFO-principe (First In First Out) volgt: het eerste element dat wordt ingevoegd, wordt er als eerste uitgehaald. Een wachtrij is dus net als een rij mensen die wachten om een kaartje te kopen, waarbij de eerste persoon in de rij de eerste persoon is die bediend wordt.

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_queue1.png' width='50%' >

Er zijn verschillende soorten wachtrijen.
* Een simpele FIFO-wachtrij laat toe om elementen na elkaar toe te voegen aan het einde, en element in hun volgorde van toevoeging te verwijderen.
* Een prioriteitswachtrij (*priority queue*) laat toe om elementen toe te voegen, maar plaatst ze in de wachtrij volgens hun prioriteit. Elementen met de hoogste prioriteit, worden eerst uit de wachtrij gehaald.

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_queue2.png' width='50%' >

### 3.1 Gebruik van de `heapq` library

We zullen werken met wachtrijen via de ingebouwde Python-library `heapq`. Je vertrekt steeds van een lijst:

```python
pq = [(3, "A"), (1, "C"), (7, "D")]
```
Deze lijst bevat drie elementen -- A, C en D -- voorzien van een prioriteitswaarde -- 3, 1 en 7. Deze waarde zal bepalen in welke volgorde de elementen worden afgehandeld: **het laagste getal komt overeen met de hoogste prioriteit**. Met de functie `heapify` wordt deze lijst omgezet naar een prioriteitswachtrij:

```python
# Maak de prioriteitswachtrij aan
pq = [(3, "A"), (1, "C"), (7, "D")]
heapify(pq)
```

We illustreren we de twee bewerkingen: verwijdering van een element (*pop*) en toevoeging van een element (*push*). 

* Eerst wordt C uit de wachtrij gehaald, omdat de waarde 1 de laagste is.

    ```python
    heappop(pq)
    ```
    > `(1, 'C')`

* Wanneer je `(0, B)` aan de wachtrij toevoegt, zal deze voorrang krijgen tegenover de al aanwezige elementen.

    ```python
    heappush(pq, (0, "B"))
    heappop(pq)
    ```
    > `(0, 'B')`

Merk op: nadat je een element verwijdert, maakt het niet langer deel uit van de wachtrij.

<span style="color:#1569C7">**Opgaven.**</span> Maak oefening 5 en 6.

## 3. Het kortstepad-algoritme van Dijkstra

### 3.1 Het algoritme uitgelegd
https://www.datacamp.com/tutorial/dijkstra-algorithm-in-python

Het kortstepad-algoritme van Dijkstra is het meest gebruikte algoritme voor het vinden van het kortste pad tussen twee punten in een netwerk. Het heeft vele toepassingen in de maatschappij, waaronder

* het vinden van de snelste route door een navigatiesysteem (bv. Google Maps);
* het routing van datapakketten in computernetwerken met variabele bandbreedtes;
* het optimaliseren van bezorging door pakjesdiensten;
* het suggereren van vrienden in social media-apps;
* en het bepalen van optimale investeringspaden in financiën.

#### Sleutelconcepten met betrekking tot grafen

Om Dijkstra's algoritme in Python te implementeren, moeten we een paar essentiële concepten uit de grafentheorie opfrissen. Allereerst hebben we de grafen zelf:

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra1.png' width='50%' >

Grafen zijn verzamelingen van knopen (*vertices*) verbonden door bogen (*edges*). Knopen vertegenwoordigen entiteiten of punten in een netwerk, terwijl randen de verbinding of relaties tussen hen vertegenwoordigen.

Grafen kunnen gewogen of ongewogen zijn. In ongewogen grafen hebben alle randen hetzelfde gewicht (vaak ingesteld op 1). In gewogen grafen (je raadt het al) is aan elke rand een gewicht verbonden, dat vaak de kosten, afstand of tijd weergeeft.

We gebruiken gewogen grafen in de tutorial omdat ze nodig zijn voor het algoritme van Dijkstra.

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra2.png' width='50%' >

Een pad in een graaf is een opeenvolging van knopen verbonden door randen, beginnend en eindigend op specifieke knopen. Het kortste pad, waar we in deze tutorial om geven, is het pad met het minimale totale gewicht (afstand, kosten, enz.).

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra3.png' width='50%' >

#### Dijkstra's algoritme gevisualiseerd

Voor de rest van de tutorial gebruiken we de laatste graaf die we gezien hebben. Laten we proberen het kortste pad tussen de punten B en F te vinden uit ten minste zeven mogelijke paden. In eerste instantie zullen we de taak visueel uitvoeren en later in code implementeren.

Eerst initialiseren we het algoritme als volgt:

1. We stellen B in als het root (bron) knoop.

2. We stellen de afstanden tussen B en alle andere knopen in op oneindig als hun initiële, voorlopige afstandswaarden. We stellen de waarde voor B in op 0 omdat dit de afstand tot zichzelf is.

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra4.png' width='50%' >

Vervolgens voeren we de volgende stappen iteratief uit:

1. Kies de knoop met de kleinste waarde als ''huidige knoop'' en bezoek al zijn buren. Terwijl we elke naburige knoop bezoeken, werken we hun voorlopige waarden bij van oneindig naar hun randgewichten, beginnend bij de bronknoop.

2. Nadat alle buren zijn bezocht, markeren we de huidige knoop als ''bezocht''. Zodra een knoop is gemarkeerd als ''bezocht'', is zijn waarde al het kortste pad vanaf het doel.

3. Het algoritme gaat terug naar stap 1 en kiest de knoop met de kleinste waarde.

In onze graaf heeft B drie buren: A, D en E. Laten we ze allemaal bezoeken vanaf de hoofdknoop en hun waarden bijwerken (iteratie 1) op basis van hun randgewichten:

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra5.png' width='50%' >

In iteratie 2 kiezen we opnieuw de knoop met de kleinste waarde: deze keer E. Zijn buren zijn C, D en G. B is uitgesloten omdat we die al hebben bezocht. Laten we de waarden van E's buren bijwerken:

<img src='https://raw.githubusercontent.com/jonasvdw/IW_Teams/main/media/P6_project3_dijkstra6.png' width='50%' >

We stellen de waarde van C in op 5,6 omdat zijn waarde de cumulatieve som is van de gewichten van B tot C. Hetzelfde geldt voor G. Als je echter ziet dat de waarde van D 3,5 blijft terwijl het 3,5 + 2,8 = 6,3 had moeten zijn, net als bij de andere knopen.

De regel is dat als de nieuwe cumulatieve som groter is dan de huidige waarde van de node, we deze niet bijwerken omdat de node al de kortste afstand tot de wortel aangeeft. In dit geval noteert D's huidige waarde van 3,5 al de kortste afstand tot B omdat ze buren zijn.

We gaan op deze manier verder tot alle knopen bezocht zijn. Als dat uiteindelijk gebeurt, hebben we de kortste afstand tot elke knoop vanaf B en kunnen we eenvoudig de waarde van B naar F opzoeken.

Samengevat zijn de stappen

1. Initialiseer de graaf waarbij het bron de waarde 0 krijgt en alle andere knopen oneindig. Begin met de bron als ''huidige knoop''.

2. Bezoek alle buren van de huidige knoop en update hun waarden naar de cumulatieve som van gewichten (afstanden) vanaf de bron. Als de huidige waarde van een buur kleiner is dan deze som, blijft deze gelijk. Markeer de ''huidige knoop'' als klaar.

3. Markeer het onvoltooide knoop met de minimale waarde als ''huidige knoop''.

4. Herhaal stap 2 en 3 totdat alle knopen klaar zijn.

### 3.2 Implementatie in Python

#### Voorstelling van grafen als dicts

Eerst hebben we een manier nodig om grafen in Python weer te geven. Meestal gebruikt men een 'dictionary' (of 'dict'). Dit is een soort lijst, net als een array, maar de elementen zijn niet genummerd door 0, 1, 2 ..., maar 'sleutel-waardeparen'. In dit geval zal elke sleutel van het dict een knoop voorstellen (benoemd door een hoofdletter) en elke waarde opnieuw een dict, met daarin de buren van die knoop en de respectievelijke afstanden tot de knoop. De graaf hierboven heeft zeven knopen, wat impliceert dat het dict zeven sleutels moet hebben. Men noemt het bovenstaande dict een **adjacentielijst**.

In [22]:
adj = {
   "A": {"B": 3, "C": 3},
   "B": {"A": 3, "D": 3.5, "E": 2.8},
   "C": {"A": 3, "E": 2.8, "F": 3.5},
   "D": {"B": 3.5, "E": 3.1, "G": 10},
   "E": {"B": 2.8, "C": 2.8, "D": 3.1, "G": 7},
   "F": {"G": 2.5, "C": 3.5},
   "G": {"F": 2.5, "E": 7, "D": 10}
}

Voor de volledigheid geven we nog eens een opfrissing van deze datastructuur. Neem aan dat je gegevens van een bepaalde persoon wilt bijhouden: de naam, leeftijd en nationaliteit. Dan zou je dit in een array kunnen doen:

```python
    persoon_id = ["Peter Verbrugghe", 47, "Belg"]
```
Als je nu de leeftijd wilt opvragen, moet je onthouden dat dit het element is op positie 1:

```python
    persoon_id[1]
```
> `47`

Wanneer de dataopslag wordt herdacht (bv. door een nieuw kenmerk toe te voegen), moet je nagaan wat de nieuwe indices zijn van elk kenmerk. Met een dict worden de gegevens meer gestructureerd voorgesteld:

```python
    persoon_id = {
        "naam" : "Peter Verbrugghe",
        "leeftijd" : 47,
        "nationaliteit" : "Belg"
    }
```
Let op: dicts worden genoteerd met gekrulde haken `{}`. Opvragen van de leeftijd kan nu simpelweg door te typen:

```python
    persoon_id['leeftijd']
```
> `47`

Nu maakt de volgorde niet meer uit: elke **waarde** (`"Peter Verbrugghe"`, `47` ...) is namelijk gekoppeld aan een **sleutel** (`"naam"`, `"leeftijd"` ...). 

Twee functies voor dicts die vaak worden gebruikt bij for-loops, zijn de volgende.
* `dict.keys()` geeft een lijst terug met de sleutels van de dictionary
    ```python
    persoon_id.keys()
    ```
    > `dict_keys(['naam', 'leeftijd', 'nationaliteit'])`

* `dict.items()` geeft een lijst terug met de waarden van de dictionary
    ```python
    persoon_id.items()
    ```
    > `dict_items([('naam', 'Peter Verbrugghe'), ('leeftijd', 47), ('nationaliteit', 'Belg')])`

#### Afstanden berekenen vanaf de bron

Nu zijn we klaar om de functie `kortste_afstand` te schrijven, die het algoritme van Dijkstra zal implementeren. We zullen de afstanden tot de bron bijhouden in een dict `afstanden`, met voor elke knoop de afstand tot de bron. Initieel stellen we dit gelijk aan 0 voor de bron zelf en oneindig voor alle andere knopen. Gedurende het algoritme werken we deze dict bij als we een knoop en zijn buren bezoeken.

```python
def kortste_afstand(adj, bron):
       # Initialiseer de afstand van alle knopen op oneindig ...
       afstanden = {knoop : float("inf") for knoop in adj}
       # ... uitgezonderd de bron
       afstanden[bron] = 0
```

#### Itereren over de knopen met een wachtrij

Nu hebben we een manier nodig om over de knopen in de graaf te itereren, op basis van de regels van het algoritme van Dijkstra. Herinner, in elke stap moet de knoop met de kleinste waarde gekozen worden en zijn buren bezocht worden. We zouden knopen dus dynamisch moeten kunnen sorteren op basis van hun afstand tot de bron. Hiervoor is een prioriteitswachtrij de geschikte datastructuur. Initieel bevat deze enkel het paar `(0, bron)`. Verder houden we de bezochte knopen bij in een verzameling `bezocht = set()` (omdat een verzameling eenzelfde element niet twee keer kan bevatten).

<span style="color:#1569C7">**Opdracht.**</span> Vul de functie `kortste_afstand` aan met de twee initialisatiestappen hierboven. Je kan de cel met de functie iets verder naar onder terugvinden.

#### Het algoritme als while-loop

Nu beginnen we met het overlopen van alle niet-bezochte knopen met behulp van een while-loop.
* Zolang de wachtrij niet leeg is, 'poppen' we de waarde met de hoogste prioriteit eruit: noem dit `huidige_afst, huidige_knoop`.
* Als `huidige_knoop` nog niet bezocht is, anders markeren we het als bezocht en bezoeken we alle buren:
    ```python
    for buur, gewicht in adj[huidige_knoop].items():
        #...
    ```
    * Voor elke buur berekenen we de 'voorlopige afstand' tot `huidige_knoop`: tel `huidige_afst` op bij het gewicht van de verbindende boog.
    * Vervolgens controleren we of deze 'voorlopige afstand' kleiner is dan het getal in `afstanden`. Zo ja, vervang het getal in `afstanden` hierdoor en voeg we de buur met zijn voorlopige afstand toe aan de wachtrij.

Onder de while-loop, retourneren we de lijst `afstanden`.

<span style="color:#1569C7">**Opdracht.**</span> Vul de functie `kortste_afstand` aan, die je hieronder kan terugvinden.

In [None]:
from heapq import heapify, heappop, heappush

def kortste_afstand(adj, bron):
    # Initialisatie
    # ...

    
    # Ga door zoland de wachtrij niet leeg is
    while pq:
        # ...

    return afstanden

In [None]:
from heapq import heapify, heappop, heappush

def kortste_afstand(adj, bron):
    # Initialiseer de afstand van alle knopen op oneindig ...
    afstanden = {node: float("inf") for node in self.graph}
    # ... uitgezonderd de bron
    afstanden[bron] = 0

    # Aanmaken prior.wachtrij en verzameling bezochte knopen
    pq = [(0, bron)]
    heapify(pq)
    bezocht = set()
    
    # Ga door zoland de wachtrij niet leeg is
    while pq:
        huidige_afst, huidige_kn = heappop(pq)

        # Als de huidige knoop nog niet bezocht is, controleer of er een kortere afstand is
        if huidige_kn not in bezocht:
            for buur, gew in adj[huidige_kn].items():
                voorlop_afst = huidige_afst + gew
                if voorlop_afst < afstanden[buur]:
                    afstanden[buur] = voorlop_afst
                    heappush(pq, (voorlop_afst, buur))

    return afstanden

Als je code correct is, krijg je hieronder de lijst met afstanden vanaf B. 

In [None]:
adj = {
   "A": {"B": 3, "C": 3},
   "B": {"A": 3, "D": 3.5, "E": 2.8},
   "C": {"A": 3, "E": 2.8, "F": 3.5},
   "D": {"B": 3.5, "E": 3.1, "G": 10},
   "E": {"B": 2.8, "C": 2.8, "D": 3.1, "G": 7},
   "F": {"G": 2.5, "C": 3.5},
   "G": {"F": 2.5, "E": 7, "D": 10}
}

afstanden = kortste_afstand(adj, 'B')
print(afstanden)
afst_F = afstanden["F"]
print("De kortste afstand van B naar F is", afst_F)

{'A': 3, 'B': 0, 'C': 5.6, 'D': 3.5, 'E': 2.8, 'F': 9.1, 'G': 9.8}