# Recursie en boomstructuren

Auteurs: Rianne van Os (rianne.vanos@hu.nl), Tijmen Muller (tijmen.muller@hu.nl)

(c) HU 2025

#### Voorbereiding voor de les

- Lees dit notebook door.
- Bestudeer je eigen uitwerking van de _priority queue_ van het vorige semester. Het belangrijkste is dat je je kennis over de _tree_ datastructuur (boomstructuur) weer ophaalt.
- Maak opdracht 1 tot en met 4 uit dit notebook. Als een opdracht niet lukt, noteer dan een aantal _concrete_ vragen die je hebt om tijdens de les verder te komen. 

_Geef hier het antwoord._

## Inleiding

Het doel van deze les is om jullie kennis over het concept _recursie_ weer op te halen en toe te passen op een boomstructuur, waar ze erg geschikt voor is. Dit is een voorbereiding op het zelf implementeren van de _decision tree_, wat we in de volgende wiskundeles gaan doen.

Een _recursieve_ functie is in de basis een functie die zichzelf aanroept. Dit kan een intuitieve oplossing zijn voor problemen waarop de _divide and conquer_ aanpak van toepassing is. Met _divide and conquer_ bedoelen we dat een probleem te beschouwen is als een samenstelling van kleinere varianten van hetzelfde probleem. Als de kleinste variant van het probleem eenvoudig is op te lossen, dan kunnen we het 'grotere' probleem oplossen door het op te delen in steeds kleinere varianten, deze op te lossen en vervolgens alle oplossingen weer samen te voegen, zodat we eindigen met een oplossing voor het originele 'grote' probleem.

Een klassiek voorbeeld hiervan is de _faculteitsfunctie_. Voor $n!$ geldt:

$$ n! = n \times (n-1) \times (n-2) \times \cdots \times 2 \times 1$$

en dus:

$$ n! = n \times (n-1)! $$

Hierbij hebben het 'grotere' probleem $n!$ teruggebracht tot een vermenigvuldiging van $n$ met het 'kleinere' probleem $(n-1)!$. Dit kunnen we blijven reduceren tot we bij het 'kleinste' probleem $1!$ uitkomen, waarvoor geldt $1! = 1$. Dit 'kleinste' probleem noemen we de _base case_. Met deze oplossing kunnen we weer terugwerken naar het originele probleem en alle deeloplossingen samenvoegen tot de oplossing voor het originele probleem.

Een recursieve functie heeft dus twee kerneigenschappen:
1.  **Base case:** De stopconditie. Wanneer stopt de functie met zichzelf aanroepen? Dit voorkomt een oneindige lus.
2.  **Recursion:** De stap waarin de functie zichzelf aanroept, maar met een _eenvoudigere_ of _kleinere_ versie van het probleem.


Een concreet voorbeeld bij de faculteitsfunctie:

$ 5! = 5 \times 4! $ (recursion)  
$ 4! = 4 \times 3! $ (recursion)    
$ 3! = 3 \times 2! $ (recursion)    
$ 2! = 2 \times 1! $ (recursion)    
$ 1! = 1 $ (base case)  
$ 2! = 2 \times 1! = 2 \times  1 =   2 $  
$ 3! = 3 \times 2! = 3 \times  2 =   6 $  
$ 4! = 4 \times 3! = 4 \times  6 =  24 $  
$ 5! = 5 \times 4! = 5 \times 24 = 120 $ 

### Opdracht 1: Faculteit

Schrijf een recursieve functie `faculteit(n)` die de faculteit $n!$ van `n` berekent. Bedenk eerst wat de base case, dan wat de recursieve aanroep moet zijn en controleer vervolgens je uitwerking met bovenstaande voorbeelden.

In [None]:
def faculteit(n):
    # Base case

    # Recursion
    return n


# Test
print(f"1! is {faculteit(1)}")
print(f"5! is {faculteit(5)}")
print(f"15! is {faculteit(15)}")

### Opdracht 2: Som van een lijst

Schrijf een recursieve functie `som(lijst)` die alle elementen van een lijst optelt. Bedenk eerst wat de base case: wat is de meest eenvoudige lijst die bestaat? Bedenk vervolgens wat de recursieve aanroep moet zijn. Controleer met een aantal tests.

In [None]:
def som(lst):
    # Base case

    # Recursion
    return -1

# Test
print(f"som([1, 2, 3, 4, 5]) is {som([1, 2, 3, 4, 5])}")  # = 15


### Opdracht 3: Palindroom

Schrijf een recursieve functie `is_palindroom(tekst)` die controleert of een woord een palindroom is. Een palindroom is een woord dat gelijk blijft als je het omkeert, zoals bijvoorbeeld "lepel" en "maandnaam".

In [None]:
def is_palindroom(tekst):
    # Base case
    
    # Recursion
    return False


# Tests
print(f"Is 'raar' een palindroom? {is_palindroom('raar')}")             # True
print(f"Is 'maandnaam' een palindroom? {is_palindroom('maandnaam')}")   # True
print(f"Is 'palindroom' een palindroom? {is_palindroom('palindroom')}") # False

## Recursie op een _tree_ datastructuur

Een _tree_ is van nature recursief, omdat de delen van een 'grotere' boom zelf ook weer (kleinere) bomen zijn. Het schrijven van recursieve methodes voor deze datastructuur ligt dus voor de hand.

![Twee voorbeelden van een minheap](priority_queue.png)

### Opdracht 4: Prioriteiten in een _minheap_ sommeren

In deze opdracht maken we gebruik van de _minheap_ datastructuur die je zelf hebt uitgewerkt tijdens de 'API requests met priority queue' opdracht van het vorige semester. Je hebt toen een _binary tree_ geimplementeerd met daarin op elk knooppunt een integer die de 'prioriteit' van een API request aangaf. In de figuur hierboven twee concrete voorbeelden van zo'n boom.  

Stel dat we nu de _totale som_ aan prioriteiten in een boom willen weten (net als bij de lijst in opdracht 2), dan ligt het schrijven van een recursieve functie voor de hand.

- Bekijk de kleine boom links in de figuur hierboven. We kunnen in één oogopslag zien dat dit uiteindelijk een resultaat van 0 + 2 + 2 + 1 = 5 moet opleveren. 

- Beginnend in de _root_ (index `0`) van de kleine boom, dan bestaat de som uit de eigen waarde `queue[0] = 0` plus sommen van de deelbomen links en rechts. We vinden de indices van deze deelbomen met de functies `get_left_child()` en `get_right_child()`, die je vorig semester al hebt geschreven. Dit is de recursieve stap.

- De som van de linker deelboom bestaat nu uit de eigen waarde (2) plus weer de sommen van de deelbomen links en rechts. We zien meteen dat de som van de deelboom links gelijk is aan 2, want dit is een _leaf_. Alleen de deelboom rechts bestaat niet...
Als een deelboom niet bestaat, dan geven de functies `get_left_child()` en `get_right_child()` een `None` terug. Dit is onze _base case_: de waarde (of som) van een niet-bestaande boom is natuurlijk 0.

- Eerdergenoemde _leaf_ linksonderin met de waarde 2 heeft **beide** deelbomen niet, dus hier is twee keer sprake van de _base case_.

- Samenvattend: voor de boom links geldt dus de volgende som:  
  $$ 0 + (2 + (2 + (\textit{0} + \textit{0}) + \textit{0}) + 1 + (\textit{0} + \textit{0})) = 5 $$
  Hierbij zijn de vijf schuingedrukte nullen een _base case_. De eerste 0 is gewoon de waarde van de _root_.

**Opdracht**: Maak de functie `sum_queue(queue, index)` hieronder af. Test met de gegeven bomen.

In [None]:
# Importeer je eigen uitwerking van de priority queue
import priority_queue as pq

queue_small = pq.from_list([2, 0, 1, 2])
queue_large = pq.from_list([5, 0, 3, 3, 7, 9, 3, 5, 2, 4])

queue_small

In [None]:
def sum_queue(queue, index):
    left_index  = pq.get_left_child(queue, index)
    right_index = pq.get_right_child(queue, index)

    return -1

In [None]:
# Tests
print(sum_queue(queue_small, 0))  # 5
print(sum_queue(queue_large, 0))  # 41

### Opdracht 5: Data tree

Dit is de belangrijkste opdracht uit deze les, omdat ze de brug slaat naar de _decision tree_ van de volgende les. In deze opdracht gaan we een _data tree_ bouwen die een dataset met gehele getallen splitst tot de _leafs_ van deze boom enkel dezelfde getallen bevat (of de maximale diepte van de boom is bereikt). 

De _data tree_ is een _binary tree_, net als de _priority queue_ uit het vorige semester. In tegenstelling tot de implementatie van de _priority queue_ bouwen we de _data tree_ object-georiënteerd op. De naam 'data tree' is overigens zelf verzonnen, dit is geen bekend concept uit de data science.

We gaan recursie toepassen op de _data tree_ op drie manieren:

1. om de boom te representeren als een leesbare string;
2. om de boom op te bouwen, gegeven een array met gehele getallen (vergelijkbaar met een `fit()`-methode);
3. om te bepalen waar een _nieuw_ getal thuishoort (vergelijkbaar met een `predict()`-methode).

Reeds gegeven is de `Node` klasse in de `data_tree.py` module. Een node is een eenvoudige datastructuur die de knooppunten van de boom representeert, met de volgende attributen:
 * `data`: de data (array met gehele getallen) in die node;
 * `treshold`: de treshold waarop de `data` is gesplitst, namelijk het gemiddelde van de waarden;
 * `left_child`: de linkervertakking, de `Node` met alle data kleiner of gelijk aan de `treshold`;
 * `right_child`: de rechtervertakking, de `Node` met alle data groter dan de `treshold`;
 * `is_leaf`: een boolean die aangeeft of er sprake is van een _leaf_, of dat er juist wel vertakkingen zijn. Als `is_leaf` gelijk is aan `True`, dan heeft de node wél `data`, maar de overige attributen zijn leeg (`None`).

In de volgende deelopdrachten schrijf je een `Tree` klasse die de _data tree_ datastructuur implementeert.


In [None]:
import data_tree as dt
import numpy as np

#### Opdracht 5.1: De `Tree` weergeven

* De _root_ van de boom bestaat uit een `Node` met daarin alle getallen.
* De `Tree.__repr__()` methode geeft een stringrepresentatie van de boom. Deze methode roept de recursieve functie `Tree._repr_recursive()` aan.
  * De stopconditie is gegeven: van een _leaf_ is de stringrepresentatie triviaal.
  * Bedenk welke recursieve stap je nodig hebt als je een node met vertakkingen moet omzetten in een string.

Hieronder wordt handmatig een zeer eenvoudige _data tree_ opgebouwd op basis van de `data = [2, 0, 1, 2]` (zie figuur hieronder). Gebruik deze als test om je implementatie te controleren. Je output zou iets moeten zijn zoals hieronder weergegeven.


![Voorbeeld van een binary data tree](data_tree_simple.png)

In [None]:
leaf0 = dt.Node(np.array([0]))
leaf1 = dt.Node(np.array([1]))
leaf2 = dt.Node(np.array([2, 2]))
node = dt.Node(np.array([0, 1]), treshold=0.5, left_child=leaf0, right_child=leaf1)
root = dt.Node(np.array([2, 0, 1, 2]), treshold=1.25, left_child=node, right_child=leaf2)
tree_simple = dt.Tree(root)
print(tree_simple)

#### Opdracht 5.2: De `Tree` opbouwen


* De `Tree.build()` methode bouwt de boom op gegeven de `data`, een Numpy array met integers; deze methode roept de recursieve functie `Tree._build_recursive()` aan. De `Tree._build_recursive()` methode maakt een nieuwe `Node` aan gegeven de `data`. 
  * Bedenk welke stopconditie(s) je hier moet hanteren. 
  * In de recursieve stap wordt de `treshold` bepaald en worden de `Node`s gemaakt voor de `left_child` en de `right_child`.

Controleer je code met tests.

In [None]:
# Generate some numbers
# Should give data = [5, 0, 3, 3, 7, 9, 3, 5, 2, 4].
np.random.seed(0)
data = np.random.randint(0, 10, 10)

# Build and show tree
tree = dt.Tree()
tree.build(data)
print(tree)

Hieronder een voorbeeld van de resulterende _binary data tree_ die is opgebouwd met dataset `data = [5, 0, 3, 3, 7, 9, 3, 5, 2, 4]`.

![Voorbeeld van een binary data tree](data_tree.png)


In [None]:
# Generate more numbers
np.random.seed(0)
data = np.random.randint(0, 50, 40)

# Build and show tree
tree = dt.Tree(max_depth=4)
tree.build(data)
print(tree)

#### Opdracht 5.3: Een opgebouwde `Tree` toepassen

We gaan nu een methode `Tree.predict()` toevoegen die gaat bepalen in welke `Node` van de opgebouwde boom een gegeven (nieuw) getal `n` hoort. Deze methode roept de recursieve methode `Tree._predict_recursive()` aan:
* Bepaal wederom wat de _base case_ is bij het zoeken naar de juiste node.
* Bepaal wat de recursieve aanroep van deze methode moet zijn.
* Test je code met de volgende casussen:
  * Getal `n` is een getal dat in de originele dataset `data` voorkwam.  
  In de figuur hierboven zou het getal `n` = 9 terecht moeten komen in de _leaf_ helemaal rechtsonder in de figuur.
  * Getal `n` is een getal dat _niet_ in de originele dataset voorkwam.
  * Getal `n` kwam wel in de originele dataset voor, maar is niet _exclusief_ in de `data` van de _leaf_ (dit kan wanneer bij het opbouwen de `max_depth` bereikt werd).

In [None]:
print(tree.predict(-1))