# Evaluation SE
In this notebook we will look at the effectiveness of our model using precision@K. Results will be elaborated on inside of our report.

## 1. Model Testing
We start by creating 3 mocked student profiles

In [1]:
from helpers.notebook_pipelines.not_tuned_se_model import run_evaluation_multi as run_evaluation_multi_se
from helpers.notebook_pipelines.not_tuned_bow_model import run_evaluation_multi as run_evaluation_multi_bow
from helpers.functs.StudentProfile import StudentProfile
from IPython.display import display
import pandas as pd


# Our mocked student profiles
student1 = StudentProfile(
    current_study= "Kunst & Onderzoek",
    interests=[
        "Tekening",
        "Animatie",
        "Kunst",
        "Artistiek",
        "Drama",
        "Het vermaken van mensen. Via zingen, dansen, toneel. Graag op het podium. Mensen betrekken bij kunst. Veel vrijheid en ruimte voor creativiteit."
    ],
    wanted_study_credit_range=(15, 30),
    location_preference=["Den Bosch", "Breda", "Tilburg"],
    learning_goals=["Carrière groei", "Sociale vaardigheden", "Zelfverzekerheid", "Vermaken"],
    level_preference=["NLQF5", "NLQF6"],
    preferred_language="NL",
    preferred_start_range="any"
)

student2 = StudentProfile(
    current_study= "Informatica",
    interests=[
        "Programmeren",
        "AI",
        "Coderen",
        "Techniek",
        "Software",
        "Werken met computers en techniek heb ik altijd interessant gevonden. Met de opkomst van kunstmatige intelligentie wil is dit ook iets waar ik me in wil gaan verdiepen. Zoals machine learning, reinforcement learning, etc."
    ],
    wanted_study_credit_range=(15, 30),
    location_preference=["Den Bosch", "Breda", "Tilburg"],
    learning_goals=["Carrière groei", "Multitasken", "Kritisch denken", "Technische Vaardigheden"],
    level_preference=["NLQF5", "NLQF6"],
    preferred_language="NL",
    preferred_start_range="any"
)

student3 = StudentProfile(
    current_study= "Psychologie",
    interests=[
        "Mensen",
        "Emoties",
        "Gedrag",
        "Psychologie",
        "Waarom mensen bepaalde dingen doen. Hun gedrag, persoonlijkheid, emoties, etc. Ook het toepassen van psychologie om het welzijn van mensen te bevorderen."
    ],
    wanted_study_credit_range=(15, 30),
    location_preference=["Den Bosch", "Breda", "Tilburg"],
    learning_goals=["Carrière groei", "Multitasken", "Communicatie vaardigheden", "Sociale Vaardigheden"],
    level_preference=["NLQF5", "NLQF6"],
    preferred_language="NL",
    preferred_start_range="any"
)

# Ground-truth relevant modules per student
matching_models_list = [
    [388, 392, 191, 385, 386, 379, 389, 377, 233],          # student1
    [304, 305, 312, 317, 318, 322, 321, 334, 336, 340],     # student2
    [159, 290, 397, 180, 177]      #student 3
]

students = [student1, student2, student3]

Now pulling them through our model

In [2]:
all_results, avg_p_at_k = run_evaluation_multi_se(students, matching_models_list, top_n=5, k=5)

print("Average precision@5 over all students:", avg_p_at_k)

for idx, (student, result) in enumerate(zip(students, all_results), start=1):
    name = getattr(student, "name", f"Student {idx}")
    print("=" * 60)
    print(f"Results for {name} (index {idx}):")
    print(f"precision@5: {result['precision_at_k']:.3f}")

    old_width = pd.get_option("display.max_colwidth")
    pd.set_option("display.max_colwidth", None)
    display(result["recs"])
    pd.set_option("display.max_colwidth", old_width)

Relevant module IDs (ground truth): [191, 233, 377, 379, 385, 386, 388, 389, 392]
Top-5 recommended IDs: [191, 389, 391, 377, 379]
Hits in top-5: 4
precision@5: 0.800
--------------------------------------------------
Relevant module IDs (ground truth): [304, 305, 312, 317, 318, 321, 322, 334, 336, 340]
Top-5 recommended IDs: [333, 340, 176, 171, 334]
Hits in top-5: 2
precision@5: 0.400
--------------------------------------------------
Relevant module IDs (ground truth): [159, 177, 180, 290, 397]
Top-5 recommended IDs: [290, 159, 397, 208, 173]
Hits in top-5: 3
precision@5: 0.600
--------------------------------------------------
Average precision@5 over all students: 0.6000000000000001
Results for Student 1 (index 1):
precision@5: 0.800


Unnamed: 0,rank,module_id,module_name,score,motivation_full
0,1,191,De Kracht van de kunsten,0.646944,"Op basis van jouw antwoorden is een bijna perfecte match met jouw interesses. Je profiel benadrukt vooral ""Tekening Animatie Kunst Artistiek Drama Het vermaken van mensen"", wat hier goed bij past."
1,2,389,Performance in Art,0.611126,"Deze module sluit extreem goed aan bij jouw profiel. Vooral omdat je aangeeft: ""Tekening Animatie Kunst Artistiek Drama Het vermaken van mensen""."
2,3,391,Art & Humanity (nieuwe naam formuleren),0.604097,"Art & Humanity (nieuwe naam formuleren) past heel sterk bij wat jij leuk vindt. Met name jouw beschrijving ""Carrière groei Sociale vaardigheden Zelfverzekerheid Vermaken Kunst & Onderzoek"" komt sterk terug in deze module."
3,4,377,Art & Activisme,0.589216,"Art & Activisme lijkt behoorlijk goed bij jou te passen. Vooral omdat je aangeeft: ""Carrière groei Sociale vaardigheden Zelfverzekerheid Vermaken Kunst & Onderzoek""."
4,5,379,Creative AI,0.588265,"Deze module sluit goed aan bij jouw profiel. Met name jouw beschrijving ""Carrière groei Sociale vaardigheden Zelfverzekerheid Vermaken Kunst & Onderzoek"" komt sterk terug in deze module."


Results for Student 2 (index 2):
precision@5: 0.400


Unnamed: 0,rank,module_id,module_name,score,motivation_full
0,1,333,Smart Industry & Internet of Things,0.695087,"Op basis van jouw antwoorden is een bijna perfecte match met jouw interesses. Met name jouw beschrijving ""Programmeren AI Coderen Techniek Software Werken met computers en techniek heb ik altijd interessant gevonden"" komt sterk terug in deze module."
1,2,340,AI Translator,0.639112,"Deze module sluit extreem goed aan bij jouw profiel. We herkennen hierin wat je schreef: ""Programmeren AI Coderen Techniek Software Werken met computers en techniek heb ik altijd interessant gevonden""."
2,3,176,Technologie die ècht werkt: innovatie in zorg en welzijn,0.637871,"Op basis van jouw antwoorden past heel sterk bij wat jij leuk vindt. Je profiel benadrukt vooral ""Programmeren AI Coderen Techniek Software Werken met computers en techniek heb ik altijd interessant gevonden"", wat hier goed bij past."
3,4,171,Technologie in zorg en welzijn,0.636033,"Technologie in zorg en welzijn past heel sterk bij wat jij leuk vindt. Met name jouw beschrijving ""Met de opkomst van kunstmatige intelligentie wil is dit ook iets waar ik me in wil gaan verdiepen"" komt sterk terug in deze module."
4,5,334,Artifical Intelligence,0.63441,"Op basis van jouw antwoorden past heel sterk bij wat jij leuk vindt. We herkennen hierin wat je schreef: ""Programmeren AI Coderen Techniek Software Werken met computers en techniek heb ik altijd interessant gevonden""."


Results for Student 3 (index 3):
precision@5: 0.600


Unnamed: 0,rank,module_id,module_name,score,motivation_full
0,1,290,Organizational Behavior (samenwerking HRM - IVK),0.613082,"Organizational Behavior (samenwerking HRM - IVK) is een bijna perfecte match met jouw interesses. Dit sluit aan bij wat je vertelt: ""Ook het toepassen van psychologie om het welzijn van mensen te bevorderen""."
1,2,159,Kennismaking met Psychologie,0.611937,"Deze module past heel sterk bij wat jij leuk vindt. Met name jouw beschrijving ""Ook het toepassen van psychologie om het welzijn van mensen te bevorderen"" komt sterk terug in deze module."
2,3,397,De stem van je geweten. Ga opzoek naar jouw moreel kompas.,0.602854,"Op basis van jouw antwoorden past heel sterk bij wat jij leuk vindt. We herkennen hierin wat je schreef: ""Ook het toepassen van psychologie om het welzijn van mensen te bevorderen""."
3,4,208,Welzijn en samenleving,0.591246,"Deze module sluit goed aan bij jouw profiel. Vooral omdat je aangeeft: ""Ook het toepassen van psychologie om het welzijn van mensen te bevorderen""."
4,5,173,Langer thuis in de wijk,0.582335,"Langer thuis in de wijk sluit goed aan bij jouw profiel. Je profiel benadrukt vooral ""Ook het toepassen van psychologie om het welzijn van mensen te bevorderen"", wat hier goed bij past."


We see a mean precision@k score of 0.6. This is lower than our TF-IDF approach, however when we closely inspect modules that are inside of recommendations of the SE model that are not present in the ground truths, they are actually decent matches we overlooked ourselves. We will write about this in our report and do a better comparison using more student profiles with different kind of inputs.

## 2. TFIDF baseline
Here we will run the same students through our TF-IDF again and compare the results. Because we haven't yet tuned our SE model we will compare it to the untuned TF-IDF model. The differences in top recommenendations will be discussed inside of our report.

In [3]:
all_results, avg_p_at_k = run_evaluation_multi_bow(students, matching_models_list, top_n=5, k=5)

print("Average precision@5 over all students:", avg_p_at_k)

# Print model output for each student individually
for idx, (student, result) in enumerate(zip(students, all_results), start=1):
    name = getattr(student, "name", f"Student {idx}")
    print("=" * 60)
    print(f"Results for {name} (index {idx}):")
    print(f"precision@5: {result['precision_at_k']:.3f}")

    # Pandas settings for max width columns
    old_width = pd.get_option("display.max_colwidth")
    pd.set_option("display.max_colwidth", None)

    # Show updated recommendations
    display(result["recs"])

    # Restoring original pandas setting
    pd.set_option("display.max_colwidth", old_width)

(211, 12596)
Relevant module IDs (ground truth): [191, 233, 377, 379, 385, 386, 388, 389, 392]
Top-5 recommended IDs: [191, 388, 392, 377, 233]
Hits in top-5: 5
precision@5: 1.000
--------------------------------------------------
Relevant module IDs (ground truth): [304, 305, 312, 317, 318, 321, 322, 334, 336, 340]
Top-5 recommended IDs: [334, 318, 340, 303, 361]
Hits in top-5: 3
precision@5: 0.600
--------------------------------------------------
Relevant module IDs (ground truth): [159, 177, 180, 290, 397]
Top-5 recommended IDs: [159, 193, 357, 290, 207]
Hits in top-5: 2
precision@5: 0.400
--------------------------------------------------
Average precision@5 over all students: 0.6666666666666666
Results for Student 1 (index 1):
precision@5: 1.000


Unnamed: 0,rank,module_id,module_name,score,Motivation,motivation_full
0,1,191,De Kracht van de kunsten,0.733959,"het, drama, graag, artistiek, kunst","De Kracht van de kunsten is een bijna perfecte match met jouw interesses. We zien dat **het, drama, graag, artistiek, kunst** uit jouw antwoorden sterk overlappen met deze module."
1,2,388,Tekenen,0.281711,tekening,"Deze module kan een interessante extra optie zijn. Je profiel vertelt over **tekening**, en deze interesses komen sterk terug in deze module."
2,3,392,Research in Art istic Practice,0.231719,"artistiek, creativiteit, kunst","Research in Art istic Practice heeft een gematigde overlap met jouw interesses. We zien dat **artistiek, creativiteit, kunst** uit jouw antwoorden sterk overlappen met deze module."
3,4,377,Art & Activisme,0.22671,"het, toneel, op","Op basis van jouw antwoorden kan alsnog relevant zijn op basis van delen van jouw profiel. In jouw studentenprofiel noem je **het, toneel, op**, wat goed aansluit bij deze module."
4,5,233,"Artistiek ondernemerschap voor kunst, design en performance",0.226337,"het, dansen, artistiek, vrijheid","Artistiek ondernemerschap voor kunst, design en performance kan een interessante extra optie zijn. We zien dat **het, dansen, artistiek, vrijheid** uit jouw antwoorden sterk overlappen met deze module."


Results for Student 2 (index 2):
precision@5: 0.600


Unnamed: 0,rank,module_id,module_name,score,Motivation,motivation_full
0,1,334,Artifical Intelligence,0.507877,"intelligentie, kunstmatige, reinforcement learning, ai, gevonden","Op basis van jouw antwoorden is een sterke match met jouw interesses. Je profiel vertelt over **intelligentie, kunstmatige, reinforcement learning, ai, gevonden**, en deze interesses komen sterk terug in deze module."
1,2,318,AI Driven Robotics,0.291382,"ai, intelligentie, machin learning, opkomst, gevonden","Op basis van jouw antwoorden kan alsnog relevant zijn op basis van delen van jouw profiel. In jouw studentenprofiel noem je **ai, intelligentie, machin learning, opkomst, gevonden**, wat goed aansluit bij deze module."
2,3,340,AI Translator,0.259119,"computers, ai, kunstmat intelligentie, ik, ik","Deze module kan een interessante extra optie zijn. Je profiel vertelt over **computers, ai, kunstmat intelligentie, ik, ik**, en deze interesses komen sterk terug in deze module."
3,4,303,Operations Research,0.255903,"computers, iets, techniek softwar, kritisch denk, software","Operations Research kan een interessante extra optie zijn. We zien dat **computers, iets, techniek softwar, kritisch denk, software** uit jouw antwoorden sterk overlappen met deze module."
4,5,361,Infectiepreventie (BML),0.227779,"kritisch denk, iets, ik, waar, me","Infectiepreventie (BML) kan alsnog relevant zijn op basis van delen van jouw profiel. In jouw studentenprofiel noem je **kritisch denk, iets, ik, waar, me**, wat goed aansluit bij deze module."


Results for Student 3 (index 3):
precision@5: 0.400


Unnamed: 0,rank,module_id,module_name,score,Motivation,motivation_full
0,1,159,Kennismaking met Psychologie,0.496133,"etc, doen, van","Deze module is een sterke match met jouw interesses. In jouw studentenprofiel noem je **etc, doen, van**, wat goed aansluit bij deze module."
1,2,193,Gedrag,0.331624,"doen, mensen","Deze module kan alsnog relevant zijn op basis van delen van jouw profiel. In jouw studentenprofiel noem je **doen, mensen**, wat goed aansluit bij deze module."
2,3,357,minor Forensisch Onderzoek in de Rechtbank- (IF/KA),0.271226,"etc, waarom, emoties","minor Forensisch Onderzoek in de Rechtbank- (IF/KA) kan een interessante extra optie zijn. In jouw studentenprofiel noem je **etc, waarom, emoties**, wat goed aansluit bij deze module."
3,4,290,Organizational Behavior (samenwerking HRM - IVK),0.261236,"etc, doen","Organizational Behavior (samenwerking HRM - IVK) kan alsnog relevant zijn op basis van delen van jouw profiel. Je profiel vertelt over **etc, doen**, en deze interesses komen sterk terug in deze module."
4,5,207,Zorg in de langdurige hulpverlening,0.239018,het,"Op basis van jouw antwoorden kan een interessante extra optie zijn. Je profiel vertelt over **het**, en deze interesses komen sterk terug in deze module."


## 3. Cross language test
Our TF-IDF approach should not be able to recommend a model an English model to a student when their student profile was filled in using Dutch words and vice versa. We will create a new student profile and test that here.

Hiervoor hebben we gekozen ons profiel te customizen in het Nederlands om aan te sluiten bij de engelstalige module met id 347: 'Minor AquaCycle: Circular Water Technology'

In [4]:
student_cross = StudentProfile(
    current_study= "Maritieme Techniek",
    interests=[
        "Zeevaart",
        "Waterketen",
        "Milieutechniek",
        "Waterzuivering",
        "Innovatie in waterbeheer",
        "Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid."
    ],
    wanted_study_credit_range=(15, 30),
    location_preference=["Den Bosch", "Breda", "Tilburg"],
    learning_goals=["Carrière groei", "Sociale vaardigheden", "Zelfverzekerheid"],
    level_preference=["NLQF5", "NLQF6"],
    preferred_language="NL",
    preferred_start_range="any"
)

matching_models_list_cross = [
    [347, 347, 347, 347, 347],          # student cross
]

student_cross_list = [student_cross]

In [5]:
all_results, avg_p_at_k = run_evaluation_multi_se(student_cross_list, matching_models_list_cross, top_n=5, k=5)

print("Average precision@5 over all students:", avg_p_at_k)

for idx, (student, result) in enumerate(zip(students, all_results), start=1):
    name = getattr(student, "name", f"Student {idx}")
    print("=" * 60)
    print(f"Results for {name} (index {idx}):")
    print(f"precision@5: {result['precision_at_k']:.3f}")

    old_width = pd.get_option("display.max_colwidth")
    pd.set_option("display.max_colwidth", None)
    display(result["recs"])
    pd.set_option("display.max_colwidth", old_width)

Relevant module IDs (ground truth): [347]
Top-5 recommended IDs: [347, 341, 234, 267, 316]
Hits in top-5: 1
precision@5: 0.200
--------------------------------------------------
Average precision@5 over all students: 0.2
Results for Student 1 (index 1):
precision@5: 0.200


Unnamed: 0,rank,module_id,module_name,score,motivation_full
0,1,347,Minor AquaCycle: Circular Water Technology,0.556601,"Deze module is een sterke match met jouw interesses. Vooral omdat je aangeeft: ""Zeevaart Waterketen Milieutechniek Waterzuivering Innovatie in waterbeheer Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid""."
1,2,341,Minor AquaCycle: Circular Water Technology,0.556601,"Minor AquaCycle: Circular Water Technology sluit goed aan bij jouw profiel. We herkennen hierin wat je schreef: ""Zeevaart Waterketen Milieutechniek Waterzuivering Innovatie in waterbeheer Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid""."
2,3,234,Avans Innovative Studio Basis,0.509261,"Deze module lijkt behoorlijk goed bij jou te passen. Vooral omdat je aangeeft: ""Zeevaart Waterketen Milieutechniek Waterzuivering Innovatie in waterbeheer Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid""."
3,4,267,Module 4.1/4.2: Drowning cities (bestaande minor),0.50852,"Module 4.1/4.2: Drowning cities (bestaande minor) lijkt behoorlijk goed bij jou te passen. Dit sluit aan bij wat je vertelt: ""Zeevaart Waterketen Milieutechniek Waterzuivering Innovatie in waterbeheer Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid""."
4,5,316,Business Innovation,0.506814,"Deze module lijkt behoorlijk goed bij jou te passen. Vooral omdat je aangeeft: ""Zeevaart Waterketen Milieutechniek Waterzuivering Innovatie in waterbeheer Ik ben erg geïnteresseerd in watertechnologie en duurzaamheid""."


Good to see we get back exactly what we based our student profile around!

Now let's check if our TF-IDF model is able to do then same and compare different languages (it should not be able to).

In [6]:
all_results, avg_p_at_k = run_evaluation_multi_bow(student_cross_list, matching_models_list_cross, top_n=5, k=5)

print("Average precision@5 over all students:", avg_p_at_k)

# Print model output for each student individually
for idx, (student, result) in enumerate(zip(students, all_results), start=1):
    name = getattr(student, "name", f"Student {idx}")
    print("=" * 60)
    print(f"Results for {name} (index {idx}):")
    print(f"precision@5: {result['precision_at_k']:.3f}")

    # Pandas settings for max width columns
    old_width = pd.get_option("display.max_colwidth")
    pd.set_option("display.max_colwidth", None)

    # Show updated recommendations
    display(result["recs"])

    # Restoring original pandas setting
    pd.set_option("display.max_colwidth", old_width)

(211, 12596)
Relevant module IDs (ground truth): [347]
Top-5 recommended IDs: [331, 226, 234, 272, 289]
Hits in top-5: 0
precision@5: 0.000
--------------------------------------------------
Average precision@5 over all students: 0.0
Results for Student 1 (index 1):
precision@5: 0.000


Unnamed: 0,rank,module_id,module_name,score,Motivation,motivation_full
0,1,331,Innovatiemanagement,0.434465,innovatie,"Deze module sluit goed aan bij jouw profiel. Je profiel vertelt over **innovatie**, en deze interesses komen sterk terug in deze module."
1,2,226,"Digital Nomads NLQF 6, 30 + 15 EC",0.388816,"en, groei, in, innovatie, erg","Deze module heeft een gematigde overlap met jouw interesses. Je profiel vertelt over **en, groei, in, innovatie, erg**, en deze interesses komen sterk terug in deze module."
2,3,234,Avans Innovative Studio Basis,0.289188,"in, en, erg","Avans Innovative Studio Basis kan alsnog relevant zijn op basis van delen van jouw profiel. We zien dat **in, en, erg** uit jouw antwoorden sterk overlappen met deze module."
3,4,272,Duurzame Business Modellen,0.282977,erg,Deze module kan alsnog relevant zijn op basis van delen van jouw profiel. We zien dat **erg** uit jouw antwoorden sterk overlappen met deze module.
4,5,289,"Studio Impact experiment, samenwerking ABE ATix, ACI?",0.270614,"in, erg, en","Studio Impact experiment, samenwerking ABE ATix, ACI? kan een interessante extra optie zijn. We zien dat **in, erg, en** uit jouw antwoorden sterk overlappen met deze module."


As expected we see TF-IDF completely fail in this scenario, even though the word water has the same meaning in both languages! TF-IDF focusses here on mostly meaningless words like: in, erg, and en.