# OER botje Themaopdracht

### Notebook by [Annefien van Zetten](http://www.google.com/)

---

## Table of contents

1. [Introduction](#Introduction)

2. [The problem domain](#The-problem-domain)

4. [Business Understanding](#Business-Understanding)

5. [Required libraries](#Required-libraries)

6. [Data Understanding](#Data-Understanding)

7. [Data Prepartion](#Data-Preparation)

8. [Modeling](#Modeling)

9. [Evaluation](#Evaluation)

10. [Reproducibility](#Reproducibility)

---

# Introduction

[[ go back to the top ]](#Table-of-contents)

In dit document wordt de toepassing van GUFF met 'geitje' met een semDB onderzocht. Het doel is om een chatbot te ontwikkelen die studenten helpt bij het beantwoorden van vragen over het Onderwijs- en Examenreglement.

Hogeschool Windesheim, de opdrachtgever van dit project, is een Nederlandse instelling voor hoger onderwijs met een breed aanbod aan bachelor- en masteropleidingen, waaronder techniek en sociale wetenschappen. De hogeschool heeft meerdere verstigingen en een team van ongeveel 1.800 medewerkers, die samen streven naar een inspirerende leeromgeving en een hoge kwaliteit van onderwijs. 

---

# Business Understanding

[[ go back to the top ]](#Table-of-contents)

Hogeschool Windesheim heeft te maken met een probleem dat studenten onvoldoende het Onderwijs- en Examenreglement (OER) bestuderen. Het OER is een belangrijk document waarin de rechten en plichten van studenten staan beschreven, evenals de regels rondon tentamens en beoordelingen. Door de complexiteit van het OER vinden studenten het echter vaak lastig om deze informatie te begirjpen en toe te passen. Dit leidt tot vragen, misverstanden en mogelijk onnodige fouten tijdens hun studie.

>Wat gaan we oplossen

We lossen op dat studenten op een eenvoudigere manier toegang hebben tot de informatie van het OER. Door een chatbot te ontwikkelen, kunnen studenten snel en effectief antwoorden krijgen op hun vragen, wat hen helpt de belangrijke documentatie beter te begrijpen en te gebruiken.

>Weet jij wat de KSF's en KPI's zijn van het project?

Het project is succesvol als er een werkende chatbot in een python applicatie inclusief GUI gepresenteerd wordt met daarbij ook de onderbouwing van de gemaakte keuzes. De kritieke succesfactoren zijn:
1. Nauwkeurigheid van de antwoorden: De chatbot moet vragen correct beantwoorden door zowel de juiste informatie uit de database te halen zonder onnodige details als de context te begrijpen.
2. Efficiëntie van het systeem: De chatbot moet snel en betrouwbaar antwoorden genereren, zelfs bij complexe vragen over het OER.
3. Gebruiksvriendelijkheid: De applicatie moet eenvoudig te gebruiken zijn, die toegankelijk is voor studenten zonder technische kennis. 

De kritieke prestatie-indicator zijn: 
1. Nauwkeurigheid van de antwoorden: Zelf controleren of de antwoorden van de chatbot overeenkomen met het OER.
2. Efficiëntie van het systeem: De gemiddelde tijd die de chatbot nodig heeft om een antwoord te genereren is niet langer dan 30 secondes. 


>Wat is de context van de vraag?
 
De context van de vraag is het ontwikkelen van een chatbot die studenten helpt informatie te vinden over het OER. Studenten hebben vaak moiete om deze documenten goed te begrijpen en de chatbot biedt een interactieve manier om antwoorden te verkrijgen en onduidelijkheden op te helderen.

>Is er een ontwerp of een eindvisie?

De eindvisie is om een functionele chatbot te creëren die studenten de mogelijkheid biedt om vragen te stellen over het OER. Dit zal de drempel voor het begrijpen van belangrijke informatie verlagen, waardoor studenten beter voorbereid zijn op hun studie.

>Kan de vraag worden opgelost met de gegeven dataset

De dataset die is aangeleverd is het OER(wordbestand). Er moet onderzoek worden gedaan hoe we deze kunnen omzetten om te kunnen gebruiken. Indien dit lukt kan de vraag worden opgelost met de gegeven dataset

---

# Required Libraries

[[ go back to the top ]](#Table-of-contents)

*korte uitleg over de packages die je gebruikt om het project werkende te krijgen, voorbeeld van een random notebook online:*

If you don't have Python on your computer, you can use the [Anaconda Python distribution](http://continuum.io/downloads) to install most of the Python packages you need. Anaconda provides a simple double-click installer for your convenience.

This notebook uses several Python packages that come standard with the Anaconda Python distribution. The primary libraries that we'll be using are:

* **NumPy**: Provides a fast numerical array structure and helper functions.
* **pandas**: Provides a DataFrame structure to store data in memory and work with it easily and efficiently.
* **scikit-learn**: The essential Machine Learning package in Python.
* **matplotlib**: Basic plotting library in Python; most other Python plotting libraries are built on top of it.
* **Seaborn**: Advanced statistical plotting library.
* **watermark**: A Jupyter Notebook extension for printing timestamps, version numbers, and hardware information.

To make sure you have all of the packages you need, install them with `conda`:

    conda install numpy pandas scikit-learn matplotlib seaborn
    
    conda install -c conda-forge watermark

`conda` may ask you to update some of them if you don't have the most recent version. Allow it to do so.

**Note:** I will not be providing support for people trying to run this notebook outside of the Anaconda Python distribution.

In [1]:
# Data Manipulation and Analysis
import pandas as pd # type: ignore
import numpy as np # type: ignore

# Machine Learning and Data Preprocessing
from sklearn.preprocessing import LabelEncoder # type: ignore
from sklearn.model_selection import train_test_split # type: ignore

# Visualization
import matplotlib.pyplot as plt # type: ignore

# System and File Management
import sys
import os
import time

# AI packages
import tensorflow as tf # type: ignore

# Add a path to the scripts directory
sys.path.append(os.path.abspath(os.path.join('..', 'scripts')))

# Project-Specific Modules

2024-10-14 18:27:50.087598: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-10-14 18:27:50.255494: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-10-14 18:27:50.331677: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-10-14 18:27:50.360295: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-10-14 18:27:50.510227: I tensorflow/core/platform/cpu_feature_guar

---

# Data Understanding

[[ go back to the top ]](#Table-of-contents)

*hier ga je echt diep de data in doormiddel van stapsgewijze analyze. Bijvoorbeeld:

>eerst kijken wat in de data zit met df.head()

"Oh ik zie dat er veel data ontbreekt" *verwijdert ontbrekende data*

>df.describe()

"ik zie nu x" *doe Y*

>enzovoort

*Het idee is dus dat je elke regel uitlegt waarom je wat doet. Je eindigt altijd met een opsomming van je bevindingen*

---

# Data Preparation

[[ go back to the top ]](#Table-of-contents)

*Simpel gezegd opschonen van je data tot het punt dat je het in een model kan stoppen, kan soms heel klein zijn of heel veel. Hier geldt ook weer, elke stap onderbouwen*

---

In [2]:
from docx import Document

def convert_docx_to_txt(docx_filename, txt_filename):
    # Laad het DOCX-document
    doc = Document(docx_filename)
    with open(txt_filename, 'w', encoding='utf-8') as txt_file:
        for para in doc.paragraphs:
            # Schrijf paragrafen naar het TXT-bestand
            txt_file.write(para.text + '\n')

        # Voor tabellen
        for table in doc.tables:
            for row in table.rows:
                row_data = [cell.text for cell in row.cells]
                # Schrijf de rijgegevens als een tab-gescheiden string
                txt_file.write('\t'.join(row_data) + '\n')

# Voorbeeld van gebruik
convert_docx_to_txt('../data/Opleidingsdeel OER HBO-ICT Zwolle 2024-2025.docx', '../data/OER.txt')


In [6]:
with open('../data/OER.txt', 'r', encoding='utf-8') as txt_file:
    output_content = txt_file.read()
    print(output_content)















Opleidingsdeel onderwijs- en examenregeling 2024-2025
HBO-ICT Zwolle



VOOR DE VOLTIJDSE BACHELOROPLEIDING








WELKOM

Beste student,

Voor je ligt het opleidingsdeel van de Onderwijs- en Examenregeling van de opleiding HBO-ICT Voltijd locatie Zwolle voor het collegejaar 2024-2025.
Elk jaar wordt de Onderwijs-en examenregeling opnieuw vastgesteld. Elke opleiding heeft één Onderwijs- en Examenregeling, bestaande uit een instellingsdeel en een per opleiding vastgesteld opleidingsdeel. Het instellingsdeel bevat de hoofdregels voor de gehele hogeschool en wordt voor heel Windesheim vastgesteld. In dit opleidingsdeel heeft de opleiding, met goedkeuring van de OC en Deelraad, deze hoofdregels verder uitgewerkt voor jouw opleiding.

Namens alle docenten en medewerkers wens ik je een goed studiejaar.

Ilja Clabbers 
Manager ICT-opleidingen


DOEL EN CONTEXT VAN DEZE ONDERWIJS- EN EXAMENREGELING

De Onderwijs- en examenregeling mag gezien worden als een overzicht van de rechte

# Modeling

[[ go back to the top ]](#Table-of-contents)

*Korte uitleg wat voor model je gebruikt en waarom*

---

# Evaluation 

[[ go back to the top ]](#Table-of-contents)

*Doormiddel van visualisaties laten zien waarom het wel of niet werkt en benoem de vervolgstappen voor vervolg onderzoek*

---

# Reproducibility

[[ go back to the top ]](#Table-of-contents)

*Als je notebook niet nagemaakt kan worden is het een slecht notebook, wat je hier kan benoemen is dat er een requirements.txt is met de versies en een compacte versie van je code in 1 codeblock*

---

Je kan dit ook nog toevoegen:

<div class="alert alert-block alert-success"><b>Success:</b> This alert box indicates a successful or positive action.</div>

<div class="alert alert-block alert-warning"><b>Example:</b> Use yellow boxes for examples that are not inside code cells, or use for mathematical formulas if needed. Typically also used to display warning messages.</div>

<div class="alert alert-block alert-info"><b>Tip:</b> Use blue boxes (alert-info) for tips and notes.</div>

<div class="alert alert-block alert-danger"><b>Danger:</b> This alert box indicates a dangerous or potentially negative action.</div>

Zo'n markdown block is gewoon HTML-code