# OER botje Themaopdracht

### Notebook by [Iris Oerlemans](http://www.google.com/)

---

## Table of contents

1. [Introduction](#Introduction)

2. [The problem domain](#The-problem-domain)

4. [Business Understanding](#Business-Understanding)

5. [Required libraries](#Required-libraries)

6. [Data Understanding](#Data-Understanding)

7. [Data Prepartion](#Data-Preparation)

8. [Modeling](#Modeling)

9. [Evaluation](#Evaluation)

10. [Reproducibility](#Reproducibility)

---

# Introduction

[[ go back to the top ]](#Table-of-contents)

In dit document wordt de toepassing van GUFF met 'geitje' met een semDB verkend. Uiteindelijk wordt hiermee een chatbot gemaakt die vragen kan beantwoorden over het OER (onderwijs en examenregelement). De opdracht komt van Hogeschool Windesheim. 
Hogeschool Windesheim is een Nederlandse instelling voor hoger onderwijs. De hogeschool biedt een breed aanbod aan bachelor en masteropleidingen op onder andere het gebied van techniek en sociale wetenschappen. 
Hogeschool Windesheim heeft verschillende vestigingen met ongeveer 1800 medewerkers.


---

# Business Understanding

[[ go back to the top ]](#Table-of-contents)

Windesheim ondervind dat leerlingen het onderwijs en examenregelement (OER) onvoldoende bestuderen. Hierom wil Windesheim graag een chatbot hebben zodat leerlingen hier hun vragen aan kwijt kunnen om zo de informatie makkelijker tot zich te nemen. 

>Wat gaan we oplossen

*We lossen op dat leerlingen op een makkelijkere manier de informatie van het OER tot zich kunnen nemen*

>Weet jij wat de KSF's zijn van het project?

*Het project is succesvol als er een werkende chatbot in een python applicatie inclusief GUI gepresenteerd wordt met daarbij ook de onderbouwing van de gemaakte keuzes*

>Wat is de context van de vraag?
 
*De context van de vraag is het ontwikkelen van een chatbot die studenten helpt informatie te vinden over het OER. Studenten hebben vaak moeite om deze documenten goed te begrijpen.*

>Is er een ontwerp of een eindvisie?

*De eindvisie is om een werkende chatbot te creëeren met daarmee de mogelijkheid om vragen te kunnen stellen over het OER. Daarbij is het doel om de drempel voor het begrijpen van de belangrijke documenten te verlagen voor studenten.*

>Kan de vraag worden opgelost met de gegeven dataset

*De dataset die is aangeleverd is het OER(wordbestand). Er moet onderzoek worden gedaan hoe we deze kunnen omzetten om te kunnen gebruiken. Indien dit lukt kan de vraag worden opgelost met de gegeven dataset*

---

# Required Libraries

[[ go back to the top ]](#Table-of-contents)

*korte uitleg over de packages die je gebruikt om het project werkende te krijgen, voorbeeld van een random notebook online:*

If you don't have Python on your computer, you can use the [Anaconda Python distribution](http://continuum.io/downloads) to install most of the Python packages you need. Anaconda provides a simple double-click installer for your convenience.

This notebook uses several Python packages that come standard with the Anaconda Python distribution. The primary libraries that we'll be using are:

* **NumPy**: Provides a fast numerical array structure and helper functions.
* **pandas**: Provides a DataFrame structure to store data in memory and work with it easily and efficiently.
* **scikit-learn**: The essential Machine Learning package in Python.
* **matplotlib**: Basic plotting library in Python; most other Python plotting libraries are built on top of it.
* **Seaborn**: Advanced statistical plotting library.
* **watermark**: A Jupyter Notebook extension for printing timestamps, version numbers, and hardware information.

To make sure you have all of the packages you need, install them with `conda`:

    conda install numpy pandas scikit-learn matplotlib seaborn
    
    conda install -c conda-forge watermark

`conda` may ask you to update some of them if you don't have the most recent version. Allow it to do so.

**Note:** I will not be providing support for people trying to run this notebook outside of the Anaconda Python distribution.

In [1]:
# Data Manipulation and Analysis
import pandas as pd # type: ignore
import numpy as np # type: ignore

# Machine Learning and Data Preprocessing
from sklearn.preprocessing import LabelEncoder # type: ignore
from sklearn.model_selection import train_test_split # type: ignore

# Visualization
import matplotlib.pyplot as plt # type: ignore

# System and File Management
import sys
import os
import time

# AI packages
import tensorflow as tf # type: ignore

# Add a path to the scripts directory
sys.path.append(os.path.abspath(os.path.join('..', 'scripts')))

# Project-Specific Modules

2024-10-15 11:52:21.170416: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2024-10-15 11:52:22.600432: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-10-15 11:52:23.006094: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-10-15 11:52:23.115735: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-10-15 11:52:23.790091: I tensorflow/core/platform/cpu_feature_guar

---

# Data Understanding

[[ go back to the top ]](#Table-of-contents)

*hier ga je echt diep de data in doormiddel van stapsgewijze analyze. Bijvoorbeeld:

>eerst kijken wat in de data zit met df.head()

"Oh ik zie dat er veel data ontbreekt" *verwijdert ontbrekende data*

>df.describe()

"ik zie nu x" *doe Y*

>enzovoort

*Het idee is dus dat je elke regel uitlegt waarom je wat doet. Je eindigt altijd met een opsomming van je bevindingen*

---

# Data Preparation

[[ go back to the top ]](#Table-of-contents)

*Simpel gezegd opschonen van je data tot het punt dat je het in een model kan stoppen, kan soms heel klein zijn of heel veel. Hier geldt ook weer, elke stap onderbouwen*

---

De volgende code komt van de github van GEITje. Ik wil eerst GEITje werkend hebben en dan gaan puzzelen met het docuement toevoegen

In [3]:
pip install flash-attn --no-build-isolation


Collecting flash-attn
  Downloading flash_attn-2.6.3.tar.gz (2.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.6/2.6 MB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Collecting einops (from flash-attn)
  Downloading einops-0.8.0-py3-none-any.whl.metadata (12 kB)
Downloading einops-0.8.0-py3-none-any.whl (43 kB)
Building wheels for collected packages: flash-attn
  Building wheel for flash-attn (setup.py) ... [?25ldone
[?25h  Created wheel for flash-attn: filename=flash_attn-2.6.3-cp311-cp311-linux_x86_64.whl size=187328293 sha256=25405479af3f6865c873ee3bbdfadcfccea9055355de78e7cd6b93170e9d4377
  Stored in directory: /root/.cache/pip/wheels/e3/ef/b1/7889928ffa2dea61032e61480db4e4c20d00a9d9e28cd4f55a
Successfully built flash-attn
Installing collected packages: einops, flash-attn
Successfully installed einops-0.8.0 flash-attn-2.6.3
[0mNote: you may need to restart the kernel to use updated packag

In [3]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Beperk GPU-geheugen gebruik
torch.cuda.set_per_process_memory_fraction(0.5)

device = 'cuda' if torch.cuda.is_available() else 'cpu'
model_name = 'Rijgersberg/GEITje-7B-chat-v2'  

# Laad het model
model = AutoModelForCausalLM.from_pretrained(model_name, low_cpu_mem_usage=True).to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name)

def generate(conversation, temperature=0.2, top_k=50, max_new_tokens=100):  # Verminder max_new_tokens
    tokenized = tokenizer.apply_chat_template(conversation, add_generation_prompt=True,
                                              return_tensors='pt').to(device)
    outputs = model.generate(tokenized, do_sample=True, temperature=temperature,
                             top_k=top_k, max_new_tokens=max_new_tokens)

    return tokenizer.decode(outputs[0], skip_special_tokens=True)

conversation = [
    {
        'role': 'user',
        'content': 'Welk woord hoort er niet in dit rijtje thuis: "auto, vliegtuig, geitje, bus"?'
    }
]

print(generate(conversation))


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

: 

# Modeling

[[ go back to the top ]](#Table-of-contents)

*Korte uitleg wat voor model je gebruikt en waarom*

---

# Evaluation 

[[ go back to the top ]](#Table-of-contents)

*Doormiddel van visualisaties laten zien waarom het wel of niet werkt en benoem de vervolgstappen voor vervolg onderzoek*

---

# Reproducibility

[[ go back to the top ]](#Table-of-contents)

*Als je notebook niet nagemaakt kan worden is het een slecht notebook, wat je hier kan benoemen is dat er een requirements.txt is met de versies en een compacte versie van je code in 1 codeblock*

---

Je kan dit ook nog toevoegen:

<div class="alert alert-block alert-success"><b>Success:</b> This alert box indicates a successful or positive action.</div>

<div class="alert alert-block alert-warning"><b>Example:</b> Use yellow boxes for examples that are not inside code cells, or use for mathematical formulas if needed. Typically also used to display warning messages.</div>

<div class="alert alert-block alert-info"><b>Tip:</b> Use blue boxes (alert-info) for tips and notes.</div>

<div class="alert alert-block alert-danger"><b>Danger:</b> This alert box indicates a dangerous or potentially negative action.</div>

Zo'n markdown block is gewoon HTML-code