In [1]:
from torch import cuda

device = 'cuda' if cuda.is_available() else 'cpu'
cuda.empty_cache()
print(device)

cuda


In [36]:
import openai
openai.api_base = "https://openai.vocareum.com/v1"
openai.api_key = "YOUR API KEY"

In [2]:
COMPLETION_MODEL="gpt-3.5-turbo-instruct"
COMPLETION_TOKEN_LIMIT=4000
EMBEDDING_MODEL="text-embedding-ada-002"
EMBEDDING_TOKEN_LIMIT=8000

In [3]:
q1 = "Waar moet ik op letten bij de APK van een personen auto?"
q2 = "Zijn er nieuwe regels voor APK bijgekomen in 2024?"

In [20]:
def get_completion(question):
    prompt = """
Vraag: {question}
Antwoord:
""".format(question=question)
    answer = openai.Completion.create(
        model=COMPLETION_MODEL,
        prompt=question,
        max_tokens=150
    )["choices"][0]["text"].strip()

    completion = prompt + answer + '\r\n'
    print(completion)
    return completion

c1 = get_completion(q1)
c2 = get_completion(q2)


Vraag: Waar moet ik op letten bij de APK van een personen auto?
Antwoord:
1. De veiligheid: Tijdens de APK wordt er gekeken naar de staat van de remmen, banden, verlichting, stuurinrichting en schokdempers. Deze moeten allemaal in goede staat zijn voor een veilige rit op de weg.

2. Milieueisen: Er wordt gekeken naar de uitstoot van schadelijke stoffen. Deze moeten voldoen aan de gestelde normen.

3. Registratie en identificatie: De APK-check moet uitgevoerd worden op basis van het kenteken en chassisnummer. Zorg ervoor dat deze gegevens correct en goed leesbaar zijn.

4. Kilometer


Vraag: Zijn er nieuwe regels voor APK bijgekomen in 2024?
Antwoord:
Op dit moment zijn er nog geen nieuwe regels voor de APK bekend die zullen ingaan in 2024. Het ministerie van Infrastructuur en Waterstaat heeft wel aangegeven dat ze van plan zijn om de regels voor de APK aan te passen om de verkeersveiligheid te verbeteren en de uitstoot van schadelijke stoffen te verminderen. Dit kan mogelijk leiden to

In [4]:
import os, glob
import pandas as pd
import tiktoken

tokenizer = tiktoken.get_encoding("cl100k_base")

def read_context(filename):
    with open(filename, 'r') as f:
        return f.read()

filenames = glob.glob("data/laws/*.txt")

contexts = []
counts = []
files = []
for filename in filenames:
    context = read_context(filename)
    tokens = tokenizer.encode(context)

    start = 0
    while start < len(tokens):
        chunk_tokens = tokens[start:start+COMPLETION_TOKEN_LIMIT]
        chunk_context = tokenizer.decode(chunk_tokens)

        contexts.append(chunk_context)
        counts.append(len(chunk_tokens))
        files.append(filename)
                
        start += COMPLETION_TOKEN_LIMIT        

df = pd.DataFrame({
    'text': contexts,
    'token_count': counts,
    'file': files
})

df.head()

Unnamed: 0,text,token_count,file
0,Verbod van verblindende lichten Artikel 5.3....,398,data/laws/bedrijfsautos-zwaar-lichten-lichtsig...
1,Geluid en milieu Artikel 5.8.11 Actuele reg...,2438,data/laws/geluid-en-milieu-landbouwvoertuigen-...
2,Toegestane lichten en retroreflectoren Artik...,1186,data/laws/driewielige-motorrijtuigen-lichten-l...
3,Werking en toestand toegestane lichten en ret...,1282,data/laws/werking-en-toestand-toegestane-licht...
4,Banden Artikel 5.8.27 Actuele regelgeving ...,1758,data/laws/landbouwvoertuigen-banden-ophanging.txt


In [5]:
df.describe()

Unnamed: 0,token_count
count,551.0
mean,1930.862069
std,1597.432699
min,23.0
25%,410.0
50%,1368.0
75%,4000.0
max,4000.0


In [11]:
batch_size = 50
embeddings = []

tokenizer = tiktoken.get_encoding("cl100k_base")

for i in range(0, len(df), batch_size):
    # Send text data to OpenAI model to get embeddings
    batch = df.iloc[i:i+batch_size]
    print(f"Batch: {i}")

    response = openai.Embedding.create(
        input=batch["text"].tolist(),
        engine=EMBEDDING_MODEL
    )
    
    # Add embeddings to list
    embeddings.extend([data["embedding"] for data in response["data"]])

# Add embeddings list to dataframe
df["embeddings"] = embeddings
df

Batch: 0
Batch: 50
Batch: 100
Batch: 150
Batch: 200
Batch: 250
Batch: 300
Batch: 350
Batch: 400
Batch: 450
Batch: 500
Batch: 550


Unnamed: 0,text,token_count,file,embeddings
0,Verbod van verblindende lichten Artikel 5.3....,398,data/laws/bedrijfsautos-zwaar-lichten-lichtsig...,"[-0.024114485830068588, -0.015285826288163662,..."
1,Geluid en milieu Artikel 5.8.11 Actuele reg...,2438,data/laws/geluid-en-milieu-landbouwvoertuigen-...,"[-0.01928567700088024, -0.006536485161632299, ..."
2,Toegestane lichten en retroreflectoren Artik...,1186,data/laws/driewielige-motorrijtuigen-lichten-l...,"[-0.012261375784873962, 0.0035802957136183977,..."
3,Werking en toestand toegestane lichten en ret...,1282,data/laws/werking-en-toestand-toegestane-licht...,"[0.00302892760373652, -0.0010251507628709078, ..."
4,Banden Artikel 5.8.27 Actuele regelgeving ...,1758,data/laws/landbouwvoertuigen-banden-ophanging.txt,"[-0.014782387763261795, -0.00882873497903347, ..."
...,...,...,...,...
546,Werking en toestand verplichte lichten en ret...,4000,data/laws/lichten-lichtsignalen-en-retroreflec...,"[-0.005433712154626846, 0.01031220331788063, -..."
547,"igde oppervlak en het gehele oppervlak, en de...",3086,data/laws/lichten-lichtsignalen-en-retroreflec...,"[-0.007790512405335903, 0.000958832330070436, ..."
548,Overeenstemmen goedkeuringsdocument Artikel ...,100,data/laws/personenautos-aanvullende-eisen-taxi...,"[0.0009177428437396884, -0.012154417112469673,..."
549,Onderdelen en werking reminrichting Artikel ...,4000,data/laws/landbouwvoertuigen-reminrichting-ond...,"[-0.014985360205173492, 0.016307998448610306, ..."


In [12]:
df.to_csv("data/embeddings.csv")

In [13]:
from openai.embeddings_utils import get_embedding, distances_from_embeddings

def get_rows_sorted_by_relevance(question, df):
    # Get embeddings for the question text
    question_embeddings = get_embedding(question, engine=EMBEDDING_MODEL)
    
    df_copy = df.copy()
    df_copy["distances"] = distances_from_embeddings(
        question_embeddings,
        df_copy["embeddings"].values,
        distance_metric="cosine"
    )
    
    df_copy.sort_values("distances", ascending=True, inplace=True)
    return df_copy

In [14]:
p1_distances = get_rows_sorted_by_relevance(q1, df)
p1_distances.head()

Unnamed: 0,text,token_count,file,embeddings,distances
322,Overeenstemmen van het voertuig met de voertu...,4000,data/laws/algemeen-personenautos-overeenstemme...,"[-0.014790968038141727, 0.004114707466214895, ...",0.12527
323,er voordat u begint met de APK het VIN. U mag ...,896,data/laws/algemeen-personenautos-overeenstemme...,"[-0.009855810552835464, -0.01427172590047121, ...",0.126745
105,Overeenstemmen van het voertuig met de voertu...,4000,data/laws/bedrijfsautos-zwaar-algemeen-overeen...,"[-0.016232481226325035, 0.004087268840521574, ...",0.129279
238,Overeenstemmen van het voertuig met de voertu...,4000,data/laws/overeenstemmen-van-het-voertuig-met-...,"[-0.010175658389925957, 0.006705946754664183, ...",0.131585
276,sprake is van een ontheffing; - Op het kentek...,4000,data/laws/afmetingen-aanhangwagens-afmetingen-...,"[-0.004341438878327608, 0.0016961294459179044,...",0.132147


In [15]:
p2_distances = get_rows_sorted_by_relevance(q2, df)
p2_distances.head()

Unnamed: 0,text,token_count,file,embeddings,distances
49,Algemeen Artikel 5.3.0 Actuele regelgeving ...,100,data/laws/algemeen-bedrijfsautos-licht.txt,"[-0.0033415218349546194, -0.005918622016906738...",0.162658
197,Algemeen Artikel 5.3.0 Actuele regelgeving ...,100,data/laws/bedrijfsautos-zwaar-algemeen.txt,"[-0.0033590376842767, -0.00591784343123436, 0....",0.162666
266,emd in artikel 5.*.31 van de APK-regelgeving v...,27,data/laws/driewielige-motorrijtuigen-reminrich...,"[-0.0010396302677690983, -0.001836272538639605...",0.163074
103,. Bedrijfsauto's met een toegestane maximumm...,787,data/laws/bedrijfsautos-zwaar-reminrichting-on...,"[-0.010347217321395874, -0.01762087456882, -0....",0.173826
276,sprake is van een ontheffing; - Op het kentek...,4000,data/laws/afmetingen-aanhangwagens-afmetingen-...,"[-0.004341438878327608, 0.0016961294459179044,...",0.174388


In [30]:
PROMPT_TEMPLATE = """
Geef antwoord op onderstaande vraag op basis van de gegeven context.
Als je het antwoord niet weet, geef dan aan waarom je het niet weet.

Context: 

{}

---

Vraag: {}
Antwoord:"""

def create_prompt(question, df):
    current_token_count = len(tokenizer.encode(PROMPT_TEMPLATE)) + \
                            len(tokenizer.encode(question))

    files_added = []
    context = []
    relevant_rows = get_rows_sorted_by_relevance(question, df)
    for idx, row in relevant_rows.iterrows():
        if (current_token_count + row["token_count"] <= COMPLETION_TOKEN_LIMIT):
            current_token_count += row["token_count"]
            context.append(row["text"])
        else:
            break

    return PROMPT_TEMPLATE.format("\n\n###\n\n".join(context), question)

test_prompt = create_prompt(q2, df)
print(len(tokenizer.encode(test_prompt)))

1088


In [31]:
def answer_question(question, df, max_answer_tokens=150):  
    prompt = create_prompt(question, df)

    try:
        response = openai.Completion.create(
            model=COMPLETION_MODEL,
            prompt=prompt,
            max_tokens=max_answer_tokens
        )
        return response["choices"][0]["text"].strip()
    except Exception as e:
        print(e)
        return ""

In [32]:
a1 = answer_question(q1, df)
print("Q: ", q1)
print("A: ", a1)
print("===")
print(c1)

Q:  Waar moet ik op letten bij de APK van een personen auto?
A:  De APK is een periodieke keuring van de veiligheid en milieuprestaties van een personenauto. Bij de keuring worden onder andere de remmen, verlichting, banden en uitstoot gecontroleerd. Ook wordt er gekeken naar de algemene staat en eventuele roestvorming van de auto. Het is dus belangrijk om de algemene staat van de auto in de gaten te houden en regelmatig onderhoud te laten uitvoeren om problemen tijdens de APK te voorkomen. Als je specifieke richtlijnen of aandachtspunten wilt weten, kun je het beste contact opnemen
===

Vraag: Waar moet ik op letten bij de APK van een personen auto?
Antwoord:
1. De veiligheid: Tijdens de APK wordt er gekeken naar de staat van de remmen, banden, verlichting, stuurinrichting en schokdempers. Deze moeten allemaal in goede staat zijn voor een veilige rit op de weg.

2. Milieueisen: Er wordt gekeken naar de uitstoot van schadelijke stoffen. Deze moeten voldoen aan de gestelde normen.

3. R

In [33]:
a2 = answer_question(q2, df)
print("Q: ", q2)
print("A: ", a2)
print("===")
print(c2)

Q:  Zijn er nieuwe regels voor APK bijgekomen in 2024?
A:  Nee, in de gegeven context staat geen informatie over nieuwe regels voor APK in 2024.
===

Vraag: Zijn er nieuwe regels voor APK bijgekomen in 2024?
Antwoord:
Op dit moment zijn er nog geen nieuwe regels voor de APK bekend die zullen ingaan in 2024. Het ministerie van Infrastructuur en Waterstaat heeft wel aangegeven dat ze van plan zijn om de regels voor de APK aan te passen om de verkeersveiligheid te verbeteren en de uitstoot van schadelijke stoffen te verminderen. Dit kan mogelijk leiden tot nieuwe regels voor de APK in de toekomst, maar deze zijn nog niet definitief vastgesteld. Het is daarom aan te raden om de ontwikkelingen op dit gebied in de gaten te houden.



# CONCLUSION

For the first question "Wat should I be paying attention to for an MOT test on a car?"
The basic answer was a summary of bullet points. Whereas the answer for the custom prompt was more of an informal answer.

For the second question "Have they introduced any new rules in 2024 for the MOT test?"
The basic answer said they weren't aware of of any new rules.
The custom prompt answer said there weren't any new rules based on the context.
Giving the feeling of more confidence in the answer given.