In [35]:
# Author Kees van den Tempel, AI-labs BV, Tricht (kees@ai-labs.nl)
# Versie 1.0
# 7-9-2023

# This script reads 15630 questions and answers (QA) of the products and services of the dutch government and makes
# it semantic searchable by using the Chroma vector database

# When the QA-dataset is read into the database, it is embedded, using the standard Chroma emmbedding algorithm
# When all the data is in the Chroma database it is possible to serach for identical questions and for the best
# answers

# Kijk ook op https://thenewstack.io/tutorial-use-chroma-and-openai-to-build-a-custom-qa-bot/

# Fill in your own OpenAI API key: https://platform.openai.com/account/api-keys
MyApiKey = "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"

import numpy as np
import pandas as pd
import openai
import time
import json

# Read the file with the most-asked Q&A of the products and service of all Dutch governments
QAdata = pd.read_csv("data/NL_ProdenDienstenQA.csv", decimal=".", sep="#")
QAdata['ID'] = QAdata.index

print(QAdata.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15618 entries, 0 to 15617
Data columns (total 11 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Vraag                15618 non-null  object
 1   Antwoord             15618 non-null  object
 2   Nummer               15618 non-null  int64 
 3   Instantie            15618 non-null  object
 4   UniformeProductnaam  15618 non-null  object
 5   Grondslaglabel       15618 non-null  object
 6   Overheid             15618 non-null  object
 7   SoortProduct         15618 non-null  object
 8   Klant                15618 non-null  object
 9   Prompt2              15618 non-null  object
 10  ID                   15618 non-null  int64 
dtypes: int64(2), object(9)
memory usage: 1.3+ MB
None


In [36]:
QAdata.head(2)

Unnamed: 0,Vraag,Antwoord,Nummer,Instantie,UniformeProductnaam,Grondslaglabel,Overheid,SoortProduct,Klant,Prompt2,ID
0,Wat is een aanvullende beurs kwijtschelding?,Een aanvullende beurs kwijtschelding is een financiële tegemoetkoming die je kunt aanvragen bij DUO als je een aanvullende beurs ontvangt en deze niet kunt terugbetalen.,1,Dienst Uitvoering Onderwijs (DUO),aanvullende beurs kwijtschelding,Artikel 6.2 Wet studiefinanciering 2000,de Nederlandse Rijksoverheid,een aanvraag doen,burger,"Een burger uit Nederland wil een aanvraag doen van een aanvullende beurs kwijtschelding bij de Nederlandse Rijksoverheid op basis van Artikel 6.2 Wet studiefinanciering 2000. Ik ben een helpdesk medewerker en wil een Q&A maken voor een website van de overheid voor bedrijven en burgers. Geef de 10 meest gestelde vragen en het bijbehorende antwoord die door een burger gesteld worden over aanvullende beurs kwijtschelding. Geef het antwoord op taalniveau B1. Geef geen inleidende tekst en alleen de resultaten in JSON formaat met de volgende indeling: \n\n{\n ""Nummer""\n ""Instantie""\n ""Vragen"": [\n {\n ""Vraag""\n ""Antwoord""\n },\n ]\n}\n\nHet label 'Nummer' heeft de waarde '1'. Het label 'Instantie' geeft de verantwoordelijke organisatie in Nederland voor aanvullende beurs kwijtschelding.",0
1,Wie komt in aanmerking voor aanvullende beurs kwijtschelding?,Je komt in aanmerking voor aanvullende beurs kwijtschelding als je een aanvullende beurs ontvangt en kunt aantonen dat je deze niet kunt terugbetalen.,1,Dienst Uitvoering Onderwijs (DUO),aanvullende beurs kwijtschelding,Artikel 6.2 Wet studiefinanciering 2000,de Nederlandse Rijksoverheid,een aanvraag doen,burger,"Een burger uit Nederland wil een aanvraag doen van een aanvullende beurs kwijtschelding bij de Nederlandse Rijksoverheid op basis van Artikel 6.2 Wet studiefinanciering 2000. Ik ben een helpdesk medewerker en wil een Q&A maken voor een website van de overheid voor bedrijven en burgers. Geef de 10 meest gestelde vragen en het bijbehorende antwoord die door een burger gesteld worden over aanvullende beurs kwijtschelding. Geef het antwoord op taalniveau B1. Geef geen inleidende tekst en alleen de resultaten in JSON formaat met de volgende indeling: \n\n{\n ""Nummer""\n ""Instantie""\n ""Vragen"": [\n {\n ""Vraag""\n ""Antwoord""\n },\n ]\n}\n\nHet label 'Nummer' heeft de waarde '1'. Het label 'Instantie' geeft de verantwoordelijke organisatie in Nederland voor aanvullende beurs kwijtschelding.",1


In [37]:
import chromadb

chroma_client = chromadb.PersistentClient(path="data/chroma")

# Delete a collection and all associated embeddings, documents, and metadata. ⚠️ This is destructive and not reversible
try:
    chroma_client.delete_collection(name="Dutch_QA_collection") 
except:
    print("Geen Dutch_QA_collection collection aanwezig")
    
collection = chroma_client.create_collection(name="Dutch_QA_collection")


In [38]:
# Convert the list of product names into the desired format
QAMeta = [{"ProductID": product} for product in QAdata['ID']]

for index in range(0, len(QAMeta[:100]), 10):
    print(f"Index: {index}, Value: {QAMeta[index]}")
    
# Print the length of the metadatas list
print("Length of metadatas:", len(QAMeta))

Index: 0, Value: {'ProductID': 0}
Index: 10, Value: {'ProductID': 10}
Index: 20, Value: {'ProductID': 20}
Index: 30, Value: {'ProductID': 30}
Index: 40, Value: {'ProductID': 40}
Index: 50, Value: {'ProductID': 50}
Index: 60, Value: {'ProductID': 60}
Index: 70, Value: {'ProductID': 70}
Index: 80, Value: {'ProductID': 80}
Index: 90, Value: {'ProductID': 90}
Length of metadatas: 15618


In [39]:
#QAdata['Document'] = "VRAAG: " + QAdata['Vraag'] + "ANTWOORD: " + QAdata['Antwoord'] + "\n"

QAList = QAdata['Vraag'].tolist()
QAIds = [str(x) for x in QAdata.index.tolist()]

collection.add(
    documents = QAList,
    metadatas = QAMeta,
    ids = QAIds
)

In [40]:
collection = chroma_client.get_collection(name="Dutch_QA_collection")
Q = "ik wil een omgevingsvergunning aanvragen?"

results = collection.query(
    query_texts=[Q],
    n_results=30
)

In [48]:
# Convert the results to a DataFrame
df = pd.DataFrame({
    'ID': results['ids'][0],
    'Distance': results['distances'][0],
    'Metadata': results['metadatas'][0],
    'Document': results['documents'][0]
})

df = df.drop_duplicates(subset=['Document', 'Distance'])
df['Metadata'] = df['Metadata'].apply(lambda x: x.get('ProductID') if isinstance(x, dict) else x)
df['Metadata'] = df['Metadata'].astype(int)

# Display the DataFrame
pd.set_option('display.max_colwidth', None)
print(df[['Metadata', 'Document', 'Distance']])

    Metadata                                                 Document  \
0       1512            Hoe kan ik een omgevingsvergunning aanvragen?   
8       5234     Hoe kan ik een omgevingsvergunning aanleg aanvragen?   
12      3532     Hoe kan ik een omgevingsvergunning uitweg aanvragen?   
20      5254  Hoe kan ik een omgevingsvergunning afwijking aanvragen?   
22     10718   Hoe kan ik een woningbemiddelingsvergunning aanvragen?   
23      5324     Hoe kan ik een omgevingsvergunning natuur aanvragen?   
25      5334     Hoe kan ik een omgevingsvergunning opslag aanvragen?   
26      3542         Hoe kan ik een ontgrondingsvergunning aanvragen?   

    Distance  
0   0.182463  
8   0.194487  
12  0.228119  
20  0.242482  
22  0.246985  
23  0.249920  
25  0.250155  
26  0.262419  


In [43]:
def get_completion(prompt, model="gpt-3.5-turbo"):

    #This function takes a prompt and uses the OpenAI API to generate a chat completion response based on the given prompt.

    #Parameters:
    #    prompt (str): The input text prompt provided by the user.
    #    model (str): The name or identifier of the language model to be used for chat completion.
    #                 Default value is "gpt-3.5-turbo", which is a variant of the GPT-3.5 model.

    #Returns:
    #    str or None: The chat completion response generated by the model, or None if the API call fails.

    #Note:
    #    Before using this function, you need to have a valid OpenAI API key to authorize the API calls.
    #    The API key should be set as `openai.api_key` before invoking this function.

   
    openai.api_key = MyApiKey
    messages = [{"role": "user", "content": prompt}]
    try:
        response = openai.ChatCompletion.create(
            model=model,
            messages=messages,
            temperature=0,  # this is the degree of randomness of the model's output
        )
        return response.choices[0].message["content"]
    except openai.OpenAIError as e:
        print(f"OpenAI API call failed: {e}")
        return None


In [50]:
# Merge the dataframes
merged_df = pd.merge(QAdata, df, left_on='ID', right_on='Metadata', how='inner')

# Sorting the merged dataframe by Metadata
sorted_df = merged_df.sort_values(by='Metadata')


In [61]:
# Select the 'Document' column of the first three records
documents = sorted_df['Antwoord'].iloc[:3]

# Concatenate the three text values with a separator (e.g., two newlines)
Antwoorden = "\n\n".join(documents)

prompt = "Ik ben een gemeente en een burger stelt de volgende vraag: " + Q + "\n"
prompt = prompt + "Wij hebben de drie volgende antwoorden gevonden: \n###" + Antwoorden + "###\n"
prompt = prompt + "Kun je de vraag en de antwoorden tot één samenhangende tekst omschrijven? " 
prompt = prompt + "Kun je dit doen op taalniveau b1?"

print(prompt)
print("\n\n")
print(get_completion(prompt, model="gpt-3.5-turbo"))

Ik ben een gemeente en een burger stelt de volgende vraag: ik wil een omgevingsvergunning aanvragen?
Wij hebben de drie volgende antwoorden gevonden: 
###U kunt een omgevingsvergunning aanvragen bij de gemeente waarin de activiteit plaatsvindt. Dit kan meestal online via de website van de gemeente. U dient hiervoor een aanvraagformulier in te vullen en de benodigde documenten mee te sturen.

U kunt een omgevingsvergunning uitweg aanvragen bij uw gemeente. Neem contact op met de gemeente voor meer informatie over de aanvraagprocedure.

U kunt een ontgrondingsvergunning aanvragen bij de desbetreffende provincie. Neem contact op met de provincie voor meer informatie over het aanvraagproces.###
Kun je de vraag en de antwoorden tot één samenhangende tekst omschrijven? Kun je dit doen op taalniveau b1?



Een burger heeft de volgende vraag: "Ik wil een omgevingsvergunning aanvragen." Als gemeente kunnen wij u helpen met deze aanvraag. U kunt een omgevingsvergunning aanvragen bij de gemeente 