In [2]:
import pandas as pd

# Load the FAQ data
documents = pd.read_csv('../faqs.csv')
documents = documents.drop_duplicates(subset=['Category', 'Answer', 'Category'], keep='first')
    
documents.head()

Unnamed: 0,Category,Question,Answer
0,--Bonitätsprüfung,Wie kann die Bonität nachgewiesen werden?,Zweck einer Bonitätsprüfung (siehe https://vd...
1,--Profi-Online,Darf das Konsortium nur aus Forschungseinricht...,Bitte entnehmen Sie die Information zu den An...
2,--Profi-Online,Können mehrere Personen Rechte für die Nutzerv...,Es können mehrere Personen eines Zuwendungsem...
3,--Profi-Online,Sollte die Projektleitung einen profi-Online Z...,Ob die Projektleitenden einen Zugang zu profi...
4,--Profi-Online,"Wer schaltet die Zugänge für ""profi-Online"" frei?",Der Antrag auf profi-online ist der VDIVDE IT...


In [3]:
import hashlib

def generate_document_id(doc):
    combined = f"{doc['Category']}-{doc['Question']}-{doc['Answer'][:10]}-{doc['Answer'][:-10]}"
    hash_object = hashlib.md5(combined.encode())
    hash_hex = hash_object.hexdigest()
    document_id = hash_hex[:8]
    return document_id

In [4]:
def generate_document_ids_for_dataframe(df):
    df['id'] = df.apply(generate_document_id, axis=1)
    return df

In [5]:
documents = generate_document_ids_for_dataframe(documents)

In [6]:
documents

Unnamed: 0,Category,Question,Answer,id
0,--Bonitätsprüfung,Wie kann die Bonität nachgewiesen werden?,Zweck einer Bonitätsprüfung (siehe https://vd...,bead1965
1,--Profi-Online,Darf das Konsortium nur aus Forschungseinricht...,Bitte entnehmen Sie die Information zu den An...,99541b90
2,--Profi-Online,Können mehrere Personen Rechte für die Nutzerv...,Es können mehrere Personen eines Zuwendungsem...,84ae26c1
3,--Profi-Online,Sollte die Projektleitung einen profi-Online Z...,Ob die Projektleitenden einen Zugang zu profi...,0817bd44
4,--Profi-Online,"Wer schaltet die Zugänge für ""profi-Online"" frei?",Der Antrag auf profi-online ist der VDIVDE IT...,f06cd838
...,...,...,...,...
1003,---Allgemeine Informationen,Welche anderen Dokumente können (ggf. alternat...,Für die Vorlage des Verwendungsnachweises sin...,d1404867
1013,---Allgemeine Informationen,Wie wird der Zeitnachweis für das Personal gef...,Für Hochschulen und andere grundfinanzierte E...,15def961
1014,---Allgemeine Informationen,Wie wird die Jahressonderzahlung bei Mitarbeit...,Die Jahressonderzahlung darf nur anteilig für...,23732604
1017,---Allgemeine Informationen,Wo finde ich das Formular für den Abschlussber...,Für den Sachbericht gibt es kein allgemein gü...,02cf6410


In [9]:
# Assuming 'documents' is your DataFrame
import pandas as pd
import json

# Convert the DataFrame to a list of dictionaries
data = documents.to_dict(orient='records')

# Save as a JSON file
json_file_path = 'documents-with-ids.json'
with open(json_file_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f'Data saved to {json_file_path}')


Data saved to documents-with-ids.json


In [10]:
from collections import defaultdict

hashes = defaultdict(list)

for _, doc in documents.iterrows():
    doc_id = doc['id']
    hashes[doc_id].append(doc)


In [11]:
len(hashes), len(documents)


(833, 833)

In [12]:
for k, values in hashes.items():
    if len(values) > 1:
        print(k, len(values))

In [13]:
hashes["06f888e6"]

[]

In [14]:
documents[documents["id"]=="8f1f4597"]

Unnamed: 0,Category,Question,Answer,id


In [17]:
prompt_template = """
Du emulierst einen Kunden von VDI-VDE-IT, der den Chatbot nutzen möchte, um Fragen zu stellen.
Formuliere 5 Fragen, die dieser Kunde auf Basis eines FAQ-Eintrags stellen könnte. Der Eintrag
sollte die Antwort auf die Fragen enthalten, und die Fragen sollten vollständig und nicht zu kurz sein.
Verwende, wenn möglich, so wenige Wörter wie möglich aus dem Eintrag.

Der Eintrag:

Frage: {Question}
Antwort: {Answer}

Gib das Ergebnis als parsierbares JSON ohne Codeblöcke aus:

["frage1", "frage2", ..., "frage5"]
""".strip()


In [18]:
from dotenv import load_dotenv
import os
load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')


from openai import OpenAI
client = OpenAI()

# Load your OpenAI API key
client.api_key = os.getenv("OPENAI_API_KEY")

In [19]:

def generate_questions(doc):
    prompt = prompt_template.format(**doc)

    response = client.chat.completions.create(
        model='gpt-4o-mini',
        messages=[{"role": "user", "content": prompt}]
    )

    json_response = response.choices[0].message.content
    return json_response

In [20]:
from tqdm.auto import tqdm


  from .autonotebook import tqdm as notebook_tqdm


In [21]:
results = {}


In [22]:
from tqdm import tqdm

for _, doc in tqdm(documents.iterrows(), total=len(documents)): 
    doc_id = doc['id']
    if doc_id in results:
        continue

    questions = generate_questions(doc)
    results[doc_id] = questions


100%|██████████| 833/833 [22:49<00:00,  1.64s/it]


In [23]:
import pickle

# Assuming 'results' is the dictionary containing your generated questions
# Replace 'results' with your actual variable

file_path = 'generated_questions.bin'

with open(file_path, 'wb') as f:
    pickle.dump(results, f)

print(f'Results saved to {file_path}')


Results saved to generated_questions_newprompt.bin


In [24]:
with open('generated_questions.bin', 'rb') as f_in:
    results = pickle.load(f_in)

In [25]:
import json
parsed_results = {}

for doc_id, json_questions in results.items():
    parsed_results[doc_id] = json.loads(json_questions)

In [26]:
doc_index = {doc['id']: doc for _, doc in documents.iterrows()}
final_results = []

for doc_id, questions in parsed_results.items():
    category = doc_index[doc_id]['Category']
    for q in questions:
        final_results.append((q, category, doc_id))

In [112]:
import pandas as pd


In [27]:
df = pd.DataFrame(final_results, columns=['Question', 'Category', 'Document'])


In [28]:
df.head()

Unnamed: 0,Question,Category,Document
0,Welche Dokumente benötige ich für den Nachweis...,--Bonitätsprüfung,bead1965
1,Wann wird eine Bonitätsprüfung durchgeführt?,--Bonitätsprüfung,bead1965
2,Für wen gilt die Bonitätsprüfung?,--Bonitätsprüfung,bead1965
3,"Was passiert, wenn kein geprüfter Jahresabschl...",--Bonitätsprüfung,bead1965
4,"Warum ist die Bonitätsprüfung erforderlich, be...",--Bonitätsprüfung,bead1965


In [29]:
df.to_csv('ground-truth-data.csv', index=False)
