In [1]:
from langchain_text_splitters import CharacterTextSplitter
from langchain_community.document_loaders import UnstructuredFileLoader, DirectoryLoader
import pandas as pd
import re
import re
import uuid
from llama_index.llms.openai import OpenAI
from tqdm.notebook import tqdm
import os

In [2]:
os.environ["OPENAI_API_KEY"] = "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"

In [42]:
loader = DirectoryLoader('../data/', glob="**/*.pdf", show_progress=True, loader_cls=UnstructuredFileLoader)
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
databases = {}
for doc in documents:
    source = doc.metadata['source']
    match = re.search(r'\/([A-Za-z_]+)\.pdf', source)
    if match:
        municipality_name = match.group(1)
    docs = text_splitter.split_documents([doc])
    databases[municipality_name] = docs

100%|██████████| 10/10 [00:07<00:00,  1.38it/s]
Created a chunk of size 1147, which is longer than the specified 500
Created a chunk of size 1570, which is longer than the specified 500
Created a chunk of size 639, which is longer than the specified 500
Created a chunk of size 610, which is longer than the specified 500
Created a chunk of size 1008, which is longer than the specified 500
Created a chunk of size 545, which is longer than the specified 500
Created a chunk of size 536, which is longer than the specified 500
Created a chunk of size 583, which is longer than the specified 500
Created a chunk of size 1162, which is longer than the specified 500
Created a chunk of size 607, which is longer than the specified 500
Created a chunk of size 1206, which is longer than the specified 500
Created a chunk of size 697, which is longer than the specified 500
Created a chunk of size 734, which is longer than the specified 500
Created a chunk of size 916, which is longer than the specified

In [43]:
databases

{'Kristiansund': [Document(page_content='Kommunedelplan for sentrum\n\nPlanbestemmelser\n\nVedtatt av bystyret 26.8.2021\n\n1\n\n1.\n\nPLANENS HOVEDINTENSJONER ................................................................................................................ 3\n\n2.\n\nPLANENS RETTSVIRKNING ........................................................................................................................ 3\n\n3.', metadata={'source': '../data/pdfs/Kristiansund.pdf'}),
  Document(page_content='FELLES BESTEMMELSER ............................................................................................................................ 3', metadata={'source': '../data/pdfs/Kristiansund.pdf'}),
  Document(page_content='3.1. PLANKRAV .......................................................................................................................................................... 3 3.2. PARKERINGSBESTEMMELSER .......................................................

In [44]:
def generate_queries(
    corpus,
    num_questions_per_chunk=1,
    prompt_template=None,
    verbose=False,
):
    """
    Automatisk generer hypotetiske spørsmål som kan besvares med dokumentet i korpuset.
    """
    llm = OpenAI(model='gpt-3.5-turbo')

    prompt_template = prompt_template or """\
    Kontekstinformasjonen er nedenfor.

    ---------------------
    {context_str}
    ---------------------

    Gitt kontekstinformasjonen og ingen tidligere kunnskap.
    Generer bare spørsmål basert på forespørselen nedenfor.
    Du er en innbygger som har spørsmål angående planbestemmelser og planreguleringer i kommunen du bor i. Oppgaven din er både å sette opp {num_questions_per_chunk} spørsmål som en typisk innbygger kan lure på fra dokumentene som er gitt, men også svare på dette spørsmålet som en ekspert der svaret ditt inneholder den faktiske informasjonen uten noen henvisning til hvor i dokumentet svaret ligger.
    Spørsmålene bør være varierte i naturen på tvers av dokumentet. Begrens spørsmålene og svarene til den kontekstinformasjonen som er gitt.

    """    
    queries = {}
    relevant_docs = {}
    for municipality_name, text_chunks in tqdm(corpus.items()):
        for chunk in text_chunks:
            query = prompt_template.format(context_str=chunk, num_questions_per_chunk=num_questions_per_chunk)
            response = llm.complete(query)

            result = str(response).strip().split("\n")
            questions = [
                re.sub(r"^\d+[\).\s]", "", question).strip() for question in result
            ]
            questions = [question for question in questions if len(question) > 0]
            for question in questions:
                question_id = str(uuid.uuid4())
                queries[question_id] = question
                relevant_docs[question_id] = [municipality_name]
    return queries, relevant_docs



In [45]:
train_queries, train_relevant_docs = generate_queries(
    databases,
    num_questions_per_chunk=1,
    prompt_template=None,
    verbose=False,
)

  0%|          | 0/9 [00:00<?, ?it/s]

In [47]:
data_list

[('a5453fb8-2ec0-47f2-a06f-4b15941d785e',
  'Spørsmål: Hva er hovedintensjonene i kommunedelplanen for sentrum?'),
 ('8b0553ef-3024-40b2-ada8-dde415df4f15',
  'Svar: Hovedintensjonene i kommunedelplanen for sentrum inkluderer blant annet å fremme bærekraftig utvikling, styrke sentrumsfunksjonene og ivareta kulturminner.'),
 ('838c47a4-bc24-4f0b-86bb-325208262734',
  'Spørsmål: Hva er de felles bestemmelsene som gjelder i kommunen Kristiansund?'),
 ('d552d2a6-e713-413b-8147-2e42114945f4',
  'Svar: Felles bestemmelser i Kristiansund regulerer ulike forhold som er viktige for planlegging og utvikling i kommunen, og kan omfatte blant annet regler for byggehøyder, arealbruk, og bevaring av kulturminner.'),
 ('7e13560c-3188-4104-8f44-3d81b5b6b70c',
  'Spørsmål: Hva er kravene til plankvalitet i kommunen?'),
 ('1b442392-d166-4c66-a25e-11d7f6d7b60d',
  'Svar: Plankravene i kommunen inkluderer blant annet bestemmelser om parkering, bevaring av landskapsform, større trær og bebyggelsesstruktur, 

In [46]:
data_list = list(train_queries.items())

# Initialiser lister for kolonner
keys = []
questions = []
answers = []

# Loop gjennom dataen og separer nøkler, spørsmål og svar
for i in range(0, len(data_list), 2):
    key = data_list[i][0]
    question = data_list[i][1].split(': ')[1]
    answer = data_list[i+1][1].split(': ')[1]
    keys.append(key)
    questions.append(question)
    answers.append(answer)

# Lag en DataFrame
df = pd.DataFrame({
    'nøkkel': keys,
    'spørsmål': questions,
    'svar': answers
})

df['kommunenavn'] = [train_relevant_docs[key][0] for key in df['nøkkel']]

In [54]:
df.drop([4, 5], inplace=True)

# If you want to reset the index after removing rows
df.reset_index(drop=True, inplace=True)

In [56]:
# Fjern nøkkelkolonnen fra DataFrame
df_without_key = df.drop(columns=['nøkkel'])

# Lagre DataFrame til en CSV-fil uten nøkkelkolonnen
df_without_key.to_csv('/Users/adrianfolge/Documents/lokal:skole/Master/data/synthetic_data/vol2_questions_and_answers_ytterligere_revidert.csv', index=False)

print("Dataframe uten nøkkelkolonnen er lagret som dataframe.csv")


Dataframe uten nøkkelkolonnen er lagret som dataframe.csv


In [48]:
df_without_key["svar"][0]

'26.8.2021.'