In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import UnstructuredFileLoader, DirectoryLoader
from langchain_community.embeddings import SentenceTransformerEmbeddings
import os
from langchain_community.vectorstores import FAISS
from transformers import AutoTokenizer, AutoModelForCausalLM
from transformers import pipeline
from datasets import load_dataset
import pandas as pd

2024-03-12 11:10:27.360120: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [2]:
os.environ["OPENAI_API_KEY"] = "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"

In [3]:
loader = DirectoryLoader('data/', glob="**/*.pdf", show_progress=True, loader_cls=UnstructuredFileLoader)
documents = loader.load()
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
docs = text_splitter.split_documents(documents)
embeddings = SentenceTransformerEmbeddings(model_name='sentence-transformers/paraphrase-multilingual-mpnet-base-v2')

  0%|          | 0/10 [00:00<?, ?it/s]

100%|██████████| 10/10 [00:08<00:00,  1.15it/s]


In [4]:
db = FAISS.from_documents(docs, embeddings)
retriever = db.as_retriever()

In [5]:
from langchain.tools.retriever import create_retriever_tool

tool = create_retriever_tool(
    retriever,
    "search_state_of_union",
    "Searches and returns excerpts from the 2022 State of the Union.",
)
tools = [tool]

In [6]:
from langchain import hub

prompt = hub.pull("hwchase17/openai-tools-agent")
prompt.messages

[SystemMessagePromptTemplate(prompt=PromptTemplate(input_variables=[], template='You are a helpful assistant')),
 MessagesPlaceholder(variable_name='chat_history', optional=True),
 HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['input'], template='{input}')),
 MessagesPlaceholder(variable_name='agent_scratchpad')]

In [7]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0)

In [8]:
from langchain.agents import AgentExecutor, create_openai_tools_agent

agent = create_openai_tools_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools)

In [9]:
result = agent_executor.invoke({"input": "Hei, jeg heter Adrian"})

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [10]:
result["output"]

'Hei Adrian! Hvordan kan jeg hjelpe deg i dag?'

In [11]:
result = agent_executor.invoke(
    {
        "input": "Hva er hovedintensjonene i planen som er beskrevet i dokumentet?"
    }
)

In [12]:
result["output"]

'Hovedintensjonene i planen som er beskrevet inkluderer:\n\n1. Tilrettelegging for boligutvikling med tett boligbebyggelse med høy utnyttelsesgrad og gode bokvaliteter.\n2. Regulering av området for ulike formål som boligbebyggelse, renovasjonsanlegg, felles privat lekeplass, privat kjøreveg, tursti, osv.\n3. Utvikling av et miljøoppfølgingsprogram for å følge opp virkninger av plan og tiltak, med fokus på naturressurser, miljø og samfunn.\n4. Implementering av tiltak som er nødvendige for gjennomføring av planvedtak, inkludert miljø- og kulturtiltak, organisatoriske tiltak, finansielle tiltak og utbyggingstakt.\n5. Vurdering av om kommunen eller andre skal ha fortrinnsrett til å kjøpe en andel av boligene til markedspris i større utbyggingsområder for bolig.\n\nDette er noen av hovedintensjonene som fremgår av planen beskrevet i dokumentet.'

In [13]:
dataset = load_dataset('csv', data_files=r'/Users/adrianfolge/Documents/lokal:skole/Master/data/synthetic_data/question_with_answers.csv', split="train[:10]")

In [14]:
list_of_answers = []
for i in range(10):
    question = dataset["Question"][i]
    result = agent_executor.invoke(
        {
            "input": f"{question}"
        }
    )
    list_of_answers.append(result["output"])



In [15]:
list_of_answers

['Jeg fant dessverre ikke informasjon om datoen for vedtaket av Kommunedelplan for sentrum av bystyret. Skal jeg prøve å søke etter det på nytt?',
 'Hovedintensjonene i planen som er beskrevet inkluderer:\n\n1. Tilrettelegging for boligutvikling med tett boligbebyggelse med høy utnyttelsesgrad og gode bokvaliteter.\n2. Regulering av området for ulike formål som boligbebyggelse, renovasjonsanlegg, felles privat lekeplass, privat kjøreveg, tursti, osv.\n3. Utvikling av et miljøoppfølgingsprogram for å følge opp virkninger av plan og tiltak, med fokus på naturressurser, miljø og samfunn.\n4. Implementering av tiltak som er nødvendige for gjennomføring av planvedtak, inkludert miljø- og kulturtiltak, organisatoriske tiltak, finansielle tiltak og utbyggingstakt.\n5. Vurdering av om kommunen eller andre skal ha fortrinnsrett til å kjøpe en andel av boligene til markedspris i større utbyggingsområder for bolig.\n\nDette er noen av hovedintensjonene som fremgår av planen beskrevet i dokumentet

In [16]:
# Convert the list to a pandas DataFrame
df = pd.DataFrame(list_of_answers, columns=['Text'])

# Specify the file path
file_path = "/Users/adrianfolge/Documents/lokal:skole/Master/data/Results/FAISS_with_agents.csv"

# Write the DataFrame to a CSV file
df.to_csv(file_path, index=False)