### Load your data

In [21]:
from langchain.document_loaders import UnstructuredPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from pathlib import Path

home = Path.home()
file_path = home / "repos/ChatPTK/data/avtalat_handbok_kollektivavtalad-tjanstepension-och-forsakring_010123.pdf"

loader = UnstructuredPDFLoader(file_path)
data = loader.load()

detectron2 is not installed. Cannot use the hi_res partitioning strategy. Falling back to partitioning with the fast strategy.


In [3]:
print (f'You have {len(data)} document(s) in your data')
print (f'There are {len(data[0].page_content)} characters in your document')

You have 1 document(s) in your data
There are 276579 characters in your document


### Chunk your data up into smaller documents

In [4]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(data)

In [5]:
texts

[Document(page_content='H\n\na\n\nn\n\nd\n\nb\n\no\n\nk\n\no\n\nm\n\nk\n\no\n\nl\n\nl\n\ne\n\nk\n\nt\n\ni\n\nv\n\na\n\nv\n\nt\n\na\n\nl\n\na\n\nd\n\nt\n\nj\n\nä\n\nn\n\ns\n\nt\n\ne\n\np\n\ne\n\nn\n\ns\n\ni\n\no\n\nn\n\no\n\nc\n\nh\n\nf\n\nö\n\nr\n\ns\n\nä\n\nk\n\nr\n\ni\n\nn\n\ng\n\n2\n\n0\n\n2\n\n2\n\nHandbok om kollektivavtalad\n\ntjänstepension och försäkring 2023\n\nHandbok om kollektivavtalad\n\ntjänstepension och försäkring 2023\n\nInnehållsförteckning\n\nINLEDNING\n\nVälkommen till Avtalats handbok!\n\nTrygghet genom livet\n\nFÖRSÄKRINGSSYSTEMET\n\nFörsäkringssystemet – så hänger det ihop\n\nArbetsgivaren ska  teckna\n\nförsäkringar\n\nSammanställning – allmän pension och försäkringar enligt lag\n\nSammanställning – tjänstepension och\n\nförsäkringar via kollektivavtal\n\nFöretagarens egna  försäkringsskydd\n\nIndex och basbelopp\n\nArbetsgivaravgifter och premier\n\nAvdragsregler och skatter\n\nför pensioner\n\nArbetsgivaravgifter – detta gäller\n\nPremier för kollektivavtalade

In [6]:
print (f'Now you have {len(texts)} documents')

Now you have 324 documents


### Create embeddings of your documents to get ready for semantic search

In [7]:
from langchain.vectorstores import Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
import pinecone

  from tqdm.autonotebook import tqdm


In [1]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass(prompt='OpenAI API Key:')
os.environ['PINECONE_API_KEY'] = getpass.getpass(prompt='Pinecone API Key:')
os.environ['PINECONE_API_ENV'] = 'us-west4-gcp'

In [8]:
embeddings = OpenAIEmbeddings(openai_api_key=os.environ['OPENAI_API_KEY'])

In [9]:
# initialize pinecone
pinecone.init(
    api_key=os.environ['PINECONE_API_KEY'],  # find at app.pinecone.io
    environment=os.environ['PINECONE_API_ENV']  # next to api key in console
)
index_name = "chatptk" # put in the name of your pinecone index here

In [10]:
# docsearch = Pinecone.from_texts([t.page_content for t in texts], embeddings, index_name=index_name)
docsearch = Pinecone.from_existing_index(index_name=index_name, embedding=embeddings)

In [11]:
query = "När kan jag som tidigast gå i pension?"
docs = docsearch.similarity_search(query, include_metadata=True)

In [12]:
docs

[Document(page_content='UTBETALNING AV KOLLEKTIVAVTALAD TJÄNSTEPENSION Det pensionsbolag som förvaltar pensionen kontaktar den anställda några månader före 65-årsdagen eller före 66-årsdagen för den som omfattas av ITP 1. Hen får tjänstepension i förhållande till inkomst och den tid hen tjänat in den. Den som lämnar Sverige och flyttar tillbaka till hemlandet har kvar rätten till pensionen som tjänades in då hen omfattades av kollektivavtalet.\n\nI Sverige går det inte att ta ut sin tjänstepension före pensionen som i vissa andra länder. Inte förrän den anställda har fyllt minst 55 år och går ner helt eller delvis i pension kan dessa pengar betalas ut.\n\nDen anställda måste meddela sin adress om hen lämnar Sverige. Detta behöver aktuellt bolag för att kunna betala ut pensionsbeloppen. Den som vill ansöka om uttag av pension före 65 år måste kontakta aktuellt bolag direkt. Tidigast uttagsålder är 55 år. Pensionsbolagen kan begära att få se ett levnads- intyg vid utbetalning för persone

In [16]:
docs[0].page_content[:250]

'UTBETALNING AV KOLLEKTIVAVTALAD TJÄNSTEPENSION Det pensionsbolag som förvaltar pensionen kontaktar den anställda några månader före 65-årsdagen eller före 66-årsdagen för den som omfattas av ITP 1. Hen får tjänstepension i förhållande till inkomst oc'

### Query those docs to get your answer back

In [13]:
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain

In [14]:
llm = OpenAI(temperature=0, openai_api_key=os.environ['OPENAI_API_KEY'])
chain = load_qa_chain(llm, chain_type="stuff")

In [15]:
def run_query(query):
    docs = docsearch.similarity_search(query, include_metadata=True)
    return chain.run(input_documents=docs, question=query)

In [16]:
run_query("Hur skiljer sig sjukförsäkring åt mellan ITP1 och ITP2?")

' ITP1 har inte premie-maximering, medan ITP2 har en premiebefrielseförsäkring som kan ta över arbetsgivarens inbetalningar av premier till ITP2 vid sjukskrivning från månaden efter dag 90 eller om den anställda varit sjuk i perioder om sammanlagt 105 dagar.'

In [17]:
run_query("Vad är premiebefrielseförsäkring?")

' Premiebefrielseförsäkring är en försäkring som gäller vid sjukdom och som tar över inbetalning av premier till tjänstepension som arbetsgivaren skulle betalat in när den anställda varit på arbetet och fått lön. Den gäller från att den anställda fyller 22 år och tills månaden innan den anställda fyller 65 år. Den är kopplad till tjänstepension som finns i kollektivavtalet och är proportionell till graden av arbetsoförmåga.'

In [24]:
run_query("Hur mycket betalar min arbetsgivare i premie om jag har ITP1?")

' Arbetsgivaren betalar in pensionspremien ITP 1 är helt premiebestämd. Premien är 4,5 % på delar av lönen upp till 7,5 inkomstbasbelopp (46 438 kronor per månad, år 2023). För delar av lön från 7,5 upp till 30 inkomstbasbelopp är premie 30 %.'

In [25]:
run_query("Hur fungerar tiotaggarval?")

' Tiotaggarval är en tjänstepension som ersätter delar av den kollektivavtalade tjänstepensionen ITP 2. För att kunna välja en alternativ ITP måste den anställda tjäna mer än tio inkomstbasbelopp om året. Arbetsgivaren och den anställda måste vara överens, men det är arbetsgivaren som bestämmer om alternativ ITP ska erbjudas. Den anställda måste komma överens med sin arbetsgivare om att ersätta vissa delar av ITP 2, över 7,5 inkomstbasbelopp med en alternativ ITP (så kallad tio taggarlösning). Det går också att helt byta till ITP 1.'