In [1]:
import os
from dotenv import load_dotenv

load_dotenv(override=True)

OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")

# Recursive splitting

In [12]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# create a text splitter
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, 
                                               chunk_overlap=50,
                                               length_function=len)


loader = PyPDFLoader("data/dagpengeguide-2023.pdf")
#load and split defaults to recursiveCharacterTextSplitter anyway, but for clarity I define it
pages = loader.load_and_split(text_splitter=text_splitter)

In [13]:
print(pages[5].page_content)

4Mens du modtager dagpenge, er der en række 
møder og samtaler, som du skal deltage i. Mø -
derne og samtalerne er vigtige værktøjer til af -
klaring af din situation og til at guide dig videre 
på vejen mod det næste job.
Møder og samtaler – det første halve år 
Når du har meldt dig ledig hos jobcentret, får du 
et brev fra os, hvor du er booket til en personlig 
vejledningssamtale hvor vi mødes fysisk. Samta -
len skal finde sted inden for to uger, efter du har 
meldt dig ledig hos jobcentret.


## On Tokens instead of chars
**Seems like sentences are no longer split by meaningfull characters line line changes and .**

By calling tiktokken_encoder

"We can use RecursiveCharacterTextSplitter.from_tiktoken_encoder to make sure splits are not larger than chunk size of tokens allowed by the language model, where each split will be recursively split if it has a larger size."

In [14]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# create a text splitter
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(chunk_size=500, 
                                               chunk_overlap=50)


loader = PyPDFLoader("data/dagpengeguide-2023.pdf")
#load and split defaults to recursiveCharacterTextSplitter anyway, but for clarity I define it
pages = loader.load_and_split(text_splitter=text_splitter)

print(pages[5])

page_content='et ledighedsforløb på to år.\nKom til møderne og samtalerne \nDu skal altid  være tilgængelig på telefonen eller \nkomme til det virtuelle eller fysiske møde med \nos. Det er f.eks. dit ansvar, at sørge for, at være \nlogget på et virtuelt møde til tiden eller sørge \nfor at godkende vores nummer/jobcenterets \nnummer på din telefon hvis den er sat op til at \nbegrænse adgang for ukendte numre. Husk at \nmelde afbud, hvis du er forhindret i at holde \nmøde med os på grund af egen sygdom, job -\nsamtale, arbejde, aktivering eller rettidig med -\ndelt ferie. Du skal melde afbud inden mødets \nstart til den, der har indkaldt dig, uanset om det \ner os, jobcentret eller anden aktør.Møder og \nsamtaler' metadata={'source': 'data/dagpengeguide-2023.pdf', 'page': 3}


In [15]:
print(pages[5].page_content)

et ledighedsforløb på to år.
Kom til møderne og samtalerne 
Du skal altid  være tilgængelig på telefonen eller 
komme til det virtuelle eller fysiske møde med 
os. Det er f.eks. dit ansvar, at sørge for, at være 
logget på et virtuelt møde til tiden eller sørge 
for at godkende vores nummer/jobcenterets 
nummer på din telefon hvis den er sat op til at 
begrænse adgang for ukendte numre. Husk at 
melde afbud, hvis du er forhindret i at holde 
møde med os på grund af egen sygdom, job -
samtale, arbejde, aktivering eller rettidig med -
delt ferie. Du skal melde afbud inden mødets 
start til den, der har indkaldt dig, uanset om det 
er os, jobcentret eller anden aktør.Møder og 
samtaler
