## Read PDFs

### Read Danish Rental Law

In [1]:
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
import pprint
import re
import numpy as np

In [2]:
file_path = "../docs/lejeloven_2025.pdf"

loader = PyPDFLoader(
    file_path,)

documents = loader.load()

print("Number of pages:", len(documents))

Number of pages: 52


In [3]:
pprint.pp(documents[2].metadata)
pprint.pp(documents[2].page_content)

{'producer': 'PDFsharp 1.50.4000-netstandard '
             '(https://github.com/ststeiger/PdfSharpCore) (Original: Antenna '
             'House PDF Output Library 7.0.1600)',
 'creator': 'AH Formatter V7.0 MR3 for Windows (x64) : 7.0.4.45923 '
            '(2020-07-14T10:31+09)',
 'creationdate': '2023-02-17T11:06:05+01:00',
 'moddate': '2025-09-01T19:15:54+02:00',
 'title': 'Lov om leje',
 'trapped': '/False',
 'source': '../docs/lejeloven_2025.pdf',
 'total_pages': 52,
 'page': 2,
 'page_label': '3'}
('Bekendtgørelse af kommunalbestyrelsens beslutninger\n'
 '§ 5. De beslutninger, som kommunalbestyrelsen træffer efter § 4, stk. 2, '
 'skal bekendtgøres i Statstiden-\n'
 'de og i øvrigt på den måde, der er sædvanlig i kommunen. Er andet ikke '
 'udtrykkeligt fastsat i beslutnin-\n'
 'gen, får den virkning fra og med datoen på det nummer af Statstidende, hvori '
 'den er bekendtgjort.\n'
 'Huslejeregulering m.v. i regulerede kommuner\n'
 '§ 6. § 9, kapitel 3, §§ 62, 105-107, 109 og 11

Read as one pdf and extract page number by regex

In [4]:
loader = PyPDFLoader(
    file_path,
    mode="single",
    pages_delimiter="LOV nr 341 af 22/03/2022"
)
single_document = loader.load()

print("Number of pages:", len(single_document))

Number of pages: 1


In [5]:
single_document[0].metadata

{'producer': 'PDFsharp 1.50.4000-netstandard (https://github.com/ststeiger/PdfSharpCore) (Original: Antenna House PDF Output Library 7.0.1600)',
 'creator': 'AH Formatter V7.0 MR3 for Windows (x64) : 7.0.4.45923 (2020-07-14T10:31+09)',
 'creationdate': '2023-02-17T11:06:05+01:00',
 'moddate': '2025-09-01T19:15:54+02:00',
 'title': 'Lov om leje',
 'trapped': '/False',
 'source': '../docs/lejeloven_2025.pdf',
 'total_pages': 52}

In [6]:
pprint.pp(single_document[0].page_content[:8000])

('Udskriftsdato:\xa01.\xa0september\xa02025\n'
 'LOV\xa0nr\xa0341\xa0af\xa022/03/2022\xa0(Gældende)\n'
 'Lov\xa0om\xa0leje\n'
 'Ministerium:\xa0Social\xad\xa0og\xa0Boligministeriet Journalnummer:\xa0'
 'Indenrigs\xad\xa0og\xa0Boligmin.,\xa0j.nr.\xa02021\xad2261\n'
 'Senere\xa0ændringer\xa0til\xa0forskriften\n'
 'LOV\xa0nr\xa01311\xa0af\xa027/09/2022\xa0§\xa01\xa0\xa0\xad\xa0LOV\xa0nr\xa0'
 '482\xa0af\xa012/05/2023\xa0§\xa06\xa0\xa0\xad\xa0LOV\xa0nr\xa0753\xa0af\xa0'
 '13/06/2023\xa0§\xa09\xa0\xa0\xad\xa0\n'
 'LOV\xa0nr\xa01790\xa0af\xa028/12/2023\xa0§\xa04\xa0\xa0\xad\xa0LOV\xa0nr\xa0'
 '1793\xa0af\xa028/12/2023\xa0§\xa01LOV nr 341 af 22/03/2022Lov om leje\n'
 'VI MARGRETHE DEN ANDEN, af Guds Nåde Danmarks Dronning, gør vitterligt:\n'
 'Folketinget har vedtaget og Vi ved V ort samtykke stadfæstet følgende lov:\n'
 'Kapitel 1\n'
 'Anvendelsesområde m.v.\n'
 'Anvendelsesområde\n'
 '§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om '
 'lejeren er en person eller e

### Split single documents by chapters

In [7]:
# Check splitting by chapter
expected_chapters = re.findall(r"Kapitel \d{1,2}\n", single_document[0].page_content)

expected_chapters

['Kapitel 1\n',
 'Kapitel 2\n',
 'Kapitel 3\n',
 'Kapitel 4\n',
 'Kapitel 5\n',
 'Kapitel 6\n',
 'Kapitel 7\n',
 'Kapitel 8\n',
 'Kapitel 9\n',
 'Kapitel 10\n',
 'Kapitel 11\n',
 'Kapitel 12\n',
 'Kapitel 13\n',
 'Kapitel 14\n',
 'Kapitel 15\n',
 'Kapitel 16\n',
 'Kapitel 17\n',
 'Kapitel 18\n',
 'Kapitel 19\n',
 'Kapitel 20\n',
 'Kapitel 21\n',
 'Kapitel 22\n',
 'Kapitel 23\n',
 'Kapitel 24\n',
 'Kapitel 25\n',
 'Kapitel 26\n',
 'Kapitel 27\n',
 'Kapitel 28\n',
 'Kapitel 29\n']

In [8]:
chapter_splitter = CharacterTextSplitter(
    separator=r"Kapitel \d{1,2}\n",
    is_separator_regex=True,
    keep_separator=True,
)

chapter_documents = chapter_splitter.split_documents(single_document)

print(len(chapter_documents))

Created a chunk of size 7368, which is longer than the specified 4000
Created a chunk of size 6991, which is longer than the specified 4000
Created a chunk of size 31495, which is longer than the specified 4000
Created a chunk of size 13206, which is longer than the specified 4000
Created a chunk of size 4825, which is longer than the specified 4000
Created a chunk of size 12850, which is longer than the specified 4000
Created a chunk of size 4334, which is longer than the specified 4000
Created a chunk of size 5114, which is longer than the specified 4000
Created a chunk of size 5779, which is longer than the specified 4000
Created a chunk of size 4166, which is longer than the specified 4000
Created a chunk of size 8606, which is longer than the specified 4000
Created a chunk of size 11165, which is longer than the specified 4000
Created a chunk of size 10612, which is longer than the specified 4000
Created a chunk of size 9819, which is longer than the specified 4000
Created a chunk

27


In [9]:
found_chapters = [chapter.page_content.split('\n')[0] for chapter in chapter_documents]

found_chapters

['Udskriftsdato:\xa01.\xa0september\xa02025',
 'Kapitel 1',
 'Kapitel 2',
 'Kapitel 3',
 'Kapitel 4',
 'Kapitel 5',
 'Kapitel 6',
 'Kapitel 7',
 'Kapitel 8',
 'Kapitel 9',
 'Kapitel 10',
 'Kapitel 11',
 'Kapitel 12',
 'Kapitel 13',
 'Kapitel 14',
 'Kapitel 15',
 'Kapitel 16',
 'Kapitel 17',
 'Kapitel 18',
 'Kapitel 19',
 'Kapitel 20',
 'Kapitel 21',
 'Kapitel 22',
 'Kapitel 23',
 'Kapitel 24',
 'Kapitel 25',
 'Kapitel 29']

In [10]:

[print(chapter.replace("\n", "")) for chapter in expected_chapters if chapter.replace("\n", "") not in found_chapters]

Kapitel 26
Kapitel 27
Kapitel 28


[None, None, None]

In [11]:
pprint.pp(chapter_documents[found_chapters.index("Kapitel 25")].page_content)

('Kapitel 25\n'
 'Boligretten\n'
 'Saglig kompetence\n'
 '§ 202.  Tvister om lejeforhold, der er omfattet af denne lov, kan i 1. '
 'instans indbringes for byretten, \n'
 'hvis spørgsmålet ikke efter denne lov kan indbringes for huslejenævnet eller '
 'i Københavns Kommune \n'
 'ankenævnet. Retten benævnes boligretten.\n'
 'Stk. 2. Parterne kan dog, når der er opstået en tvist, aftale, at tvisten '
 'kan indbringes for boligretten, uden \n'
 'at huslejenævnet og i Københavns Kommune ankenævnet har behandlet sagen.\n'
 'Stk. 3. Stk. 1 og 2 begrænser ikke fogedrettens adgang til at gennemføre en '
 'umiddelbar fogedforretning, \n'
 'jf. retsplejelovens kapitel 55, om udsættelse af et lejemål, der er ophævet '
 'som følge af lejerens tilsidesæt-\n'
 'telse af god skik og orden.\n'
 'Fravigelighed\n'
 '§ 203. Dette kapitel kan ikke fraviges.\n'
 'Kapitel 26\n'
 'Regulering af beløb og beløbsgrænser\n'
 '§ 204. De i § 19, stk. 2 og 5, § 23, stk. 4, § 105, stk. 1, § 106, stk. 1, § '
 '117, s

In [12]:
pprint.pp(chapter_documents[found_chapters.index("Kapitel 3")].page_content)

('Kapitel 3\n'
 'Omkostningsbestemt husleje m.v.\n'
 'Huslejefastsættelse ved lejeaftalens indgåelse\n'
 '§ 19. Ved lejeaftalens indgåelse må lejen ikke fastsættes til et beløb, som '
 'overstiger det beløb, der kan \n'
 'dække ejendommens nødvendige driftsudgifter, jf. § 24, og afkastet af '
 'ejendommens værdi, jf. § 25. For \n'
 'lejemål, som er forbedret, kan der til lejen efter 1. pkt. lægges en '
 'beregnet forbedringsforhøjelse, jf. dog \n'
 'stk. 2.\n'
 'Stk. 2. Ved lejeaftalens indgåelse må lejen for lejemål, som er '
 'gennemgribende forbedret, ikke fastsæt-\n'
 'tes til et beløb, der overstiger det lejedes værdi efter § 42, stk. 2 og 3, '
 'jf. dog stk. 3-6, § 21, stk. \n'
 '1, og § 161, stk. 3. Ved lejemål, som er forbedret gennemgribende, forstås '
 'lejemål, hvor forbedringer \n'
 'efter principperne i § 128 væsentligt har forøget det lejedes værdi, og hvor '
 'forbedringsudgiften enten \n'
 'overstiger 2.280 kr. pr. m² eller et samlet beløb på 260.738 kr. '
 'Forbedringe

It seems like the character splitter from Langchain for some reason doesn't find chapter 26-28. Lets try splitting with regex and the inputting into documents instead

In [13]:
from langchain.schema import Document

def split_into_chapters(single_document, regex_pattern):
    text = single_document[0].page_content
    splits = re.split(regex_pattern, text)  # Capturing group includes the separator

    chunks = []
    for i in range(1, len(splits), 2):
        title = splits[i]
        content = splits[i+1] if i+1 < len(splits) else ""
        chunk = title + content
        chunks.append(Document(page_content=chunk, metadata={"chapter_title": title.strip()}))
    
    return chunks

chapter_regex = r"(Kapitel \d{1,2}\n)"
chapter_chunks = split_into_chapters(single_document, chapter_regex)
print(len(chapter_chunks))

29


In [14]:
found_chapters = [chapter.metadata["chapter_title"] for chapter in chapter_chunks]

[print(chapter.replace("\n", "")) for chapter in expected_chapters if chapter.replace("\n", "") not in found_chapters]

[]

In [15]:
pprint.pp(chapter_chunks[0].page_content[:500])

('Kapitel 1\n'
 'Anvendelsesområde m.v.\n'
 'Anvendelsesområde\n'
 '§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om '
 'lejeren er en person eller en \n'
 'virksomhed m.v. (juridisk person).\n'
 'Stk. 2. Loven gælder, selv om lejen skal betales med andet end penge, '
 'herunder ved arbejde.\n'
 'Stk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig '
 'med fuld kost, for aftaler \n'
 'mellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og '
 'andre beboelsesrum, \n'
 'herunder somm')


It seems like this splitting worked as intended. Renaming chapter_chunks to chapter_documents for clarity.

In [16]:
chapter_documents = chapter_chunks

### Split chapters to paragraphs

In [17]:
re.findall(r"\n§ \d{1,3}", single_document[0].page_content)

['\n§ 1',
 '\n§ 2',
 '\n§ 3',
 '\n§ 4',
 '\n§ 5',
 '\n§ 6',
 '\n§ 7',
 '\n§ 8',
 '\n§ 9',
 '\n§ 10',
 '\n§ 11',
 '\n§ 26',
 '\n§ 12',
 '\n§ 13',
 '\n§ 14',
 '\n§ 15',
 '\n§ 16',
 '\n§ 17',
 '\n§ 18',
 '\n§ 19',
 '\n§ 20',
 '\n§ 21',
 '\n§ 22',
 '\n§ 23',
 '\n§ 24',
 '\n§ 25',
 '\n§ 2',
 '\n§ 26',
 '\n§ 27',
 '\n§ 28',
 '\n§ 29',
 '\n§ 30',
 '\n§ 31',
 '\n§ 32',
 '\n§ 23',
 '\n§ 33',
 '\n§ 34',
 '\n§ 35',
 '\n§ 36',
 '\n§ 37',
 '\n§ 38',
 '\n§ 39',
 '\n§ 40',
 '\n§ 41',
 '\n§ 42',
 '\n§ 43',
 '\n§ 44',
 '\n§ 45',
 '\n§ 46',
 '\n§ 48',
 '\n§ 49',
 '\n§ 50',
 '\n§ 51',
 '\n§ 52',
 '\n§ 53',
 '\n§ 54',
 '\n§ 55',
 '\n§ 56',
 '\n§ 57',
 '\n§ 58',
 '\n§ 59',
 '\n§ 60',
 '\n§ 182',
 '\n§ 61',
 '\n§ 62',
 '\n§ 63',
 '\n§ 64',
 '\n§ 65',
 '\n§ 66',
 '\n§ 67',
 '\n§ 68',
 '\n§ 69',
 '\n§ 70',
 '\n§ 71',
 '\n§ 72',
 '\n§ 73',
 '\n§ 74',
 '\n§ 75',
 '\n§ 77',
 '\n§ 78',
 '\n§ 79',
 '\n§ 80',
 '\n§ 81',
 '\n§ 82',
 '\n§ 83',
 '\n§ 84',
 '\n§ 85',
 '\n§ 86',
 '\n§ 87',
 '\n§ 88',
 '\n§ 89',
 '\n§ 90

Seems to be that this expression catches some unwanted splits, for example paragraph 26 under paragraph 11. Need to specify more

In [18]:
paragraph_regex = r"((?<=[\w\.])\n§ \d{1,3}\.)"

expected_paragraphs = re.findall(paragraph_regex, single_document[0].page_content)
expected_paragraphs = [re.findall(r"\d{1,3}", para)[0] for para in expected_paragraphs]
print(len(expected_paragraphs))
print(expected_paragraphs[:5])
print("Max paragraph:", np.max([int(num) for num in expected_paragraphs]))


210
['1', '2', '3', '4', '5']
Max paragraph: 213


The lenght and the maximum number paragraphs is correct when looking in the pdf.

In [19]:
def split_into_paragraphs(chapter, regex_pattern):
    text = chapter.page_content
    splits = re.split(regex_pattern, text)
    # splits: [before first paragraph, para_heading1, para_content1, para_heading2, para_content2, ...]
    paragraphs = []
    for i in range(1, len(splits), 2):
        para_heading = splits[i]
        para_content = splits[i+1] if i+1 < len(splits) else ""
        chunk = para_heading + para_content
        paragraph_number = int(re.findall(r"\d{1,3}", para_heading)[0])
        paragraphs.append(
            Document(
                page_content=chunk.strip(),
                metadata={
                    "chapter_title": chapter.metadata.get("chapter_title"),
                    "paragraph_number": paragraph_number
                }
            )
        )
    return paragraphs

paragraph_documents = [split_into_paragraphs(chapter, paragraph_regex) for chapter in chapter_documents]
paragraph_documents = [para for sublist in paragraph_documents for para in sublist]

In [20]:
paragraph_documents[:3]

[Document(metadata={'chapter_title': 'Kapitel 1', 'paragraph_number': 1}, page_content='§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om lejeren er en person eller en \nvirksomhed m.v. (juridisk person).\nStk. 2. Loven gælder, selv om lejen skal betales med andet end penge, herunder ved arbejde.\nStk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig med fuld kost, for aftaler \nmellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og andre beboelsesrum, \nherunder sommerhuse, kolonihavehuse og andre fritidsboliger, som er udlejet til ferie- og fritidsmæssige \nformål.\nStk. 4. Loven gælder endvidere for leje af ustøttede private plejeboliger, jf. dog § 1, stk. 4, i erhvervsle-\njeloven. §§ 7 og 9, kapitel 3, § 53, stk. 2, §§ 105-107, 109, 113, 119-121, 123, § 127, stk. 3, § 135 og \nkapitel 24 gælder dog ikke for ustøttede private plejeboliger.\nStk. 5.  Ustøttede private plejeboliger, jf. stk. 4, er tidligere institu

In [21]:
pprint.pp(paragraph_documents[0].metadata)
pprint.pp(paragraph_documents[0].page_content[:500])

{'chapter_title': 'Kapitel 1', 'paragraph_number': 1}
('§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om '
 'lejeren er en person eller en \n'
 'virksomhed m.v. (juridisk person).\n'
 'Stk. 2. Loven gælder, selv om lejen skal betales med andet end penge, '
 'herunder ved arbejde.\n'
 'Stk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig '
 'med fuld kost, for aftaler \n'
 'mellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og '
 'andre beboelsesrum, \n'
 'herunder sommerhuse, kolonihavehuse og andre fritidsboliger, som')


There's also sub-divisions of each chapter which would nice to include as metadata.

![image.png](attachment:image.png)


In [22]:
pprint.pp(chapter_documents[0].page_content)

('Kapitel 1\n'
 'Anvendelsesområde m.v.\n'
 'Anvendelsesområde\n'
 '§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om '
 'lejeren er en person eller en \n'
 'virksomhed m.v. (juridisk person).\n'
 'Stk. 2. Loven gælder, selv om lejen skal betales med andet end penge, '
 'herunder ved arbejde.\n'
 'Stk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig '
 'med fuld kost, for aftaler \n'
 'mellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og '
 'andre beboelsesrum, \n'
 'herunder sommerhuse, kolonihavehuse og andre fritidsboliger, som er udlejet '
 'til ferie- og fritidsmæssige \n'
 'formål.\n'
 'Stk. 4. Loven gælder endvidere for leje af ustøttede private plejeboliger, '
 'jf. dog § 1, stk. 4, i erhvervsle-\n'
 'jeloven. §§ 7 og 9, kapitel 3, § 53, stk. 2, §§ 105-107, 109, 113, 119-121, '
 '123, § 127, stk. 3, § 135 og \n'
 'kapitel 24 gælder dog ikke for ustøttede private plejeboliger.\n'
 'Stk. 5.  Ustøttede privat

I cannot figure out a way of how to extract the headings for now, revisit this later.

### Extract page - paragraph relation

In [23]:
pprint.pp(documents[1].page_content[:3000])

('Lov om leje\n'
 'VI MARGRETHE DEN ANDEN, af Guds Nåde Danmarks Dronning, gør vitterligt:\n'
 'Folketinget har vedtaget og Vi ved V ort samtykke stadfæstet følgende lov:\n'
 'Kapitel 1\n'
 'Anvendelsesområde m.v.\n'
 'Anvendelsesområde\n'
 '§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om '
 'lejeren er en person eller en \n'
 'virksomhed m.v. (juridisk person).\n'
 'Stk. 2. Loven gælder, selv om lejen skal betales med andet end penge, '
 'herunder ved arbejde.\n'
 'Stk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig '
 'med fuld kost, for aftaler \n'
 'mellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og '
 'andre beboelsesrum, \n'
 'herunder sommerhuse, kolonihavehuse og andre fritidsboliger, som er udlejet '
 'til ferie- og fritidsmæssige \n'
 'formål.\n'
 'Stk. 4. Loven gælder endvidere for leje af ustøttede private plejeboliger, '
 'jf. dog § 1, stk. 4, i erhvervsle-\n'
 'jeloven. §§ 7 og 9, kapitel 3, § 5

In [24]:
def extract_paragraphs_from_page(doc, regex_pattern):
    paragraphs = re.findall(regex_pattern, doc.page_content)

    page_paragraph = {int(re.findall(r"\d{1,3}", para)[0]):doc.metadata["page"]  for para in paragraphs}
    return page_paragraph


paragraph_pages = [extract_paragraphs_from_page(doc, paragraph_regex) for doc in documents]
paragraph_pages = {k:v for d in paragraph_pages for k,v in d.items()} # unnest list
paragraph_pages

{1: 1,
 2: 1,
 3: 1,
 4: 1,
 5: 2,
 6: 2,
 7: 2,
 8: 2,
 9: 2,
 10: 3,
 11: 3,
 12: 3,
 13: 4,
 14: 4,
 15: 4,
 16: 4,
 17: 5,
 18: 5,
 19: 5,
 20: 6,
 21: 7,
 22: 7,
 23: 7,
 24: 8,
 25: 8,
 26: 9,
 27: 10,
 28: 10,
 29: 10,
 30: 10,
 31: 11,
 32: 11,
 33: 11,
 34: 11,
 35: 11,
 36: 11,
 37: 12,
 38: 12,
 39: 12,
 40: 12,
 41: 12,
 42: 13,
 43: 13,
 44: 14,
 45: 14,
 46: 14,
 48: 15,
 49: 15,
 50: 16,
 51: 16,
 52: 16,
 53: 16,
 54: 16,
 55: 16,
 56: 17,
 57: 17,
 58: 17,
 59: 17,
 60: 17,
 61: 18,
 62: 18,
 63: 18,
 64: 18,
 65: 18,
 66: 18,
 67: 18,
 68: 19,
 69: 19,
 70: 19,
 71: 19,
 72: 19,
 73: 20,
 74: 20,
 75: 20,
 77: 21,
 78: 21,
 79: 21,
 80: 21,
 81: 21,
 82: 21,
 83: 21,
 84: 22,
 85: 22,
 86: 22,
 87: 22,
 88: 23,
 89: 23,
 90: 23,
 91: 23,
 92: 23,
 93: 23,
 94: 23,
 95: 24,
 96: 24,
 97: 24,
 98: 24,
 99: 24,
 100: 24,
 101: 25,
 102: 25,
 103: 25,
 104: 25,
 105: 25,
 106: 25,
 107: 26,
 108: 26,
 109: 26,
 110: 26,
 111: 26,
 112: 26,
 113: 27,
 114: 27,
 115: 27,
 1

In [25]:
def add_page_to_paragraphs(paragraph_docs, paragraph_page_map):
    for para_doc in paragraph_docs:
        para_num = para_doc.metadata["paragraph_number"]
        para_doc.metadata["page"] = paragraph_page_map.get(para_num)
    return paragraph_docs

paragraph_documents = add_page_to_paragraphs(paragraph_documents, paragraph_pages)
paragraph_documents[:3]

[Document(metadata={'chapter_title': 'Kapitel 1', 'paragraph_number': 1, 'page': 1}, page_content='§ 1. Loven gælder for leje, herunder fremleje, af hus eller rum, uanset om lejeren er en person eller en \nvirksomhed m.v. (juridisk person).\nStk. 2. Loven gælder, selv om lejen skal betales med andet end penge, herunder ved arbejde.\nStk. 3.  Bortset fra § 17 gælder loven dog ikke for aftaler om leje af bolig med fuld kost, for aftaler \nmellem et hotel og dets gæster og for lejeforhold om beboelseslejligheder og andre beboelsesrum, \nherunder sommerhuse, kolonihavehuse og andre fritidsboliger, som er udlejet til ferie- og fritidsmæssige \nformål.\nStk. 4. Loven gælder endvidere for leje af ustøttede private plejeboliger, jf. dog § 1, stk. 4, i erhvervsle-\njeloven. §§ 7 og 9, kapitel 3, § 53, stk. 2, §§ 105-107, 109, 113, 119-121, 123, § 127, stk. 3, § 135 og \nkapitel 24 gælder dog ikke for ustøttede private plejeboliger.\nStk. 5.  Ustøttede private plejeboliger, jf. stk. 4, er tidlig

## Simple RAG

In [26]:
import os
from dotenv import load_dotenv
load_dotenv()
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = os.getenv("LANGCHAIN_API_KEY")
os.environ["LANGCHAIN_PROJECT"] = "rental-contract-rag"

In [None]:
from langchain_core.vectorstores import InMemoryVectorStore
from langchain.chat_models import ChatOpenAI
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from langchain import hub


os.environ["OPENAI_API_KEY"] = os.getenv("OPENAI_API_KEY")

from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

vector_store = InMemoryVectorStore.from_documents(
    embedding=embeddings,
    documents=paragraph_documents,
    collection_name="rental_contract_law_2025"
)

retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k":3})

# Prompt
prompt = hub.pull("rlm/rag-prompt")

# LLM
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)

# Post-processing
def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)

# Chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# Question
answer = rag_chain.invoke("I hvilken pargraf kan jeg læse om tilbagebetaling af for meget betalt husleje?")
pprint.pp(answer)

  llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0)


('Du kan læse om tilbagebetaling af for meget betalt husleje i § 40. Lejeren '
 'kan kræve det for meget betalte beløb tilbage og kræve lejen nedsat med '
 'virkning for fremtiden. Lejerens krav skal være gjort gældende for '
 'huslejenævnet inden 1 år fra fraflytningstidspunktet.')


Try an example paragraph from a contract and see if it can answer.

In [None]:
from langchain.prompts import ChatPromptTemplate


template = """You are a helpful assistant that answers questions about the Danish Rent Act based on excerpts from the legal text.
{context}

In the answers, refer to the specific paragraph numbers (e.g., § 1, § 2, etc.) and the page number where the information was found, in the following structure

'Read more in § X on page Y'.

If you cannot find the answer in the excerpts, say "I don't know".


Question: {question}
"""
specified_prompt = ChatPromptTemplate.from_template(template)
specified_prompt

ChatPromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, messages=[HumanMessagePromptTemplate(prompt=PromptTemplate(input_variables=['context', 'question'], input_types={}, partial_variables={}, template='Du er en hjælpsom assistent der besvarer spørgsmål om lejeloven baseret på uddrag fra lovteksten.\n{context}\n\nHvis du ikke kan finde svaret i uddragene, så sig "Jeg ved det ikke".\n\n\nSpørgsmål: {question}\n'), additional_kwargs={})])

In [35]:
# Chain
rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | specified_prompt
    | llm
    | StrOutputParser()
)

# Question
answer = rag_chain.invoke("Kan min udlejer nægte at udarbejde et skriftligt lejekontrakt?")
pprint.pp(answer)

('Nej, udlejeren kan ikke nægte at udarbejde en skriftlig lejekontrakt. Ifølge '
 'lejeloven skal der være en skriftlig lejekontrakt, medmindre der er tale om '
 'kortvarige lejeaftaler på under 3 måneder.')
