# RAG Workshop - Introduksjon

Velkommen til workshop om **Retrieval-Augmented Generation (RAG)** med Google Cloud Platform!

I denne workshopen skal vi bygge et komplett RAG-system som bruker:
- üìÑ **Dokumentavgift 2025** som kunnskapsbase
- üóÑÔ∏è **Cloud SQL (PostgreSQL + pgvector)** som vector database
- ü§ñ **Vertex AI** for embeddings og language models
- üîê **Secret Manager** for sikker h√•ndtering av credentials

## Hva er RAG?

RAG kombinerer s√∏k (retrieval) med generering (generation) for √• gi LLM-er tilgang til ekstern kunnskap:

1. **Retrieval**: Finn relevant informasjon fra en kunnskapsbase
2. **Augmentation**: Berik sp√∏rsm√•let med den hentede informasjonen  
3. **Generation**: Bruk en LLM til √• generere svar basert p√• konteksten

### Hvorfor RAG?

- ‚úÖ **Oppdatert informasjon**: Ikke begrenset til treningsdata
- ‚úÖ **Faktabaserte svar**: Reduserer hallusinasjoner
- ‚úÖ **Kilder**: Kan referere til hvor informasjonen kommer fra
- ‚úÖ **Privat data**: Kan bruke bedriftsintern dokumentasjon

## Workshop-arkitektur

```
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Dokumentavgift  ‚îÇ
‚îÇ   PDF (2025)    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ PDF Extraction  ‚îÇ ‚Üê pymupdf4llm
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ    Chunking     ‚îÇ ‚Üê LangChain
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Vertex AI     ‚îÇ ‚Üê text-embedding-004
‚îÇ   Embeddings    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Cloud SQL     ‚îÇ ‚Üê PostgreSQL + pgvector
‚îÇ  (pgvector)     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
  Query ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ Vector Search   ‚îÇ ‚Üê Similarity search
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ   Vertex AI     ‚îÇ ‚Üê gemini-2.0-flash-001
‚îÇ   Generation    ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
         ‚îÇ
         ‚ñº
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ     Answer      ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

## 1. Setup og konfigurasjon

### Viktig: Virtual Environment

**F√∏r du starter denne notebooken, s√∏rg for at du har aktivert et virtual environment!**

```bash
# I terminalen (fra prosjektets rot-katalog):
python -m venv venv
source venv/bin/activate  # macOS/Linux
# eller
venv\Scripts\activate     # Windows

# Installer avhengigheter
pip install -r requirements.txt
```

**Hvorfor virtual environment?**
- ‚úÖ Isolerer avhengigheter fra system Python
- ‚úÖ Unng√•r konflikter med andre prosjekter
- ‚úÖ Enklere √• reprodusere milj√∏et
- ‚úÖ Fungerer p√• macOS med externally-managed-environment

**Verifiser at du er i riktig milj√∏:**

In [77]:
# Verifiser virtual environment
import sys
import os

print("üêç Python-informasjon:")
print(f"   Versjon: {sys.version.split()[0]}")
print(f"   Executable: {sys.executable}")
print(f"   Prefix: {sys.prefix}")

# Sjekk om vi er i et virtual environment
in_venv = hasattr(sys, 'real_prefix') or (
    hasattr(sys, 'base_prefix') and sys.base_prefix != sys.prefix
)

if in_venv:
    print("\n‚úÖ Du kj√∏rer i et virtual environment!")
else:
    print("\n‚ö†Ô∏è  ADVARSEL: Du kj√∏rer IKKE i et virtual environment!")
    print("   Det anbefales sterkt √• aktivere venv f√∏rst.")
    print("   Se instruksjonene i cellen over.")

üêç Python-informasjon:
   Versjon: 3.13.2
   Executable: /Users/kenanmahic/Projects/dsm-2025-rag/venv/bin/python
   Prefix: /Users/kenanmahic/Projects/dsm-2025-rag/venv

‚úÖ Du kj√∏rer i et virtual environment!


### Installer pakker (kun hvis n√∏dvendig)

Hvis du ikke har kj√∏rt `pip install -r requirements.txt`, kan du installere pakker her.
**Merk:** Dette kan gi feil p√• macOS hvis du ikke bruker virtual environment!

In [78]:
# Kj√∏r denne BARE hvis du ikke har installert fra requirements.txt
# Anbefaling: Bruk heller `pip install -r requirements.txt` i terminalen

# !pip install -q \
#     pymupdf4llm \
#     langchain-text-splitters \
#     google-cloud-secret-manager \
#     google-genai \
#     psycopg2-binary \
#     pgvector \
#     sqlalchemy

print("üí° Tips: Installer heller fra requirements.txt i terminalen:")
print("   pip install -r requirements.txt")

üí° Tips: Installer heller fra requirements.txt i terminalen:
   pip install -r requirements.txt


In [79]:
# Import biblioteker
import os
import json
from pathlib import Path
from typing import List, Dict, Tuple

# PDF og teksth√•ndtering
import pymupdf4llm
from langchain_text_splitters import RecursiveCharacterTextSplitter

# GCP
from google.cloud import secretmanager
from google import genai

# Database
import psycopg2
from psycopg2.extras import execute_values
from pgvector.psycopg2 import register_vector

print("‚úÖ Alle biblioteker importert!")

‚úÖ Alle biblioteker importert!


### Konfigurer GCP-tilkobling

Vi setter opp tilkobling til GCP-prosjektet v√•rt og henter database-passordet fra Secret Manager.

In [80]:
# GCP konfigurasjon
PROJECT_ID = "data-science-faggruppe-rag"
REGION = "europe-west1"
SECRET_NAME = "postgres-password"

# Cloud SQL konfigurasjon (fra terraform)
DB_INSTANCE_NAME = "vector-db-instance"
DB_NAME = "vector_db"
DB_USER = "postgres"

print(f"ÔøΩÔøΩ Prosjekt: {PROJECT_ID}")
print(f"üìç Region: {REGION}")
print(f"üìç Database: {DB_NAME}")

ÔøΩÔøΩ Prosjekt: data-science-faggruppe-rag
üìç Region: europe-west1
üìç Database: vector_db


In [81]:
# Hent database-passord fra Secret Manager
def get_secret(project_id: str, secret_id: str, version_id: str = "latest") -> str:
    """
    Hent secret fra Google Secret Manager.
    
    Args:
        project_id: GCP prosjekt ID
        secret_id: Secret navn
        version_id: Versjon (default: latest)
    
    Returns:
        Secret verdi som string
    """
    client = secretmanager.SecretManagerServiceClient()
    name = f"projects/{project_id}/secrets/{secret_id}/versions/{version_id}"
    response = client.access_secret_version(request={"name": name})
    return response.payload.data.decode("UTF-8")

# Hent passord
DB_PASSWORD = get_secret(PROJECT_ID, SECRET_NAME)
print("‚úÖ Database-passord hentet fra Secret Manager")

‚úÖ Database-passord hentet fra Secret Manager


**üí° Sikkerhetsmerknad:** Vi bruker Secret Manager for √• unng√• √• hardkode passord i koden. Dette er best practice for produksjonssystemer!

In [82]:
# Hent Cloud SQL IP automatisk
import subprocess

try:
    # Pr√∏v √• hente IP fra gcloud
    result = subprocess.run(
        ['gcloud', 'sql', 'instances', 'describe', DB_INSTANCE_NAME,
         '--format=value(ipAddresses[0].ipAddress)'],
        capture_output=True,
        text=True,
        timeout=10
    )
    
    if result.returncode == 0:
        DB_HOST = result.stdout.strip()
        print(f"‚úÖ Cloud SQL IP hentet automatisk: {DB_HOST}")
    else:
        # Fallback: Manuell input
        print("‚ö†Ô∏è  Kunne ikke hente IP automatisk")
        print(f"   Error: {result.stderr}")
        DB_HOST = input("Vennligst skriv inn Cloud SQL IP: ")
        
except FileNotFoundError:
    print("‚ö†Ô∏è  gcloud CLI ikke funnet")
    print("üí° Alternativ 1: Installer gcloud CLI")
    print("üí° Alternativ 2: Skriv inn IP manuelt")
    DB_HOST = input("Cloud SQL IP: ")
    
except subprocess.TimeoutExpired:
    print("‚ö†Ô∏è  Timeout ved henting av IP")
    DB_HOST = input("Cloud SQL IP: ")

print(f"\nüîó Database host: {DB_HOST}")

# Alternativ: Cloud SQL Proxy (hvis du bruker det)
# DB_HOST = "127.0.0.1"

‚úÖ Cloud SQL IP hentet automatisk: 35.205.154.230

üîó Database host: 35.205.154.230


## 2. Last inn og forbered dokument

Vi bruker **Dokumentavgift 2025** som kunnskapsbase. Dette er et enklere dokument enn statsbudsjettet, perfekt for √• komme i gang!

In [83]:
# Last inn PDF og konverter til Markdown
pdf_path = "../../data/dokumentavgift-2025.pdf"

print("üìÑ Ekstraherer tekst fra PDF...")
document_text = pymupdf4llm.to_markdown(pdf_path)

print(f"\n‚úÖ PDF ekstrahert!")
print(f"üìä Statistikk:")
print(f"   - Tegn: {len(document_text):,}")
print(f"   - Linjer: {len(document_text.splitlines()):,}")
print(f"   - Ord: {len(document_text.split()):,}")

# Vis et utdrag
print("\n" + "="*80)
print("Utdrag fra dokumentet:")
print("="*80)
print(document_text[:500] + "...")

üìÑ Ekstraherer tekst fra PDF...

‚úÖ PDF ekstrahert!
üìä Statistikk:
   - Tegn: 66,598
   - Linjer: 1,109
   - Ord: 8,503

Utdrag fra dokumentet:
## **√ÖRSRUNDSKRIV FOR**
# **DOKUMENTAVGIFT** **2025**

1. januar 2025

#### **Skattedirektoratet**

Juridisk avdeling
Postboks 9200 Gr√∏nland

0134 OSLO
www.skatteetaten.no


### **Innhold**

1 Innledning .......................................................................................................................................... 4


1.1 Om Skattedirektoratets √•rsrundskriv ........................................................................................ 4


1.2 Hva er dokumenta...

‚úÖ PDF ekstrahert!
üìä Statistikk:
   - Tegn: 66,598
   - Linjer: 1,109
   - Ord: 8,503

Utdrag fra dokumentet:
## **√ÖRSRUNDSKRIV FOR**
# **DOKUMENTAVGIFT** **2025**

1. januar 2025

#### **Skattedirektoratet**

Juridisk avdeling
Postboks 9200 Gr√∏nland

0134 OSLO
www.skatteetaten.no


### **Innhold**

1 Innledning .......................

### Chunking - Del opp dokumentet

Vi deler dokumentet i mindre chunks som passer for embedding og retrieval.

**Hvorfor chunking?**
- üìè **Token-begrensninger**: Embedding-modeller har maks input-lengde
- üéØ **Presisjon**: Mindre chunks gir mer presise s√∏keresultater
- üí∞ **Kostnad**: Mindre context til LLM = lavere kostnader

Vi bruker LangChains `CharacterTextSplitter` som deler p√• dobbel-newline (paragrafer).

In [85]:
text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", ". ", " ", ""],        # Del p√• dobbel-newline (paragraf)
    chunk_size=1000,         # Stor nok for hele avsnitt
    chunk_overlap=0,       # Overlap for kontekst
)

# Del opp dokumentet
chunks = text_splitter.create_documents([document_text])

print(f"‚úÖ Dokumentet delt i {len(chunks)} chunks")
print(f"\nüìä Chunk-statistikk:")
chunk_lengths = [len(chunk.page_content) for chunk in chunks]
print(f"   - Gjennomsnitt: {sum(chunk_lengths)/len(chunk_lengths):.0f} tegn")
print(f"   - Min: {min(chunk_lengths)} tegn")
print(f"   - Max: {max(chunk_lengths)} tegn")

# Vis chunks som inneholder "dokumentavgift"
print(f"\nüîç Chunks som inneholder 'hva er dokumentavgift':")
relevant_chunks = [
    (idx, chunk) for idx, chunk in enumerate(chunks) 
    if 'hva er dokumentavgift' in chunk.page_content.lower()
]

for idx, chunk in relevant_chunks[:3]:  # Vis maks 3
    print(f"\n{'='*80}")
    print(f"CHUNK {idx} ({len(chunk.page_content)} tegn):")
    print('='*80)
    print(chunk.page_content[:800])  # Vis f√∏rste 800 tegn
    if len(chunk.page_content) > 800:
        print("\n... (resten kuttet for lesbarhet)")
    print('='*80)

if not relevant_chunks:
    print("  ‚ö†Ô∏è  Ingen chunks funnet med 'hva er dokumentavgift'")
    print("\nüìÑ Viser i stedet f√∏rste 2 chunks:")
    for idx in range(min(2, len(chunks))):
        print(f"\nCHUNK {idx}: {chunks[idx].page_content[:400]}...")


‚úÖ Dokumentet delt i 84 chunks

üìä Chunk-statistikk:
   - Gjennomsnitt: 791 tegn
   - Min: 141 tegn
   - Max: 998 tegn

üîç Chunks som inneholder 'hva er dokumentavgift':

CHUNK 0 (914 tegn):
## **√ÖRSRUNDSKRIV FOR**
# **DOKUMENTAVGIFT** **2025**

1. januar 2025

#### **Skattedirektoratet**

Juridisk avdeling
Postboks 9200 Gr√∏nland

0134 OSLO
www.skatteetaten.no


### **Innhold**

1 Innledning .......................................................................................................................................... 4


1.1 Om Skattedirektoratets √•rsrundskriv ........................................................................................ 4


1.2 Hva er dokumentavgift? ........................................................................................................... 4


1.3 Hvilket regelverk gjelder? ......................................................................................................... 4


2 Avgiftsplikt .........................


## 3. Vertex AI - Embeddings og LLM

Vi bruker Google Vertex AI for:
- **Embeddings**: `text-embedding-004` (768 dimensjoner)
- **Generation**: `gemini-2.0-flash-001` (rask og kostnadseffektiv)

In [86]:
# Konfigurer Vertex AI
client = genai.Client(vertexai=True, project=PROJECT_ID, location=REGION)

print("‚úÖ Vertex AI konfigurert!")
print(f"   Project: {PROJECT_ID}")
print(f"   Region: {REGION}")
print(f"   Models: text-multilingual-embedding-002, gemini-2.0-flash-001")

‚úÖ Vertex AI konfigurert!
   Project: data-science-faggruppe-rag
   Region: europe-west1
   Models: text-multilingual-embedding-002, gemini-2.0-flash-001


In [87]:
# Funksjon for √• generere embeddings
def get_embedding(text: str, task_type: str = 'RETRIEVAL_DOCUMENT') -> List[float]:
    """
    Generer embedding for tekst ved hjelp av Vertex AI.
    
    Args:
        text: Tekst √• embedde
        task_type: 'RETRIEVAL_DOCUMENT' for dokumenter, 'RETRIEVAL_QUERY' for s√∏k
    
    Returns:
        Liste med floats (embedding-vektor)
    """
    client = genai.Client(vertexai=True, project=PROJECT_ID, location=REGION)
    response = client.models.embed_content(
        model='text-multilingual-embedding-002',
        contents=text,
        config={'task_type': task_type}
    )
    return response.embeddings[0].values

# Test embedding-generering
test_text = "Dette er en test av embedding-funksjonen."
test_embedding = get_embedding(test_text)

print(f"‚úÖ Embedding generert!")
print(f"   - Dimensjoner: {len(test_embedding)}")
print(f"   - Type: {type(test_embedding[0])}")
print(f"   - F√∏rste 5 verdier: {test_embedding[:5]}")


‚úÖ Embedding generert!
   - Dimensjoner: 768
   - Type: <class 'float'>
   - F√∏rste 5 verdier: [0.009539585560560226, -0.028674542903900146, -0.03958906978368759, 0.03002873621881008, 0.021501852199435234]


## 4. Cloud SQL - Vector Database

Vi kobler til Cloud SQL PostgreSQL med pgvector-extension for √• lagre og s√∏ke i embeddings.

**pgvector** er en PostgreSQL-extension som gir:
- ‚ö° Rask similarity search
- üìä St√∏tte for forskjellige distance metrics (L2, cosine, inner product)
- üîç HNSW og IVFFlat indekser for skalerbarhet

In [88]:
# Koble til Cloud SQL
def get_db_connection():
    """
    Opprett tilkobling til Cloud SQL PostgreSQL.
    """
    conn = psycopg2.connect(
        host=DB_HOST,
        database=DB_NAME,
        user=DB_USER,
        password=DB_PASSWORD,
        port=5432
    )
    return conn

# Test tilkobling
try:
    conn = get_db_connection()
    register_vector(conn)  # Registrer pgvector-typer
    
    cur = conn.cursor()
    cur.execute("SELECT version();")
    version = cur.fetchone()
    
    print("‚úÖ Tilkoblet Cloud SQL!")
    print(f"   PostgreSQL versjon: {version[0][:50]}...")
    
    cur.close()
    conn.close()
    
except Exception as e:
    print(f"‚ùå Feil ved tilkobling: {e}")
    print("\nüí° Sjekk at:")
    print("   1. DB_HOST er satt til riktig IP")
    print("   2. Cloud SQL instance er oppe")
    print("   3. Firewall-regler tillater tilkobling")

‚úÖ Tilkoblet Cloud SQL!
   PostgreSQL versjon: PostgreSQL 15.15 on x86_64-pc-linux-gnu, compiled ...


In [89]:
# Opprett tabell for chunks med embeddings
def create_chunks_table():
    """
    Opprett tabell for √• lagre document chunks med embeddings.
    """
    conn = get_db_connection()
    register_vector(conn)
    cur = conn.cursor()
    
    # Drop eksisterende tabell (for workshop-form√•l)
    cur.execute("DROP TABLE IF EXISTS document_chunks;")
    
    # Opprett ny tabell
    cur.execute("""
        CREATE TABLE document_chunks (
            id SERIAL PRIMARY KEY,
            content TEXT NOT NULL,
            embedding vector(768),  -- text-embedding-004 har 768 dimensjoner
            metadata JSONB,
            created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
        );
    """)
    
    # Opprett index for raskere similarity search
    cur.execute("""
        CREATE INDEX ON document_chunks 
        USING ivfflat (embedding vector_cosine_ops)
        WITH (lists = 100);
    """)
    
    conn.commit()
    cur.close()
    conn.close()
    
    print("‚úÖ Tabell 'document_chunks' opprettet med pgvector index!")

# Opprett tabell
create_chunks_table()

‚úÖ Tabell 'document_chunks' opprettet med pgvector index!


### Generer embeddings og lagre i database

N√• genererer vi embeddings for alle chunks og lagrer dem i Cloud SQL. Dette kan ta noen minutter...

In [90]:
# Generer embeddings og lagre i database
def insert_chunks_with_embeddings(chunks: List, batch_size: int = 100):
    """
    Generer embeddings for chunks og lagre i database.
    
    Args:
        chunks: Liste med LangChain Document objekter
        batch_size: Antall chunks √• prosessere samtidig
    """
    conn = get_db_connection()
    register_vector(conn)
    cur = conn.cursor()
    
    total = len(chunks)
    print(f"üîÑ Prosesserer {total} chunks...\n")
    
    for i in range(0, total, batch_size):
        batch = chunks[i:i+batch_size]
        
        # Generer embeddings for batch
        for idx, chunk in enumerate(batch):
            global_idx = i + idx
            
            # Generer embedding
            embedding = get_embedding(chunk.page_content)
            
            # Metadata
            metadata = json.dumps({
                "chunk_index": global_idx,
                "length": len(chunk.page_content)
            })
            
            # Insert i database
            cur.execute(
                "INSERT INTO document_chunks (content, embedding, metadata) VALUES (%s, %s, %s)",
                (chunk.page_content, embedding, metadata)
            )
            
            if (global_idx + 1) % 10 == 0:
                print(f"   ‚úì Prosessert {global_idx + 1}/{total} chunks")
        
        conn.commit()
    
    cur.close()
    conn.close()
    
    print(f"\n‚úÖ Alle {total} chunks lagret i database!")

# Lagre chunks
insert_chunks_with_embeddings(chunks)

üîÑ Prosesserer 84 chunks...

   ‚úì Prosessert 10/84 chunks
   ‚úì Prosessert 10/84 chunks
   ‚úì Prosessert 20/84 chunks
   ‚úì Prosessert 20/84 chunks
   ‚úì Prosessert 30/84 chunks
   ‚úì Prosessert 30/84 chunks
   ‚úì Prosessert 40/84 chunks
   ‚úì Prosessert 40/84 chunks
   ‚úì Prosessert 50/84 chunks
   ‚úì Prosessert 50/84 chunks
   ‚úì Prosessert 60/84 chunks
   ‚úì Prosessert 60/84 chunks
   ‚úì Prosessert 70/84 chunks
   ‚úì Prosessert 70/84 chunks
   ‚úì Prosessert 80/84 chunks
   ‚úì Prosessert 80/84 chunks

‚úÖ Alle 84 chunks lagret i database!

‚úÖ Alle 84 chunks lagret i database!


In [91]:
# Verifiser data i database
conn = get_db_connection()
cur = conn.cursor()

cur.execute("SELECT COUNT(*) FROM document_chunks;")
count = cur.fetchone()[0]

cur.execute("SELECT content, metadata FROM document_chunks LIMIT 3;")
samples = cur.fetchall()

print(f"üìä Database-statistikk:")
print(f"   - Antall chunks: {count}")
print(f"\nüìÑ Eksempel p√• lagrede chunks:\n")

for i, (content, metadata) in enumerate(samples, 1):
    print(f"Chunk {i}:")
    print(f"   Metadata: {metadata}")
    print(f"   Content: {content[:100]}...")
    print()

cur.close()
conn.close()

üìä Database-statistikk:
   - Antall chunks: 84

üìÑ Eksempel p√• lagrede chunks:

Chunk 1:
   Metadata: {'length': 914, 'chunk_index': 0}
   Content: ## **√ÖRSRUNDSKRIV FOR**
# **DOKUMENTAVGIFT** **2025**

1. januar 2025

#### **Skattedirektoratet**

...

Chunk 2:
   Metadata: {'length': 969, 'chunk_index': 1}
   Content: 2.1 Avgiftspliktens omfang ............................................................................

Chunk 3:
   Metadata: {'length': 969, 'chunk_index': 2}
   Content: 3.4 Registerf√∏rerens fastsettelse av avgiftsgrunnlaget ‚Äì "√•penbart for lavt" ..........................



## 5. Retrieval - S√∏k etter relevante chunks

N√• kan vi s√∏ke i vector database med semantic search!

**Slik fungerer det:**
1. Konverter brukerens sp√∏rsm√•l til embedding
2. S√∏k etter chunks med mest lignende embeddings (cosine similarity)
3. Returner topp-k mest relevante chunks

In [92]:
# S√∏kefunksjon
def search_similar_chunks(query: str, top_k: int = 5) -> List[Dict]:
    """
    S√∏k etter lignende chunks basert p√• query.
    
    Args:
        query: S√∏kestreng
        top_k: Antall resultater √• returnere
    
    Returns:
        Liste med relevante chunks og similarity scores
    """
    query_embedding = get_embedding(query, task_type='RETRIEVAL_QUERY')
    
    # S√∏k i database
    conn = get_db_connection()
    register_vector(conn)
    cur = conn.cursor()
    
    cur.execute(
        """
        SELECT 
            id,
            content,
            metadata,
            1 - (embedding <=> %s::vector) as similarity
        FROM document_chunks
        ORDER BY embedding <=> %s::vector
        LIMIT %s;
        """,
        (query_embedding, query_embedding, top_k)
    )
    
    results = []
    for row in cur.fetchall():
        results.append({
            'id': row[0],
            'content': row[1],
            'metadata': row[2],
            'similarity': float(row[3])
        })
    
    cur.close()
    conn.close()
    
    return results

# Test s√∏k
test_query = "Hva er dokumentavgift?"
results = search_similar_chunks(test_query, top_k=3)

print(f"üîç S√∏k: '{test_query}'\n")
print("="*80)

if not results:
    print("‚ö†Ô∏è  Ingen resultater funnet! Sjekk at databasen inneholder data.")
else:
    for i, result in enumerate(results, 1):
        print(f"\nResultat {i} (Similarity: {result['similarity']:.4f}):")
        print("-"*80)
        print(f"Lengde: {len(result['content'])} tegn")
        print(f"Innhold: {result['content'][:500]}...")
        print("="*80)



üîç S√∏k: 'Hva er dokumentavgift?'


Resultat 1 (Similarity: 0.7768):
--------------------------------------------------------------------------------
Lengde: 911 tegn
Innhold: _[(dal. ¬ß 7](https://lovdata.no/lov/1975-12-12-59/¬ß7)_ _femte ledd annet punktum)_
Ved offentlig jordskifte skal dokumentavgiften beregnes som ved oppl√∏sning av sameie (se punkt 4.4),
jf. dal. ¬ß 7 femte ledd annet punktum. Dette inneb√¶rer at avgiften beregnes av verdiforskyvningen
innenfor jordskifteomr√•det, sett under ett.

#### **4.16 Annet**

_[(helseforetaksloven ¬ß 50](https://lovdata.no/lov/2001-06-15-93/¬ß50)_ _tredje ledd og_ _[inndelingsloven ¬ß 14)](https://lovdata.no/lov/2001-06-15-70/¬ß1...

Resultat 2 (Similarity: 0.7157):
--------------------------------------------------------------------------------
Lengde: 980 tegn
Innhold: P√• denne bakgrunn refunderes betalt dokumentavgift n√•r det foreligger rettskraftig dom eller rettsforlik
som kjenner dokumentbeskrevet rettsstiftelse ugyldig fra f√∏

## 6. Generation - Generer svar med Gemini

Siste steg: Kombiner retrieved chunks med brukerens sp√∏rsm√•l og bruk Gemini til √• generere et svar.

In [93]:
# Genereringsfunksjon
def generate_answer(query: str, context_chunks: List[Dict]) -> str:
    """
    Generer svar basert p√• query og context.
    
    Args:
        query: Brukerens sp√∏rsm√•l
        context_chunks: Relevante chunks fra retrieval
    
    Returns:
        Generert svar
    """
    # Bygg context fra chunks
    context = "\n\n".join([
        f"[Kilde {i+1}]\n{chunk['content']}" 
        for i, chunk in enumerate(context_chunks)
    ])
    
    # Bygg prompt
    prompt = f"""Du er en hjelpsom assistent som svarer p√• sp√∏rsm√•l om dokumentavgift basert p√• norsk regelverk.

Svar p√• sp√∏rsm√•let basert p√• konteksten nedenfor. Hvis konteksten ikke inneholder nok informasjon til √• gi et komplett svar, gi et delvis svar basert p√• det som er tilgjengelig.

KONTEKST:
{context}

SP√òRSM√ÖL: {query}

SVAR:"""
    
    # Generer svar med Gemini
    client = genai.Client(vertexai=True, project=PROJECT_ID, location=REGION)
    response = client.models.generate_content(
        model='gemini-2.5-flash',
        contents=prompt
    )
    
    return response.text

# Test generering
answer = generate_answer(test_query, results)

print(f"‚ùì Sp√∏rsm√•l: {test_query}\n")
print("="*80)
print("üìù Svar:")
print("="*80)
print(answer)


‚ùì Sp√∏rsm√•l: Hva er dokumentavgift?

üìù Svar:
Konteksten gir ikke en direkte definisjon av hva dokumentavgift er.

Imidlertid fremg√•r det at det er en avgift som:
*   Beregnes ved offentlig jordskifte, basert p√• verdiforskyvningen (Kilde 1).
*   Vanligvis skal betales for overf√∏ringer i grunnboken og tinglysing av overf√∏ringer, med visse unntak som for overf√∏ringer etter helseforetaksloven og grenseendringer etter inndelingsloven (Kilde 1).
*   Kan refunderes dersom en dokumentert rettsstiftelse kjennes ugyldig, eller der et eldre rettserverv g√•r foran et yngre (Kilde 2).


## 7. Komplett RAG Pipeline

La oss pakke alt sammen i √©n funksjon!

In [94]:
# Komplett RAG pipeline
def rag_query(query: str, top_k: int = 5) -> Dict:
    """
    Komplett RAG pipeline: Retrieve + Generate.
    
    Args:
        query: Brukerens sp√∏rsm√•l
        top_k: Antall chunks √• hente
    
    Returns:
        Dict med query, answer, og sources
    """
    print(f"üîç S√∏ker etter relevante chunks...")
    chunks = search_similar_chunks(query, top_k=top_k)
    
    print(f"‚úì Fant {len(chunks)} relevante chunks")
    print(f"ü§ñ Genererer svar...")
    
    answer = generate_answer(query, chunks)
    
    print(f"‚úì Svar generert!\n")
    
    return {
        'query': query,
        'answer': answer,
        'sources': chunks
    }

# Test med flere sp√∏rsm√•l
queries = [
    "Hva er dokumentavgift?",
    "Hvem m√• betale dokumentavgift?",
    "Hva er avgiftssatsen for dokumentavgift?"
]

for query in queries:
    print("\n" + "="*80)
    result = rag_query(query, top_k=3)
    print("="*80)
    print(f"\n‚ùì {result['query']}")
    print(f"\nüìù {result['answer']}")
    print(f"\nüìö Basert p√• {len(result['sources'])} kilder")


üîç S√∏ker etter relevante chunks...
‚úì Fant 2 relevante chunks
ü§ñ Genererer svar...
‚úì Fant 2 relevante chunks
ü§ñ Genererer svar...
‚úì Svar generert!


‚ùì Hva er dokumentavgift?

üìù Konteksten gir ikke en direkte definisjon av hva dokumentavgift er.

Basert p√• informasjonen kan det likevel utledes at dokumentavgift er en avgift som:
*   **Beregningsgrunnlag:** I visse tilfeller, som ved offentlig jordskifte, beregnes den av verdiforskyvningen innenfor jordskifteomr√•det.
*   **Anvendelsesomr√•de:** Den nevnes i forbindelse med overf√∏ringer i grunnboken og tinglysing av overf√∏ringer.
*   **Unntak:** Det skal ikke betales dokumentavgift for overf√∏ringer i grunnboken som foretas i medhold av helseforetaksloven, eller for tinglysing av overf√∏ringer som er en direkte f√∏lge av grenseendringer etter inndelingsloven.
*   **Refusjon:** Betalt dokumentavgift kan refunderes under spesielle omstendigheter, for eksempel n√•r en rettsstiftelse kjennes ugyldig eller et eldre rettse

## üéâ Oppsummering

Gratulerer! Du har n√• bygget et komplett RAG-system med:

### ‚úÖ Hva vi har l√¶rt

1. **PDF-ekstraksjon** med pymupdf4llm
2. **Chunking** med LangChain
3. **Embeddings** med Vertex AI (text-embedding-004)
4. **Vector database** med Cloud SQL + pgvector
5. **Similarity search** med cosine distance
6. **Answer generation** med Gemini 1.5 Flash
7. **Secret management** med Google Secret Manager

### üöÄ Neste steg

I de neste delene av workshopen skal vi se p√•:
- **Avansert chunking**: Hierarkisk og semantisk chunking
- **Hybrid search**: Kombinere vector search med keyword search
- **Re-ranking**: Forbedre retrieved chunks
- **Evaluering**: M√•le kvalitet p√• RAG-systemet

### üí° Tips for produksjon

- üîí Bruk private IP for Cloud SQL
- üìä Implementer logging og monitoring
- ‚ö° Optimaliser med batch processing
- üß™ Test med forskjellige embedding-modeller
- ÔøΩÔøΩ Skaler med st√∏rre vector indexes (HNSW)

**Lykke til videre!** ÔøΩÔøΩ

## (Valgfri) Opprydding

Hvis du vil slette data fra databasen:

In [None]:
# Slett alle chunks (kj√∏r bare hvis du vil starte p√• nytt)
# conn = get_db_connection()
# cur = conn.cursor()
# cur.execute("DROP TABLE IF EXISTS document_chunks;")
# conn.commit()
# cur.close()
# conn.close()
# print("‚úÖ Tabell slettet")