## RAG-application
### Setup och Ladda Databas

In [1]:
import os
from pathlib import Path
from dotenv import load_dotenv

# Vektordatabas och Embeddings
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

# Prompting, LLM och f√∂r att extrahera text fr√•n LLM-output
from langchain_core.prompts import ChatPromptTemplate
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.output_parsers import StrOutputParser

# ==========================================================
# 1. Ladda ENV och definiera s√∂kv√§gar
# ==========================================================
load_dotenv()

BASE_DIR = Path(r"C:\Users\Dator\Documents\Data_Science\11_Examensarbete\green_power_sweden")
DB_DIR = BASE_DIR / "data" / "03_vector_db" / "green_power_sweden_db" 

# ==========================================================
# 2. Ladda embeddingmodell
# ==========================================================
print("Laddar embedding-modell...")

embedding_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-mpnet-base-v2",
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': False}
)

# ==========================================================
# 3. Ladda vektordatabasen
# ==========================================================
print(f"Laddar databas fr√•n {DB_DIR}...")

# F√∂rs√∂k ladda databasen
try:
    vectordb = Chroma(
        persist_directory=str(DB_DIR),
        embedding_function=embedding_model
    )
    print("Databas laddad!")
    # OBS: count() kan vara tungt om indexet √§r trasigt, men vi testar
    print("Antal chunks:", vectordb._collection.count())
    
except Exception as e:
    print(f"\nKRITISKT FEL VID LADDNING AV DATABAS: {e}")
    print("Detta beror troligen p√• versionsskillnader mellan Colab och din dator.")

Laddar embedding-modell...
Laddar databas fr√•n C:\Users\Dator\Documents\Data_Science\11_Examensarbete\green_power_sweden\data\03_vector_db\green_power_sweden_db...
Databas laddad!
Antal chunks: 165583


### Testa s√∂kning (Utan LLM)

In [2]:
# ==========================================================
# 4. TESTA S√ñKNING (utan LLM)
# ==========================================================
query = "F√•r man bygga solcellsparker p√• jordbruksmark?"
print(f"\nTestar retrieval f√∂r fr√•gan: '{query}'")

docs = vectordb.similarity_search(query, k=3)

print("\n--- RESULTAT (UTAN LLM) ---")
for i, doc in enumerate(docs):
    print(f"\n--- Dokument {i + 1} ---")
    print("K√§lla:", doc.metadata.get("source", "Ok√§nd"))
    print(doc.page_content[:300], "...")


Testar retrieval f√∂r fr√•gan: 'F√•r man bygga solcellsparker p√• jordbruksmark?'

--- RESULTAT (UTAN LLM) ---

--- Dokument 1 ---
K√§lla: Samr√•dsunderlag_Hylinge_1.0(22895278) (0)_TMP.pdf
motverka den l√•ga mullhalten i omr√•det. Detta leder till ett stort n√§ringsl√§ckage som
skulle undvikas med en solcellspark p√• platsen.
Parken kommer inte att p√•verka transporter eller tillg√§nglighet till att bruka n√§rliggande
jordbruksmarker.
Jordbruksmarkens kvalitet kommer inte f√∂rs√§mras till f√∂ljd ...

--- Dokument 2 ---
K√§lla: Samr√•dsanm√§lan_Hylinge_1.0(22417535) (0)_TMP.pdf
motverka den l√•ga mullhalten i omr√•det. Detta leder till ett stort n√§ringsl√§ckage som
skulle undvikas med en solcellspark p√• platsen.
Parken kommer inte att p√•verka transporter eller tillg√§nglighet till att bruka n√§rliggande
jordbruksmarker.
Jordbruksmarkens kvalitet kommer inte f√∂rs√§mras till f√∂ljd ...

--- Dokument 3 ---
K√§lla: MMD_2024-10-31_M2145-24_Funbo I_ok lokalisering.pdf
solcellspark komme

### Koppla in Gemini (Chatt)

In [4]:
# ==========================================================
# 5. Skapa Gemini LLM
# ==========================================================
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3
)


# ==========================================================
# 6. Promptmall (ny LCEL-kompatibel)
# ==========================================================
prompt = ChatPromptTemplate.from_template("""
Du √§r *Solaris Legal*, expert p√• svensk juridik f√∂r solcellsparker.
Besvara fr√•gan baserat p√• f√∂ljande kontext.

Om svaret inte finns i kontexten: svara 
"Jag hittar inte svaret i de dokument jag har tillg√•ng till."

Hitta inte p√• fakta. H√§nvisa till k√§llor om m√∂jligt.

KONTEKST:
{context}

FR√ÖGA:
{question}

SVAR:
""")

retriever = vectordb.as_retriever(search_kwargs={"k": 5})

# ==========================================================
# 7. Skapa RAG-kedja (NYA S√ÑTTET ‚Äî LCEL)
# ==========================================================
def run_rag(question):
    context_docs = retriever.invoke(question)
    context = "\n\n".join(doc.page_content for doc in context_docs)

    chain = prompt | llm | StrOutputParser()
    return chain.invoke({"context": context, "question": question})


# ==========================================================
# 8. Testa RAG med Gemini
# ==========================================================
print("\n\nüöÄ Testar RAG med Gemini:\n")

answer = run_rag("F√•r man bygga solcellsparker p√• jordbruksmark?")
print(answer)



üöÄ Testar RAG med Gemini:

Ja, det √§r m√∂jligt att bygga solcellsparker p√• jordbruksmark, men det inneb√§r vissa √∂verv√§ganden och inskr√§nkningar.

Enligt Mark- och milj√∂domstolen vid Nacka tingsr√§tts avg√∂rande fr√•n 2023-04-28 medgavs en solcellspark p√• jordbruksmark i Norrt√§lje kommun, trots att den l√•g inom riksintresse f√∂r kulturmilj√∂ (Sida 34 av 4854).

Dock konstaterar domstolen att den aktuella marken utg√∂r "brukningsv√§rd jordbruksmark" i den mening som avses i 3 kap. 4 ¬ß milj√∂balken, vilken betonar ett l√•ngsiktigt hush√•llningsperspektiv d√§r jordbruk √§r av nationell betydelse. Solcellsparkens konstruktion och livsl√§ngd (cirka 45 √•r) inneb√§r att markanv√§ndningen f√∂r jordbruk kommer att inskr√§nkas. Det kan bli m√∂jligt f√∂r exempelvis f√•rbete, men marken g√•r inte att odla i mer konventionell bem√§rkelse under parkens livsl√§ngd (Sida 34 av 4854).

Positiva aspekter som lyfts fram √§r att jordbruksmarkens kvalitet inte f√∂rv√§ntas f√∂rs√§mras till f√