<a href="https://colab.research.google.com/github/fritzmartin003/RAG-System-Projekt/blob/main/Gemini_Pr%C3%BCfungsabgabe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Notwendige Bibliotheken installieren
!pip install faiss-cpu transformers sentence-transformers pymupdf numpy scipy
!pip uninstall -y tensorflow


Collecting faiss-cpu
  Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.4 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-3.4.1-py3-none-any.whl.metadata (10 kB)
Collecting pymupdf
  Downloading pymupdf-1.25.3-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (3.4 kB)
Downloading faiss_cpu-1.10.0-cp311-cp311-manylinux_2_28_x86_64.whl (30.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/30.7 MB[0m [31m49.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading sentence_transformers-3.4.1-py3-none-any.whl (275 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m275.9/275.9 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pymupdf-1.25.3-cp39-abi3-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (20.0 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m83.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pymupdf, faiss-

In [1]:
# Imports
import fitz  # PyMuPDF
import numpy as np
import faiss
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from sentence_transformers import SentenceTransformer
import sklearn
import torch
import time

In [36]:
from google.colab import userdata
GeminiAPIKey = userdata.get('GOOGLE_API_KEY')

In [37]:
print(GeminiAPIKey)

AIzaSyB-P2BwiAB1qzw8yJSNOmVCGM0JqmzxJh8


In [4]:
# PDF-Text extrahieren
def extract_text_from_pdf(pdf_path):
    text = ""
    with fitz.open(pdf_path) as doc:
        for page in doc:
            text += page.get_text("text") + "\n"
    return text

pdf_path = "SakowskiBuch.pdf"
pdf_text = extract_text_from_pdf(pdf_path)


In [5]:
# Text in Chunks teilen
def split_text(text, chunk_size=500, overlap=100):
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        chunks.append(text[start:end])
        start += chunk_size - overlap
    return chunks

chunks = split_text(pdf_text)
print(f" PDF in {len(chunks)} Chunks unterteilt!")

 PDF in 1559 Chunks unterteilt!


In [6]:
# Embedding Modell laden
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Optimale Batch-Größe finden (Experimentieren!)
optimal_batch_size = 500  # Starte mit einem hohen Wert und reduziere, wenn du Speicherprobleme hast

def create_faiss_index(chunks):
    start_time = time.time()  # Zeitmessung

    # Embeddings erstellen (mit optimierter Batch-Verarbeitung und Tensor-Konvertierung)
    chunk_embeddings_tensor = embedding_model.encode(chunks, batch_size=optimal_batch_size, convert_to_tensor=True)
    chunk_embeddings = chunk_embeddings_tensor.cpu().numpy()

    # Normalisieren der Embeddings (wichtig für die meisten Distanzmetriken)
    chunk_embeddings = sklearn.preprocessing.normalize(chunk_embeddings)

    dimension = chunk_embeddings.shape[1]

    # FAISS Index erstellen (IndexIVFFlat mit Training)
    nlist = int(np.sqrt(len(chunk_embeddings)))  # Anzahl der Partitionen (Faustregel)
    quantizer = faiss.IndexFlatL2(dimension)  # Quantisierer für die Clusterzentren
    index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_L2)

    # Training des Index (NOTWENDIG für IndexIVFFlat!)
    index.train(chunk_embeddings)

    # Hinzufügen der Embeddings zum Index (NACH dem Training)
    index.add(chunk_embeddings)

    end_time = time.time()
    print(f"FAISS Vektordatenbank erstellt! (Zeit: {end_time - start_time:.2f} Sekunden)")
    return index

index = create_faiss_index(chunks)

FAISS Vektordatenbank erstellt! (Zeit: 194.45 Sekunden)


In [8]:
def search(index, query, k=5):
    query_embedding_tensor = embedding_model.encode([query], convert_to_tensor=True)
    query_embedding = query_embedding_tensor.cpu().numpy()

    query_embedding = sklearn.preprocessing.normalize(query_embedding)
    D, I = index.search(query_embedding, k)  # D: Distanzen, I: Indizes
    return D, I

def get_search_results(index, query, chunks, k=5):
    D, I = search(index, query, k)
    results = []
    for i, distance in zip(I[0], D[0]):
        results.append({"chunk": chunks[i], "distance": distance})
    relevant_chunks = []
    for i, distance in zip(I[0], D[0]):
        relevant_chunks.append(chunks[i])
    return relevant_chunks


In [7]:
!pip install --upgrade google-generativeai



In [74]:
import google.generativeai as genai

# Konfiguration des API-Schlüssels
genai.configure(api_key= GeminiAPIKey)

# Modell auswählen
model = genai.GenerativeModel('gemini-2.0-flash') # Andere Modele falls überlasstet: gemini-1.5-flash, gemini-2.0-flash-exp, gemini-1.0-pro


def generate_answer(query, token = 150):
    relevant_chunks = get_search_results(index, query, chunks, k=20)
    context = "\n".join(relevant_chunks)
    prompt = f"Beantworte die Frage basierend auf diesem Kontext:\n\n{context}\n\nFrage: {query}\nAntwort:"
    #gemini-1.5-flash

    # API-Aufruf an Gemini
    # API-Aufruf mit Optionen
    response = model.generate_content(
        prompt,
        generation_config=genai.types.GenerationConfig(
            max_output_tokens = token,
            temperature=0.7,
        )
    )
    return response.text  # Gibt den generierten Text zurück

In [75]:
frage = "Wie hoch ist der gesetzliche Mindestlohn?"
antwort = generate_answer(frage)
print("Antwort:", antwort)


Antwort: Seit dem 1.1.2022 beträgt der gesetzliche Mindestlohn 9,82 EUR je Zeitstunde und erhöht sich ab dem 1.7.2022 auf 10,45 EUR.



In [73]:
frage = "Was ist die Obergrenze der Arbeitszeiten von Minderjährige?"
antwort = generate_answer(frage)
print("Antwort:", antwort)

Antwort: Konkret gilt eine Obergrenze von werktäglich (Mo.-Fr.) acht Stunden bzw. wöchentlich 40 h (§ 8 Abs. 1 JArbSchG).



In [60]:
frage = "Gibt es einen Rechtsanspruch auf einen Arbeitsplatz?"
antwort = generate_answer(frage)
print("Antwort:", antwort)

Antwort: Basierend auf dem Kontext gibt es keinen generellen Rechtsanspruch auf einen Arbeitsplatz. Der Text erwähnt jedoch, dass ein Auszubildender unter bestimmten Umständen einen Anspruch darauf haben kann, nach erfolgreichem Abschluss seiner Ausbildung in ein unbefristetes Arbeitsverhältnis übernommen zu werden, nämlich wenn ein "ausbildungsadäquater Arbeitsplatz" zur Verfügung steht, der nicht mit einem Leiharbeiter besetzt ist.



In [64]:
frage = "Wie viele Tage steht Arbeitenden an Urlaub zu?"
antwort = generate_answer(frage)
print("Antwort:", antwort)

Antwort: Die Anzahl der Urlaubstage hängt davon ab, wie die Arbeitszeit auf die einzelnen Wochentage verteilt wird. Wenn der Arbeitnehmer trotz Teilzeitarbeit an fünf Werktagen pro Woche arbeitet, steht ihm dieselbe Anzahl von Urlaubstagen zu wie einem vollzeitbeschäftigten Kollegen. Wenn er an weniger als fünf Wochentagen arbeitet, ist der Urlaub anteilig zu kürzen. Bei zwei Tagen pro Woche erhält er beispielsweise 2/5 des regulären Urlaubsanspruchs für Vollzeitbeschäftigte. Der volle Urlaubsanspruch wird nach § 4 BUrlG erst nach sechs Monaten erworben.



In [70]:
frage = "Wann kommt es zu einer Freistellung?"
antwort = generate_answer(frage,token=300)
print("Antwort:", antwort)

Antwort: Laut dem bereitgestellten Text kommt es zu einer Freistellung in folgenden Fällen:

*   **Pflegezeitgesetz (PflegeZG):** Bei der Versorgung pflegebedürftiger naher Angehöriger zu Hause, maximal 10 Arbeitstage bei akut aufgetretener Pflegesituation.
*   **Stellensuche:** Wenn sich ein Arbeitnehmer während einer laufenden Kündigungsfrist bei einem neuen Betrieb vorstellt, hat er nach § 629 BGB einen Anspruch auf angemessene Freistellung zur Stellensuche.
*   **§ 45 SGB V:** Wenn der Arbeitnehmer wegen der Covid-Pandemie nahe Angehörige oder Eltern ihr krankes (Klein-) Kind zu pflegen hat.


In [76]:
fragen = [
    "Wie hoch ist der gesetzliche Mindestlohn?",
    "Wie viele Tage steht Arbeitenden an Urlaub zu?",
    "Wann kommt es zu einer Freistellung?"
]

for frage in fragen:
    antwort = generate_answer(frage)
    print("Frage:", frage)
    print("Antwort:", antwort)
    print("-" * 20)

Frage: Wie hoch ist der gesetzliche Mindestlohn?
Antwort: Der gesetzliche Mindestlohn beträgt seit dem 1.1.2022 9,82 EUR je Zeitstunde und erhöht sich ab dem 1.7.2022 auf 10,45 EUR.

--------------------
Frage: Wie viele Tage steht Arbeitenden an Urlaub zu?
Antwort: Die Anzahl der Urlaubstage hängt davon ab, wie die Arbeitszeit auf die einzelnen Wochentage verteilt ist. Wenn der Arbeitnehmer trotz Teilzeitarbeit an fünf Werktagen pro Woche arbeitet, steht ihm dieselbe Anzahl von Urlaubstagen zu wie einem vollzeitbeschäftigten Kollegen. Wenn er an weniger als fünf Wochentagen arbeitet, ist der Urlaub anteilig zu kürzen. Bei zwei Tagen pro Woche erhält er beispielsweise 2/5 des regulären Urlaubsanspruchs für Vollzeitbeschäftigte.

--------------------
Frage: Wann kommt es zu einer Freistellung?
Antwort: Eine Freistellung kommt zustande, wenn ein Bewerber bei laufender Kündigungsfrist in seinem bestehenden Arbeitsverhältnis sich bei einem neuen Betrieb vorstellt (§ 629). Ebenfalls kommt e