<a href="https://colab.research.google.com/github/fritzmartin003/RAG-System-Projekt/blob/main/Hugging_Face_Maxi_FineTuning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Notwendige Bibliotheken installieren
!pip install faiss-cpu transformers sentence-transformers pymupdf numpy scipy
!pip uninstall -y tensorflow


[0m

In [2]:
# Imports
import fitz  # PyMuPDF
import numpy as np
import faiss
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from sentence_transformers import SentenceTransformer
import sklearn
import torch
import time

In [14]:
from google.colab import userdata
GeminiAPIKey = userdata.get('Gemini')
GeminiAPIKey2 = userdata.get('GOOGLE_API_KEY')

In [4]:
print(GeminiAPIKey)

AIzaSyC-PAnWQs339Lsx9-Z6E_AeiRMdCVXg7Ok


In [5]:
# PDF-Text extrahieren
def extract_text_from_pdf(pdf_path):
    text = ""
    with fitz.open(pdf_path) as doc:
        for page in doc:
            text += page.get_text("text") + "\n"
    return text

pdf_path = "SakowskiBuch.pdf"
pdf_text = extract_text_from_pdf(pdf_path)


In [6]:
# Text in Chunks teilen
def split_text(text, chunk_size=500, overlap=100):
    chunks = []
    start = 0
    while start < len(text):
        end = start + chunk_size
        chunks.append(text[start:end])
        start += chunk_size - overlap
    return chunks

chunks = split_text(pdf_text)
print(f" PDF in {len(chunks)} Chunks unterteilt!")

 PDF in 1559 Chunks unterteilt!


In [7]:
# Embedding Modell laden
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Optimale Batch-Größe finden (Experimentieren!)
optimal_batch_size = 500  # Starte mit einem hohen Wert und reduziere, wenn du Speicherprobleme hast

def create_faiss_index(chunks):
    start_time = time.time()  # Zeitmessung

    # Embeddings erstellen (mit optimierter Batch-Verarbeitung und Tensor-Konvertierung)
    chunk_embeddings_tensor = embedding_model.encode(chunks, batch_size=optimal_batch_size, convert_to_tensor=True)
    chunk_embeddings = chunk_embeddings_tensor.cpu().numpy()

    # Normalisieren der Embeddings (wichtig für die meisten Distanzmetriken)
    chunk_embeddings = sklearn.preprocessing.normalize(chunk_embeddings)

    dimension = chunk_embeddings.shape[1]

    # FAISS Index erstellen (IndexIVFFlat mit Training)
    nlist = int(np.sqrt(len(chunk_embeddings)))  # Anzahl der Partitionen (Faustregel)
    quantizer = faiss.IndexFlatL2(dimension)  # Quantisierer für die Clusterzentren
    index = faiss.IndexIVFFlat(quantizer, dimension, nlist, faiss.METRIC_L2)

    # Training des Index (NOTWENDIG für IndexIVFFlat!)
    index.train(chunk_embeddings)

    # Hinzufügen der Embeddings zum Index (NACH dem Training)
    index.add(chunk_embeddings)

    end_time = time.time()
    print(f"FAISS Vektordatenbank erstellt! (Zeit: {end_time - start_time:.2f} Sekunden)")
    return index

index = create_faiss_index(chunks)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


FAISS Vektordatenbank erstellt! (Zeit: 182.36 Sekunden)


In [8]:
def search(index, query, k=5):
    query_embedding_tensor = embedding_model.encode([query], convert_to_tensor=True)
    query_embedding = query_embedding_tensor.cpu().numpy()

    query_embedding = sklearn.preprocessing.normalize(query_embedding)
    D, I = index.search(query_embedding, k)  # D: Distanzen, I: Indizes
    return D, I

def get_search_results(index, query, chunks, k=5):
    D, I = search(index, query, k)
    results = []
    for i, distance in zip(I[0], D[0]):
        results.append({"chunk": chunks[i], "distance": distance})
    relevant_chunks = []
    for i, distance in zip(I[0], D[0]):
        relevant_chunks.append(chunks[i])
    return relevant_chunks


In [17]:
!pip install --upgrade google-generativeai

Name: google-generativeai
Version: 0.8.4
Summary: Google Generative AI High level API client library and tools.
Home-page: https://github.com/google/generative-ai-python
Author: Google LLC
Author-email: googleapis-packages@google.com
License: Apache 2.0
Location: /usr/local/lib/python3.11/dist-packages
Requires: google-ai-generativelanguage, google-api-core, google-api-python-client, google-auth, protobuf, pydantic, tqdm, typing-extensions
Required-by: 


In [30]:
import google.generativeai as genai

# Konfiguration des API-Schlüssels
genai.configure(api_key= GeminiAPIKey2)

# Modell auswählen
model = genai.GenerativeModel('gemini-pro')


def generate_answer(query):
    relevant_chunks = get_search_results(index, query, chunks, k=10)
    context = "\n".join(relevant_chunks)
    prompt = f"Beantworte die Frage basierend auf diesem Kontext:\n\n{context}\n\nFrage: {query}\nAntwort:"

    # Modell auswählen
    model = genai.GenerativeModel('gemini-pro')

    # API-Aufruf an Gemini
    # API-Aufruf mit Optionen
    response = model.generate_content(
        prompt,
        generation_config=genai.types.GenerationConfig(
            max_output_tokens=50,
            temperature=0.7,
        )
    )
    return response.text  # Gibt den generierten Text zurück

In [31]:
frage = "Wie hoch ist der gesetzliche Mindestlohn?"
antwort = generate_answer(frage)
print("Antwort:", antwort)


[{'chunk': 'vom \nausländischen Arbeitgeber ins Inland entsandt werden oder die im Inland rekrutiert wer-\nden (§\xa02 Ziff. 9\xa0MiLoG). Die Höhe des gesetzlichen Mindestlohns ist in der Mindestlohn-\nanpassungsverordnung geregelt. Sie variiert je nach den Entscheidungen des parlamenta-\nrischen Gesetzgebers. Seit 1.1.2022 beträgt er 9,82 EUR je Zeitstunde und erhöht sich ab \n1.7.2022 auf 10,45 EUR.\xa0Anrechenbar auf den Mindestlohn sind Zuschläge oder Zulagen, \nallgemein jede Form der finanziellen Zuwendung für gelei', 'distance': 0.9574645}, {'chunk': 'gleichsweise tolerant und hat auch bereits mehrtägige Streiks, die Großteile des Bahn\xad\nverkehrs lahmlegten, als verhältnismäßig angesehen. Für Gewerkschaften sind diese Form \ndes „Verpassens von Nadelstichen“ an die Arbeitgeberseite vergleichsweise effektiv, \njedenfalls auch billiger und leichter zu organisieren als ein „richtiger“ Streik. Es ist weder \neine Urabstimmung erforderlich noch müssen Streikgelder gezahlt werden (