In [1]:
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import OpenAIEmbeddings
import numpy as np
import time
from Utils.embedding import plot_results


load_dotenv()

test_text_embeddings = [
        "Für was steht UNA?",
        "Für was steht UNH?",
        "Für was steht DTM?",
        "Für was steht RFF?",
        "Für was steht NAD?",
        "Für was steht LIN?",
        "Für was steht BGM?",
        "Was ist Bezeichnung für Trennzeichen?",
        "Was ist Bezeichnung für Gesetzlich vorgeschriebener Text?",
        "Was ist Bezeichnung für Nachrichtendatum?",
    ]

Messung für "text-embedding-3-large" durchläufen mit 10 Fragen chunk_size=1

In [2]:
embeddings = OpenAIEmbeddings(model="text-embedding-3-large", chunk_size=1)
t1 = time.time()
for i in range(1):

    results = []
    loader = PyPDFLoader(
        "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",
        extract_images=False,
    )
    pages = loader.load_and_split()
    faiss_index = FAISS.from_documents(pages, embeddings)
print(f"::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::")
print(faiss_index.similarity_search_with_score(test_text_embeddings[0], 1)[0][0].page_content)
print(f"Das erzeugen der Embeddings hat {time.time() - t1} Sekunden gedauert.")

  "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
Segmente  
 
Bez = Objekt-Bezeichner, Nr = Laufende Segmentnumme r im Guide, MaxWdh = Maximale Wiederholung der Segm ente/Gruppen  
St = Status, M=Muss, C=Kann, R=Gefordert, O=Optiona l, D=Abhängig  von , A=Empfohlen, N=Nicht benutzt  
  Seite:12 /96  
 
 Zähler     Nr  Bez   St  MaxWdh  Ebene  Name  
  
 0000 1   UNA   O 1 0  Trennzeichen-Vorgabe  
  
 Standard  Implementierung  
Bez  Name  St  Format   St  Format Beispiel  Anwendung / Bemerkung  
UNA       UNA  
UNA1  Gruppendatenelement-  
Trennzeichen  M an1   M an1 : Doppelpunkt  
UNA2  Segment-Bezeichner- und  
Datenelement -Trennzeichen  M an1   M an1 + Pluszeichen  
UNA3  Dezimalzeichen  M an1   M an1  . Punkt  
UNA4  Freigabezeichen  M an1   M an1  ? Fragezeichen  
UNA5  Reserviert für spätere  
Verwendung  M an1   M an1  Leerzeichen  
UNA6  Segment -Endezeichen  M an1   M an1  ' Hochkomma  
 Beispiel  UNA:+.? '
Das erzeugen der Embeddings hat 74.28082013130188 Sekun

Messung für "text-embedding-3-small" durchläufen mit 10 Fragen chunk_size=2

In [3]:
embeddings = OpenAIEmbeddings(model="text-embedding-3-large", chunk_size=2)
t1 = time.time()
for i in range(1):

    results = []
    loader = PyPDFLoader(
        "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",
        extract_images=False,
    )
    pages = loader.load_and_split()
    faiss_index = FAISS.from_documents(pages, embeddings)
print(f"::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::")
print(faiss_index.similarity_search_with_score(test_text_embeddings[0], 1)[0][0].page_content)
print(f"Das erzeugen der Embeddings hat {time.time() - t1} Sekunden gedauert.")

  "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
Segmente  
 
Bez = Objekt-Bezeichner, Nr = Laufende Segmentnumme r im Guide, MaxWdh = Maximale Wiederholung der Segm ente/Gruppen  
St = Status, M=Muss, C=Kann, R=Gefordert, O=Optiona l, D=Abhängig  von , A=Empfohlen, N=Nicht benutzt  
  Seite:12 /96  
 
 Zähler     Nr  Bez   St  MaxWdh  Ebene  Name  
  
 0000 1   UNA   O 1 0  Trennzeichen-Vorgabe  
  
 Standard  Implementierung  
Bez  Name  St  Format   St  Format Beispiel  Anwendung / Bemerkung  
UNA       UNA  
UNA1  Gruppendatenelement-  
Trennzeichen  M an1   M an1 : Doppelpunkt  
UNA2  Segment-Bezeichner- und  
Datenelement -Trennzeichen  M an1   M an1 + Pluszeichen  
UNA3  Dezimalzeichen  M an1   M an1  . Punkt  
UNA4  Freigabezeichen  M an1   M an1  ? Fragezeichen  
UNA5  Reserviert für spätere  
Verwendung  M an1   M an1  Leerzeichen  
UNA6  Segment -Endezeichen  M an1   M an1  ' Hochkomma  
 Beispiel  UNA:+.? '
Das erzeugen der Embeddings hat 54.97012448310852 Sekun

Messung für "text-embedding-ada-002" durchläufen mit 10 Fragen chunk_size=2

In [5]:
embeddings = OpenAIEmbeddings(model="text-embedding-3-large", chunk_size=3)
t1 = time.time()
for i in range(1):

    results = []
    loader = PyPDFLoader(
        "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",
        extract_images=False,
    )
    pages = loader.load_and_split()
    faiss_index = FAISS.from_documents(pages, embeddings)
print(f"::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::")
print(
    faiss_index.similarity_search_with_score(test_text_embeddings[0], 1)[0][
        0
    ].page_content
)
print(f"Das erzeugen der Embeddings hat {time.time() - t1} Sekunden gedauert.")

  "pdfs\MIG_VDA4938T2_eingehend_v.2.6_DE.pdf",


::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
Segmente  
 
Bez = Objekt-Bezeichner, Nr = Laufende Segmentnumme r im Guide, MaxWdh = Maximale Wiederholung der Segm ente/Gruppen  
St = Status, M=Muss, C=Kann, R=Gefordert, O=Optiona l, D=Abhängig  von , A=Empfohlen, N=Nicht benutzt  
  Seite:12 /96  
 
 Zähler     Nr  Bez   St  MaxWdh  Ebene  Name  
  
 0000 1   UNA   O 1 0  Trennzeichen-Vorgabe  
  
 Standard  Implementierung  
Bez  Name  St  Format   St  Format Beispiel  Anwendung / Bemerkung  
UNA       UNA  
UNA1  Gruppendatenelement-  
Trennzeichen  M an1   M an1 : Doppelpunkt  
UNA2  Segment-Bezeichner- und  
Datenelement -Trennzeichen  M an1   M an1 + Pluszeichen  
UNA3  Dezimalzeichen  M an1   M an1  . Punkt  
UNA4  Freigabezeichen  M an1   M an1  ? Fragezeichen  
UNA5  Reserviert für spätere  
Verwendung  M an1   M an1  Leerzeichen  
UNA6  Segment -Endezeichen  M an1   M an1  ' Hochkomma  
 Beispiel  UNA:+.? '
Das erzeugen der Embeddings hat 51.22849369049072 Sekun