Um die folgenden Notebooks auszuführen, müssen Sie, falls noch nicht geschehen, ein Modell bereitstellen, das `text-embedding-ada-002` als Basismodell verwendet, und den Bereitstellungsnamen in der .env-Datei als `AZURE_OPENAI_EMBEDDINGS_ENDPOINT` festlegen.


In [None]:
import os
import pandas as pd
import numpy as np
from openai import AzureOpenAI
from dotenv import load_dotenv

load_dotenv()

client = AzureOpenAI(
  api_key=os.environ['AZURE_OPENAI_API_KEY'],  # this is also the default, it can be omitted
  api_version = "2023-05-15"
  )

model = os.environ['AZURE_OPENAI_EMBEDDINGS_DEPLOYMENT']

SIMILARITIES_RESULTS_THRESHOLD = 0.75
DATASET_NAME = "../embedding_index_3m.json"

Als Nächstes laden wir den Embedding-Index in ein Pandas Dataframe. Der Embedding-Index ist in einer JSON-Datei namens `embedding_index_3m.json` gespeichert. Der Embedding-Index enthält die Embeddings für jedes der YouTube-Transkripte bis Ende Oktober 2023.


In [None]:
def load_dataset(source: str) -> pd.core.frame.DataFrame:
    # Load the video session index
    pd_vectors = pd.read_json(source)
    return pd_vectors.drop(columns=["text"], errors="ignore").fillna("")

Als Nächstes erstellen wir eine Funktion namens `get_videos`, die im Embedding-Index nach der Abfrage sucht. Die Funktion gibt die 5 Videos zurück, die der Abfrage am ähnlichsten sind. Die Funktion funktioniert wie folgt:

1. Zuerst wird eine Kopie des Embedding-Index erstellt.
2. Als Nächstes wird das Embedding für die Abfrage mit der OpenAI Embedding API berechnet.
3. Dann wird im Embedding-Index eine neue Spalte namens `similarity` erstellt. Die Spalte `similarity` enthält die Kosinusähnlichkeit zwischen dem Abfrage-Embedding und dem Embedding für jedes Videosegment.
4. Anschließend wird der Embedding-Index anhand der Spalte `similarity` gefiltert. Der Embedding-Index wird so gefiltert, dass nur Videos enthalten sind, deren Kosinusähnlichkeit größer oder gleich 0,75 ist.
5. Schließlich wird der Embedding-Index nach der Spalte `similarity` sortiert und die Top 5 Videos werden zurückgegeben.


In [None]:
def cosine_similarity(a, b):
    if len(a) > len(b):
        b = np.pad(b, (0, len(a) - len(b)), 'constant')
    elif len(b) > len(a):
        a = np.pad(a, (0, len(b) - len(a)), 'constant')
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

def get_videos(
    query: str, dataset: pd.core.frame.DataFrame, rows: int
) -> pd.core.frame.DataFrame:
    # create a copy of the dataset
    video_vectors = dataset.copy()

    # get the embeddings for the query    
    query_embeddings = client.embeddings.create(input=query, model=model).data[0].embedding

    # create a new column with the calculated similarity for each row
    video_vectors["similarity"] = video_vectors["ada_v2"].apply(
        lambda x: cosine_similarity(np.array(query_embeddings), np.array(x))
    )

    # filter the videos by similarity
    mask = video_vectors["similarity"] >= SIMILARITIES_RESULTS_THRESHOLD
    video_vectors = video_vectors[mask].copy()

    # sort the videos by similarity
    video_vectors = video_vectors.sort_values(by="similarity", ascending=False).head(
        rows
    )

    # return the top rows
    return video_vectors.head(rows)

Diese Funktion ist sehr einfach, sie gibt nur die Ergebnisse der Suchanfrage aus.


In [None]:
def display_results(videos: pd.core.frame.DataFrame, query: str):
    def _gen_yt_url(video_id: str, seconds: int) -> str:
        """convert time in format 00:00:00 to seconds"""
        return f"https://youtu.be/{video_id}?t={seconds}"

    print(f"\nVideos similar to '{query}':")
    for _, row in videos.iterrows():
        youtube_url = _gen_yt_url(row["videoId"], row["seconds"])
        print(f" - {row['title']}")
        print(f"   Summary: {' '.join(row['summary'].split()[:15])}...")
        print(f"   YouTube: {youtube_url}")
        print(f"   Similarity: {row['similarity']}")
        print(f"   Speakers: {row['speaker']}")

1. Zuerst wird der Embedding-Index in ein Pandas Dataframe geladen.  
2. Als Nächstes wird der Benutzer aufgefordert, eine Abfrage einzugeben.  
3. Dann wird die Funktion `get_videos` aufgerufen, um den Embedding-Index nach der Abfrage zu durchsuchen.  
4. Schließlich wird die Funktion `display_results` aufgerufen, um die Ergebnisse dem Benutzer anzuzeigen.  
5. Der Benutzer wird dann aufgefordert, eine weitere Abfrage einzugeben. Dieser Vorgang wird fortgesetzt, bis der Benutzer `exit` eingibt.  

![](../../../../translated_images/de/notebook-search.1e320b9c7fcbb0bc.webp)  

Sie werden aufgefordert, eine Abfrage einzugeben. Geben Sie eine Abfrage ein und drücken Sie die Eingabetaste. Die Anwendung gibt eine Liste von Videos zurück, die für die Abfrage relevant sind. Die Anwendung gibt auch einen Link zu der Stelle im Video zurück, an der die Antwort auf die Frage zu finden ist.  

Hier sind einige Abfragen zum Ausprobieren:  

- Was ist Azure Machine Learning?  
- Wie funktionieren konvolutionale neuronale Netze?  
- Was ist ein neuronales Netzwerk?  
- Kann ich Jupyter Notebooks mit Azure Machine Learning verwenden?  
- Was ist ONNX?


In [None]:
pd_vectors = load_dataset(DATASET_NAME)

# get user query from input
while True:
    query = input("Enter a query: ")
    if query == "exit":
        break
    videos = get_videos(query, pd_vectors, 5)
    display_results(videos, query)

---

<!-- CO-OP TRANSLATOR DISCLAIMER START -->
**Haftungsausschluss**:  
Dieses Dokument wurde mit dem KI-Übersetzungsdienst [Co-op Translator](https://github.com/Azure/co-op-translator) übersetzt. Obwohl wir uns um Genauigkeit bemühen, beachten Sie bitte, dass automatisierte Übersetzungen Fehler oder Ungenauigkeiten enthalten können. Das Originaldokument in seiner Ursprungssprache gilt als maßgebliche Quelle. Für wichtige Informationen wird eine professionelle menschliche Übersetzung empfohlen. Wir übernehmen keine Haftung für Missverständnisse oder Fehlinterpretationen, die aus der Nutzung dieser Übersetzung entstehen.
<!-- CO-OP TRANSLATOR DISCLAIMER END -->
