Untuk menjalankan noteboooks berikut, jika anda belum melakukannya, anda perlu melaksanakan model yang menggunakan `text-embedding-ada-002` sebagai model asas dan tetapkan nama pelaksanaan di dalam fail .env sebagai `AZURE_OPENAI_EMBEDDINGS_ENDPOINT`


In [None]:
import os
import pandas as pd
import numpy as np
from openai import AzureOpenAI
from dotenv import load_dotenv

load_dotenv()

client = AzureOpenAI(
  api_key=os.environ['AZURE_OPENAI_API_KEY'],  # this is also the default, it can be omitted
  api_version = "2023-05-15"
  )

model = os.environ['AZURE_OPENAI_EMBEDDINGS_DEPLOYMENT']

SIMILARITIES_RESULTS_THRESHOLD = 0.75
DATASET_NAME = "../embedding_index_3m.json"

Seterusnya, kita akan memuatkan Indeks Pengekalan ke dalam Dataframe Pandas. Indeks Pengekalan disimpan dalam fail JSON yang dipanggil `embedding_index_3m.json`. Indeks Pengekalan mengandungi Pengekalan untuk setiap transkrip YouTube sehingga lewat Okt 2023.


In [None]:
def load_dataset(source: str) -> pd.core.frame.DataFrame:
    # Load the video session index
    pd_vectors = pd.read_json(source)
    return pd_vectors.drop(columns=["text"], errors="ignore").fillna("")

Seterusnya, kita akan mencipta satu fungsi yang dipanggil `get_videos` yang akan mencari Indeks Embedding untuk pertanyaan yang diberikan. Fungsi ini akan memulangkan 5 video teratas yang paling serupa dengan pertanyaan tersebut. Fungsi ini berfungsi seperti berikut:

1. Mula-mula, satu salinan Indeks Embedding akan dibuat.
2. Seterusnya, Embedding untuk pertanyaan dikira menggunakan OpenAI Embedding API.
3. Kemudian, satu lajur baru dicipta dalam Indeks Embedding yang dinamakan `similarity`. Lajur `similarity` ini mengandungi nilai keserupaan kosinus antara Embedding pertanyaan dan Embedding untuk setiap segmen video.
4. Selepas itu, Indeks Embedding ditapis menggunakan lajur `similarity`. Indeks Embedding hanya akan mengekalkan video yang mempunyai nilai keserupaan kosinus lebih besar atau sama dengan 0.75.
5. Akhir sekali, Indeks Embedding disusun mengikut lajur `similarity` dan 5 video teratas akan dipulangkan.


In [None]:
def cosine_similarity(a, b):
    if len(a) > len(b):
        b = np.pad(b, (0, len(a) - len(b)), 'constant')
    elif len(b) > len(a):
        a = np.pad(a, (0, len(b) - len(a)), 'constant')
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

def get_videos(
    query: str, dataset: pd.core.frame.DataFrame, rows: int
) -> pd.core.frame.DataFrame:
    # create a copy of the dataset
    video_vectors = dataset.copy()

    # get the embeddings for the query    
    query_embeddings = client.embeddings.create(input=query, model=model).data[0].embedding

    # create a new column with the calculated similarity for each row
    video_vectors["similarity"] = video_vectors["ada_v2"].apply(
        lambda x: cosine_similarity(np.array(query_embeddings), np.array(x))
    )

    # filter the videos by similarity
    mask = video_vectors["similarity"] >= SIMILARITIES_RESULTS_THRESHOLD
    video_vectors = video_vectors[mask].copy()

    # sort the videos by similarity
    video_vectors = video_vectors.sort_values(by="similarity", ascending=False).head(
        rows
    )

    # return the top rows
    return video_vectors.head(rows)

Fungsi ini sangat mudah, ia hanya mencetak hasil carian.


In [None]:
def display_results(videos: pd.core.frame.DataFrame, query: str):
    def _gen_yt_url(video_id: str, seconds: int) -> str:
        """convert time in format 00:00:00 to seconds"""
        return f"https://youtu.be/{video_id}?t={seconds}"

    print(f"\nVideos similar to '{query}':")
    for _, row in videos.iterrows():
        youtube_url = _gen_yt_url(row["videoId"], row["seconds"])
        print(f" - {row['title']}")
        print(f"   Summary: {' '.join(row['summary'].split()[:15])}...")
        print(f"   YouTube: {youtube_url}")
        print(f"   Similarity: {row['similarity']}")
        print(f"   Speakers: {row['speaker']}")

1. Pertama, Indeks Embedding dimuat ke dalam Dataframe Pandas.
2. Seterusnya, pengguna diminta untuk memasukkan pertanyaan.
3. Kemudian fungsi `get_videos` dipanggil untuk mencari Indeks Embedding berdasarkan pertanyaan tersebut.
4. Akhir sekali, fungsi `display_results` dipanggil untuk memaparkan hasil kepada pengguna.
5. Pengguna kemudian akan diminta untuk memasukkan pertanyaan lain. Proses ini akan berterusan sehingga pengguna memasukkan `exit`.

![](../../../../translated_images/notebook-search.1e320b9c7fcbb0bc1436d98ea6ee73b4b54ca47990a1c952b340a2cadf8ac1ca.ms.png)

Anda akan diminta untuk memasukkan pertanyaan. Masukkan pertanyaan dan tekan enter. Aplikasi akan memaparkan senarai video yang berkaitan dengan pertanyaan anda. Aplikasi juga akan memberikan pautan ke bahagian dalam video di mana jawapan kepada soalan tersebut berada.

Berikut adalah beberapa contoh pertanyaan yang boleh anda cuba:

- Apakah itu Azure Machine Learning?
- Bagaimana rangkaian neural konvolusi berfungsi?
- Apakah itu rangkaian neural?
- Bolehkah saya menggunakan Jupyter Notebooks dengan Azure Machine Learning?
- Apakah itu ONNX?


In [None]:
pd_vectors = load_dataset(DATASET_NAME)

# get user query from imput
while True:
    query = input("Enter a query: ")
    if query == "exit":
        break
    videos = get_videos(query, pd_vectors, 5)
    display_results(videos, query)


---

**Penafian**:  
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI [Co-op Translator](https://github.com/Azure/co-op-translator). Walaupun kami berusaha untuk memastikan ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sah. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.
