# Gemini API: 向量化嵌入快速入門


<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/google-gemini/gemini-api-cookbook/blob/main/quickstarts/Embeddings.zh.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
</table>


Gemini API 會產生最先進的文字詞嵌入。嵌入是一串浮點數，用來表示詞彙、句子或段落的含義。你可以在許多下遊應用程式中使用詞嵌入，例如文件搜尋。

此筆記本提供快速程式碼範例，說明如何開始產生詞嵌入。


In [None]:
!pip install -U -q google.generativeai # Install the Python SDK

In [None]:
import google.generativeai as genai

## 設定你的 API 金鑰

要執行以下Cell，必須將你的 API 金鑰儲存在稱為 `GOOGLE_API_KEY` 的 Colab 機密中。如果你還沒有 API 金鑰，或不確定如何建立 Colab 機密，請參閱 [驗證](https://github.com/google-gemini/gemini-api-cookbook/blob/main/quickstarts/Authentication.ipynb) 的範例。


In [None]:
from google.colab import userdata
GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')
genai.configure(api_key=GOOGLE_API_KEY)

## 嵌入內容

搭配 `models/embedding-001` 模型呼叫 `embed_content` 方法以產生文本嵌入。


In [None]:
text = "Hello world"
result = genai.embed_content(model="models/embedding-001", content=text)

# Print just a part of the embedding to keep the output manageable
print(str(result['embedding'])[:50], '... TRIMMED]')

[0.04703258, -0.040190056, -0.029026963, -0.026809 ... TRIMMED]


In [None]:
print(len(result['embedding'])) # The embeddings have 768 dimensions

768


## 批次內容嵌入

你可以使用單一 API 呼叫，來有效率地嵌入多個提示字串的清單。


In [None]:
result = genai.embed_content(
    model="models/embedding-001",
    content=[
      'What is the meaning of life?',
      'How much wood would a woodchuck chuck?',
      'How does the brain work?'])

for embedding in result['embedding']:
  print(str(embedding)[:50], '... TRIMMED]')

[-0.0002620658, -0.05592018, -0.012463195, -0.0206 ... TRIMMED]
[-0.0151748555, -0.050790474, -0.032357067, -0.058 ... TRIMMED]
[0.025271073, -0.064161226, -0.025818137, -0.00611 ... TRIMMED]


## 使用 `task_type` 為模型提供有關你將如何使用內嵌式提示


讓我們來看看 `embed_content` 方法會接收所有哪些參數。總共有四個：

* `model`: 必填。必須是 `models/embedding-001`。
* `content`: 必填。你想要嵌入的內容。
*`task_type`: 選填。會將嵌入運用在的任務類型。請見下方，了解可能的值。
* `title`: 選填。僅當你的任務類型是 `retrieval_document` (或 `document`) 時，你才應該設定此參數。

`task_type` 是選填參數，它會向 API 提供提示，說明你打算如何在應用程式中使用嵌入。

以下會接受 `task_type` 參數：

* `unspecified`: 如果你未設定值，它會預設為 `retrieval_query`。
* `retrieval_query` (或 `query`)：所給定的文字是在搜尋/擷取設定中的查詢。
* `retrieval_document` (或 `document`)：所給定的文字是來自於正在搜尋的語料庫的文件。另外，請再使用文件標題設定 `title` 參數 (選填)。
* `semantic_similarity` (或 `similarity`)：所給定的文字會用於語意文字相似性 (STS)。
* `classification`: 將對所給定的文字進行分類。
* `clustering`: 嵌入會用於分群。


In [None]:
# Notice the API returns different embeddings depending on `task_type`
result1 = genai.embed_content(
    model="models/embedding-001",
    content="Hello world")

result2 = genai.embed_content(
    model="models/embedding-001",
    content="Hello world",
    task_type="document",)

print(str(result1['embedding'])[:50], '... TRIMMED]')
print(str(result2['embedding'])[:50], '... TRIMMED]')

[0.04703258, -0.040190056, -0.029026963, -0.026809 ... TRIMMED]
[0.05889487, -0.004501751, -0.067298084, -0.012740 ... TRIMMED]


##了解更多資訊

查看實戰指南中的這些範例，進一步了解你可以利用內嵌式執行哪些操作：

* [搜尋重新排序](https://github.com/google-gemini/gemini-api-cookbook/blob/main/examples/Search_reranking_using_embeddings.ipynb)：使用來自 Gemini API 的內嵌式，重新排序 Wiki 百科的搜尋結果。

* [使用內嵌式偵測異常](https://github.com/google-gemini/gemini-api-cookbook/blob/main/examples/Anomaly_detection_with_embeddings.ipynb)：使用來自 Gemini API 的內嵌式，偵測資料集中潛在的異常值。

* [訓練文本分類器](https://github.com/google-gemini/gemini-api-cookbook/blob/main/examples/Classify_text_with_embeddings.ipynb)：使用來自 Gemini API 的內嵌式，訓練模型根據主題，分類不同類型的新聞動態貼文。

* 內嵌式在向量資料庫中也有許多應用程式。查看此 [與 Chroma DB 的範例](https://github.com/google/generative-ai-docs/blob/main/examples/gemini/python/vectordb_with_chroma/vectordb_with_chroma.ipynb)。

你可在 ai.google.dev 中的 [內嵌式指南](https://ai.google.dev/docs/embeddings_guide)進一步了解內嵌式。

* 你可在 [此處](https://ai.google.dev/tutorials/python_quickstart#use_embeddings)找到使用 Python SDK 的其他程式碼範例。

* 你還可在 [embedContent](https://ai.google.dev/api/rest/v1/models/embedContent)和 [batchEmbedContents](https://ai.google.dev/api/rest/v1/models/batchEmbedContents) 的 API 參考中，找到進一步詳細資料。
