# LangChain: Embedding

### Install package

In [1]:
!pip install -q --upgrade langchain langchain-community langchain-openai langchain-core chromadb faiss-cpu
# 安裝langchain + google or openai
!pip install -q "langchain[google-genai]" "langchain[openai]" tiktoken

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/67.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m93.8/93.8 kB[0m [31m6.8 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m46.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.9/81.9 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m471.2/471.2 kB[0m [31m26.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.8/20.8 MB[0m [31m55.5 MB/s[0m eta [36m0:00:00

### 設定

In [2]:
from langchain.chat_models import init_chat_model
from langchain.messages import HumanMessage, AIMessage, SystemMessage
from langchain_core.output_parsers import (
    JsonOutputParser,
    CommaSeparatedListOutputParser,
)
from langchain_core.output_parsers import JsonOutputParser, StrOutputParser
from langchain_core.prompts import (
    PromptTemplate, # 提示詞模板
    ChatPromptTemplate,
    FewShotPromptTemplate,
    FewShotChatMessagePromptTemplate,
)
from langchain_classic.chains import (
    LLMChain,
    SimpleSequentialChain,
    RouterChain,
)
# 用於在對話中運行自定義邏輯。例如，你可以使用它來處理用戶輸入前的一些預處理操作，或者在生成回應後進行一些後處理操作。
from langchain_core.runnables import RunnableLambda
from google.colab import userdata
from rich.pretty import pprint
import os

# 設定API Key
os.environ["GOOGLE_API_KEY"] = userdata.get("GOOGLE_API_KEY")
# 建立模型
model = init_chat_model("google_genai:gemini-2.5-flash-lite")

## **3. Text embedding models**

Embeddings 類別 (Class) 是設計用於與文本嵌入模型交互，為所有嵌入模型提供者（OpenAI、Cohere、Hugging Face 等）提供標準介面。

Embeddings 創建一段文本的向量表示。這意味著我們可以在向量空間中表示文本，並執行語義搜尋之類的操作，在向量空間中找到最相似的文本片段。

LangChain 中的 Embeddings 類別的基底提供了兩種方法：一種用於嵌入文件，另一種用於嵌入查詢 (query)。 前者採用多個文本 (text) 作為輸入，而後者僅可輸入單一文本 (text)。 將它們作為兩種不同方法是因為某些嵌入提供者對兩者有不同的嵌入方法。

![Introducing text and code embeddings](<https://cdn.openai.com/embeddings/draft-20220124e/vectors-mobile-1.svg> 'Introducing text and code embeddings')

source：[Introducing text and code embeddings](<https://openai.com/blog/introducing-text-and-code-embeddings> 'Introducing text and code embeddings')

**API Reference: [OpenAIEmbeddings](<https://api.python.langchain.com/en/latest/embeddings/langchain_openai.embeddings.base.OpenAIEmbeddings.html> 'OpenAIEmbeddings')**

In [3]:
from langchain_openai import OpenAIEmbeddings
# 利用OpenAI服務建立embedding model
OPENAI_KEY = userdata.get("OPENAI_API_KEY")
embeddings_model = OpenAIEmbeddings(openai_api_key=OPENAI_KEY)

### **3.1 embed_documents**

嵌入文字列表
使用 `.embed_documents` 嵌入字串清單。

In [4]:
# 將字串輸入embedding model取得embeddings
embedded_doc = embeddings_model.embed_documents(
    [
        'Hi there!',
        'Oh, hello!',
        'What\'s your name?',
        'My friends call me World',
        'Hello World!'
    ]
)

In [5]:
for embedding in embedded_doc:
    print(len(embedding)) # embedding 長度

1536
1536
1536
1536
1536


In [6]:
# 'Hi there!' embedding
embedded_doc[0]

[-0.020325319841504097,
 -0.007096723187714815,
 -0.022839006036520004,
 -0.026279456913471222,
 -0.037527572363615036,
 0.02163294516503811,
 -0.006144568789750338,
 -0.008975640870630741,
 0.008524954319000244,
 -0.016618264839053154,
 0.02683805488049984,
 -0.007356978487223387,
 -0.013545980677008629,
 -0.024133935570716858,
 0.006512735038995743,
 -0.020198365673422813,
 0.02426088973879814,
 -0.014739347621798515,
 0.016427835449576378,
 -0.01647861674427986,
 -0.007204633671790361,
 -0.008080615662038326,
 0.004694120492786169,
 -0.002066174754872918,
 -0.014802824705839157,
 -0.005989050026983023,
 -0.0020868047140538692,
 -0.02301674149930477,
 0.019855590537190437,
 -0.031535349786281586,
 0.012860430404543877,
 0.011622629128396511,
 -0.008518606424331665,
 -0.009477108716964722,
 -0.001813853858038783,
 -0.027422042563557625,
 -0.008264699019491673,
 0.002078870078548789,
 0.024006983265280724,
 -0.008734428323805332,
 0.02349916659295559,
 0.0009116876753978431,
 0.0097691

### **3.2 embed_query**

嵌入單一查詢
使用“.embed_query”嵌入單一文字片段（例如，為了與其他嵌入的文字片段進行比較）。

In [7]:
embedded_query = embeddings_model.embed_query('Hi there~~~~')
print("embedding長度", len(embedded_query))

embedding長度 1536


## **4. Vector stores**

儲存和搜尋非結構化資料的最常見方法之一是嵌入它並儲存產生的嵌入向量，然後在查詢時嵌入非結構化文本 (稱為 query) 並檢索與 query「最相似」的嵌入向量。 向量儲存 (Vector stores) 負責儲存嵌入資料並為執行向量搜尋。

source：[Vector stores](<https://python.langchain.com/docs/modules/data_connection/vectorstores/> 'Vector stores')

以下範例為向量儲存 (Vector stores) 相關的基本功能。 使用向量儲存 (Vector stores) 的關鍵部分是建立要放入其中的向量，這通常是透過嵌入來創建的。 因此，建議您在深入研究之前熟悉 [文本嵌入模型](<https://python.langchain.com/v0.2/docs/how_to/embed_text/> 'embedding model interfaces')。

有許多不錯的的向量儲存 (Vector stores) 選擇，以下是一些免費、開源且完全在本地上運行的選擇：
- Chroma
- FAISS
- Lance

下面以 **Chroma** 和 **FAISS** 作為範例。

### **4.1 chromadb**

使用 `chroma` 向量資料庫，它作為 library 在本機電腦上運行。

In [8]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters  import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings

from langchain_community.vectorstores import Chroma
from chromadb.errors import InvalidDimensionException

In [9]:
# 讀取文件使用splitter切割成chunks
raw_documents = TextLoader('state_of_the_union.txt').load()

text_splitter = CharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
    add_start_index = True,
)

documents = text_splitter.split_documents(raw_documents)

In [13]:
pprint(documents), print(len(documents))

90


(None, None)

In [14]:
# 利用OpenAI服務建立embedding model
embeddings_model = OpenAIEmbeddings(openai_api_key=OPENAI_KEY)
# 將每個chunks轉換成embeddings儲存至chroma db
db = Chroma.from_documents(documents, embedding=embeddings_model)

**API Reference: [Chroma](<https://api.python.langchain.com/en/latest/vectorstores/langchain_community.vectorstores.chroma.Chroma.html> 'Chroma')**

#### **4.1.1 Similarity search**

In [15]:
query = 'What did the president say about Ketanji Brown Jackson'
# 相似度搜尋
docs = db.similarity_search(query)
pprint(docs)
# 最接近的chunk內容
print(docs[0].page_content)

And I did that 4 days ago, when I nominated Circuit Court of Appeals Judge Ketanji Brown Jackson. One of our nation’s top legal minds, who will continue Justice Breyer’s legacy of excellence.


### **4.2 FAISS**

使用 `FAISS` 向量資料庫，利用 Facebook AI 相似性搜尋 (Facebook AI Similarity Search, FAISS) 函式庫。

In [18]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters  import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings

from langchain_community.vectorstores import FAISS

In [19]:
# 讀取文件使用splitter切割成chunks
raw_documents = TextLoader('state_of_the_union.txt').load()

text_splitter = CharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
    length_function = len,
    add_start_index = True,
)

documents = text_splitter.split_documents(raw_documents)

In [20]:
# 將每個chunks轉換成embeddings儲存至FAISS db
db = FAISS.from_documents(documents, embedding=embeddings_model)

**API Reference: [FAISS](<https://api.python.langchain.com/en/latest/vectorstores/langchain_community.vectorstores.faiss.FAISS.html> 'FAISS')**

#### **4.2.1 Similarity search**

In [21]:
query = 'What did the president say about Ketanji Brown Jackson'
docs = db.similarity_search(query)
pprint(docs)

### **Practice**

請使用資料做成 Document 後，放入 Vector Store 當中，並嘗試查詢與問題最相關的向量。

In [None]:
chroma_db = Chroma.from_documents(documents, embedding=embeddings_model)
faiss_db = FAISS.from_documents(documents, embedding=embeddings_model)

query = "TODO"

docs_chroma = chroma_db.similarity_search(query)
docs_faiss = faiss_db.similarity_search(query)

pprint(docs_chroma)
pprint(docs_faiss)

## **5. Retrievers**

檢索器 (Retrievers) 是一個接口，它根據非結構化的 query 返回文件。 它比向量存儲 (Vector store) 更通用。 檢索器 (Retrievers) 不需要能夠儲存文件，只需返回（或檢索）它們即可。 向量儲存 (Vector store) 可以用作檢索器 (Retrievers) 的骨幹，但也有其他類型的檢索器 (Retrievers)。
檢索器 (Retrievers) 實作 Runnable 接口，這是 [LangChain 表達式語言 LangChain Expression Language (LCEL)](<https://python.langchain.com/docs/expression_language/> 'LangChain Expression Language (LCEL)') 的基本構建塊 (block)。 這意味著它們支援 `invoke`、`ainvoke`、`stream`、`astream`、`batch`、`abatch`、`astream_log` 的調用方法。

檢索器接受字串查詢作為輸入，並傳回 `Documents` 清單作為輸出。

在此範例中，我們將使用支援 Chroma 的檢索器 (Retrievers)。

In [22]:
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters  import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings

from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores import FAISS

In [23]:
raw_documents = TextLoader('state_of_the_union.txt').load()

text_splitter = CharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap  = 50,
    length_function = len,
    add_start_index = True,
)

documents = text_splitter.split_documents(raw_documents)
pprint(documents[:3])

In [24]:
# 建立chroma faiss 資料庫
Chroma().delete_collection()
chroma_db = Chroma.from_documents(documents, embedding=embeddings_model)

faiss_db = FAISS.from_documents(documents, embedding=embeddings_model)

  Chroma().delete_collection()


### **5.1 Simple Retriever**

Simple Retriever 是 Langchain 提供的一個基本檢索器 (Retrievers)，用於查詢向量儲存 (Vector store)。

source：[Deep Dive into the Internals of Langchain Vector Store Retriever](<https://rito.hashnode.dev/deep-dive-into-the-internals-of-langchain-vector-store-retriever> 'Deep Dive into the Internals of Langchain Vector Store Retriever'):

這裡我們建立了一個 FAISS DB 檢索器，其中 `k` 值為 2。`k factor` 決定檢索器應傳回多少文件。可以使用 `get_relevant_documents` 檢索文件。以下是檢索到的兩份文件：

In [32]:
simple_retriever

VectorStoreRetriever(tags=['FAISS', 'OpenAIEmbeddings'], vectorstore=<langchain_community.vectorstores.faiss.FAISS object at 0x7973155da1e0>, search_kwargs={'k': 2})

In [25]:
# 取得Chroma檢索器
simple_retriever = chroma_db.as_retriever(search_kwargs={'k': 2})
question = 'What did the president say about technology?'
result = simple_retriever.invoke(question)

pprint(result)

In [26]:
# 取得FAISS檢索器
simple_retriever = faiss_db.as_retriever(search_kwargs={'k': 2})
question = 'What did the president say about technology?'
result = simple_retriever.invoke(question)

pprint(result)

除了上述的方式，LangChain 中提供了不同的檢索器 (Retriever)：
- [MultiQueryRetriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/MultiQueryRetriever> 'MultiQueryRetriever')
- [Contextual compression](<https://python.langchain.com/docs/modules/data_connection/retrievers/contextual_compression/> 'Contextual compression')
- [Ensemble Retriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/ensemble> 'Ensemble Retriever')
- [MultiVector Retriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/multi_vector> 'MultiVector Retriever')
- [Parent Document Retriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/parent_document_retriever> 'Parent Document Retriever')
- [Self-querying](<https://python.langchain.com/docs/modules/data_connection/retrievers/self_query> 'Self-querying')
- [Time-weighted vector store retriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/time_weighted_vectorstore> 'Vector store-backed retriever')
- [Vector store-backed retriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/vectorstore> '')
- [WebResearchRetriever](<https://python.langchain.com/docs/modules/data_connection/retrievers/web_research> 'WebResearchRetriever')

下面範例將以 `MultiQueryRetriever` 和 `Contextual compression` 為範例實作。

### **5.2 MultiQuery Retriever**

在這裡，我們首先使用 LLM 根據使用者問題的不同觀點來建立各種問題。 對於每個問題，我們都會從向量儲存 (Vector store) 找到相關文件。 然後，我們檢查所有文件中的重複項，以製作獨一無二文件的特殊清單。

![MultiQuery Retriever](<https://cdn.hashnode.com/res/hashnode/image/upload/v1692507354003/b7d252b1-ae95-4051-b0f5-a3cb048d260c.png?auto=compress,format&format=webp> 'MultiQuery Retriever')

source：[Deep Dive into the Internals of Langchain Vector Store Retriever](<https://rito.hashnode.dev/deep-dive-into-the-internals-of-langchain-vector-store-retriever> 'Deep Dive into the Internals of Langchain Vector Store Retriever'):

In [27]:
from langchain_openai import ChatOpenAI
from langchain_classic.retrievers.multi_query import MultiQueryRetriever
import logging

In [28]:
question = 'What did the president say about technology?'

In [29]:
# MultiQueryRetriever：可以自動幫一個問題，產生多個不同角度的查詢，提高找資料的命中率
multi_query_retriever = MultiQueryRetriever.from_llm(
    retriever=faiss_db.as_retriever(),  # 使用 FAISS 資料庫作為基礎的 retriever（檢索器）
    llm=model                           # 指定用哪個 LLM 來產生多樣化的查詢問題
)

# 啟動 Python logging（記錄程式輸出）
logging.basicConfig()

# 將 langchain.retrievers.multi_query 這個模組的 log 等級設成 INFO
# 這樣可以在執行時看到 MultiQueryRetriever 做了哪些「多查詢產生」的細節
logging.getLogger('langchain_classic.retrievers.multi_query').setLevel(logging.INFO)

**API Reference: [MultiQueryRetriever](<https://api.python.langchain.com/en/latest/retrievers/langchain.retrievers.multi_query.MultiQueryRetriever.html> 'MultiQueryRetriever')**

In [30]:
multi_query_result = multi_query_retriever.invoke(input=question)

pprint(multi_query_result)

INFO:langchain_classic.retrievers.multi_query:Generated queries: ["What were the president's recent remarks on technological advancements?", "Can you provide a summary of the president's statements regarding technology policy?", 'What are the key points the president has made about the role of technology in society?']


當我們運行檢索器 (Retrievers) 時，會根據給定的查詢產生 3 個 query：
1. Can you provide any information on the president's views regarding technology?
2. I'm interested in knowing the president's statements or opinions on technology. Could you share any details?
3. Could you please share any insights or remarks made by the president about technology?

取得所有查詢的相關文件並將其傳回給使用者刪除重複。 以下是上述 3 個查詢傳回的文件。

In [31]:
pprint(multi_query_result)

### **5.3 ContextualCompression Retriever**

在 `ContextualCompressionRetriever` 中，使用給定 query 的上下文對從向量儲存 (Vector store) 中檢索到的文件進行壓縮，並從檢索到的文件中過濾掉不相關的內容。

![ContextualCompression Retriever](<https://cdn.hashnode.com/res/hashnode/image/upload/v1692508115445/9abc2227-7c8f-46f0-9f1c-e5606c33e932.png?auto=compress,format&format=webp> 'ContextualCompression Retriever')

source：[Deep Dive into the Internals of Langchain Vector Store Retriever](<https://rito.hashnode.dev/deep-dive-into-the-internals-of-langchain-vector-store-retriever> 'Deep Dive into the Internals of Langchain Vector Store Retriever'):

ContextualCompressionRetriever 是一個「壓縮型檢索器」，
它可以把原本「撈回來的長文資料」，自動濃縮成只保留跟問題有關的內容。

In [None]:
from langchain_openai import ChatOpenAI
from langchain_classic.retrievers import ContextualCompressionRetriever
from langchain_classic.retrievers.document_compressors import LLMChainExtractor

In [None]:
question = 'What did the president say about technology?'

In [None]:
# 壓縮型檢索器
compression_retriever = ContextualCompressionRetriever(
    base_compressor=LLMChainExtractor.from_llm(model),
    base_retriever=faiss_db.as_retriever()
)

In [None]:
# 輸入問題檢索
compressed_docs = compression_retriever.invoke(question)
pprint(compressed_docs)