# 句子嵌入Sentence Embeddings

句子嵌入（Sentence Embeddings）是將文本句子映射到連續向量空間的技術。它將句子中的單詞或標記轉換為向量表示形式，以捕捉句子的語義和語境信息。這種向量化的表示形式使得計算機能夠更容易地理解和處理文本數據。

句子嵌入的目的是將句子轉換為連續的數字向量，這些向量能夠捕捉句子的語義含義和關係，並且能夠在向量空間中進行有效的計算和比較。通常，句子嵌入技術可以使用預訓練的語言模型，如BERT、GPT等，或者通過其他技術，如Doc2Vec、Skip-thoughts等來實現。

使用句子嵌入技術有幾個優點，包括：
1. **語義表示**：句子嵌入能夠將句子轉換為連續向量表示，捕捉了句子的語義含義，使得計算機可以更好地理解和處理文本。
2. **計算效率**：在向量空間中進行計算和比較是非常高效的，這使得使用句子嵌入來進行相似度比較、聚類等任務變得更加容易。
3. **通用性**：句子嵌入技術通常是通用的，可以應用於各種自然語言處理任務，如情感分析、文本分類、機器翻譯等。

總之，句子嵌入是自然語言處理中一個重要的技術，它能夠將文本句子轉換為向量表示形式，從而使得計算機可以更好地理解和處理文本數據。

- 如果您想在自己的電腦上執行此程式碼，您可以安裝以下內容:
```
    !pip install sentence-transformers
```

- 這是一些抑制警告訊息的程式碼。

這段程式碼是從`transformers`庫中引入`logging`模組，然後設置日誌輸出的細節程度為錯誤級別（error）。這樣做的目的通常是為了避免顯示過多的日誌訊息，只保留錯誤和更高級別的訊息，以便更容易追蹤和處理錯誤。

In [None]:
from transformers.utils import logging
logging.set_verbosity_error()

### 使用 🤗 Transformers 函式庫建置 `sentence embedding` 管道

all-MiniLM-L6-v2

In [None]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer ('all-MiniLM-L6-v2')

更多資訊： [all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2).

sentences1 = ['The cat sits outside',
              'A man is playing guitar',
              'The movies are awesome']
embeddings1 = model.encode(sentences1)
embeddings1



```
['貓坐在外面',
 “一個男人正在彈吉他”，
 “電影很棒”]
```



In [None]:
sentences2 = ['The dog plays in the garden',
              'A woman watches TV',
              'The new movie is so great']
embeddings2 = model.encode(sentences2)
print(embeddings2)



```
["狗在花園玩耍",
 “一個女人看電視”，
 "新電影太棒了"]
```



* 計算兩個句子之間的餘弦相似度，以衡量它們之間的相似程度。

In [None]:
from sentence_transformers import util
cosine_scores = util.cos_sim (embeddings1, embeddings2)
print(cosine_scores)

for i in range(len(sentences1)):
    print(f"{sentences1[i]} \t\t {sentences2[i]} \t\t Score: {cosine_scores[i][i]:.4f}")

### 句子比對小遊戲

In [None]:
from sentence_transformers import SentenceTransformer

m = SentenceTransformer("shibing624/text2vec-base-chinese")
sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡']

sentence_embeddings = m.encode(sentences)
print("Sentence embeddings:")
print(sentence_embeddings)

In [None]:
!pip install -q gradio

In [None]:
from sentence_transformers import SentenceTransformer, util
import gradio as gr

model = SentenceTransformer('shibing624/text2vec-base-chinese')

def 句子相似比對(句子1, 句子2):
  emb1 = model.encode(句子1, convert_to_tensor=True)
  emb2 = model.encode(句子2, convert_to_tensor=True)
  cos_sim = util.cos_sim(emb1, emb2)
  return f"相似度: {cos_sim[0][0]:.4f}"

iface = gr.Interface(fn=句子相似比對, inputs=["text", "text"], outputs="text")
iface.launch(share = True)

In [None]:
iface.close()