### 数据库schema：
数据库sentence.db schema如下：

sentence(sid,sentence1, sentence2, similar_score,sen1_vector,sen2_vector,vecSim_score)

分别是句子id，句子1，句子2，句子相似度得分，句子1嵌入向量，句子2嵌入向量，向量相似度得分）

### 任务要求：

调用嵌入模型：可以使用sqlite-vss或sqlite-vec或调用本地中文嵌入模型（huggingface等拉取），对每个数据库中每个元组的两个句子分别进行向量嵌入，并计算向量相似度得分。更新数据库sentence.db的后三列。

### 输出要求：

按照这样的方法：

```python
df = pd.read_sql_query("""
    SELECT sid, sentence1, sentence2, similar_score, sen1_vector, sen2_vector,vecSim_score FROM sentence
""", conn)
print(df.head(20))
```
输出数据库的前20个元组。但请注意，助教评分时可能会运行你的代码，抽查其他元组结果。

In [1]:
import sqlite3
import os
import pandas as pd

In [2]:
# 文件路径修改成自己的文件路径
DATA_FILE = 'sts-b-train.txt'
DB_FILE = 'sentence.db'

if os.path.exists(DB_FILE):
    os.remove(DB_FILE)

conn = sqlite3.connect(DB_FILE)
cursor = conn.cursor()

In [3]:
cursor.execute('''
CREATE TABLE IF NOT EXISTS sentence (
    sid INTEGER PRIMARY KEY AUTOINCREMENT,
    sentence1 TEXT NOT NULL,
    sentence2 TEXT NOT NULL,
    similar_score REAL NOT NULL,
    sen1_vector BLOB,
    sen2_vector BLOB,
    vecSim_score REAL
)
''')
conn.commit()

In [4]:
with open(DATA_FILE, 'r', encoding='utf-8') as f:
    for line in f:
        parts = line.strip().split('\t')
        if len(parts) != 3:
            continue
        sentence1, sentence2, score = parts
        cursor.execute('''
            INSERT INTO sentence (sentence1, sentence2, similar_score)
            VALUES (?, ?, ?)
        ''', (sentence1, sentence2, float(score)))
conn.commit()

In [None]:
df = pd.read_sql_query("""
    SELECT sid, sentence1, sentence2, similar_score, sen1_vector, sen2_vector, vecSim_score FROM sentence
""", conn)
print(df.head(10))

   sid          sentence1                  sentence2  similar_score  \
0    1          一架飞机要起飞了。                  一架飞机正在起飞。            5.0   
1    2       一个男人在吹一支大笛子。                   一个人在吹长笛。            3.0   
2    3  一个人正把切碎的奶酪撒在比萨饼上。  一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。            3.0   
3    4            三个人在下棋。                    两个人在下棋。            2.0   
4    5          一个人在拉大提琴。              一个坐着的人正在拉大提琴。            4.0   
5    6            有些人在战斗。                    两个人在打架。            4.0   
6    7           一个男人在抽烟。                   一个男人在滑冰。            0.0   
7    8            那人在弹钢琴。                    那人在弹吉他。            1.0   
8    9       一个男人在弹吉他和唱歌。        一位女士正在弹着一把原声吉他，唱着歌。            2.0   
9   10    一个人正把一只猫扔到天花板上。             一个人把一只猫扔在天花板上。            5.0   

  sen1_vector sen2_vector vecSim_score  
0        None        None         None  
1        None        None         None  
2        None        None         None  
3        None        None         None  
4        None

In [6]:
from sentence_transformers import SentenceTransformer

# 加载模型, 需要先下载到本地文件夹下
model = SentenceTransformer('./text2vec-base-chinese')

  from .autonotebook import tqdm as notebook_tqdm


In [7]:
cursor = conn.cursor()

cursor.execute("SELECT sid, sentence1, sentence2 FROM sentence")
rows = cursor.fetchall()

# 提取句子和对应的 sid
sid_list = []
sentences1 = []
sentences2 = []

for row in rows:
    sid, s1, s2 = row
    sid_list.append(sid)
    sentences1.append(s1)
    sentences2.append(s2)

# 生成嵌入向量
embeddings1 = model.encode(sentences1, batch_size=64, show_progress_bar=True)
embeddings2 = model.encode(sentences2, batch_size=64, show_progress_bar=True)

Batches: 100%|██████████| 82/82 [00:44<00:00,  1.85it/s]
Batches: 100%|██████████| 82/82 [00:44<00:00,  1.85it/s]


In [8]:
import numpy as np
def cosine_similarity(vec1, vec2):
    return float(np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2)))

In [9]:
for sid, vec1, vec2 in zip(sid_list, embeddings1, embeddings2):
    # 计算余弦相似度
    sim_score = cosine_similarity(vec1, vec2)

    # 将向量转换为二进制格式
    vec1_blob = vec1.tobytes()
    vec2_blob = vec2.tobytes()

    # 更新数据库记录
    cursor.execute("""
        UPDATE sentence
        SET sen1_vector = ?, sen2_vector = ?, vecSim_score = ?
        WHERE sid = ?
    """, (vec1_blob, vec2_blob, sim_score, sid))

# 提交更改
conn.commit()

In [None]:
df = pd.read_sql_query("""
    SELECT sid, sentence1, sentence2, similar_score, sen1_vector, sen2_vector, vecSim_score FROM sentence
""", conn)
print(df.head(20))

    sid           sentence1                  sentence2  similar_score  \
0     1           一架飞机要起飞了。                  一架飞机正在起飞。            5.0   
1     2        一个男人在吹一支大笛子。                   一个人在吹长笛。            3.0   
2     3   一个人正把切碎的奶酪撒在比萨饼上。  一个男人正在把切碎的奶酪撒在一块未煮好的比萨饼上。            3.0   
3     4             三个人在下棋。                    两个人在下棋。            2.0   
4     5           一个人在拉大提琴。              一个坐着的人正在拉大提琴。            4.0   
5     6             有些人在战斗。                    两个人在打架。            4.0   
6     7            一个男人在抽烟。                   一个男人在滑冰。            0.0   
7     8             那人在弹钢琴。                    那人在弹吉他。            1.0   
8     9        一个男人在弹吉他和唱歌。        一位女士正在弹着一把原声吉他，唱着歌。            2.0   
9    10     一个人正把一只猫扔到天花板上。             一个人把一只猫扔在天花板上。            5.0   
10   11        那人用棍子打了另一个人。            那人用棍子打了另一个人一巴掌。            4.0   
11   12            一个人在吹长笛。                  一个男人在吹竹笛。            3.0   
12   13           一个人在叠一张纸。                   有人在叠一

In [11]:
conn.close()

## 提示：一些可能的嵌入向量的方式：

### 1.安装 sqlite-vss（基于 FAISS）

```python
!pip install faiss-cpu
!pip install sqlite-vss

import sqlite3
import sqlite_vss
conn = sqlite3.connect("sentence.db")
sqlite_vss.load(conn)
```
### 2.安装sqlite-vec(建议python版本>=3.9)

```python
!pip install sqlite-vec


import sqlite3
import sqlite_vec
conn = sqlite3.connect("sentence.db")
sqlite_vec.load(conn)
```

### 3. 使用hugging_face等拉取嵌入模型

```python
!pip install sentence-transformers
!pip install torch

model = HuggingFaceEmbeddings('YOU MODEL PATH')
```
