## Install dependencies

In [1]:
%%capture
!pip install qdrant-client
!pip install -Uq FlagEmbedding

In [2]:
import pandas as pd

In [None]:
%%capture
# Use capture to hide length download outputs
from FlagEmbedding import BGEM3FlagModel
SENTEMB = BGEM3FlagModel('BAAI/bge-m3',
                       use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation

In [3]:
# Run with finetuned BGE-m3, for evaluation
%%capture
# Use capture to hide length download outputs
from FlagEmbedding import BGEM3FlagModel
SENTEMB = BGEM3FlagModel('salforis/finetune_bge-m3_ran_data',
                       use_fp16=True) # Setting use_fp16 to True speeds up computation with a slight performance degradation

In [4]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


## Load data

### Data ran bien

In [7]:
df = pd.read_excel("gdrive/MyDrive/LLM01 - RắnGPT/Data/data_ran_bien_1005.xlsx")
df = df.fillna('')
df.head()

Unnamed: 0,Tên Việt Nam,Tên Latinh / Tên khoa học,Đặc điểm nhận dạng (màu sắc cơ thể),Môi trường sống,Độc tính,Sinh sản,Thức ăn,Phân bố,Tình trạng
0,đẻn biển đuôi gai,Aipysurus eydouxii,Xương hàm trên kéo dài qua xương vòm miệng; vả...,"Biển trên nền đáy bùn, cũng ở sông và cửa sông...","Độc tố thần kinh (Li và cs., 2005).",Trứng thai- đẻ con.,"Chủ yếu là trứng cá, lươn (Voris, 1972).","Phân bố chung: Biển Tây Malaysia, vịnh Thái La...",Thường được tìm thấy ở cảng cá Sông Đốc tỉnh C...
1,Rắn đầu rùa,Emydocephalus annulatus,"Có ba vảy môi dưới, vảy thứ 2 rất dài; vảy bụn...","Xuất hiện trong rạn đá, trên nền đáy cát, vùng...","Độc tố thần kinh, một trong những loài rắn biể...","Trứng thai- đẻ con, mỗi lứa từ 2 đến 5 con.","Trứng cá của các loài cá rạn san hô (McCarthy,...","Phân bố chung: Philippin, vùng biển Úc (David ...",Ít gặp ở vùng biển Việt Nam
2,"Đẻn vảy đầu phân, đẻn đầu to",Hydrophis annandalei,"Thân hơi vàng, các khoanh nhạt ở phần trên lưn...","Thường sống ở vùng biển nông ven bờ, có đáy bù...",Độc tố thần kinh.,Trứng thai.,Ít được biết.,"Phân bố chung: Singapore, Vịnh Thái Lan, biển ...",Ít gặp ở vùng biển Việt Nam.
3,Rắn biển Anomalous,Hydrophis anomalus,"Mũi phân chia thành hai vảy mũi kéo dài, mõm c...",Ít thông tin về môi trường sống và sinh thái c...,Độc tố thần kinh.,Trứng thái- đẻ con.,Ít được biết.,"Phân bố chung: Singapore, Vịnh Thái Lan, phía ...",Hiếm gặp ở Việt Nam.
4,Đẻn cạp nong,Hydrophis atriceps Günther,Đầu nhỏ. Thân dài và mảnh ở phần trước. Hơn 31...,Dọc bờ biển và vùng cửa sông (Karthikeyan & Ba...,Độc tố thần kinh.,"Trứng thái-đẻ con, mỗi lứa từ 4-8 con (Karthik...","Chủ yếu là cá (Karthikeyan & Balasubramaniant,...","Phân bố chung: Singapore, vịnh Thái Lan, Trung...",Thỉnh thoảng gặp ở vùng biển Việt Nam.


In [8]:
metadatas = list(df.to_dict('records'))[:]
metadatas[4:6]

[{'Tên Việt Nam': 'Đẻn cạp nong',
  'Tên Latinh / Tên khoa học': 'Hydrophis atriceps Günther',
  'Đặc điểm nhận dạng (màu sắc cơ thể)': 'Đầu nhỏ. Thân dài và mảnh ở phần trước. Hơn 31 hàng vảy quanh\n  giữa đuôi. Hàng vảy quanh cổ 25–30; hàng vảy quanh thân 39–49; vảy bụng 320–455; răng xương hàm trên phía sau răng nanh độc 5–6.\n  Màu sắc: Đầu đen hoặc đen sẫm. Phần trước thân đen hoặc đen sẫm có những vết hình ô van vàng nhạt hai bên sườn hoặc các vệt này kết hợp lại thành khoanh, phần sau thân hơi trắng xám ở phía lưng, phía bụng hơi trắng, có nhiều khoanh đen sẫm kéo dài ra hai bên sườn tạo thành một khoanh hoàn chỉnh.',
  'Môi trường sống': 'Dọc bờ biển và vùng cửa sông (Karthikeyan & Balasubramaniant,\n  2007).',
  'Độc tính': 'Độc tố thần kinh.',
  'Sinh sản': 'Trứng thái-đẻ con, mỗi lứa từ 4-8 con (Karthikeyan & Balasubramaniant, 2007).',
  'Thức ăn': 'Chủ yếu là cá (Karthikeyan & Balasubramaniant, 2007).',
  'Phân bố': 'Phân bố chung: Singapore, vịnh Thái Lan, Trung Quốc, Phil

### Data vncreature

In [9]:
df_vncreature = pd.read_excel("gdrive/MyDrive/LLM01 - RắnGPT/Data/ran_vncreature_1005.xlsx")
df_vncreature = df_vncreature.fillna('')
df_vncreature.head()

Unnamed: 0,Tên Việt Nam,Tên Latinh / Tên khoa học,Đặc điểm nhận dạng,Môi trường sống,Độc tính,Sinh sản,Thức ăn,Phân bố,Tình trạng,Biện pháp bảo vệ
0,RẮN HỔ MANG CHÚA,Ophiophagus hannah,"Rắn độc có cỡ lớn nhất dài khoảng 3 - 4m, có k...","Thường sống ở trung du và miền núi, sống trong...","Rắn hổ chúa là loài rắn độc thần kinh dữ tợn,...",Hổ chúa đẻ khoảng 20 - 30 trứng/lứa vào khoản...,"Kiếm ăn cả ban ngày lẫn ban đêm, thức ăn chủ ...","Trong nước: Cao Bằng, Lào Cai, Vĩnh Phúc, Hà T...",Hổ chúa có sự suy giảm quần thể ít nhất khoảng...,Hổ chúa được xếp vào Danh lục CITES: Phụ lục I...
1,RẮN HOA CỎ XIÊM,Rhabdophis siamensis,"Loài rắn có kính thước nhỏ, chiều dài khoảng 1...",Loài rắn hoạt động ban ngày này thích những nơ...,Các loài rắn độc thường có răng nanh tiêm nọc...,,,Việt Nam: Loài này gần như có hầu hết các tỉnh...,"Số lượng còn khá phổ biến, nhưng cần quan tâm ...","Cấm săn bắt, Cấm khai thác rừng ở các khu vực ..."
2,RẮN LỤC NÚI,Ovophis monticola,Loài rắn có kích thước trung bình thân hình tr...,"Thường ở vùng rừng núi, có độ cao lên tới 1.5...",,Rắn đẻ 5 - 10 trứng trong một hốc đất hay trê...,Thức ăn chủ yếu của rắn lục núi là thú nhỏ như...,"Việt Nam: Lào Cai, Yên Bái, Lạng Sơn, Vĩnh Phú...",Số lượng rắn lục núi ngoài tự nhiên ít do thiế...,
3,RẮN ĐẺN ĐUÔI GAI,Aipysurus eydouxii,Thân hình trụ tròn không dẹp bên. Vảy trên thâ...,Sống ở vùng nước ven bờ và các cửa sông nơi có...,Là loài rắn có nọc độc thần kinh rất nguy hiể...,Sống đơn độc và chỉ gặp bạn tình vào mùa giao...,Thức ăn thường là trứng các loài cá ở nước mặ...,Trong nước: Loài này ghi nhận phân bố ờ mũi Kê...,Loài rất hiếm gặp trong tự nhiên và bị con nườ...,"Hạn chế khai thác, nếu bắt được đẹn đuôi gai c..."
4,RẮN ĐẺN ĐUÔI SỌC,Hydrophis ornatus,"Loài rắn có kích thước nhỏ, thân tày, không qu...",,,"Đẻ không thường xuyên hàng năm, nhưng có thể ...",Thức ăn chủ yếu của loài này là ăn cá,Việt Nam: phổ biến ở phía Đông bắc bộ qua Trun...,,


In [10]:
metadatas_vncreature = list(df_vncreature.to_dict('records'))[:]
metadatas_vncreature[4:6]

[{'Tên Việt Nam': 'RẮN ĐẺN ĐUÔI SỌC',
  'Tên Latinh / Tên khoa học': 'Hydrophis ornatus',
  'Đặc điểm nhận dạng': 'Loài rắn có kích thước nhỏ, thân tày, không quá dày. Đầu to, lưng màu xám nhạt hay màu vàng lục nhạt, đôi khi hoàn toàn trắng. Lưng có những dải nằm ngang lớn sẫm hay vết hình thoi cách nhau bởi những khoảng hẹp. Những dải này hẹp dần hay mất hẳn ở phía bụng. Bụng màu vàng nhạt hay màu trắng. Đầu màu vàng lục.\n \n Vẩy lưng ở phần sau thân hình lục giác, có khoảng 33 – 35 hàng vảy, những con cái thường có số hàng vảy nhiều hơn con đực. Vảy thường có gờ ngắn hay mấu lồi, xếp xen kẽ nhau hoặc chỉ hơi tỳ lên nhau. Vẩy bụng phân biệt khá rõ ràng, rộng gấp 2 lần vảy xung quanh. Phần trước cơ thể, những vảy này rộng ra, còn ở phần sau cơ thể thì thu hẹp lại.',
  'Môi trường sống': '',
  'Độc tính': '',
  'Sinh sản': ' Đẻ không thường xuyên hàng năm, nhưng có thể là từ tháng 11 đến tháng 2 năm sau',
  'Thức ăn': 'Thức ăn chủ yếu của loài này là ăn cá',
  'Phân bố': 'Việt Nam: phổ

## Create embeddings

### Create embeddings for ran bien

In [11]:
texts_to_embed = []
tvn = 'Tên Việt Nam: '
tlt = 'Tên Latinh / Tên khoa học: '
ddnd = 'Đặc điểm nhận dạng (màu sắc cơ thể): '
mts = 'Môi trường sống: '
dt = 'Độc tính: '
ss = 'Sinh sản: '
ta = 'Thức ăn: '
pb = 'Phân bố: '
tt = 'Tình trạng: '
for line in metadatas:
    texts_to_embed1 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ddnd + line ['Đặc điểm nhận dạng (màu sắc cơ thể)']}"
    texts_to_embed2 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {mts + line ['Môi trường sống']}"
    texts_to_embed3 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {dt + line ['Độc tính']}"
    texts_to_embed4 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ss + line ['Sinh sản']}"
    texts_to_embed5 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ta + line ['Thức ăn']}"
    texts_to_embed6 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {pb + line ['Phân bố']}"
    texts_to_embed7 = f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {tt + line ['Tình trạng']}"
    texts_to_embed.append(texts_to_embed1)
    texts_to_embed.append(texts_to_embed2)
    texts_to_embed.append(texts_to_embed3)
    texts_to_embed.append(texts_to_embed4)
    texts_to_embed.append(texts_to_embed5)
    texts_to_embed.append(texts_to_embed6)
    texts_to_embed.append(texts_to_embed7)

In [12]:
list_for_payload = []
tvn1 = 'Tên Việt Nam'
tlt1 = 'Tên Latinh / Tên khoa học'
ddnd1 = 'Đặc điểm nhận dạng (màu sắc cơ thể)'
mts1 = 'Môi trường sống'
dt1 = 'Độc tính'
ss1 = 'Sinh sản'
ta1 = 'Thức ăn'
pb1 = 'Phân bố'
tt1 = 'Tình trạng'
for line in metadatas:
    dict_for_payload1 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], ddnd1 : line ['Đặc điểm nhận dạng (màu sắc cơ thể)'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ddnd + line ['Đặc điểm nhận dạng (màu sắc cơ thể)']}"}
    dict_for_payload2 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], mts1 : line ['Môi trường sống'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {mts + line ['Môi trường sống']}"}
    dict_for_payload3 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], dt1 : line ['Độc tính'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {dt + line ['Độc tính']}"}
    dict_for_payload4 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], ss1 : line ['Sinh sản'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ss + line ['Sinh sản']}"}
    dict_for_payload5 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], ta1 : line ['Thức ăn'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {ta + line ['Thức ăn']}"}
    dict_for_payload6 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], pb1 : line ['Phân bố'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {pb + line ['Phân bố']}"}
    dict_for_payload7 = {tvn1 : line['Tên Việt Nam'], tlt1 : line['Tên Latinh / Tên khoa học'], tt1 : line ['Tình trạng'], "text": f"{tvn + line['Tên Việt Nam']} \n {tlt + line['Tên Latinh / Tên khoa học']} \n {tt + line ['Tình trạng']}"}
    list_for_payload.append(dict_for_payload1)
    list_for_payload.append(dict_for_payload2)
    list_for_payload.append(dict_for_payload3)
    list_for_payload.append(dict_for_payload4)
    list_for_payload.append(dict_for_payload5)
    list_for_payload.append(dict_for_payload6)
    list_for_payload.append(dict_for_payload7)

In [13]:
embedding_texts = SENTEMB.encode(texts_to_embed)['dense_vecs']

In [14]:
print("Number of chunks", len(texts_to_embed))
print("Chunk example", texts_to_embed[4:6])
print()
print("Number of payloads", len(list_for_payload))
print("Payload example", list_for_payload[4:6])
print()
print("Number of embeddings", len(embedding_texts))

Number of chunks 189
Chunk example ['Tên Việt Nam: đẻn biển đuôi gai \n Tên Latinh / Tên khoa học: Aipysurus eydouxii \n Thức ăn: Chủ yếu là trứng cá, lươn (Voris, 1972).', 'Tên Việt Nam: đẻn biển đuôi gai \n Tên Latinh / Tên khoa học: Aipysurus eydouxii \n Phân bố: Phân bố chung: Biển Tây Malaysia, vịnh Thái Lan, Indonesia và vùng biển Úc (David & Ineich, 1999).\n  Phân bố ở Việt Nam: Mũi Kê Gà tỉnh Bình Thuận (Sáng & Cúc, 1996; Kharin, 2006), cảng cá Long Hải tỉnh Bà Rịa-Vũng Tàu, cảng cá Sông Đốc tỉnh Cà Mau, cảng cá Tắc Cậu tỉnh Kiên Giang (Cao và cs., 2014).']

Number of payloads 189
Payload example [{'Tên Việt Nam': 'đẻn biển đuôi gai', 'Tên Latinh / Tên khoa học': 'Aipysurus eydouxii', 'Thức ăn': 'Chủ yếu là trứng cá, lươn (Voris, 1972).', 'text': 'Tên Việt Nam: đẻn biển đuôi gai \n Tên Latinh / Tên khoa học: Aipysurus eydouxii \n Thức ăn: Chủ yếu là trứng cá, lươn (Voris, 1972).'}, {'Tên Việt Nam': 'đẻn biển đuôi gai', 'Tên Latinh / Tên khoa học': 'Aipysurus eydouxii', 'Phân bố

### Create embeddings for vncreature

In [16]:
texts_to_embed_vncr = []
tvn_vncr = 'Tên Việt Nam: '
tlt_vncr = 'Tên Latinh / Tên khoa học: '
ddnd_vncr = 'Đặc điểm nhận dạng: '
mts_vncr = 'Môi trường sống: '
dt_vncr = 'Độc tính: '
ss_vncr = 'Sinh sản: '
ta_vncr = 'Thức ăn: '
pb_vncr = 'Phân bố: '
tt_vncr = 'Tình trạng: '
bpbv_vncr = 'Biện pháp bảo vệ: '
for line in metadatas_vncreature:
    texts_to_embed_vncr1 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ddnd_vncr + line ['Đặc điểm nhận dạng']}"
    texts_to_embed_vncr2 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {mts_vncr + line ['Môi trường sống']}"
    texts_to_embed_vncr3 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {dt_vncr + line ['Độc tính']}"
    texts_to_embed_vncr4 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ss_vncr + line ['Sinh sản']}"
    texts_to_embed_vncr5 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ta_vncr + line ['Thức ăn']}"
    texts_to_embed_vncr6 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {pb_vncr + line ['Phân bố']}"
    texts_to_embed_vncr7 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {tt_vncr + line ['Tình trạng']}"
    texts_to_embed_vncr8 = f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {bpbv_vncr + line ['Biện pháp bảo vệ']}"
    texts_to_embed_vncr.append(texts_to_embed_vncr1)
    texts_to_embed_vncr.append(texts_to_embed_vncr2)
    texts_to_embed_vncr.append(texts_to_embed_vncr3)
    texts_to_embed_vncr.append(texts_to_embed_vncr4)
    texts_to_embed_vncr.append(texts_to_embed_vncr5)
    texts_to_embed_vncr.append(texts_to_embed_vncr6)
    texts_to_embed_vncr.append(texts_to_embed_vncr7)
    texts_to_embed_vncr.append(texts_to_embed_vncr8)

In [17]:
list_for_payload_vncr = []
tvn_vncr1 = 'Tên Việt Nam'
tlt_vncr1 = 'Tên Latinh / Tên khoa học'
ddnd_vncr1 = 'Đặc điểm nhận dạng'
mts_vncr1 = 'Môi trường sống'
dt_vncr1 = 'Độc tính'
ss_vncr1 = 'Sinh sản'
ta_vncr1 = 'Thức ăn'
pb_vncr1 = 'Phân bố'
tt_vncr1 = 'Tình trạng'
bpbv_vncr1 = 'Biện pháp bảo vệ'
for line in metadatas_vncreature:
    dict_for_payload_vncr1 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], ddnd_vncr1 : line ['Đặc điểm nhận dạng'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ddnd_vncr + line ['Đặc điểm nhận dạng']}"}
    dict_for_payload_vncr2 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], mts_vncr1 : line ['Môi trường sống'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {mts_vncr + line ['Môi trường sống']}"}
    dict_for_payload_vncr3 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], dt_vncr1 : line ['Độc tính'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {dt_vncr + line ['Độc tính']}"}
    dict_for_payload_vncr4 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], ss_vncr1 : line ['Sinh sản'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ss_vncr + line ['Sinh sản']}"}
    dict_for_payload_vncr5 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], ta_vncr1 : line ['Thức ăn'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {ta_vncr + line ['Thức ăn']}"}
    dict_for_payload_vncr6 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], pb_vncr1 : line ['Phân bố'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {pb_vncr + line ['Phân bố']}"}
    dict_for_payload_vncr7 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], tt_vncr1 : line ['Tình trạng'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {tt_vncr + line ['Tình trạng']}"}
    dict_for_payload_vncr8 = {tvn_vncr1 : line['Tên Việt Nam'], tlt_vncr1 : line['Tên Latinh / Tên khoa học'], bpbv_vncr1 : line ['Biện pháp bảo vệ'], "text": f"{tvn_vncr + line['Tên Việt Nam']} \n {tlt_vncr + line['Tên Latinh / Tên khoa học']} \n {bpbv_vncr + line ['Biện pháp bảo vệ']}"}
    list_for_payload_vncr.append(dict_for_payload_vncr1)
    list_for_payload_vncr.append(dict_for_payload_vncr2)
    list_for_payload_vncr.append(dict_for_payload_vncr3)
    list_for_payload_vncr.append(dict_for_payload_vncr4)
    list_for_payload_vncr.append(dict_for_payload_vncr5)
    list_for_payload_vncr.append(dict_for_payload_vncr6)
    list_for_payload_vncr.append(dict_for_payload_vncr7)
    list_for_payload_vncr.append(dict_for_payload_vncr8)

In [18]:
embedding_texts_vncr = SENTEMB.encode(texts_to_embed_vncr)['dense_vecs']

Inference Embeddings: 100%|██████████| 78/78 [00:22<00:00,  3.48it/s]


In [20]:
print("Number of chunks", len(texts_to_embed_vncr))
print("Chunk example", texts_to_embed_vncr[4:6])
print()
print("Number of payloads", len(list_for_payload_vncr))
print("Payload example", list_for_payload_vncr[4:6])
print()
print("Number of embeddings", len(embedding_texts_vncr))

Number of chunks 936
Chunk example ['Tên Việt Nam: RẮN HỔ MANG CHÚA \n Tên Latinh / Tên khoa học: Ophiophagus hannah \n Thức ăn:  Kiếm ăn cả ban ngày lẫn ban đêm, thức ăn chủ yếu gồm những loài rắn khác hoặc đôi khi cả những loài thằn lằn', 'Tên Việt Nam: RẮN HỔ MANG CHÚA \n Tên Latinh / Tên khoa học: Ophiophagus hannah \n Phân bố: Trong nước: Cao Bằng, Lào Cai, Vĩnh Phúc, Hà Tây, Phú Thọ, Bắc Giang, Quảng Ninh, Ninh Bình, Hà Tĩnh, Quảng Bình, Đắk Lắk, Lâm Đồng, Phú Yên, Ninh Thuận, Gia Lai, Kontum, Tây Ninh, Đồng Nai, Bà Rịa - Vũng Tàu.\n \n Thế giới: Bănglađét, Đông Ấn Độ, Nêpan, Mianma, Nam Trung Quốc, Lào, Thái Lan, Cămpuchia, Malaixia, Indonesia (Sumatra, Java, Borneo) và Philippin.']

Number of payloads 936
Payload example [{'Tên Việt Nam': 'RẮN HỔ MANG CHÚA', 'Tên Latinh / Tên khoa học': 'Ophiophagus hannah', 'Thức ăn': ' Kiếm ăn cả ban ngày lẫn ban đêm, thức ăn chủ yếu gồm những loài rắn khác hoặc đôi khi cả những loài thằn lằn', 'text': 'Tên Việt Nam: RẮN HỔ MANG CHÚA \n Tên L

### Create embeddings for general questions

In [21]:
import json

# Read the JSON file
with open('gdrive/MyDrive/LLM01 - RắnGPT/Data/general_questions.json', 'r') as f:
  general_questions = json.load(f)

# Print the contents of the JSON file
print(general_questions)

{'Các triệu chứng của người bị rắn độc cắn là gì?': 'Các triệu chứng của vết rắn cắn có nọc độc bao gồm:\nTại vết cắn: - Sưng, đau hoặc kích thước của vết cắn tăng lên nhanh chóng. - Đau nhức hoặc cảm giác nóng rát quanh vùng vết cắn. - Có thể xuất hiện các dấu hiệu khác như: bầm tím, chảy máu, phồng rộp, hoại tử da.\nTriệu chứng toàn thân: - Buồn nôn, nôn mửa. - Tiêu chảy. - Chóng mặt, hoa mắt. - Đau đầu. - Mệt mỏi, yếu ớt. - Khó thở. - Lo lắng, bồn chồn. - Hạ huyết áp. - Mất ý thức. - Liệt cơ.\nLưu ý: - Mức độ và loại triệu chứng sẽ khác nhau tùy thuộc vào loại rắn cắn, lượng nọc độc xâm nhập và sức khỏe của nạn nhân. - Một số trường hợp có thể không có bất kỳ triệu chứng nào trong vài giờ đầu tiên sau khi bị cắn. - Tuy nhiên, bất kỳ ai bị rắn cắn đều cần được chăm sóc y tế ngay lập tức, ngay cả khi họ không có triệu chứng.\nMột số lưu ý quan trọng: - Không tự ý xử lý vết cắn của rắn. - Không cắt rạch hoặc hút nọc độc ra khỏi vết cắn. - Không băng bó vết cắn quá chặt. - Giữ cho nạn n

In [22]:
texts_to_embed_gq = []
list_for_payload_gq = []

for question in general_questions.keys():
  answer = general_questions[question]
  texts_to_embed_gq.append(f"{question} - {answer}")
  list_for_payload_gq.append({
      "question": question,
      "answer": answer,
      "text": f"{question} \n {answer}"
  })

In [23]:
embedding_texts_gq = SENTEMB.encode(texts_to_embed_gq)['dense_vecs']

In [24]:
print("Number of chunks", len(texts_to_embed_gq))
print("Chunk example", texts_to_embed_gq[4:6])
print()
print("Number of payloads", len(list_for_payload_gq))
print("Payload example", list_for_payload_gq[4:6])
print()
print("Number of embeddings", len(embedding_texts_gq))

Number of chunks 83
Chunk example ['Có biện pháp nào tại gia nào có tác dụng chữa rắn cắn không? - Không có biện pháp khắc nào được chứng minh là có hiệu quả cả. Tuy nhiên, có một số biện pháp sơ cứu có thể làm chậm quá trình ngộ độc trong khi chờ được đưa đến cơ sở y tế để điều trị.', 'Sử dụng loại huyết thanh nào cho các loài rắn khác nhau? - Các loại huyết thanh kháng nọc rắn được sử dụng tùy thuộc vào loài rắn:\n• Nọc rắn hổ mang: Huyết thanh kháng độc nọc rắn hổ mang đa giá (Polyvalent cobra antivenom)\n• Nọc rắn lục: Huyết thanh kháng độc nọc rắn lục (Green pit viper antivenom)\n• Nọc rắn hổ chúa: Huyết thanh kháng độc nọc rắn hổ chúa (King cobra antivenom)\n• Nọc rắn cạp nong: Huyết thanh kháng độc nọc rắn cạp nong (Krait antivenom)\n• Nọc rắn biển: Huyết thanh kháng độc nọc rắn biển (Sea snake antivenom)']

Number of payloads 83
Payload example [{'question': 'Có biện pháp nào tại gia nào có tác dụng chữa rắn cắn không?', 'answer': 'Không có biện pháp khắc nào được chứng minh là

## QDrant

In [None]:
from google.colab import userdata

QDRANT_URL=userdata.get('QDRANT_URL')
QDRANT_API_KEY=userdata.get('QDRANT_API_KEY')

In [25]:
from qdrant_client import QdrantClient, models
client = QdrantClient(
   url = QDRANT_URL,
   api_key=QDRANT_API_KEY,
)

collection_name = "rangpt"

client.recreate_collection(
    collection_name=collection_name,
    vectors_config=models.VectorParams(size=1024, distance=models.Distance.COSINE)
)

  client.recreate_collection(


True

In [28]:
print("Upload ran bien data")
client.upload_collection(
    collection_name=collection_name,
    vectors=embedding_texts,
    payload=list_for_payload,
    ids=None,  # Vector ids will be assigned automatically
    batch_size=256  # How many vectors will be uploaded in a single request?
)

print("Upload vncreatures data")
client.upload_collection(
    collection_name=collection_name,
    vectors=embedding_texts_vncr,
    payload=list_for_payload_vncr,
    ids=None,  # Vector ids will be assigned automatically
    batch_size=256  # How many vectors will be uploaded in a single request?
)

print("Upload general question data")
client.upload_collection(
    collection_name=collection_name,
    vectors=embedding_texts_gq,
    payload=list_for_payload_gq,
    ids=None,  # Vector ids will be assigned automatically
    batch_size=256  # How many vectors will be uploaded in a single request?
)

Upload ran bien data
Upload vncreatures data
Upload general question data


In [29]:
# Test
query_results = client.search(
    collection_name=collection_name,
    query_vector=SENTEMB.encode("Rắn cạp nong ăn gì")['dense_vecs'].tolist(),
    limit=10,
)

for query_result in query_results:
    print(query_result.payload['text'], "score:", query_result.score)
    print()

Tên Việt Nam: Đẻn cạp nong 
 Tên Latinh / Tên khoa học: Hydrophis atriceps Günther 
 Thức ăn: Chủ yếu là cá (Karthikeyan & Balasubramaniant, 2007). score: 0.49420702

Tên Việt Nam: Đẻn cạp nong môi vàng 
 Tên Latinh / Tên khoa học: Laticauda colubrina 
 Thức ăn: Chủ yếu là lươn (Heatwole và cs., 2012). score: 0.45340413

Tên Việt Nam: RẮN CẠP NONG ĐẦU ĐỎ 
 Tên Latinh / Tên khoa học: Bungarus flaviceps 
 Thức ăn: Thức ăn chủ yếu của loài này là các loài rắn khác và loài thằn lằn bóng chân ngắn score: 0.4229325

Tên Việt Nam: RẮN HOA CỎ VÀNG 
 Tên Latinh / Tên khoa học: Rhabdophis chrysagus 
 Thức ăn:  Nó ăn chuột, chim nhỏ, ếch và thằn lằn score: 0.37819296

Tên Việt Nam: RẮN RỒNG CỔ ĐEN 
 Tên Latinh / Tên khoa học: Sibynophis collaris 
 Thức ăn:  Thức ăn của nó chủ yếu là loài Thằn lằn bóng chân ngắn score: 0.36560693

Tên Việt Nam: RẮN HỔ MANG XIÊM 
 Tên Latinh / Tên khoa học: Naja siamensis 
 Thức ăn:  Rắn trưởng thành ăn chuột, cóc, rắn. rắn non ăn ếch nhái, lưỡng cư là chủ yếu scor