In [7]:
import importlib
from langchain.document_loaders.csv_loader import CSVLoader
from langchain.embeddings import HuggingFaceEmbeddings
import pandas as pd
import tqdm
import util
import uuid
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [101]:
poets1 = CSVLoader("由大模型处理过的文档/诗人简介二列.csv",encoding="utf-8").load()

In [102]:
text_splitter = RecursiveCharacterTextSplitter(
    # Set a really small chunk size, just to show.
    chunk_size = 512,
    chunk_overlap  = 64,
    length_function = len,
    is_separator_regex = False,
)

In [103]:
ef = HuggingFaceEmbeddings(
  model_name = "thenlper/gte-base-zh",
  cache_folder = "./model",
  model_kwargs={"device":"cuda"}
)

In [104]:
vectorstore = Chroma.from_documents(documents=poets1, embedding=ef)

In [114]:
r = vectorstore.similarity_search_with_score("杜甫的诗词思想",k=4)
r

[(Document(page_content='文档: 诗人: 杜甫\n朝代: 唐代\n简介: 杜甫（712－770），字子美，自号少陵野老，世称“杜工部”、“杜少陵”等，汉族，河南府巩县（今河南省巩义市）人，唐代伟大的现实主义诗人，杜甫被世人尊为“诗圣”，其诗被称为“诗史”。杜甫与李白合称“李杜”，为了跟另外两位诗人李商隐与杜牧即“小李杜”区别开来，杜甫与李白又合称“大李杜”。他忧国忧民，人格高尚，他的约1400余首诗被保留了下来，诗艺精湛，在中国古典诗歌中备受推崇，影响深远。759-766年间曾居成都，后世有杜甫草堂纪念。\n摘要: 【标题】：唐代诗人杜甫：诗圣的人生与创作\n【关键词】：杜甫，唐代，现实主义诗人，诗史，李杜，忧国忧民，杜甫草堂', metadata={'row': 472, 'source': '由大模型处理过的文档/诗人简介二列.csv'}),
  0.6886223554611206),
 (Document(page_content='文档: 诗人: 杜兼\n朝代: 唐代\n简介: 杜兼，字处弘，中书令正伦五世孙。初，正伦无子，故以兄子志静为后。父廙，为郑州录事参事军事。安禄山乱，宋州刺史李岑以兵迎之，为追骑所害。兼尚幼，逃入终南山。伯父存介为贼执，临刑，兼号呼愿为奴以赎，遂皆免。建中初，进士高第，徐泗节度使张建封表置其府。积劳为濠州刺史。性浮险，尚豪侈。德宗既厌兵，大抵刺史重代易，至历年不徙。兼探帝意，谋自固，即脩武备，募占劲兵三千，帝以为才。元和初，入为刑部郎中，改苏州刺史。比行，上书言李锜必反，留为吏部郎中。寻擢河南尹。杜佑素善兼，终始倚为助力。所至大杀戮，裒蓺财赀，极耆欲。适幸其时，未尝败。卒，年七十。家聚书至万卷。\n摘要: 【标题】：唐代诗人杜兼生平及其事迹探究\n【关键词】：杜兼、唐代、诗人、生平、事迹、河南尹、豪侈、武备、李锜反叛', metadata={'row': 1723, 'source': '由大模型处理过的文档/诗人简介二列.csv'}),
  0.8569665551185608),
 (Document(page_content='文档: 诗人: 杜易简\n朝代: 唐代\n简介: [唐]杜易简（公元？年至六七三年左右）字不详，襄州襄阳人。约卒于唐高宗咸享末年。九岁能属文。长博学，为姨兄岑文本所器。第进士，

In [113]:
vectorstore.persist()

In [35]:
embeddings = ef.embed_documents([
    p.page_content for p in poets1
])
query = ef.embed_query("请告诉我杜甫的诗歌思想。")



In [115]:
poetrys = CSVLoader("4个数据集/poetrys_72417_tag_copy.csv",encoding="utf-8").load()

  fields_set = set()


In [118]:
ps = sorted(poetrys,key=lambda x:x.page_content.__len__())

In [126]:
samples = poetrys[20000:20100]

In [127]:
samples

[Document(page_content='【关于】: 暂无\n【全文】: 几日卧南亭，卷帘秋月清。河关初罢梦，池阁更含情。 \n寒露润金井，高风飘玉筝。前年共游客，刀笔事戎旌。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 寓崇圣寺怀李校书\n【赏析】: 暂无\n【点赞量】: 2\n【标签】: []\n【作者】: 许浑\n【作者简介】: 许浑，晚唐最具影响力的诗人之一，七五律尤佳，后人拟之与诗圣杜甫齐名，更有“许浑千首诗，杜甫一生愁”之语。', metadata={'source': '4个数据集/poetrys_72417_tag_copy.csv', 'row': 20000}),
 Document(page_content='【关于】: 暂无\n【全文】: 橘柚南中暖，桑榆北地阴。何言荣落异，因见别离心。 \n吾亦江乡子，思归梦寐深。闻君去水宿，结思渺云林。 \n牵缀从浮事，迟回谢所钦。东南行舫远，秋浦念猿吟。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 别乡人南还\n【赏析】: 暂无\n【点赞量】: 1\n【标签】: []\n【作者】: 张九龄\n【作者简介】: 张九龄(678-740) : 唐开元尚书丞相，诗人。字子寿，一名博物，汉族，韶州曲江（今广东韶关市）人。长安年间进士。官至中书侍郎同中书门下平章事。后罢相，为荆州长史。诗风清淡。有《曲江集》。他是一位有胆识、有远见的著名政治家、文学家、诗人、名相。他忠耿尽职，秉公守则，直言敢谏，选贤任能，不徇私枉法，不趋炎附势，敢与恶势力作斗争，为“开元之治”作出了积极贡献。他的五言古诗，以素练质朴的语言，寄托深远的人生慨望，对扫除唐初所沿习的六朝绮靡诗风，贡献尤大。誉为“岭南第一人”。', metadata={'source': '4个数据集/poetrys_72417_tag_copy.csv', 'row': 20001}),
 Document(page_content='【关于】: 暂无\n【全文】: 金风荡天地，关西群木凋。早霜鸡喔喔，残月马萧萧。 \n紫陌秦山近，青枫楚树遥。还同长卿志，题字满河桥。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 秋日行次关西\n【赏析】: 暂无\n【点赞量】: 1\n【标签】: []\n【作者】: 许浑\n【作者简介】: 许浑，晚唐最

In [128]:
poetrysVs = Chroma.from_documents(documents=samples, 
                                  embedding=ef,collection_name="poetrys",
                                  persist_directory="./chroma")

In [134]:
poetrysVs.similarity_search_with_score("许浑《乘月棹舟送大历寺灵聪上人不及》")

[(Document(page_content='【关于】: 暂无\n【全文】: 万峰秋尽百泉清，旧锁禅扉在赤城。枫浦客来烟未散， \n竹窗僧去月犹明。杯浮野渡鱼龙远，锡响空山虎豹惊。 \n一字不留何足讶，白云无路水无情。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 乘月棹舟送大历寺灵聪上人不及\n【赏析】: 暂无\n【点赞量】: 1\n【标签】: []\n【作者】: 许浑\n【作者简介】: 许浑，晚唐最具影响力的诗人之一，七五律尤佳，后人拟之与诗圣杜甫齐名，更有“许浑千首诗，杜甫一生愁”之语。', metadata={'row': 20084, 'source': '4个数据集/poetrys_72417_tag_copy.csv'}),
  0.251756876707077),
 (Document(page_content='【关于】: 暂无\n【全文】: 楚客送僧归桂阳，海门帆势极潇湘。碧云千里暮愁合， \n白雪一声春思长。柳絮拥堤添衲软，松花浮水注瓶香。 \n南京长老几年别，闻道半岩多影堂。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 和友人送僧归桂州灵岩寺\n【赏析】: 暂无\n【点赞量】: 2\n【标签】: []\n【作者】: 许浑\n【作者简介】: 许浑，晚唐最具影响力的诗人之一，七五律尤佳，后人拟之与诗圣杜甫齐名，更有“许浑千首诗，杜甫一生愁”之语。', metadata={'row': 20089, 'source': '4个数据集/poetrys_72417_tag_copy.csv'}),
  0.6439562439918518),
 (Document(page_content='【关于】: 暂无\n【全文】: 西岩一径不通樵，八十持杯未觉遥。龙在石潭闻夜雨， \n雁移沙渚见秋潮。经函露湿文多暗，香印风吹字半销。 \n应笑东归又南去，越山无路水迢迢。\n【朝代】: 唐代\n【翻译】: 暂无\n【名称】: 题灵山寺行坚师院\n【赏析】: 暂无\n【点赞量】: 2\n【标签】: []\n【作者】: 许浑\n【作者简介】: 许浑，晚唐最具影响力的诗人之一，七五律尤佳，后人拟之与诗圣杜甫齐名，更有“许浑千首诗，杜甫一生愁”之语。', metadata={'row': 20080, 'source': '4个数据集/poetr

In [None]:
chatPoet = Chroma.from_documents(
    documents=
)