In [1]:
from langchain.document_loaders import UnstructuredWordDocumentLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter,CharacterTextSplitter

loader = UnstructuredWordDocumentLoader('/Users/feiyu/Downloads/于飞-简历.docx')
raw_documents = loader.load()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    add_start_index=False,
)
documents = text_splitter.split_documents(raw_documents)
print(f"len(documents): {len(documents)}")
for document in documents[:100]:
    print(document)

len(documents): 132
page_content='于飞 北京广渠门 17718329813 baiziyuandyufei@126.com baiziyuandyufei' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='我在自然语言处理领域积累了丰富的实践知识。我不仅熟悉传统算法如MaxEnt、LSTM和CRF，还对大语言模型有深入的理解和应用能力，特别是熟练掌握Transformers库、LangChain库。我' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='ormers库、LangChain库。我在文本分类任务上成功微调过DistilBERT模型，并在实体识别任务上微调过Mistral7B模型。除此之外，我喜欢探索新技术，并在实践中积极使用fastGPT' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='新技术，并在实践中积极使用fastGPT和LangChain搭建个人本地问答系统。我具备良好的团队协作精神和沟通技巧，能够快速融入新的工作环境并推动项目的顺利进行。' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='与精选项目\n\n对话系统设计 2024年5月至今\n\n大模型算法/LangChain、Prompt、RAG、Summarize、QA' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='基于LangChain的求职助手 项目链接' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
page_content='项目链接 https://baiziyuandyufei-langchain-self-stu-my-streamlit-example1-laktvh.streamlit.app/' metad

In [7]:
# FireWorks
# https://python.langchain.com/v0.1/docs/integrations/text_embedding/fireworks/
# https://readme.fireworks.ai/docs/querying-embeddings-models#list-of-available-models 
from langchain_fireworks import FireworksEmbeddings
from dotenv import load_dotenv
import numpy as np

load_dotenv()
embedding_model = FireworksEmbeddings(model="thenlper/gte-large")

text_li = ['How is the weather today?', '今天天气怎么样?']
doc_result = embedding_model.embed_documents(text_li)
print(f"doc_result[0]的模: {np.linalg.norm(doc_result[0])}")
print(f"doc_result[1]的模: {np.linalg.norm(doc_result[1])}")
cosine_similarity_normalized = np.dot(doc_result[0], doc_result[1])
print(f"doc_result[0]与doc_result[1]之间的相似度: {cosine_similarity_normalized}")

doc_result[0]的模: 0.9999155747481482
doc_result[1]的模: 1.0003270842799996
doc_result[0]与doc_result[1]之间的相似度: 0.7786364456405295


In [11]:
from langchain.vectorstores import FAISS
db = FAISS.from_documents(documents=documents, embedding=embedding_model)
print(f"索引片段数: {db.index.ntotal}")
query = """
你在实体识别上有什么经验吗？
"""
docs_and_scores = db.similarity_search_with_relevance_scores(query,k=4)
for doc,score in docs_and_scores:
    print(score,doc)

索引片段数: 132
0.8396309147779722 page_content='苏宁易购  2017年7月至2018年8月\n\n自然语言处理工程师/短文本分类、商品属性词近义词抽取、纠错改写\n\n工作内容' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
0.8150951585274917 page_content='培养劳动习惯，提高劳动能力，有利于他们更好地学习知识。”既有言传，又有身教，勤劳的意义愈发凸显.' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
0.8146241674953825 page_content='5. 参数配置\n\n周期数：3。\n\n批大小：4。\n\n累积梯度更新步数：2。\n\n6. 训练过程' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
0.8133819945026451 page_content='类别: 薪资 文本: 哈喽～本职位为线上兼职，一单一结款，根据自己时间自由接单，不耽误自己的主业，您看感兴趣嘛？ 类别: 兼职 文本: 你好 类别:' metadata={'source': '/Users/feiyu/Downloads/于飞-简历.docx'}
