In [None]:
from langchain.document_loaders import PyPDFLoader

In [None]:
loader = PyPDFLoader("huaweidata.pdf")

In [None]:
from langchain.text_splitter import CharacterTextSplitter

docs = loader.load_and_split(
    text_splitter=CharacterTextSplitter.from_tiktoken_encoder(chunk_size=10, chunk_overlap=0)
)
print(f"{len(docs)} documents loaded")

In [None]:
import os
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings

os.environ['OPENAI_API_KEY'] = "sk-xxxx"

### Create faiss vector index

In [None]:
faiss = FAISS.from_documents(docs, OpenAIEmbeddings())
faiss.save_local("faiss_huaweidata")

### Load from local

In [None]:
faiss = FAISS.load_local("faiss_huaweidata", OpenAIEmbeddings())

### Query Faiss

In [None]:
res = faiss.similarity_search(query="数据质量系统建设", k=10)

In [None]:
print(res[9].page_content)

## ChatBot

In [5]:
from langchain.chains import ConversationalRetrievalChain
from langchain.callbacks import get_openai_callback
from langchain.chat_models import ChatOpenAI
from langchain.memory import ConversationBufferMemory

memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)

qa = ConversationalRetrievalChain.from_llm(
    llm=ChatOpenAI(),
    retriever=faiss.as_retriever(),
    memory=memory,
    verbose=True
)



[1m> Entering new StuffDocumentsChain chain...[0m


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Use the following pieces of context to answer the users question. 
If you don't know the answer, just say that you don't know, don't try to make up an answer.
----------------
序三
企业数字化转型是大势所趋，通过数据科学治理、数据平台建
设、数据分析与建模，把数据变成服务，使数据能在企业内顺畅流动
起来，为企业带来巨大的价值。数据是企业数字化转型的重要基础。
为了实现数字化转型，企业需要构建以云为基础、以数据为驱动
的新型企业IT架构。但是，多年积累下来的存量IT系统和大量历史数
据怎么办？华为数字化转型的核心理念是“双模IT、立而不破”，通
过建立新老环境融合的双模（Bi-Model ）IT架构，把企业的新老数据
和应用与正在及未来将要产生的IoT数据连接在一起，构建统一的数据
与应用平台，并与机器学习、人工智能等技术手段相结合，使数据产
生更大的价值。
数据的潜在应用场景有很多，但是企业只有将数据与自身业务相
结合，从业务实际问题出发，结合数据分析技术找到解决方案，并及
时变现，才有真正的意义。数据时代已经到来，华为在深入数字化转
型的过程中，在全球供应链、松山湖制造工厂以及170多个国家的工程
交付现场，以“对象数字化、过程数字化和规则数字化”为基本原
则，通过IT工具引入和人工智能元素的叠加，实现从过去的“人拉肩
扛”到现在的线下、线上高效协同，为业务创造了很大的价值。
本书对华为公司多年数据治理和数据消费变革历程进行了系统性
总结，从治理体系、架构方法、流程规范、IT工具、数据组织等多方
面总结了企业在数据治理中面临的挑战及其解决方案，并介绍了一些
华为独有的创新成果，如数据底座、数据湖、主题联接、数据地图、
数据生态等。

第1章
数据驱动的企业数字化转型
随着通信与数字技术的发展，网络化和数字化给人

In [7]:
with get_openai_callback() as callback:
    query = "请用中文回答"
    result = qa({"question": query})
    print(f"result: {result['answer']}")
    print(callback)



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mGiven the following conversation and a follow up question, rephrase the follow up question to be a standalone question.

Chat History:

Human: 企业数字化转型的核心是什么？
Assistant: 企业数字化转型的核心是以数据为驱动，构建以云为基础的新型企业IT架构，通过数据科学治理、数据平台建设、数据分析与建模，把数据变成服务，使数据能在企业内顺畅流动起来，为企业带来巨大的价值。同时，华为数字化转型的核心理念是“双模IT、立而不破”，通过建立新老环境融合的双模（Bi-Model）IT架构，把企业的新老数据和应用与正在及未来将要产生的IoT数据连接在一起，构建统一的数据与应用平台，并与机器学习、人工智能等技术手段相结合，使数据产生更大的价值。
Human: 华为是怎么做的？
Assistant: Huawei approaches digital transformation in enterprises by focusing on two key challenges: cost and efficiency. They aim to improve service and operational efficiency while lowering costs to obtain better products. In 2016, Huawei established a five-year plan to achieve digital transformation in their business, with a focus on improving efficiency, benefits, and customer satisfaction. They aim to achieve their goal of bringing the digital world to everyone and building a connected intelligen