# ChatGPT communicates with PDF

In [1]:
# !pip install pypdf2 faiss-cpu -U

# with CUDA
# !pip install pypdf2 faiss -U

## 导入依赖包

In [23]:
from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.chains.question_answering import load_qa_chain
from langchain.chat_models import ChatOpenAI

## 加载PDF并提取文本

In [24]:
reader = PdfReader('data/report.pdf')

raw_text = ''
for i, page in enumerate(reader.pages):
    text = page.extract_text()
    if text:
        raw_text += text

## 将文本拆分为块(chunk)

便于更高效的处理文本，将提取出来的文本拆分成更小的，更易于管理的块。

In [25]:
text_splitter = CharacterTextSplitter(
    separator="\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len
)

texts = text_splitter.split_text(raw_text)

## 生成embeddings

文本嵌入，用于捕获文本的语义，便于后期找出跟prompt用户提问相关的内容。

In [26]:
embeddings = OpenAIEmbeddings()

## 创建矢量搜索索引

为了实现高效的搜索，使用FAISS库来创建向量搜索索引。

In [27]:
index = FAISS.from_texts(texts, embeddings)

## 加载问答链

In [28]:
chain = load_qa_chain(ChatOpenAI(temperature=0.0), chain_type="stuff")

## 与PDF阅读器互动

In [29]:
query = "AIGC如何在营销方面起到作用？"
docs = index.similarity_search(query)
response = chain.run(input_documents=docs, question=query)
print(response)

AIGC在营销方面可以起到多种作用，包括但不限于：

1. 创意参考生成：AIGC可以自动生成广告创意和投放优化参考，包括广告设计、广告内容、投放渠道策略和投放分析，从而提高广告效果和投放效率。

2. 线索运营评估与优化：AIGC可以快速生成线索评估与优化策略，帮助企业提高线索质量和
