# 在Linux下，建立新的虛擬環境
## 建立虛擬環境
由於`langchain`需要較新版的`python`，因此建議使用`conda`建立虛擬環境，並安裝`python 3.11`。另外，`langchain`需要`jupyter notebook`，因此也建議安裝`anaconda`和`nb_conda`。
```shell=
conda create --name langchain python=3.11 anaconda nb_conda
```

## 啟動虛擬環境
```shell=
conda activate langchain
```

## 申請OpenAI的API Key
`langchain`需要使用OpenAI的API，因此必須先擁有API Key。請先到[OpenAI](https://beta.openai.com/)申請帳號，並取得API Key。

## 申請serpai的API Key
`langchain`需要連到外網搜尋，因此需要使用serpai的API，因此必須先擁有API Key。請先到[serpai](https://serpapi.com/)申請帳號，並取得API Key。

## 在啟動虛擬環境後，自動載入環境變數的方法
在啟動虛擬環境後，自動載入環境變數的方法，請參考[這裡](https://stackoverflow.com/questions/4906977/access-environment-variables-from-python)。通常在`~/.bashrc`或`~/.zshrc`中加入以下內容即可，但我們這個環境變數不是全域變數，因此希望在`conda activate`時才載入，因此需要使用`conda var config`來設定
```shell=
conda activate langchain
conda env config vars set OPENAI_API_KEY="<KEY>" SERPAPI_API_KEY="<KEY>"
```

# 安裝需要的套件
* langchain：基本的langchain套件
* openai：基本的openai套件
* google-search-results：基本的google搜尋套件
* unstructured：讀取文字檔格式的套件
* chromadb：向量儲存資料庫，必須大於0.3.5版本以上
* pinecone-client：向量搜尋資料庫，必須大於0.1.0版本以上，並且需要註冊帳號，線上的
* youtube-transcript-api：youtube字幕搜尋套件
* pytube：youtube影片下載套件
* pdf2image：pdf轉圖片套件
* pytesseract：圖片轉文字套件
* tiktoken套件：OpenAI算token數的套件

In [None]:
!pip install langchain
!pip install openai
!pip install google-search-results
!pip install unstructured
!pip install 'chromadb>=0.3.5'
!pip install pinecone-client
!pip install youtube-transcript-api
!pip install pytube
!pip install pdf2image
!pip install pytesseract
!pip install tiktoken

# Python要3.9以上

## `langchain流程`
![image.png](attachment:image.png)

## 將環境變數讀入

In [None]:
# 先去https://serpapi.com/申請API KEY

import os
apikey = os.environ["OPENAI_API_KEY"]
serpapikey = os.environ["SERPAPI_API_KEY"]
huggingfacehub_apikey = os.environ["HUGGINGFACEHUB_API_KEY"]

## 先套用OpenAI的API
使用`langchain`中的`OpenAI`套件載入大型語言模型，載入達文西模型，並且設定最大輸出長度為1024。此部分會收費

In [None]:
from langchain.llms import OpenAI

llm = OpenAI(model_name="text-davinci-003",max_tokens=1024)
llm("如何評價人工智慧？")

In [None]:
from langchain.agents import load_tools
from langchain.agents import initialize_agent
from langchain.llms import OpenAI
from langchain.agents import AgentType

# 載入OpenAI 模型
llm = OpenAI(temperature=0,max_tokens=2048) 

 # 載入 serpapi 工具
tools = load_tools(["serpapi"])

# 如果搜尋完想在計算一下可以這麼打
# tools = load_tools(['serpapi', 'llm-math'], llm=llm)

# 如果搜索完想再让他再用python的print做点简单的计算，可以这样写
# tools=load_tools(["serpapi","python_repl"])

# 工具加载后都需要初始化，verbose 参数为 True，会打印全部的执行详情
agent = initialize_agent(tools, llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

# 运行 agent
# agent.run("What's the date today? What great events have taken place today in history?")
agent.run("今天是幾月幾號？歷上有什麼大事發生？")

## 上面程式說明
1. 我們可以看到，他正確的傳回了日期（有時差），並且返回了歷史上的今天。
2. 在鏈上和代理上都會有verbose這個參數，這個是非常有用的參數，啟動他們之後我們可以看到完整的鏈執行過程。
3. 可以在上面傳回的結果看到，他們將我們的問題分解了幾個步驟，然後一步一步得到最終的答案。

### 關於代理類型幾個選項的含義

* `zero-shot-react-description`: 根據工具的描述和請求內容的來決定使用哪個工具（最常用）
* `react-docstore`: 使用 ReAct 框架和 docstore 交互, 使用Search和Lookup工具, 前者使用來搜索, 後者尋找術語, 舉例:Wipipedia工具
* `self-ask-with-search`：這種代理只使用一個工具: Intermediate Answer, 它會為問題尋找答案(指的非gpt生成的答案, 而在網路中,文件中已經存在的), 如Google search API工具
* `conversational-react-description`: 為會議設置和設計的代理，它的提示會議被設計的工具具有會議性質，而且還是會使用 ReAct 框架來決定使用來個工具，並且將過往的會話交互存入記憶體

### 關於LLM的
* reAct 介紹可以看這個：https://arxiv.org/pdf/2210.03629.pdf
* LLM 的 ReAct 模式的 Python 實踐：https ://til.simonwillison.net/llms/python-react-pattern

### 代理類型官方解釋：

https://python.langchain.com/en/latest/modules/agents/agents/agent\_types.html?highlight=zero-shot-react-description

這個serpapi對中文支援不行，所以提出問題的提示建議使用英文，官方已經寫好了ChatGPT Plugins的agent，未來chatgpt能用什麼外掛，我們在api裡面也能用外掛，不要過目前只能使用不使用授權的插件，未來等待官方解決這個問題。

### 對超長文字進行summary

如果我們想用openai api對一段文件進行總結，我們通常的做法就是直接發給api讓他總結。但是如果文件超過了api最大的token限制就會出錯

這個時候，我們一般會進行對文章進行分段，比通過tiktoken計算並分段，然後將各段發送給api 進行總結，最後將各一段的總結再進行一個全部的總結。

如果用的是LangChain，就幫我們處理了這個過程，使我們編寫了程式碼變的非常簡單。

In [None]:
from langchain.document_loaders import UnstructuredFileLoader
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain import OpenAI
from langchain.document_loaders import TextLoader


# 導入文字
# loader = UnstructuredFileLoader("lg_test.txt")
loader = TextLoader("must.txt")

# 將文字轉換成Document物件
document = loader.load()
print(f'documents:{len(document)}')

# 初始化文字分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 0
)

# 切分文字
split_documents = text_splitter.split_documents(document)
print(f'documents:{len(split_documents)}')

### 上面程式的說明
文件分割器的`chunk_overlap`參數，切切後的每個文件裡包含幾個上一個文件結尾的內容，主要作用是為了增加每個文件的上下文關聯。比如，時，第一個文件為`aaaaaa`，第二個為`bbbbbb`；`chunk_overlap=0`當`chunk_overlap=2`這時，第一個文件為`aaaaaa`，第二個`為aabbbbbb`。

In [None]:
llm = OpenAI(max_tokens=1500)

# 建立總結chain
chain = load_summarize_chain(llm, chain_type="refine", verbose=True)

In [None]:
# 執行總結的chain（只取前5段）
chain.run(split_documents[:5])

### chain 的chain_type參數

這個參數主要控制了將文件傳給llm模型的方式，共有4種方式：

* `stuff`: 這種最簡單粗暴，會把所有的文件一次全部傳給llm模型進行總結。如果文件很多的話，勢必會報出最大的token限制的錯誤，所以總結束文本的時候一般不會選中這個。
* `map_reduce`: 這個方法會先將每個文件進行總結，最後將所有文件總結出的結果再進行一次總結。
* `refine`: 這種方式會先總結第一個文件，然後在將第一個文件總結出的內容和第二個文件一起發給llm模型在進行總結，以此類推推。這種方式的好處就是在總結束後一個文件的時候，會帶著前一個文件進行總結，給需要總結的文件添加了上下文，添加了總結內容的連接性。
*`map_rerank`: 這種一般不會用在總結的鏈上，而會用在問題的鏈上，他其實是一種搜索答案的匹配方式。首先你要給出一個問題，他會根給每個文檔的問題計算一個這個文件 可以回答這個問題的概率分數，然後找到分數最高的那個文件 ，在通過把這個文件轉化為問題的提示的一部分（問題+文檔）發送給 llm 模型，最後 llm 模型返回工具答案。

### 建立本機知識庫QA機器人

In [None]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import CharacterTextSplitter
from langchain import OpenAI,VectorDBQA
from langchain.document_loaders import DirectoryLoader
from langchain.chains import RetrievalQA

# 載入資料夾中所有TXT檔案
loader = DirectoryLoader('./', glob='**/*.txt')

# 將資料轉成document物佚，每個檔案會為作為一個document
documents = loader.load()

# 初始化載入器
text_splitter = CharacterTextSplitter(chunk_size=100, chunk_overlap=0)

# 切割加载的 document
split_docs = text_splitter.split_documents(documents)

# 初始化 openai 的 embeddings 物件
embeddings = OpenAIEmbeddings()

# 將 document 透過 openai 的 embeddings 物件計算 embedding向量資料暫時存入 Chroma 向量資料庫用於後續的搜尋
docsearch = Chroma.from_documents(split_docs, embeddings)

# 建立回答物件
qa = VectorDBQA.from_chain_type(llm=OpenAI(), chain_type="stuff", vectorstore=docsearch, return_source_documents=True)

# 進行回答
# result = qa({"query": "現行明新科技大學之校訓為何？"})
result = qa({"query": "工專時期第3任校長是誰"})
print(result['result'])

In [None]:
print(result)

## 持久化embedding資料庫

In [None]:
docsearch = Chroma.from_documents(split_docs, embeddings, persist_directory="./vector_store")
docsearch.persist()

In [None]:
docsearch = Chroma(persist_directory="./vector_store", embedding_function=embeddings)
result = qa({"query": "現任校長為何？"})
print(result['result'])

In [None]:
result = qa({"query": "校歌中，同建三民主義新中國的下一句是什麼？"})
print(result['result'])

### 使用線上pinecone資料庫
先來註冊建立資料庫：https://app.pinecone.io/
OpenAI 的`text-embedding-ada-002` 模型為 OUTPUT DIMENSIONS 為`1536`

In [None]:
!pip install pinecone-client

In [None]:
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import DirectoryLoader
from langchain.vectorstores import Chroma, Pinecone
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.llms import OpenAI
from langchain.chains.question_answering import load_qa_chain

import pinecone

pinecone_api_key = os.environ.get("PINECONE_API_KEY")

# 初始化 pinecone
pinecone.init(
  api_key="3ccbb897-f48e-41e1-b1ef-57cda088b684",
  environment="us-west4-gcp-free"
)

loader = DirectoryLoader('./', glob='**/*.txt')
# 将数据转成 document 对象，每个文件会作为一个 document
documents = loader.load()

# 初始化加载器
text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=0)
# 切割加载的 document
split_docs = text_splitter.split_documents(documents)

index_name="mustgpt"

# 持久化数据
# docsearch = Pinecone.from_texts([t.page_content for t in split_docs], embeddings, index_name=index_name)

# 加载数据
docsearch = Pinecone.from_existing_index(index_name,embeddings)

query = "工專時期2任校長是誰？"
docs = docsearch.similarity_search(query, include_metadata=True)

llm = OpenAI(temperature=0)
chain = load_qa_chain(llm, chain_type="stuff", verbose=True)
chain.run(input_documents=docs, question=query)

## 對YouTube的影片進行總結
* 使用GPT3.5-Turbo模型

In [None]:
import os

from langchain.document_loaders import YoutubeLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import ChatVectorDBChain, ConversationalRetrievalChain

from langchain.chat_models import ChatOpenAI
from langchain.prompts.chat import (
  ChatPromptTemplate,
  SystemMessagePromptTemplate,
  HumanMessagePromptTemplate
)

載入YouTube頻道

In [None]:
loader = YoutubeLoader.from_youtube_url('https://www.youtube.com/watch?v=Dj60HHy-Kqk')
# 資料轉成document
documents = loader.load()

切割文件

In [None]:
text_splitter = RecursiveCharacterTextSplitter(
  chunk_size=1000,
  chunk_overlap=20
)

初始化embedding

In [None]:
embeddings = OpenAIEmbeddings()

將資料存入向量資料庫


In [None]:
vector_store = Chroma.from_documents(documents, embeddings)

始始化檢索器


In [None]:
retriever = vector_store.as_retriever()

建立檢索的模版

In [None]:
system_template = """
Use the following context to answer the user's question.
If you don't know the answer, say you don't, don't try to make it up. And answer in Chinese.
-----------
{context}
-----------
{chat_history}
"""

构建初始 messages 列表，这里可以理解为是 openai 传入的 messages 参数

In [None]:
messages = [
  SystemMessagePromptTemplate.from_template(system_template),
  HumanMessagePromptTemplate.from_template('{question}')
]

初始化 prompt 物件

In [None]:
prompt = ChatPromptTemplate.from_messages(messages)

初始化問答chain

In [None]:
qa = ConversationalRetrievalChain.from_llm(ChatOpenAI(temperature=0.1,max_tokens=2048),retriever,condense_question_prompt=prompt)

開始進行問答

In [None]:
chat_history = []

In [None]:
# while True:
question = input('問題：')
# 開始問問題，chat_history 為必須參用於儲存對話歷史
result = qa({'question': question, 'chat_history': chat_history})
chat_history.append((question, result['answer']))
print(result['answer'])

# 其它範例

### 串接多個chain

In [None]:
from langchain.llms import OpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.chains import SimpleSequentialChain

# location 链
llm = OpenAI(temperature=1)
template = """你的工作就是建立一個傳統的菜單，使用使用者的指定的區域.
% USER LOCATION
{user_location}

YOUR RESPONSE:
"""
prompt_template = PromptTemplate(input_variables=["user_location"], template=template)
location_chain = LLMChain(llm=llm, prompt=prompt_template)

# meal 链
template = """給我一個好吃的中餐餐點，並且說明要在家裡自己做這份菜的食譜是什麼.
% MEAL
{user_meal}

YOUR RESPONSE:
"""
prompt_template = PromptTemplate(input_variables=["user_meal"], template=template)
meal_chain = LLMChain(llm=llm, prompt=prompt_template)

# 通过 SimpleSequentialChain 串联起来，第一个答案会被替换第二个中的user_meal，然后再进行询问
overall_chain = SimpleSequentialChain(chains=[location_chain, meal_chain], verbose=True)
review = overall_chain.run("Rome")

# 使用Hugging Face的模型

In [None]:
import os
huggingfacehub_api_token = os.environ['HUGGINGFACEHUB_API_TOKEN'] = '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'

In [None]:
from langchain import PromptTemplate, HuggingFaceHub, LLMChain

template = """Question: {question}
Answer: Let's think step by step."""

prompt = PromptTemplate(template=template, input_variables=["question"])
llm = HuggingFaceHub(repo_id="google/flan-t5-xl", model_kwargs={"temperature":0, "max_length":64}, huggingfacehub_api_token=huggingfacehub_api_token])
llm_chain = LLMChain(prompt=prompt, llm=llm)

question = "What NFL team won the Super Bowl in the year Justin Beiber was born?"
print(llm_chain.run(question))