## Open Text Embeddings

### [LangChain Embeddings](https://python.langchain.com/en/latest/reference/modules/embeddings.html)

#### Hugging Face Embeddings
* https://www.sbert.net/docs/pretrained_models.html
* https://github.com/UKPLab/sentence-transformers
  * https://github.com/UKPLab/sentence-transformers/blob/master/docs/pretrained_models.md

In [None]:
%%bash
pip install --upgrade sentence-transformers

Successfully installed nltk-3.8.1 scikit-learn-1.2.2 scipy-1.10.1 sentence-transformers-2.2.2 sentencepiece-0.1.97 threadpoolctl-3.1.0


In [None]:
from langchain.embeddings import HuggingFaceEmbeddings

In [None]:
help(HuggingFaceEmbeddings)

In [None]:
help(HuggingFaceEmbeddings.__init__)

Help on function __init__ in module langchain.embeddings.huggingface:

__init__(self, **kwargs: Any)
    Initialize the sentence_transformer.



In [None]:
HuggingFaceEmbeddings(model_name='sentence-transformers/all-mpnet-base-v2')

In [None]:
hf_embeddings = HuggingFaceEmbeddings()

# 准备文本
text = '这是一个测试文档。'

# 使用 HuggingFaceEmbeddings 生成文本嵌入
query_result = hf_embeddings.embed_query(text)
doc_result = hf_embeddings.embed_documents([text])

print(len(query_result))
# print(query_result)

print(len(doc_result))
print(len(doc_result[0]))
# print(doc_result)

768
1
768


In [None]:
hf_embeddings.model_name

'sentence-transformers/all-mpnet-base-v2'

In [None]:
%%bash
ls -lah ~/.cache/torch/sentence_transformers/sentence-transformers_all-mpnet-base-v2

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
total 865816
drwxr-xr-x  16 saintway  staff   512B Apr 12 14:31 [1m[36m.[m[m
drwxr-xr-x   3 saintway  staff    96B Apr 12 14:31 [1m[36m..[m[m
-rw-r--r--   1 saintway  staff   1.1K Apr 12 14:28 .gitattributes
drwxr-xr-x   3 saintway  staff    96B Apr 12 14:28 [1m[36m1_Pooling[m[m
-rw-r--r--   1 saintway  staff    10K Apr 12 14:28 README.md
-rw-r--r--   1 saintway  staff   571B Apr 12 14:28 config.json
-rw-r--r--   1 saintway  staff   116B Apr 12 14:28 config_sentence_transformers.json
-rw-r--r--   1 saintway  staff    38K Apr 12 14:28 data_config.json
-rw-r--r--   1 saintway  staff   349B Apr 12 14:31 modules.json
-rw-r--r--   1 saintway  staff   418M Apr 12 14:31 pytorch_model.bin
-rw-r--r--   1 

In [None]:
%%bash
du -sh ~/.cache/torch/sentence_transformers/sentence-transformers_all-mpnet-base-v2

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
423M	/Users/saintway/.cache/torch/sentence_transformers/sentence-transformers_all-mpnet-base-v2


#### [Hugging Face Instruct Embeddings](https://huggingface.co/datasets/calmgoose/book-embeddings)
* https://github.com/UKPLab/sentence-transformers
* https://github.com/HKUNLP/instructor-embedding

In [None]:
%%bash
pip install --upgrade InstructorEmbedding

Successfully installed InstructorEmbedding-1.0.0


* https://github.com/basujindal/chatPDF

In [None]:
from langchain.embeddings import HuggingFaceInstructEmbeddings
hfi_embeddings = HuggingFaceInstructEmbeddings(model_name='hkunlp/instructor-large')

load INSTRUCTOR_Transformer
max_seq_length  512


In [None]:
hfi_embeddings.model_name

'hkunlp/instructor-large'

In [None]:
%%bash
ls -lah ~/.cache/torch/sentence_transformers/hkunlp_instructor-large

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
total 2640208
drwxr-xr-x  15 saintway  staff   480B Apr 12 15:19 [1m[36m.[m[m
drwxr-xr-x   4 saintway  staff   128B Apr 12 15:19 [1m[36m..[m[m
-rw-r--r--   1 saintway  staff   1.4K Apr 12 15:07 .gitattributes
drwxr-xr-x   3 saintway  staff    96B Apr 12 15:07 [1m[36m1_Pooling[m[m
drwxr-xr-x   4 saintway  staff   128B Apr 12 15:08 [1m[36m2_Dense[m[m
-rw-r--r--   1 saintway  staff    65K Apr 12 15:08 README.md
-rw-r--r--   1 saintway  staff   1.5K Apr 12 15:08 config.json
-rw-r--r--   1 saintway  staff   122B Apr 12 15:08 config_sentence_transformers.json
-rw-r--r--   1 saintway  staff   461B Apr 12 15:19 modules.json
-rw-r--r--   1 saintway  staff   1.2G Apr 12 15:19 pytorch_model.bin
-rw-r--r

In [None]:
%%bash
du -sh ~/.cache/torch/sentence_transformers/hkunlp_instructor-large

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
1.3G	/Users/saintway/.cache/torch/sentence_transformers/hkunlp_instructor-large


In [None]:
# 准备文本
text = '这是一个测试文档。'

# 使用 HuggingFaceInstructEmbeddings 生成文本嵌入
query_result = hfi_embeddings.embed_query(text)
doc_result = hfi_embeddings.embed_documents([text])

print(len(query_result))
print(query_result)

print(len(doc_result))
print(len(doc_result[0]))
print(doc_result)

768
[-0.022137142717838287, -0.019943105056881905, 0.009940845891833305, 0.029961414635181427, 0.0015559268649667501, -0.0010082109365612268, 0.004636477679014206, 0.006970031186938286, -0.039788346737623215, 0.028241422027349472, -1.5192752471193671e-05, -0.008512390777468681, 0.04590446129441261, 0.03056621551513672, -0.030894720926880836, -0.02884022891521454, -0.023664429783821106, -0.010090871714055538, -0.036661747843027115, -0.001970992423593998, 0.05847157910466194, 0.008038687519729137, -0.012776742689311504, 0.05411699786782265, 0.01262636948376894, 0.016430772840976715, -0.04767526313662529, 0.01811787858605385, 0.04832480102777481, -0.0647105798125267, 0.03377210721373558, -0.04854683578014374, -0.040563128888607025, -0.04772289842367172, -0.018774421885609627, 0.020985594019293785, 0.025719504803419113, 0.027344582602381706, 0.026014933362603188, 0.055159278213977814, -0.01577085256576538, 0.01060266699641943, -0.0031603227835148573, -0.039208076894283295, 0.03614024817943

In [None]:
from langchain.embeddings.huggingface import DEFAULT_QUERY_INSTRUCTION, DEFAULT_EMBED_INSTRUCTION

In [None]:
print(DEFAULT_QUERY_INSTRUCTION)
print(DEFAULT_EMBED_INSTRUCTION)

---
Preparing Documents

In [None]:
%%bash
wget --recursive --no-parent --accept=.html --directory-prefix _morning --no-clobber http://ailingmusheng.ren/7/2022djth/2022-7_0008.html

In [None]:
import os
import shutil

# 定义一个函数来递归遍历目录树，找到名为 .ipynb_checkpoints 的子目录并删除它们。
def remove_checkpoints(dir_path):
    for root, dirs, files in os.walk(dir_path):
        for name in dirs:
            if name == '.ipynb_checkpoints':
                shutil.rmtree(os.path.join(root, name))

# 调用函数来删除目录下所有名为 .ipynb_checkpoints 的子目录。
remove_checkpoints('_morning')

In [None]:
import os

def delete_ds_store_files(path):
    for root, dirs, files in os.walk(path):
        for name in files:
            if name == '.DS_Store':
                os.remove(os.path.join(root, name))

delete_ds_store_files('_morning')

In [None]:
import os
import shutil
from pathlib import Path

# 1. 用户设定目录路径。
directory_path = '_morning'

# 2. 获取目录及其子目录下的所有文件，并按照扩展名分类。
file_extension_map = {}
for root, dirs, files in os.walk(directory_path):
    for file_name in files:
        file_path = os.path.join(root, file_name)
        file_extension = Path(file_name).suffix.lower()
        if file_extension not in file_extension_map:
            file_extension_map[file_extension] = []
        file_extension_map[file_extension].append(file_path)

# 3. 创建新目录，并将同样扩展名的文件移动到该目录下。
for file_extension, file_list in file_extension_map.items():
    new_directory_path = os.path.join(directory_path, file_extension[1:])
    for file_path in file_list:
        new_file_path = os.path.join(new_directory_path, os.path.relpath(file_path, directory_path))
        os.makedirs(os.path.dirname(new_file_path), exist_ok=True) # 创建目录，存在则不创建。
        shutil.move(file_path, new_file_path)

In [None]:
%%bash
pip install chardet

Successfully installed chardet-5.1.0


In [None]:
import chardet

# 读取文件内容
with open('_morning/html/ailingmusheng.ren/7/2022djth/2022-7_0008.html', 'rb') as f:
    content = f.read()

# 检测文件内容的编码类型
result = chardet.detect(content)

# 输出编码类型和可信度
print('编码类型:', result['encoding'])
print('可信度:', result['confidence'])

编码类型: utf-8
可信度: 0.99


---
* [Different Types of Document Loaders](https://github.com/hwchase17/langchain/blob/master/langchain/document_loaders/__init__.py)
* [Document Loader - BSHTMLLoader](https://python.langchain.com/en/latest/modules/indexes/document_loaders/examples/html.html)
  * https://github.com/hwchase17/langchain/blob/master/langchain/document_loaders/html_bs.py

In [None]:
import os
import shutil

def remove_xml_lines(path):
    for root, dirs, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            with open(file_path) as f:
                lines = f.readlines()
            with open(file_path, 'w') as f:
                for line in lines:
                    if line != "<?xml version='1.0' encoding='utf-8'?>\n":
                        f.write(line)

remove_xml_lines('_morning/htm')
remove_xml_lines('_morning/html')

In [None]:
from langchain.document_loaders import DirectoryLoader, BSHTMLLoader
loader = DirectoryLoader('_morning/htm', loader_cls=BSHTMLLoader)
raw_documents = loader.load()

In [None]:
import re
for raw_document in raw_documents:
    raw_document.page_content = re.sub(r'\n+', '\n', raw_document.page_content.replace('。', '。\n'))

In [None]:
# from langchain.document_loaders import DirectoryLoader, BSHTMLLoader
# loader = DirectoryLoader('_morning/html', loader_cls=BSHTMLLoader)
# raw_documents = loader.load()

* https://github.com/hwchase17/langchain/blob/master/langchain/text_splitter.py => RecursiveCharacterTextSplitter
* https://github.com/hwchase17/langchain/blob/master/langchain/schema.py => Document

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=512,
    chunk_overlap=64,
)
documents = text_splitter.split_documents(raw_documents)

* [结巴中文分词](https://github.com/fxsjy/jieba)
* https://github.com/Kyubyong/wordvectors
* https://github.com/facebookresearch/fastText

In [None]:
from langchain.docstore.document import Document
# import pdb; pdb.set_trace()
text_splitter.split_documents([Document(page_content='第四周历代志、以斯拉记、尼希米记、以斯帖记结晶读经第四周借着神的申言者神圣的鼓励，恢复神殿的建造周四、周五叁撒迦利亚书启示，灯台的七灯（四2，启四5）是神的七灵，七倍加强的灵（一4），就是耶和华的七眼（亚四10），也是救赎之羔羊的七眼（启五6），以及建造之石头的七眼（亚三9），为着三一神完满的彰显和神殿的重建：一在撒迦利亚三章九节里，这块安置在约书亚面前的石头，预表基督是神建造的石头（诗一一八22，太二一42）；耶和华要雕刻这石头，指明基督在十字架上受死时，乃是被神雕刻、剪除；耶和华要在一日之间除掉那地的罪孽，指明神在其上作工的基督，要在一日之间，就是在祂钉十字架之日，除掉以色列地的罪；借着祂在十字架上的死，神的羔羊基督除去了世人的罪（彼前二24，约一29）：１石头、耶和华和羔羊乃是一；基督是救赎的羔羊和建造的石头，也是耶和华；基督乃是羔羊石头—羔羊为着救赎，石头为着建造—启五6，亚三9。２在神的建造里，基督是基石，托住神的建造；是房角石，将祂身体上外邦和犹太的肢体联络在一起；也是恩典的顶石，完成神建造中的一切—赛二八16，林前三11，弗二20，彼前二6，亚四7。３神的羔羊基督是那有七眼之建造的石头，这启示基督的七眼乃是为着神的建造—约一29，亚三9，启五6。４基督是建造的石头，有七眼，就是七灵，为要将祂自己灌注到我们里面，好把我们变化为宝贵的材料，为着神的建造；当主注视我们，祂的七眼就将祂自己灌注到我们里面—亚三9，林前三12，启三1，五6。二为着完成神的建造，七倍加强的灵是基督这救赎之羔羊和建造之石头的眼睛，鉴察并搜寻我们，并用基督的素质、丰富和负担，注入并灌注到我们里面，为着神的建造—亚三9，四7，启一14，五6：１羔羊的七眼，将基督这法理的救赎者注入我们里面；石头的七眼，将基督这生机的拯救者注入我们里面，目的是为着神在地上经纶的行动，要借着祂法理的救赎，凭着祂生机的拯救，达到祂建造的目标—约一29，徒四11~12，罗五10。２在我们里面有两盏灯—神七倍加强的灵在我们的灵里（箴二十27，启四5，林前六17）；我们要被变化，就必须在祷告中向主完全敞开，让主的灯同着七盏火灯搜寻我们魂里的每一个房间，照耀并光照我们内里的各部分，用生命供应各部分。３经历最大变化的人，乃是向主完全敞开的人；借着七倍加强的灵在寻求基督之信徒里的运行，他们就得着加强，成为得胜者，以建造基督的身体，终极完成新耶路撒冷。三基督这位末后的亚当，在复活里成了赐生命的灵（十五45下，约六63上，林后三6下），祂也是七倍加强的灵；这灵就是生命的灵（罗八2）；因此，七灵的功用乃是将神圣的生命分赐到神的子民里面，为着建造神永远的居所新耶路撒冷。四七倍加强的灵乃是七盏火灯，焚烧、光照、暴露、搜寻、审判、洁净并炼净我们，好产生金灯台，完成神新约的经纶—启四5，一2、4、9~12、20。第四周周五晨兴喂养箴二十27人的灵是耶和华的灯，鉴察人的深处。启四5……有七盏火灯在宝座前点着，这七灯就是神的七灵。谁经历最大量的变化？就是向主完全敞开的人。……“主，我向你完全敞开。我要一直向你敞开。我的全人—我的心、我的心思、我的意志和我的情感—是敞开的。求你一直照耀，彻底鉴察我，光照并点活我。我愿完全接受你的光照。”这样，光会渗透每一部分，同时生命会供应给你。泥土所造的人要变化成为基督的形像。随着金这样成形在你里面，就会有七灵照耀并彰显神。愿我们众人向祂敞开，接受祂的光照，并让祂的生命供应我们。然后我们就会变化，并有基督的形像。我们蒙里面的灯光照，就会实际地在我们的地方上成为金灯台，彰显三一神。这样，祂就要得着祂的见证（李常受文集一九七九年第一册，五○七至五○八页）。信息选读这包罗万有、超绝、奇妙、奥秘、美妙的一位，乃是神行政的执行者。……因为祂有资格，因为祂配〔参启五4~6〕，所以七印交给了祂。这一位有资格揭开七印，执行神的经纶。祂执行神经纶的方式，乃是凭着七灵作祂的眼睛。……基督是神经纶的焦点执行者，但祂需要七灵作祂的眼睛，来执行神的经纶。今天七灵在地上焚烧，为着执行神的行政。……焚烧的火焰执行神的经纶，目的是要产生金灯台，众召会。焚烧含示审判、洁净、炼净、产生。……我不相信在世界或召会里似乎令人失望的光景。我相信焚烧之七灵的火焰，支配并指引世界，也审判、洁净并炼净召会，要产生一个纯金的灯台。我们在这里尽量给主机会和入口，来审判我们、洁净我们并炼净我们，好产生一个纯金的灯台。我们向着神七灵的焚烧大大敞开。我们都需要祷告：“亲爱的神圣火焰，来吧！来审判！来洁净！来炼净，使你能产生金灯台。”……因着祂的怜悯，我们向祂敞开。我们每天、每早、每晚都需要祷告：“主，来吧；我们向你敞开！我们全人的每一通道都向你敞开。”……我能作见证，我几乎天天祷告：“主，光照我；主，搜寻我里面，并且暴露我。我喜欢被你光照，并且在你的光中被暴露。”……我们都必须祷告：“主，我们是敞开的。来照耀在我们身上，从我们里面照耀，光照我们全人的每一通道、每一角落。我喜欢被暴露、被清理、被炼净。”这样，主就有路产生纯金的灯台。出自永远者和救赎者的七灵，乃是在神宝座前点着的七盏火灯，在宇宙中执行神的经纶；也是被杀之羔羊的七眼，搜寻并灌注众召会（四5，五6下）。七灵的双重使命乃是执行神的行政，以及搜寻并灌注众召会。七灵搜寻出我们的罪恶，并以基督的丰富灌注我们。当人和你说话的时候，他的两眼同时把他的负担灌注到你里面。照样，神的七灵作为羔羊的眼睛，也把这位奇妙者的负担和素质灌注到我们里面（李常受文集一九八四年第三册，四四八至四五二页）。参读：生命信息，第六十八至七十章；神新约的经纶，第二十三章。确定的话定住的光启示：七灵乃是在神宝座前点着的七盏火灯。经历：七灯来焚烧、光照、暴露、搜寻、审判、洁净并炼净我们。应用：借长时祷告向主完全敞开。一句话：“亲爱的神圣火焰，来吧！来审判！来洁净！来炼净！”', metadata={})])

In [None]:
list('这是一个测试文档。')

['这', '是', '一', '个', '测', '试', '文', '档', '。']

---
Embedding Documents

```python
from langchain.embeddings import OpenAIEmbeddings
embeddings = OpenAIEmbeddings()
```

In [None]:
from langchain.embeddings import HuggingFaceInstructEmbeddings

In [None]:
hfi_embeddings = HuggingFaceInstructEmbeddings(model_name='hkunlp/instructor-large')

load INSTRUCTOR_Transformer
max_seq_length  512


---
`tqdm` 是一个 Python 库，用于在循环中添加进度条。它可以用于任何可迭代的对象，如列表、元组、字典、文件等。它提供了一个简单的 API ，可以轻松地将进度条添加到循环中。以下是一个简单的示例代码：

In [None]:
from tqdm.autonotebook import trange

for i in trange(1000000):
    pass

In [None]:
from tqdm import tqdm

for i in tqdm(range(1000000)):
    pass

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1000000/1000000 [00:00<00:00, 4955597.80it/s]


在这个例子中，我们使用了 `tqdm` 库来添加一个进度条到循环中。我们使用了内置的 `range()` 函数来生成一个包含 1000000 个元素的迭代器，并将其传递给 `tqdm()` 函数。然后，我们使用了一个简单的循环来遍历这个迭代器，并在每次迭代时调用 `tqdm.update()` 方法来更新进度条。

---

In [None]:
import os, pickle

In [None]:
if os.path.exists(os.path.expanduser('~/vectorstore_morning.pkl')):
    # load vectorstore
    with open(os.path.expanduser('~/vectorstore_morning.pkl'), 'rb') as f:
        vectorstore = pickle.load(f)

---
Saving in Faiss

```python
from langchain.vectorstores.faiss import FAISS
vectorstore = FAISS.from_documents(documents, embeddings)
```

In [None]:
from langchain.vectorstores.faiss import FAISS

In [None]:
if not os.path.exists(os.path.expanduser('~/vectorstore_morning.pkl')):
    vectorstore = FAISS.from_documents(documents, hfi_embeddings)

In [None]:
if not os.path.exists(os.path.expanduser('~/vectorstore_morning.pkl')):
    # save vectorstore
    with open(os.path.expanduser('~/vectorstore_morning.pkl'), 'wb') as f:
        pickle.dump(vectorstore, f)

In [None]:
%%bash
ls -lah ~/vectorstore_morning.pkl

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
-rw-r--r--  1 saintway  staff   1.3G Apr 17 00:47 /Users/saintway/vectorstore_morning.pkl


---
Similarity Searching

In [None]:
question = '你知道什么？'

In [None]:
# get context related to the question from the embedding model
vectorstore.similarity_search(question, 30)

[Document(page_content='神在人里之行动的五个步骤', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='第十篇\n历代志、以斯拉记、尼希米记、以斯帖记结晶读经\n第十篇\u3000以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导\n调速 \u3000\n本篇信息，我们来到另一个结晶，题目是“以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导”。许多人可能对以斯拉记和尼希米记有这样的结晶，感到意外。相信很少有人能读出这两卷书中心并重要的点，是主恢复中正确并适当的领导。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/10_ts.htm', 'title': '第十篇'}),
 Document(page_content='因为这爱是在基督里、同着基督、借着基督并为着基督的。”神在人里之行动的五个步骤，就是这“慈绳”（人的绳）；每一步骤都与基督的人性有关。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='经历：属灵人乃是一个受他的灵管治并支配的人。\n应用：我们需要操练灵，全心转向主。\n一句话：基督乃是神经纶的中心与普及。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_h_6.htm', 'title': '第一周'}),
 Document(page_content='以赛亚为什么会得到这一个结论？又怎么根据这一个结论，而有了这一个说法？如果你把整卷以赛亚书都读过，你就能读出那一个原因。那是因为神在以色列人中间，在以色列人身上，作了许许多多的事，但神却把自己藏在一边，藏在以色列人的旁边，藏在以色列人的背后。不错，祂是一直在那里作事，但另一面祂却一直把自己隐藏起来。一大

In [None]:
question = '第八周讲了什么？'

In [None]:
# get context related to the question from the embedding model
vectorstore.similarity_search(question, 30)

[Document(page_content='神在人里之行动的五个步骤', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='第十篇\n历代志、以斯拉记、尼希米记、以斯帖记结晶读经\n第十篇\u3000以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导\n调速 \u3000\n本篇信息，我们来到另一个结晶，题目是“以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导”。许多人可能对以斯拉记和尼希米记有这样的结晶，感到意外。相信很少有人能读出这两卷书中心并重要的点，是主恢复中正确并适当的领导。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/10_ts.htm', 'title': '第十篇'}),
 Document(page_content='因为这爱是在基督里、同着基督、借着基督并为着基督的。”神在人里之行动的五个步骤，就是这“慈绳”（人的绳）；每一步骤都与基督的人性有关。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='经历：属灵人乃是一个受他的灵管治并支配的人。\n应用：我们需要操练灵，全心转向主。\n一句话：基督乃是神经纶的中心与普及。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_h_6.htm', 'title': '第一周'}),
 Document(page_content='以赛亚为什么会得到这一个结论？又怎么根据这一个结论，而有了这一个说法？如果你把整卷以赛亚书都读过，你就能读出那一个原因。那是因为神在以色列人中间，在以色列人身上，作了许许多多的事，但神却把自己藏在一边，藏在以色列人的旁边，藏在以色列人的背后。不错，祂是一直在那里作事，但另一面祂却一直把自己隐藏起来。一大

In [None]:
question = '七倍加强的灵是什么？'

In [None]:
# get context related to the question from the embedding model
vectorstore.similarity_search(question, 30)

[Document(page_content='神在人里之行动的五个步骤', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='第十篇\n历代志、以斯拉记、尼希米记、以斯帖记结晶读经\n第十篇\u3000以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导\n调速 \u3000\n本篇信息，我们来到另一个结晶，题目是“以斯拉记和尼希米记这两卷恢复的书中心并重要的点—主恢复中正确并适当的领导”。许多人可能对以斯拉记和尼希米记有这样的结晶，感到意外。相信很少有人能读出这两卷书中心并重要的点，是主恢复中正确并适当的领导。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/10_ts.htm', 'title': '第十篇'}),
 Document(page_content='因为这爱是在基督里、同着基督、借着基督并为着基督的。”神在人里之行动的五个步骤，就是这“慈绳”（人的绳）；每一步骤都与基督的人性有关。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_ts.htm', 'title': '第一篇'}),
 Document(page_content='经历：属灵人乃是一个受他的灵管治并支配的人。\n应用：我们需要操练灵，全心转向主。\n一句话：基督乃是神经纶的中心与普及。', metadata={'source': '_morning/htm/ailingmusheng.ren/7/2022djth/1_h_6.htm', 'title': '第一周'}),
 Document(page_content='以赛亚为什么会得到这一个结论？又怎么根据这一个结论，而有了这一个说法？如果你把整卷以赛亚书都读过，你就能读出那一个原因。那是因为神在以色列人中间，在以色列人身上，作了许许多多的事，但神却把自己藏在一边，藏在以色列人的旁边，藏在以色列人的背后。不错，祂是一直在那里作事，但另一面祂却一直把自己隐藏起来。一大

---
Mock OpenAI

In [None]:
import json, os
from revChatGPT.V1 import Chatbot, configure

# open the JSON file and read the conversation_id
with open(os.path.expanduser('~/.config/revChatGPT/config.json'), 'r') as f:
    conversation_id = json.load(f).get('conversation_id', None)

bot = Chatbot(
    config = configure(),
    conversation_id = conversation_id,
    lazy_loading = True
)

In [None]:
class attrdict(dict):
    def __getattr__(self, attr):
        return self.get(attr)

def attributize(obj):
    '''Add attributes to a dictionary and its sub-dictionaries.'''
    if isinstance(obj, dict):
        for key in obj:
            obj[key] = attributize(obj[key])
        return attrdict(obj)
    if isinstance(obj, list):
        return [attributize(item) for item in obj]
    return obj

def delta(prompt):
    res = ''
    for response in bot.ask(prompt):
        yield attributize({
            'choices': [
                {
                    'index': 0,
                    'delta': {
                        'content': response['message'][len(res):],
                    }
                }
            ],
        })
        res = response['message']

def mock_create(*args, **kwargs):
    summarized_prompt = ''
    for message in kwargs['messages']:
        summarized_prompt += f"{message['role']}:\n\n{message['content']}\n\n\n"
    summarized_prompt.strip()

    if kwargs.get('stream', False):
        return delta(summarized_prompt)

    for response in bot.ask(summarized_prompt):
        pass
    return attributize({
        'choices': [
            {
                'finish_reason': 'stop',
                'index': 0,
                'message': {
                    'content': response['message'],
                    'role': 'assistant',
                }
            }
        ],
    })

In [None]:
import openai, pytest

In [None]:
@pytest.fixture
def mock_openai(monkeypatch):
    monkeypatch.setattr(openai.ChatCompletion, 'create', mock_create)

---
QA with Similarity Searching

In [None]:
from langchain.prompts import PromptTemplate

CONDENSE_QUESTION_PROMPT = PromptTemplate(
    input_variables=['chat_history', 'question'],
    output_parser=None, partial_variables={},
    template='给定以下对话和后续问题，请重新表述后续问题以成为一个独立问题。\n\n聊天记录：\n{chat_history}\n后续问题：{question}\n独立问题：',
    template_format='f-string',
    validate_template=True
)

QA_PROMPT = PromptTemplate(
    input_variables=['context', 'question'],
    output_parser=None, partial_variables={},
    template='使用下面的背景信息回答最后的问题。如果您不知道答案，请直接说您不知道，不要试图编造一个答案。\n\n背景信息：\n{context}\n\n问题：{question}\n有用的答案：',
    template_format='f-string',
    validate_template=True
)

In [None]:
from langchain.chains.llm import LLMChain
from langchain.callbacks.base import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.chains.question_answering import load_qa_chain
from langchain.vectorstores.base import VectorStore
from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI

# Callback function to stream answers to stdout.
manager = CallbackManager([StreamingStdOutCallbackHandler()])

streaming_llm = ChatOpenAI(streaming=True, callback_manager=manager, verbose=True, temperature=0)
question_gen_llm = ChatOpenAI(temperature=0, verbose=True, callback_manager=manager)
# Prompt to generate independent questions by incorporating chat history and a new question.
question_generator = LLMChain(llm=question_gen_llm, prompt=CONDENSE_QUESTION_PROMPT)
# Pass in documents and a standalone prompt to answer questions.
doc_chain = load_qa_chain(streaming_llm, chain_type='stuff', prompt=QA_PROMPT)
# Generate prompts from embedding model.
qa = ConversationalRetrievalChain(retriever=vectorstore.as_retriever(), combine_docs_chain=doc_chain, question_generator=question_generator)

In [None]:
question = '七倍加强的灵是什么？'

In [None]:
answer = {}

In [None]:
def test_qa(mock_openai):
    global answer
    answer = qa({'question': question, 'chat_history': []})
    print('\n')
    assert isinstance(answer, dict)

In [None]:
from ipytest import do

In [None]:
do(
    mock_openai=mock_openai,
    test_qa=test_qa,
)


=> no.0  ::tools::test_qa  setup  passed

很抱歉，我无法回答这个问题。在所提供的背景信息中没有提及“七倍加强的灵”，也没有足够的上下文信息可以确定它指的是什么。如果您有更多的背景信息或上下文，请提供给我，我将尽力回答您的问题。

=> no.0  ::tools::test_qa  runtest  passed



In [None]:
answer

{'question': '七倍加强的灵是什么？',
 'chat_history': [],
 'answer': '很抱歉，我无法回答这个问题。在所提供的背景信息中没有提及“七倍加强的灵”，也没有足够的上下文信息可以确定它指的是什么。如果您有更多的背景信息或上下文，请提供给我，我将尽力回答您的问题。'}

---
Chat with PDF

In [None]:
import logging
logging.getLogger().setLevel(logging.CRITICAL)

In [None]:
import openai

In [None]:
messages_in_english = [{
    'role': 'system', 'content': 'You are an AI agent that summarizes chat in less than three setences.'
}]

In [None]:
messages_in_chinese = [{
    'role': '系统', 'content': '你是一个 AI 代理。请用中文在三句话之内概括聊天内容。'
}]

In [None]:
chats_in_english = [{
    'role': 'system', 'content': 'You are an AI assistant providing helpful advice.\n' + \
    'You are given the following extracted parts of a long document and a question.\n' + \
    'Provide a conversational answer based on the context provided.\n' + \
    'You should only provide hyperlinks that reference the context below.\n' + \
    'Do NOT make up hyperlinks.\n' + \
    'If you can\'t find the answer in the context below, use your prior knowledge,\n' + \
    'but in most of the cases the answer will be in the context.\n' + \
    # 'If the question is not related to the context, politely respond that you are tuned to only answer questions that are related to the context.\n' + \
    'Answer in Markdown format.\n'
}]

In [None]:
chats_in_chinese = [{
    'role': '系统', 'content': '你是一个提供有用建议的 AI 助手。\n' + \
    '你被提供了一份长文档的一部分（额外信息）和一个问题。\n' + \
    '请根据我所提供的文本提供会话式的回答。\n' + \
    '你只应该提供与下面的文本相关的超链接。\n' + \
    '**不要**编造超链接。\n' + \
    '如果在下面的文本中找不到答案，可以使用你先前所知道的知识，\n' + \
    '但在大多数情况下，答案是在文本中的。\n' + \
    # '如果问题与上下文不相关，请礼貌地回复您只回答与上下文相关的问题。\n' + \
    '请用中文以 Markdown 格式回答。\n'
}]

In [None]:
k = 20

In [None]:
import faiss       
index = faiss.IndexFlatL2(768)

In [None]:
%%bash
pip install PyPDF2

Successfully installed PyPDF2-3.0.1


In [None]:
import PyPDF2

def extract_text(pdf_file):
    '''Extract text from a PDF file.'''
    with open(pdf_file.name, 'rb') as f:
        return '\n\n'.join([page.extract_text() for page in PyPDF2.PdfReader(f).pages])

In [None]:
sentences = None

In [None]:
num_words = 20

In [None]:
instruction = 'Represent the query for retrieval:'

In [None]:
instruction = '表示用于检索的查询：'

In [None]:
from InstructorEmbedding import INSTRUCTOR
model = INSTRUCTOR('hkunlp/instructor-large')

load INSTRUCTOR_Transformer
max_seq_length  512


In [None]:
def index_embeddings(text):
    global sentences

    # words = extra_text.split(' ')
    # sentences = [words[i: i+num_words] for i in range(0, len(words), num_words)]
    # sentences = [' '.join(word_list) for word_list in sentences]
    import re
    sentences = []
    for i, sentence in enumerate(re.split(r'\n+', text.replace('。', '。\n'))):
        sentence = sentence.strip()
        if sentence != '':
            sentences.append(sentence)

    print('\nNumber of Sentences:', len(sentences))
    # print(sentences)

    print('\nBuilding the index...')
    embeddings = model.encode([[instruction, i] for i in sentences])
    index.add(embeddings)              
    print('\nindex.ntotal:', index.ntotal)

In [None]:
index_embeddings(''.join([raw_document.page_content for raw_document in raw_documents]))


Number of Sentences: 13960

Building the index...

index.ntotal: 13960


In [None]:
def build_the_bot(pdf_file, openai_key=None):
    '''split sentences in chinese'''
    openai.api_key = openai_key
    print('OpenAI Key:', openai_key)

    extra_text = extract_text(pdf_file)
    print('\nText Length:', len(extra_text))

    index_embeddings(extra_text)

    return extra_text

In [None]:
def retrieve_extra_info(text):
    print('\nRetrieving extra information...')
    xq = model.encode([[instruction, text]])
    D, I = index.search(xq, k)
    print(D[0])
    print(I[0])
    extra_info = ''
    for i in I[0]:
        try:
            extra_info += sentences[i] + '\n'
        except:
            print(len(sentences), i)
    print('\nextra_info:', extra_info)
    return extra_info

In [None]:
retrieve_extra_info('你知道什么？')
retrieve_extra_info('第八周讲了什么？')
retrieve_extra_info('七倍加强的灵是什么？')


Retrieving extra information...
[5.4066086e-14 1.1163864e-02 1.1163864e-02 1.1163864e-02 1.1163864e-02
 1.1163864e-02 1.1163864e-02 1.1163864e-02 1.1163864e-02 3.0758277e-02
 4.8185803e-02 4.8678309e-02 4.8678320e-02 4.8678324e-02 4.8678324e-02
 4.8678324e-02 4.8678324e-02 4.9394563e-02 4.9731985e-02 5.5326112e-02]
[ 5745    20  2756  4925  6154  9841  9866 10484 12664  4078  2048 13937
  6191   159  2695  7559 11518 12666  9761  2050]

extra_info: 那时你为你的大名要怎样行呢？
谁经历最大量的变化？就是向主完全敞开的人。
你会被这样的事搅扰么？但愿不会。
你晓得误会是从哪里来的么？它的根源常常是不纯净。
在宇宙中需要得满足的是谁呢？就是神自己。
但为什么万国所羡慕的这一位还没有回来？因为召会还没有建造起来。
我们难道不想要有神的荣耀么？得着神荣耀充满的路就是建造祂的殿。
岂不知你们有耶稣基督在你们里面么？除非你们是经不起试验的。
我们是否愿意学习有这样的祷告？这是主心头的渴望。
”你们在经上从来没有念过么？
神要如何得着祂所渴望的彰显呢？这需要神子民有属天神圣的构成和活出；这个构成乃是从主的话并从那灵而来。
你知道这些东西能借着祷读主话而杀死么？我们越接受主的话连同其杀死的能力，我们的骄傲以及里面一切消极的元素就越被治死。
我们能完全为着神么？因着我们爱主，我们会立志要绝对为神而活。
摩西有说过这话么？没有，乃是撒迦利亚第一个说的。
是谁在拦阻人接待弟兄呢？乃是带领的人在拦阻，而不是一般的圣徒。
你是绝对地为着神么？一方面说是为着神，另一方面说并不为着神。
为什么是一个谜？就是因为这些都是出于神，而神却隐藏起来了。
我要问主恢复中每一位同工、每一位全时间服事者、每一位长老、每一位负责弟兄：你是否愿意学习有这样的祷告？我们

'那时你为你的大名要怎样行呢？\n谁经历最大量的变化？就是向主完全敞开的人。\n你会被这样的事搅扰么？但愿不会。\n你晓得误会是从哪里来的么？它的根源常常是不纯净。\n在宇宙中需要得满足的是谁呢？就是神自己。\n但为什么万国所羡慕的这一位还没有回来？因为召会还没有建造起来。\n我们难道不想要有神的荣耀么？得着神荣耀充满的路就是建造祂的殿。\n岂不知你们有耶稣基督在你们里面么？除非你们是经不起试验的。\n我们是否愿意学习有这样的祷告？这是主心头的渴望。\n”你们在经上从来没有念过么？\n神要如何得着祂所渴望的彰显呢？这需要神子民有属天神圣的构成和活出；这个构成乃是从主的话并从那灵而来。\n你知道这些东西能借着祷读主话而杀死么？我们越接受主的话连同其杀死的能力，我们的骄傲以及里面一切消极的元素就越被治死。\n我们能完全为着神么？因着我们爱主，我们会立志要绝对为神而活。\n摩西有说过这话么？没有，乃是撒迦利亚第一个说的。\n是谁在拦阻人接待弟兄呢？乃是带领的人在拦阻，而不是一般的圣徒。\n你是绝对地为着神么？一方面说是为着神，另一方面说并不为着神。\n为什么是一个谜？就是因为这些都是出于神，而神却隐藏起来了。\n我要问主恢复中每一位同工、每一位全时间服事者、每一位长老、每一位负责弟兄：你是否愿意学习有这样的祷告？我们要祷告，求主给我们一条路来学习这样祷告。\n但我要问弟兄姊妹：我们在这里是为着什么？我们在这里有什么负担？我们在这里是为着什么而活？我们乃是为着神殿的建造。\n教导什么？……他必须能一卷一卷地教导圣经。\n'

In [None]:
retrieve_extra_info('七倍加强的灵是什么？')
retrieve_extra_info('问题：七倍加强的灵是什么？')
retrieve_extra_info('用户提供了一段文本片段，但没有明确说明文档的主题。\n问题：七倍加强的灵是什么？')

In [None]:
def chat(chat_history, user_input):
    '''chat in chinese'''
    global sentences

    print('\nmessages_in_chinese:', messages_in_chinese)
    # messages_in_english.append({'role': 'user', 'content': 'Question:\n' + user_input})
    # print('\nmessages_in_english:', messages_in_english)

    print('\nSummarizing the chat history...')

    completion = openai.ChatCompletion.create(
        model = 'gpt-3.5-turbo',
        temperature = 0,
        messages = messages_in_chinese
    )

    summary = completion.choices[0].message.content
    print(f'\nSummarized Histoy: {summary}')

    extra_info = retrieve_extra_info(summary + '\n\n' + '问题：' + user_input)

    chats_in_chinese.append({'role': '用户', 'content': '额外信息：\n' + extra_info + '\n\n' + '问题：' + user_input})

    print('\nchats_in_chinese:', chats_in_chinese)
    completion = openai.ChatCompletion.create(
        model = 'gpt-3.5-turbo',
        temperature = 0,
        messages = chats_in_chinese[:1] + chats_in_chinese[-1:]
    )

    chat_output = completion.choices[0].message.content
    print(f'\nChatGPT: {chat_output}')

    # messages_in_chinese.append({'role': '用户', 'content': user_input})
    # messages_in_chinese.append({'role': '助手', 'content': chat_output})
    yield chat_history + [(user_input, chat_output)]

In [None]:
%%bash
pip install gradio

Successfully installed altair-4.2.2 contourpy-1.0.7 cycler-0.11.0 ffmpy-0.3.0 fonttools-4.39.3 fsspec-2023.4.0 gradio-3.26.0 gradio-client-0.1.2 kiwisolver-1.4.4 linkify-it-py-2.0.0 matplotlib-3.7.1 mdit-py-plugins-0.3.3 orjson-3.8.10 pydub-0.25.1 pyparsing-3.0.9 python-multipart-0.0.6 semantic-version-2.10.0 toolz-0.12.0 uc-micro-py-1.0.1


In [None]:
import gradio

In [None]:
def test_demo(mock_openai):
    with gradio.Blocks() as demo:
        gradio.Markdown('Chat with a PDF document')
        with gradio.Tab('Select PDF'):
            pdf = gradio.File()
            openai_key = gradio.Textbox(label='OpenAI API Key',)
            text_output = gradio.Textbox(label='PDF content')
            text_button = gradio.Button('Build the Bot!!!')
            text_button.click(build_the_bot, [pdf, openai_key], text_output)
        with gradio.Tab('Knowledge Bot'):
            chatbot = gradio.Chatbot()
            message = gradio.Textbox('What is this document about?')
            message.submit(chat, [chatbot, message], chatbot)
    demo.queue().launch(debug = True)
    assert True
    demo.close()

In [None]:
from ipytest import do

In [None]:
do(
    mock_openai=mock_openai,
    test_demo=test_demo,
)


=> no.0  ::tools::test_demo  setup  passed

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.



messages_in_chinese: [{'role': '系统', 'content': '你是一个 AI 代理。请用中文在三句话之内概括聊天内容。'}]

Summarizing the chat history...


Traceback (most recent call last):
  File "/usr/local/anaconda3/envs/biobot/lib/python3.10/site-packages/revChatGPT/V1.py", line 680, in __check_response
    response.raise_for_status()
  File "/usr/local/anaconda3/envs/biobot/lib/python3.10/site-packages/requests/models.py", line 1021, in raise_for_status
    raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 502 Server Error: Bad Gateway for url: https://bypass.churchless.tech/api/conversation

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/usr/local/anaconda3/envs/biobot/lib/python3.10/site-packages/gradio/routes.py", line 401, in run_predict
    output = await app.get_blocks().process_api(
  File "/usr/local/anaconda3/envs/biobot/lib/python3.10/site-packages/gradio/blocks.py", line 1302, in process_api
    result = await self.call_function(
  File "/usr/local/anaconda3/envs/biobot/lib/python3.10/site-packages/gradio/blocks.py", line 1039, i

Keyboard interruption in main thread... closing server.
Closing server running on port: 7860
=> no.0  ::tools::test_demo  runtest  passed



In [None]:
do(
    mock_openai=mock_openai,
    test_demo=test_demo,
)


=> no.0  ::tools::test_demo  setup  passed

Running on local URL:  http://127.0.0.1:7860

To create a public link, set `share=True` in `launch()`.


OpenAI Key: 

Text Length: 4047

Number of Sentences: 157
['头一次的爱', '当头一次遇见了你，', '我的心充满欢喜。', '阿利路亚，喜乐满溢，', '主耶穌充满在我里。', '头一次的爱，', '最甘甜的爱，', '耶穌，耶穌，我的爱。', '超过一切真实的爱，', '竟然临及我；', '甘甜的爱，最真实的爱，', '耶穌，耶穌，我的爱。', '这孩子将来如何 ——美好的家庭时光，高品的亲子关系', '第二课  父母与儿女爱的关系', '读经：帖前二 7~8，太十九 14，罗五 5，7～8，约壹四 7~12，提后一 5，三 15', '帖前二 7~8 只在你们中间为人温和，如同乳母顾惜自己的孩子。', '我们这样切慕你们，不但乐意将神的福', '音分给你们，连自己的性命也愿意分给你们，因你们是我们所爱的。', '太十九 14 耶稣却说，让小孩子到我这里来，不要禁止他们，因为诸天之国正是这等人的。', '罗五 5 盼望不至于蒙羞；因为神的爱已经借着所赐给我们的圣灵，浇灌在我们心里。', '罗五 7～8 为义人死，是少有的；为仁人死，或者有敢作的；惟有基督在我们还作罪人的时候，为我们', '死，神就在此将 祂自己的爱向我们显明了。', '约壹四 7~12  亲爱的，我们应当彼此 相爱，因为爱是出于神的；凡爱弟兄的，都是从神生的，并且认识', '神。', '不爱弟兄的，未曾认识神，因为神就是爱。', '神差 祂的独生子到世上来，使我们借着 祂得', '生并活着，在此神的爱就向我们显明了。', '不是我们爱神，乃是神爱我们，差 祂的儿子，为我', '们的罪作了平息的祭物，在此就是爱了。', '亲爱的，神既是这样爱我们，我们也当彼此相爱。', '从来没有人见过神；我们若彼此相爱，神就住在我们里面， 祂的爱也在我们里面得了成全。', '提后一 5 记得你里面无伪的信心，就是先在你外祖母罗以，和你母亲友尼基里面的，我深信也在你里', '面。', '提后三 15 并且知道你是从小明白圣经 ；这圣经能使你 借着相信基督耶稣，有得救的智慧。', '壹 父母与儿女之间爱的关系乃是父神与祂的子民之间爱之关系的图画 ——约', '壹四7~12：', '一 儿女们将来的情形如何，和他生长的家庭环境大有关系；他们小的时候必须得着爱