## Text Embeddings

* [OpenAI Embedding Model](https://openai.com/blog/new-and-improved-embedding-model)

---

In [None]:
import os
from EdgeGPT import Chatbot as Bing, ConversationStyle

bing = Bing(cookiePath = os.path.expanduser('~/.config/EdgeGPT/cookies.json'))

async def ask(prompt):
    res = (await bing.ask(
        prompt = prompt,
        conversation_style = ConversationStyle.balanced,
    ))['item']['messages'][1]

    print(res['text'])
    print('\n---\n')
    print(res['adaptiveCards'][0]['body'][0]['text'])

---

In [None]:
await ask('''
text-embedding-ada-002 是什么？
''')

text-embedding-ada-002 是 OpenAI 提供的一种嵌入模型，用于将文本转换为向量表示。[^1^] 你可以将文本字符串发送到嵌入 API 端点，同时选择嵌入模型 ID（例如 text-embedding-ada-002），响应将包含一个嵌入，你可以提取、保存和使用。[^1^] 

text-embedding-ada-002 模型是 OpenAI 提供的第二代嵌入模型之一，它比第一代模型更好、更便宜、更简单易用。[^5^] 

如果你想了解更多关于 text-embedding-ada-002 的信息，可以参考 OpenAI 的官方文档。[^5^]

---

[1]: https://platform.openai.com/docs/guides/embeddings/second-generation-models "Embeddings - OpenAI API"
[2]: https://juejin.cn/post/7216319218505220151 "OpenAI的Embedding - 掘金 - 稀土掘金"
[3]: https://cloud.tencent.com/developer/article/2222888 "GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试 - 腾讯云开发者社区-腾讯云"
[4]: https://openai.com/blog/new-and-improved-embedding-model/ "New and improved embedding model - openai.com"
[5]: https://platform.openai.com/docs/guides/embeddings "Embeddings - OpenAI API"

text-embedding-ada-002 是 OpenAI 提供的一种嵌入模型，用于将文本转换为向量表示。[^1^][1] 你可以将文本字符串发送到嵌入 API 端点，同时选择嵌入模型 ID（例如 text-embedding-ada-002），响应将包含一个嵌入，你可以提取、保存和使用。[^1^][1] 

text-embedding-ada-002 模型是 OpenAI 提供的第二代嵌入模型

In [None]:
await ask('''
比较 GPT-3 嵌入、GloVe 嵌入、Word2vec 嵌入、MPNet 嵌入
''')

GPT-3 嵌入、GloVe 嵌入、Word2vec 嵌入和 MPNet 嵌入都是常见的文本嵌入模型。其中，GPT-3 是 OpenAI 开发的一种大型语言模型，可以生成自然语言文本[^1^]。GloVe 和 Word2vec 都是基于神经网络的词向量模型，用于将单词转换为向量表示，以便计算机可以更好地理解自然语言[^1^] [^2^]。MPNet 是一种基于多任务学习的预训练语言模型，可以用于各种自然语言处理任务[^1^] [^4^]。

据腾讯云开发者社区的一篇文章所述，该作者使用了 text-embedding-ada-002（GPT-3 的一个 Embeddings）与三种传统文本嵌入技术生成的嵌入进行比较，即 GloVe、Word2vec 和 MPNet。结果显示，GPT-3 嵌入在所有模型中获得了最高的精度[^1^]。但是，这些模型的性能可能会因应用场景而异。如果你需要更多信息，请告诉我！

---

[1]: https://cloud.tencent.com/developer/article/2222888 "GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试 - 腾讯云开发者社区-腾讯云"
[2]: https://developer.aliyun.com/article/1159268 "GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试-阿里云开发者社区"
[3]: https://new.qq.com/rain/a/20230212A01IWP00 "GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试_腾讯新闻"
[4]: https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/129153025 "GPT-3 vs Bert vs GloVe vs Word2vec 文本嵌入技术的性能对比测试"
[5]: https://zhuanlan.zhihu.com/p/605603003 "GPT-3 vs Bert vs GloVe 文本嵌入技术的性能对比测试 - 知乎"

GPT-3 嵌入、GloVe 嵌入、Word2vec 嵌入和 MPNet 嵌

In [None]:
await ask('''
还有哪些文本嵌入模型？
''')

除了 GPT-3 嵌入、GloVe 嵌入、Word2vec 嵌入和 MPNet 嵌入之外，还有许多其他文本嵌入模型。例如，ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA/MSR 的通用句子表示和 Google 的通用句子编码器等模型都是最先进的模型之一[^1^]。这些模型的性能可能会因应用场景而异。如果你需要更多信息，请告诉我！

---

[1]: https://cloud.tencent.com/developer/article/1167972 "干货 | 文本嵌入的经典模型与最新进展 - 腾讯云开发者社区-腾讯云"
[2]: https://blog.csdn.net/lingpy/article/details/80809926 "文本嵌入的经典模型与最新进展 - CSDN博客"
[3]: https://zhuanlan.zhihu.com/p/459295186 "5分钟 NLP系列—— 11 个词嵌入模型总结 - 知乎 - 知乎专栏"

除了 GPT-3 嵌入、GloVe 嵌入、Word2vec 嵌入和 MPNet 嵌入之外，还有许多其他文本嵌入模型。例如，ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA/MSR 的通用句子表示和 Google 的通用句子编码器等模型都是最先进的模型之一[^1^][1]。这些模型的性能可能会因应用场景而异。如果你需要更多信息，请告诉我！



In [None]:
await ask('''
文本嵌入模型的英文？
''')

The English term for "文本嵌入模型" is "text embedding models". Some of the most common text embedding models include Word2Vec, GloVe, FastText and Embeddings from Language Models (ELMo)[^1^] [^2^]. If you need more information about these models or any other text embedding models, please let me know!

---

[1]: https://techblog.ezra.com/different-embedding-models-7874197dc410 "What are the common word embeddings? | The Ezra Tech Blog - Medium"
[2]: https://openai.com/blog/introducing-text-and-code-embeddings/ "Introducing text and code embeddings - OpenAI"
[3]: https://www.deepset.ai/blog/the-beginners-guide-to-text-embeddings "The Beginner’s Guide to Text Embeddings | deepset"
[4]: https://platform.openai.com/docs/guides/embeddings/embedding-models "Embeddings - OpenAI API"

The English term for "文本嵌入模型" is "text embedding models". Some of the most common text embedding models include Word2Vec, GloVe, FastText and Embeddings from Language Models (ELMo)[^1^][1] [^2^][2]. If you need more in

In [None]:
await ask('''
InstructorEmbedding 是什么？
''')

InstructorEmbedding is a text embedding model that can generate text embeddings tailored to any task (e.g., classification, retrieval, clustering, text evaluation, etc.) and domains (e.g., science, finance, etc.) by simply providing the task instruction, without any finetuning[^1^]. It is a single embedder that can generate text embeddings tailored to different downstream tasks and domains[^1^]. InstructorEmbedding is available as a Python package[^2^]. If you need more information about InstructorEmbedding or any other text embedding models, please let me know!

---

[1]: https://instructor-embedding.github.io/ "Instructor Text Embedding"
[2]: https://pypi.org/project/InstructorEmbedding/ "InstructorEmbedding · PyPI"
[3]: https://python.langchain.com/en/latest/_modules/langchain/embeddings/huggingface.html "langchain.embeddings.huggingface — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.135"

InstructorEmbedding is a text embedding model that can generate text embeddings tailored to any task

In [None]:
await ask('''
比较 HuggingFaceInstructEmbeddings 和 HuggingFaceHubEmbeddings
''')

HuggingFaceInstructEmbeddings and HuggingFaceHubEmbeddings are both wrappers around sentence_transformers embedding models[^2^] [^3^]. HuggingFaceInstructEmbeddings is a wrapper around InstructorEmbedding[^2^], while HuggingFaceHubEmbeddings is a wrapper around Hugging Face Hub embedding models[^3^]. To use HuggingFaceInstructEmbeddings, you should have the `sentence_transformers` and `InstructorEmbedding` Python packages installed[^2^]. To use HuggingFaceHubEmbeddings, you should have the `huggingface_hub` Python package installed and the environment variable `HUGGINGFACEHUB_API_TOKEN` set with your API token, or pass it as a named parameter to the constructor[^3^]. If you need more information about HuggingFaceInstructEmbeddings or HuggingFaceHubEmbeddings or any other text embedding models, please let me know!

---

[1]: https://huggingface.co/blog/getting-started-with-embeddings "Getting Started With Embeddings - Hugging Face"
[2]: https://python.langchain.com/en/latest/_modules/la

In [None]:
await ask('''
sentence_transformers 的 GitHub 链接？
''')

Here is the GitHub link for sentence_transformers: https://github.com/UKPLab/sentence-transformers [^1^] [^5^]. You can find more information about sentence_transformers and how to use it in your project by visiting this link. Let me know if you have any other questions!

---

[1]: https://github.com/taishan1994/sbert_text_similarity "GitHub - taishan1994/sbert_text_similarity: 使用sentence-transformers ..."
[2]: https://github.com/zhangyi24/sentence_transformer_zh "GitHub - zhangyi24/sentence_transformer_zh"
[3]: https://blog.csdn.net/RinaWong/article/details/122890394 "安装sentence-transformers_竹霖聴雨的博客-CSDN博客"
[4]: https://github.com/UKPLab/sentence-transformers "UKPLab/sentence-transformers - Github"
[5]: https://github.com/UKPLab/sentence-transformers/blob/master/docs/pretrained_models.md "sentence-transformers/pretrained_models.md at master · UKPLab ... - GitHub"
[6]: https://github.com/huggingface/blog/blob/main/how-to-train-sentence-transformers.md "blog/how-to-train-sentence-transf

In [None]:
await ask('''
InstructorEmbedding 的 GitHub 链接？
''')

Here is the GitHub link for InstructorEmbedding: https://github.com/HKUNLP/instructor-embedding [^1^] [^2^]. You can find more information about InstructorEmbedding and how to use it in your project by visiting this link. Let me know if you have any other questions!

---

[1]: https://pypi.org/project/InstructorEmbedding/ "InstructorEmbedding · PyPI"
[2]: https://github.com/HKUNLP/instructor-embedding "GitHub - HKUNLP/instructor-embedding: One Embedder, Any Task ..."
[3]: https://github.com/basujindal/chatPDF "GitHub - basujindal/chatPDF: chat with PDF"

Here is the GitHub link for InstructorEmbedding: https://github.com/HKUNLP/instructor-embedding [^1^][1] [^2^][2]. You can find more information about InstructorEmbedding and how to use it in your project by visiting this link. Let me know if you have any other questions!



In [None]:
await ask('''
比较 HuggingFaceInstructEmbeddings 和 LlamaCppEmbeddings
''')

HuggingFaceInstructEmbeddings 和 LlamaCppEmbeddings 都是用于自然语言处理的嵌入式模型。HuggingFaceInstructEmbeddings 是 sentence_transformers 的包装器，而 LlamaCppEmbeddings 是 llama.cpp 嵌入式模型的包装器。这两个模型都可以用于生成文本嵌入，但是它们的实现方式和性能可能有所不同。如果您需要更多的信息，请访问它们的 GitHub 页面：https://github.com/HKUNLP/instructor-embedding [^1^] [^2^] 和 https://github.com/ggerganov/llama.cpp [^3^] 。

---

[1]: https://python.langchain.com/en/latest/_modules/langchain/embeddings/llamacpp.html "langchain.embeddings.llamacpp — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.136"
[2]: https://python.langchain.com/en/latest/_modules/langchain/embeddings/huggingface.html "langchain.embeddings.huggingface — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.135"
[3]: https://sj-langchain.readthedocs.io/en/latest/_modules/langchain/embeddings/huggingface.html "langchain.embeddings.huggingface — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.94"

HuggingFaceInstructEmbeddings 和 LlamaCppEmbeddings 都是用于自然语言处理的嵌入式模型。HuggingFaceInstructEmbeddings 是 sentence_transformers 的包装器，而 LlamaCppE

In [None]:
await ask('''
执行下面这段代码之后，HuggingFaceEmbeddings 的模型下载到哪里了？
```
from langchain.embeddings import HuggingFaceEmbeddings

# 准备文本
text = '这是一个测试文档。'

# 使用 HuggingFace 生成文本嵌入
embeddings = HuggingFaceEmbeddings()
query_result = embeddings.embed_query(text)
doc_result = embeddings.embed_documents([text])
```
''')

HuggingFaceEmbeddings 的模型下载路径是本地缓存。当您第一次使用该模型时，它会自动缓存在本地。如果您想查看缓存的位置，可以运行以下代码：
```
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
print(tokenizer.cache_dir)
```
如果您想将模型下载到特定的文件夹中，可以使用以下代码：
```
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModel.from_pretrained("bert-base-uncased", cache_dir="my_folder")
```
希望这可以帮助到您！

---

[1]: https://python.langchain.com/en/latest/_modules/langchain/embeddings/huggingface.html "langchain.embeddings.huggingface — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.135"
[2]: https://stackoverflow.com/questions/67595500/how-to-download-model-from-huggingface "How to download model from huggingface? - Stack Overflow"
[3]: https://github.com/hwchase17/langchain/blob/master/langchain/embeddings/huggingface.py "langchain/huggingface.py at master · hwchase17/langchain"

HuggingFaceEmbeddings 的模型下载路径是本地缓存。当您第一次使用该模型时，它会自动缓存在本地。如果您想查看缓存的位置，

In [None]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')
dir(tokenizer)

In [None]:
tokenizer.name_or_path

'bert-base-uncased'

In [None]:
%%bash
ls -lah ~/.cache/huggingface/hub/models--bert-base-uncased

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
total 0
drwxr-xr-x  6 saintway  staff   192B Apr 12 14:43 [1m[36m.[m[m
drwxr-xr-x  6 saintway  staff   192B Apr 12 14:43 [1m[36m..[m[m
drwxr-xr-x  3 saintway  staff    96B Apr 12 14:43 [1m[36m.no_exist[m[m
drwxr-xr-x  6 saintway  staff   192B Apr 12 14:43 [1m[36mblobs[m[m
drwxr-xr-x  3 saintway  staff    96B Apr 12 14:43 [1m[36mrefs[m[m
drwxr-xr-x  3 saintway  staff    96B Apr 12 14:43 [1m[36msnapshots[m[m


In [None]:
%%bash
du -sh ~/.cache/huggingface/hub/models--bert-base-uncased

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
696K	/Users/saintway/.cache/huggingface/hub/models--bert-base-uncased


---
If you're talking about vector database embeddings, check out [Chroma](https://github.com/chroma-core/chroma).

* https://www.trychroma.com/
* https://docs.trychroma.com/embeddings

---
If you're talking about fine tuning, check out [alpaca-lora finetuning](https://github.com/tloen/alpaca-lora/blob/main/finetune.py).

I recommend using [gpt4xalpaca](https://huggingface.co/Pi3141/gpt4-x-alpaca-native-13B-ggml) as a base model as it doesn't have the same level of censorship as vicuna. However, if you're using it purely for ethical tasks, vicuna is definitely better.

[GPT4 x Alpaca](https://huggingface.co/chavinlo/gpt4-x-alpaca)

In [None]:
await ask('''
Chroma Embedding Database 是什么
''')

Chroma Embedding Database 是一个开源的嵌入式数据库，用于存储人工智能模型的嵌入[^1^]。嵌入是向量的集合。Chroma 的数据库专门用于存储 AI 模型的嵌入[^2^]。它允许您通过最近邻搜索而不是子字符串搜索来搜索嵌入[^3^]。默认情况下，Chroma 使用 Sentence Transformers 进行嵌入，但您也可以使用 OpenAI 嵌入、Cohere（多语言）嵌入或自己的嵌入[^3^]。

希望这可以帮助您了解 Chroma Embedding Database。

---

[1]: https://docs.trychroma.com/ "\uD83C\uDFE1 Home | Chroma"
[2]: https://siliconangle.com/2023/04/06/chroma-bags-18m-speed-ai-models-embedding-database/ "Chroma bags $18M to speed up AI models with its embedding database"
[3]: https://pypi.org/project/chromadb/ "chromadb · PyPI"
[4]: https://www.trychroma.com/ "Chroma - the AI-native open-source embedding database"
[5]: https://github.com/chroma-core/chroma "GitHub - chroma-core/chroma: the open source embedding database"

Chroma Embedding Database 是一个开源的嵌入式数据库，用于存储人工智能模型的嵌入[^1^][1]。嵌入是向量的集合。Chroma 的数据库专门用于存储 AI 模型的嵌入[^2^][2]。它允许您通过最近邻搜索而不是子字符串搜索来搜索嵌入[^3^][3]。默认情况下，Chroma 使用 Sentence Transformers 进行嵌入，但您也可以使用 OpenAI 嵌入、Cohere（多语言）嵌入或自己的嵌入[^3^][3]。

希望这可以帮助您了解 Chroma Embedding 

In [None]:
await ask('''
ggml 是什么
''')

ggml 是一个用于机器学习的张量库。该项目正在开发中，尚未准备好用于生产。它是用 C 语言编写的，支持 16 位浮点数和 4 位整数量化。它还支持自动微分（正在进行中）ADAM 和 L ...[^3^]。

希望这可以帮助到您！

---

[1]: https://gitee.com/mirrors/ggml "ggml: ggml 是一个用于机器学习的张量库"
[2]: https://www.oschina.net/p/ggml "ggml首页、文档和下载 - 机器学习的张量库 - OSCHINA - 中文开源技术交流社区"
[3]: https://github.com/ggerganov/ggml "GitHub - ggerganov/ggml: Tensor library for machine learning"
[4]: https://zhuanlan.zhihu.com/p/616037509 "介绍大模型LLaMa及周边 - 知乎 - 知乎专栏"
[5]: https://github.com/ggerganov/whisper.cpp "ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++ - Github"

ggml 是一个用于机器学习的张量库。该项目正在开发中，尚未准备好用于生产。它是用 C 语言编写的，支持 16 位浮点数和 4 位整数量化。它还支持自动微分（正在进行中）ADAM 和 L ...[^1^][3]。

希望这可以帮助到您！



In [None]:
await ask('''
HUGGINGFACEHUB_API_TOKEN 有什么用？
''')

HUGGINGFACEHUB_API_TOKEN 是一个环境变量，用于验证您的 API 令牌。您可以使用它来访问 Hugging Face Hub API，以便在您的模型中使用预训练模型、上传和下载模型等。[^1^] [^3^]

希望这可以帮助到您！

---

[1]: https://sj-langchain.readthedocs.io/en/latest/ecosystem/huggingface.html "Hugging Face — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.94"
[2]: https://zhuanlan.zhihu.com/p/344173246 "用户身份验证的令牌——Token - 知乎 - 知乎专栏"
[3]: https://github.com/hwchase17/langchain/blob/master/langchain/llms/huggingface_hub.py "langchain/huggingface_hub.py at master · hwchase17/langchain"

HUGGINGFACEHUB_API_TOKEN 是一个环境变量，用于验证您的 API 令牌。您可以使用它来访问 Hugging Face Hub API，以便在您的模型中使用预训练模型、上传和下载模型等。[^1^][1] [^2^][3]

希望这可以帮助到您！



In [None]:
await ask('''
Hugging Face Hub API 有什么用？
''')

Hugging Face Hub API 是一个模型和数据集的存储库，可以让您轻松地共享、发现和使用模型和数据集。它提供了一组 API，可以让您从 Python 中上传、下载和管理模型和数据集。您可以使用 Hugging Face Hub API 来存储、共享和管理您的模型和数据集，也可以使用它来发现其他人共享的模型和数据集。[^1^]

Hugging Face Hub API 还提供了一些端点，您可以使用这些端点从 Hub 中检索信息，也可以执行某些操作，例如创建模型、数据集或 Space 存储库。[^1^]

---

[1]: https://huggingface.co/docs/hub/api "https://\uE000huggingface\uE001.co/docs/\uE000hub\uE001/\uE000api\uE001"

Hugging Face Hub API 是一个模型和数据集的存储库，可以让您轻松地共享、发现和使用模型和数据集。它提供了一组 API，可以让您从 Python 中上传、下载和管理模型和数据集。您可以使用 Hugging Face Hub API 来存储、共享和管理您的模型和数据集，也可以使用它来发现其他人共享的模型和数据集。[^1^][1]

Hugging Face Hub API 还提供了一些端点，您可以使用这些端点从 Hub 中检索信息，也可以执行某些操作，例如创建模型、数据集或 Space 存储库。[^1^][1]



In [None]:
await ask('''
没有 HUGGINGFACEHUB_API_TOKEN 就不能使用 Hugging Face Hub API 吗？
''')

是的，Hugging Face Hub API 需要 HUGGINGFACEHUB_API_TOKEN。您需要在 Hugging Face 帐户设置中获取用户访问或 API 令牌。如果您在发送请求到 API 时不提交 API 令牌，则无法在私有模型上运行推理。[^1^] [^3^]

---

[1]: https://api-inference.huggingface.co/docs/python/html/quicktour.html "Overview - Hugging Face"
[2]: https://huggingface.co/docs/huggingface_hub/how-to-inference "Access the Inference API - Hugging Face"
[3]: https://python.langchain.com/en/latest/ecosystem/huggingface.html "Hugging Face — \uD83E\uDD9C\uD83D\uDD17 LangChain 0.0.137"
[4]: https://docs.fast.ai/huggingface.html "fastai - Hugging Face Hub"
[5]: https://zhuanlan.zhihu.com/p/619763221 "HuggingGPT： 用ChatGPT和它的朋友在HuggingFace中解决AI任务 - 知乎"

是的，Hugging Face Hub API 需要 HUGGINGFACEHUB_API_TOKEN。您需要在 Hugging Face 帐户设置中获取用户访问或 API 令牌。如果您在发送请求到 API 时不提交 API 令牌，则无法在私有模型上运行推理。[^1^][1] [^2^][3]



In [None]:
await ask('''
没有 HUGGINGFACEHUB_API_TOKEN 就不能在 HuggingFace 下载模型吗？
''')

是的，您需要 HUGGINGFACEHUB_API_TOKEN 才能在 HuggingFace 下载模型。如果您在发送请求到 API 时不提交 API 令牌，则无法在私有模型上运行推理。[^1^] [^3^]

---

[1]: https://huggingface.co/docs/hub/security-tokens "User access tokens - Hugging Face"
[2]: https://blog.csdn.net/qq_41895747/article/details/125232359 "解决ValueError: You need to pass a valid `token` or login by using ..."
[3]: https://stackoverflow.com/questions/67595500/how-to-download-model-from-huggingface "How to download model from huggingface? - Stack Overflow"
[4]: https://zhuanlan.zhihu.com/p/475260268 "如何优雅的下载huggingface-transformers模型 - 知乎 - 知乎专栏"
[5]: https://juejin.cn/post/7220623225775095869 "ILLA Cloud- 调用 Hugging Face Inference Endpoints，开启大模型世界之门 - 掘金"

是的，您需要 HUGGINGFACEHUB_API_TOKEN 才能在 HuggingFace 下载模型。如果您在发送请求到 API 时不提交 API 令牌，则无法在私有模型上运行推理。[^1^][1] [^2^][3]



In [None]:
await ask('''
在模型上运行推理是什么意思？训练模型是什么意思？
''')

在机器学习中，训练模型是指使用大量数据来训练模型，以便它可以自动地从新数据中进行预测。在训练期间，模型会根据输入数据进行调整，以便它可以更好地预测输出。训练完成后，模型就可以用于推理，也就是使用新数据进行预测。

推理是指使用训练好的模型来进行预测。在推理期间，模型会接收新的输入数据，并输出预测结果。推理通常比训练快得多，因为它不需要对模型进行调整。

希望这可以帮到你。如果你有其他问题，请随时问我。

---

在机器学习中，训练模型是指使用大量数据来训练模型，以便它可以自动地从新数据中进行预测。在训练期间，模型会根据输入数据进行调整，以便它可以更好地预测输出。训练完成后，模型就可以用于推理，也就是使用新数据进行预测。

推理是指使用训练好的模型来进行预测。在推理期间，模型会接收新的输入数据，并输出预测结果。推理通常比训练快得多，因为它不需要对模型进行调整。

希望这可以帮到你。如果你有其他问题，请随时问我。



In [None]:
await ask('''
没有 HUGGINGFACEHUB_API_TOKEN 可以在 HuggingFace 下载他人公开的模型吗？
''')

HuggingFace 下载他人公开的模型不需要 HUGGINGFACEHUB_API_TOKEN。你可以通过以下方式下载他人公开的模型：

1. 通过 Hugging Face 官网下载，例如：https://huggingface.co/models
2. 通过 Transformers 库中的 from_pretrained 方法下载，例如：

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
```

希望这可以帮到你。如果你有其他问题，请随时问我。

---

[1]: https://zhuanlan.zhihu.com/p/475260268 "如何优雅的下载huggingface-transformers模型 - 知乎 - 知乎专栏"
[2]: https://huggingface.co/inference-api "Inference API - Hugging Face"
[3]: https://zhuanlan.zhihu.com/p/448852278 "【Huggingface Transformers】保姆级使用教程—上 - 知乎"
[4]: https://pypi.org/project/huggingface-hub/ "huggingface-hub · PyPI"
[5]: https://stackoverflow.com/questions/67595500/how-to-download-model-from-huggingface "How to download model from huggingface? - Stack Overflow"

HuggingFace 下载他人公开的模型不需要 HUGGINGFACEHUB_API_TOKEN。你可以通过以下方式下载他人公开的模型：

1. 通过 Hugging 

In [None]:
await ask('''
怎么用 Python 在 HuggingFace 下载模型？
''')

您可以使用以下代码在 HuggingFace 中下载模型：
```
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
```
这将下载 BERT 模型和 tokenizer。

---

您可以使用以下代码在 HuggingFace 中下载模型：
```
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
```
这将下载 BERT 模型和 tokenizer。



In [None]:
await ask('''
在 HuggingFace 下载模型，如何断点续传？
''')

您可以使用以下代码在 HuggingFace 中断点续传下载模型：
```
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", resume_download=True)
```
这将下载 BERT 模型和 tokenizer，并在下载过程中断点续传。

---

[1]: https://zhuanlan.zhihu.com/p/475260268 "https://zhuanlan.zhihu.com/p/475260268"

您可以使用以下代码在 HuggingFace 中断点续传下载模型：
```
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased", resume_download=True)
```
这将下载 BERT 模型和 tokenizer，并在下载过程中断点续传。



In [None]:
await ask('''
PyTorch 模型可以分成好几个 bin 文件吗？
''')

PyTorch 模型可以分成多个文件，其中包括模型权重和其他模型参数。如果您的模型是由多个子模型组成的，则可以将每个子模型的权重和参数保存在单独的文件中。这些文件可以使用 PyTorch 的 state_dict 和 optimizer 保存在同一个文件中[^9^]. 

您可以使用以下代码将模型保存到多个文件中：

```python
torch.save(model.state_dict(), PATH)
```

其中，`model` 是您要保存的 PyTorch 模型，`PATH` 是您要保存的文件路径。这将会把模型权重和其他参数保存到一个名为 `PATH` 的文件中。

如果您想要加载这些文件并恢复模型，则可以使用以下代码：

```python
model = TheModelClass(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
```

其中，`TheModelClass` 是您要恢复的 PyTorch 模型类，`*args` 和 `**kwargs` 是用于初始化模型的参数。这将会从名为 `PATH` 的文件中加载模型权重和其他参数，并将它们加载到新创建的模型实例中。

希望这可以帮助您！请让我知道是否还有其他问题需要解答。

---

[1]: https://blog.csdn.net/qq_39686950/article/details/116090826 "Windows系统下把PyTorch模型转为ncnn模型流程 - CSDN博客"
[2]: https://blog.csdn.net/season77us/article/details/104311195 "如何下载Hugging Face 模型（pytorch_model.bin, config.json, vocab.txt）以及如何在 ..."
[3]: https://www.cnblogs.com/cxq1126/p/14277134.html "将tensorflow版本的.ckpt模型转成pytorch的.bin模型 - 最咸的鱼 - 博客园"
[4]: https://zhuanlan.zhihu.com/p/620688513 "Pytorch格式 .pt .pth .bin 详解 - 知乎 -

In [None]:
import os
import pickle
from langchain.document_loaders import DirectoryLoader, TextLoader
from langchain.embeddings import LlamaCppEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores.faiss import FAISS

def get_docs(dir_name):
    # (1) Import a series of documents.
    loader = DirectoryLoader(dir_name, loader_cls=TextLoader, silent_errors=True)
    raw_documents = loader.load()
    # (2) Split them into small chunks.
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=512,
        chunk_overlap=128,
    )
    return text_splitter.split_documents(raw_documents)

def ingest_docs(dir_name):
    documents = get_docs(dir_name)
    # (3) Create embeddings for each document (using text-embedding-ada-002).
    embeddings = LlamaCppEmbeddings(model_path=os.path.expanduser('~/ggml-model-q4_1.bin'), n_ctx=1024)
    return FAISS.from_documents(documents, embeddings)

vectorstore = ingest_docs('_posts/ultimate-facts')

llama.cpp: loading model from /Users/saintway/ggml-model-q4_1.bin
llama_model_load_internal: format     = ggjt v1 (latest)
llama_model_load_internal: n_vocab    = 32000
llama_model_load_internal: n_ctx      = 1024
llama_model_load_internal: n_embd     = 5120
llama_model_load_internal: n_mult     = 256
llama_model_load_internal: n_head     = 40
llama_model_load_internal: n_layer    = 40
llama_model_load_internal: n_rot      = 128
llama_model_load_internal: f16        = 3
llama_model_load_internal: n_ff       = 13824
llama_model_load_internal: n_parts    = 1
llama_model_load_internal: model size = 13B
llama_model_load_internal: ggml ctx size =  73.73 KB
llama_model_load_internal: mem required  = 11359.03 MB (+ 3216.00 MB per state)
llama_init_from_file: kv self size  = 1600.00 MB
AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | VSX = 0 | 

llama_print_timings:        load time =  8850.30 ms
llama_print_tim

In [None]:
import pickle
# Save vectorstore
with open('vectorstore_13B_1024.pkl', 'wb') as f:
    pickle.dump(vectorstore, f)

In [None]:
import pickle
# Load vectorstore
with open('vectorstore_13B_1024.pkl', 'rb') as f:
    vectorstore = pickle.load(f)

llama.cpp: loading model from /Users/saintway/ggml-model-q4_1.bin
llama_model_load_internal: format     = ggjt v1 (latest)
llama_model_load_internal: n_vocab    = 32000
llama_model_load_internal: n_ctx      = 1024
llama_model_load_internal: n_embd     = 5120
llama_model_load_internal: n_mult     = 256
llama_model_load_internal: n_head     = 40
llama_model_load_internal: n_layer    = 40
llama_model_load_internal: n_rot      = 128
llama_model_load_internal: f16        = 3
llama_model_load_internal: n_ff       = 13824
llama_model_load_internal: n_parts    = 1
llama_model_load_internal: model size = 13B
llama_model_load_internal: ggml ctx size =  73.73 KB
llama_model_load_internal: mem required  = 11359.03 MB (+ 3216.00 MB per state)
llama_init_from_file: kv self size  = 1600.00 MB
AVX = 1 | AVX2 = 1 | AVX512 = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | VSX = 0 | 


In [None]:
question = '你知道什么？'

In [None]:
# Get context related to the question from the embedding model
for context in vectorstore.similarity_search(question):
    print(f'{context}\n')

page_content='> 现在我们知道，事实上应当承认在主观的质和推断出来的客观世界之间有一种确切规定的、一义的配列关系。大量的经验材料告诉我们，我们可以发现，至少必须假设与所有经验唯一地联系着的“物理的”过程的存在。没有什么意识的质不可能受到作用于身体的力的影响。的确，我们甚至能够用一种简单的物理方法，例如吸进一种气体，就把意识全部消除掉。我们的行动与我们的意志经验相联系，幻觉与身体的疲惫相联系，抑郁症的发作与消化的紊乱相联系。为了研究这类相互联系，心的理论必须抛弃纯粹内省的方法而成为**生理的**心理学。只有这个学科才能在理论上达到对心理的东西的完全的知识。借助于这样一种心理学，我们就可以用概念和所与的主观的质相配列，正如我们能够用概念与推论出来的客观的质相配列一样。这样，主观的质就像客观的质一样成为可知的了。' metadata={'source': '_posts/ultimate-facts/Neuroscience.md'}

page_content='态度：认同、欣赏、尊重、重视、轻视、忽视、鄙视、反对\n客体所做：我对你的态度、你对我的态度、你对他的态度\n主体所想：我对你的态度、你对我的态度\n主体所说：我对他的态度、他对我的态度、他对你的态度\n对于某些次态度的记忆、拟构；怀疑、与、确信；\n你对我的态度、有正有误；作为某种主体效果的客体态度，对于客体态度的目标、意向；对于态度的态度、有正有误；\n渴望被重视、被认可、被理解、被公正地对待；\n虚荣；自负，轻视，反对、有正有误，对于他人的误解；对于自己态度的温和的怀疑；苏格拉底式教学法；偏见、综合比较，是，某种轻视；\n我对客体的态度：你对我的态度、你的确信，我的确信、我对你的态度；确信、对于确信的态度；我对自己的态度，耻辱之恨、丑陋之恨\n对于某种经历的认同。对于某种人生概括的认同。省略主语、所有格。怕丑。\n注意，是，自由的。？我是谁？' metadata={'source': '_posts/ultimate-facts/终极真实.md'}

page_content='> 我们刚刚知道自然科学借以掌握质的方法––形成量的概念的方法。我们必须提出的问题是，这种方法是不是也能够适用于主观的意识的质。按照我们前面所说，为了使这种方法能够加以运用，必须有与这些质充分确定地、唯一地联系着的空


llama_print_timings:        load time = 15863.30 ms
llama_print_timings:      sample time =     0.00 ms /     1 runs   (    0.00 ms per run)
llama_print_timings: prompt eval time = 15862.61 ms /     8 tokens ( 1982.83 ms per token)
llama_print_timings:        eval time = 23200.83 ms /     1 runs   (23200.83 ms per run)
llama_print_timings:       total time = 39067.66 ms


In [None]:
from langchain.chains.llm import LLMChain
from langchain.callbacks.base import CallbackManager
from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
from langchain.chains.chat_vector_db.prompts import CONDENSE_QUESTION_PROMPT, QA_PROMPT
from langchain.chains.question_answering import load_qa_chain
from langchain.vectorstores.base import VectorStore
from langchain.chains import ConversationalRetrievalChain
from langchain.chat_models import ChatOpenAI

# Callback function to stream answers to stdout.
manager = CallbackManager([StreamingStdOutCallbackHandler()])

streaming_llm = ChatOpenAI(streaming=True, callback_manager=manager, verbose=True, temperature=0)
question_gen_llm = ChatOpenAI(temperature=0, verbose=True, callback_manager=manager)
# Prompt to generate independent questions by incorporating chat history and a new question.
question_generator = LLMChain(llm=question_gen_llm, prompt=CONDENSE_QUESTION_PROMPT)
# Pass in documents and a standalone prompt to answer questions.
doc_chain = load_qa_chain(streaming_llm, chain_type='stuff', prompt=QA_PROMPT)
# Generate prompts from embedding model.
qa = ConversationalRetrievalChain(retriever=vectorstore.as_retriever(), combine_docs_chain=doc_chain, question_generator=question_generator)

In [None]:
QA_PROMPT

PromptTemplate(input_variables=['context', 'question'], output_parser=None, partial_variables={}, template="Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.\n\n{context}\n\nQuestion: {question}\nHelpful Answer:", template_format='f-string', validate_template=True)

---
Utilizing [IPyMock](https://github.com/seii-saintway/ipymock)

在 PyTest 中，可以使用 `monkeypatch` 来替换导入的库，从而进行测试。 `monkeypatch` 是一个 pytest 内置的 fixture，用于替换运行时的变量和对象，以便在测试期间使用自定义值。

对于要替换的库，可以使用 `pytest_mock` fixture 来自动将其传递给 `monkeypatch`。如果没有使用 `pytest_mock`，则需要手动使用 `monkeypatch.setattr()` 方法来替换导入的库。

以下是一个示例，假设我们有一个名为 `example.py` 的模块，它导入了 `requests` 库，并使用了该库的 `get()` 方法发送网络请求：

```python
import requests

def get_example_data():
    response = requests.get('https://example.com')
    return response.content
```

要测试这个函数，我们需要使用 Dummy 对象替换 requests 库，以便我们可以模拟网络请求的响应。可以使用以下代码进行测试：

```python
import pytest
import example

class DummyResponse:
    def __init__(self, content):
        self.content = content

@pytest.fixture
def mock_requests(monkeypatch):
    def mock_get(*args, **kwargs):
        return DummyResponse(b'Test data')
    monkeypatch.setattr(requests, 'get', mock_get)

def test_get_example_data(mock_requests):
    data = example.get_example_data()
    assert data == b'Test data'
```

在这个示例中，我们首先定义了一个名为 `DummyResponse` 的类，它代表了一个虚拟的 requests 库的响应。然后我们定义了一个名为 `mock_requests` 的 fixture，它使用 `monkeypatch.setattr()` 方法替换了 requests 库的 `get()` 方法，使其返回我们定义的 DummyResponse 对象。

最后，我们定义了一个测试函数 `test_get_example_data`，并将 `mock_requests` fixture 作为参数传递给它。在测试函数内部，我们调用 `example.get_example_data()`，这将调用我们已经用 Dummy 对象替换的 requests 库的 `get()` 方法，最终返回我们定义的虚拟响应。

这样我们就可以在测试中使用 Dummy 对象替换任何库，以便更好地控制测试环境。

In [None]:
import openai

In [None]:
help(openai.ChatCompletion.create)

Help on method create in module openai.api_resources.chat_completion:

create(*args, **kwargs) method of builtins.type instance
    Creates a new chat completion for the provided messages and parameters.
    
    See https://platform.openai.com/docs/api-reference/chat-completions/create
    for a list of valid parameters.



In [None]:
import json, os
from revChatGPT.V1 import Chatbot, configure

# Open the JSON file and read the conversation_id
with open(os.path.expanduser('~/.config/revChatGPT/config.json'), 'r') as f:
    conversation_id = json.load(f).get('conversation_id', None)

bot = Chatbot(
    config = configure(),
    conversation_id = conversation_id,
    lazy_loading = True
)

In [None]:
%%bash
pip install --upgrade git+https://github.com/seii-saintway/ipymock

In [None]:
import pytest

In [None]:
import markdown
import IPython

* [How to stream completions?](https://github.com/openai/openai-cookbook/blob/main/examples/How_to_stream_completions.ipynb)

In [None]:
def delta(prompt):
    res = ''
    for response in bot.ask(prompt):
        # IPython.display.display(IPython.core.display.Markdown(response['message']))
        # IPython.display.clear_output(wait=True)
        yield {
            'choices': [
                {
                    'index': 0,
                    'delta': {
                        'content': response['message'][len(res):],
                    }
                }
            ],
        }
        res = response['message']

def mock_create(*args, **kwargs):
    for message in kwargs['messages']:
        if message['role'] == 'user':
            break
    else:
        return {
            'choices': [{}],
        }

    if kwargs.get('stream', False):
        return delta(message['content'])

    for response in bot.ask(message['content']):
        # IPython.display.display(IPython.core.display.Markdown(response['message']))
        # IPython.display.clear_output(wait=True)
        pass
    return {
        'choices': [
            {
                'finish_reason': 'stop',
                'index': 0,
                'message': {
                    'content': response['message'],
                    'role': 'assistant',
                }
            }
        ],
    }

In [None]:
@pytest.fixture
def mock_openai(monkeypatch):
    monkeypatch.setattr(openai.ChatCompletion, 'create', mock_create)

In [None]:
question = '终极真实是什么？'

In [None]:
answer = {}

In [None]:
def test_qa(mock_openai):
    global answer
    answer = qa({'question': question, 'chat_history': []})
    print('\n')
    assert isinstance(answer, dict)

In [None]:
from ipymock import do

In [None]:
do(
    mock_openai=mock_openai,
    test_qa=test_qa,
)


=> no.0  ::source::test_qa  setup  passed




llama_print_timings:        load time = 14550.38 ms
llama_print_timings:      sample time =     0.00 ms /     1 runs   (    0.00 ms per run)
llama_print_timings: prompt eval time = 23539.97 ms /    15 tokens ( 1569.33 ms per token)
llama_print_timings:        eval time =     0.00 ms /     1 runs   (    0.00 ms per run)
llama_print_timings:       total time = 23551.68 ms


The author argues that to study the interconnections between subjective experiences and physical processes, we need to move away from purely introspective methods and embrace physiological psychology. Only through this approach can we achieve a complete understanding of psychological phenomena. The author also suggests that consciousness is inextricably linked to physical processes and can be affected by them.

=> no.0  ::source::test_qa  runtest  passed



In [None]:
answer

{'question': '终极真实是什么？',
 'chat_history': [],
 'answer': 'The author argues that to study the interconnections between subjective experiences and physical processes, we need to move away from purely introspective methods and embrace physiological psychology. Only through this approach can we achieve a complete understanding of psychological phenomena. The author also suggests that consciousness is inextricably linked to physical processes and can be affected by them.'}