## **Semantic Kernel**

Semantic Kernel 是一个轻量级的开源框架，通过 Semantic Kernel 您可以快速使用不同编程语言(C#/Python/Java)结合 LLMs(OpenAI、Azure OpenAI、Hugging Face 等模型) 构建智能应用。在我们进入生成式人工智能后，人机对话的方式有了很大的改变，我们用自然语言就可以完成与机器的对话，门槛降低了非常多。结合提示工程和大型语言模型，我们可以用更低的成本完成不同的业务。但如何把提示工程以及大模型引入到工程上？我们就需要一个像 Semantic Kernel 的框架作为开启智能大门的基础。在 2023 年 5 月，微软 CTO Kevin Scott 就提出了 Copilot Stack 的概念，人工智能编排就是核心。 Semantic Kernel 具备和 LLMs 以及各种提示工程/软件组成的插件组合的能力，因此也被看作 Copilot Stack 的最佳实践。通过 Semantic Kernel，你可以非常方便地构建基于 Copilot Stack 的解决方案，而且对于传统工程，也可以无缝对接。

### **Semantic Kernel 的特点**

强大的插件 - 你可以通过结合自定义/预定义的插件解决智能业务的问题。让传统的代码和智能插件一起工作灵活地接入到应用场景，简化传统应用向智能化转型的过程。

多模型支持 - 为您的智能应用配置“大脑”，可以是来自 Azure OpenAI Service , 也可以是 OpenAI ，以及来自 Hugging Face 上的各种离线模型。通过链接器你可以快速接入不同的“大脑”，让您的应用更智能更聪明。

各式各样的链接器 - 链接器除了链接“大脑”外，还可以链接如向量数据库，各种商业软件，不同的业务中间件，让更多的业务场景进入智能成为可能

开发便捷 - 简单易用，开发人员零成本入门

### **Semantic Kernel 的缺点**

毕竟 LLMs 还在不停发展，有很多新模型的加入，也有很多新的功能，以及新的概念引入。Semantic Kernel， LangChain 等开源框架都在努力适应这个新的摩尔定律，但版本的迭代会有不确定的更改。所以在使用的时候，开发者需要多留意对应 GitHub Repo 上的变更日志。

还有 Semantic Kernel 需要兼顾多个编程语言，所以进度也是不一致，也会导致 Semantic Kernel 在不同技术栈人群的选择。

**Semantic Kernel vs LangChain**

我们没法不去作出一些客观的比较，毕竟 LangChain 拥有更多的使用群体。无可否认在落地场景上，LangChain 现在比 Semantic Kernel 更多，特别在入门参考例子上。我们来个更为全面的比较：

LangChain 基于 Python 和 Javascript的开源框架，包含了众多预制组件，开发者可以无需多写提示工程就可以完成智能应用的开发。特别在复杂的应用场景，开发人员可以快速整合多个预定义的组件来综合完成。在开发角度，更适合具备数据科学或则人工智能基础的开发人员。

Semantic Kernel 您可以基于 C#, Python, Java 的开源框架。更大的优势在工程化。毕竟它更像一个编程范式，传统开发人员可以很快掌握该框架进行应用开发，而且可以更好结合自定义的插件和提示工程完成企业的定制化业务智能化工作。

两者有很多共通点，都还在版本迭代，我们需要基于团队结构，技术栈，应用场景作出选择。

In [1]:
! pip install semantic-kernel -U
! pip install qdrant_client -U



In [2]:
import os
import json

In [3]:
import semantic_kernel as sk
from dotenv import load_dotenv
import semantic_kernel.connectors.ai.open_ai as skaoai

## **Semantic Kernel 中的 Kernel**

如果把 Semantic Kernel 看作是 Copilot Stack 最佳实践，那 Kernel 就是 AI 编排的中心，在官方文档中也有所提及。通过 Kernel 可以和不同插件，服务，日志以及不同的模型链接在一起。所有 Semantic Kernel 的应用都从 Kernel 开始。

![sk_kernel](../../../imgs/ChatWithYourData/kernel.png)

In [4]:
kernel = sk.Kernel()
deployment, api_key, endpoint = sk.azure_openai_settings_from_dot_env()

In [5]:
kernel.add_chat_service("azure_chat_competion_service", skaoai.AzureChatCompletion("GPT4Model",endpoint,api_key=api_key,api_version = "2023-12-01-preview"))


kernel.add_text_embedding_generation_service(
        "embeddings_services", skaoai.AzureTextEmbedding("EmbeddingModel", endpoint,api_key=api_key,api_version = "2023-12-01-preview")
)

Kernel(plugins=KernelPluginCollection(plugins={}), prompt_template_engine=PromptTemplateEngine(), memory=NullMemory(), text_completion_services={'azure_chat_competion_service': <function Kernel.add_text_completion_service.<locals>.<lambda> at 0x7f6b9e3028c0>}, chat_services={'azure_chat_competion_service': <function Kernel.add_chat_service.<locals>.<lambda> at 0x7f6b9e302830>}, text_embedding_generation_services={'embeddings_services': <function Kernel.add_text_embedding_generation_service.<locals>.<lambda> at 0x7f6b9e3036d0>}, default_text_completion_service='azure_chat_competion_service', default_chat_service='azure_chat_competion_service', default_text_embedding_generation_service='embeddings_services', retry_mechanism=PassThroughWithoutRetry(), function_invoking_handlers={}, function_invoked_handlers={})

在 Semantic Kernel 中，我们有不同的插件，用户可以使用预定义的插件，也可以使用自定义的插件。想了解更多可以关注下一章的内容，我们会详细讲述插件的使用。该例子，我们使用的是自定义插件，已经在 plugins 目录下了。

In [6]:
base_plugin = "./plugins"

### **什么是插件**

Semantic Kernel 的一大特点是拥有强大的插件，通过结合自定义/预定义的插件解决智能业务的问题。让传统的代码和智能插件一起工作灵活地接入到应用场景简化传统应用向智能化转型的过程。

我们知道 LLMs 本来的数据是有时间限制的，如果要增加实时内容或者企业化的知识是有相当大的缺陷。OpenAI 通过插件将 ChatGPT 连接到第三方应用程序。 这些插件使 ChatGPT 能够与开发人员定义的 API 进行交互，从而增强 ChatGPT 的功能并允许有更广泛的操作，如：

检索实时信息，例如，体育赛事比分、股票价格、最新新闻等。

检索知识库信息， 例如，公司文档、个人笔记等。

协助用户进行相关操作，例如，预订航班、订餐等。

Semantic Kernel 遵循 OpenAI 的插件的插件规范，可以很方便地接入和导出插件(如基于 Bing, Microsoft 365, OpenAI 的插件)，这样可以让开发人员很简单地调用不同的插件服务。除了兼容 OpenAI 的插件外，Semantic Kernel 内也有属于自己插件定义的方式。不仅可以在规定模版格式上定义 Plugins, 更可以在函数内定义 Plugins.

### **通过模版定义插件**

我们知道通过提示工程可以和 LLMs 进行对话。对于一个企业或者创业公司，我们在处理业务时，可能不是一个提示工程，可能需要有针对提示工程的合集。我们可以把这些针对业务能力的提示工程集放到 Semantic Kernel 的插件集合内。对于结合提示工程的插件，Semantic Kernel 有固定的模版，提示工程都放在 skprompt.txt 文件内，而相关参数设置都放在 config.json 文件内。最后的文件结构式这样的

In [7]:
files_plugin = kernel.import_semantic_plugin_from_directory(base_plugin , "FilePlugin")

In [8]:
nodes_files = os.listdir("./data/notes")
transcrips_files = os.listdir("./data/transcripts")

In [9]:
kblist = []

In [10]:
for f in nodes_files:
    file = open("./data/notes/"+f, "r") 
    content = file.read()
    notesFunc = files_plugin["Notes"]
    result = await notesFunc(content)
    print(result.result.replace("\n", " ")) 
    json_result = json.loads(result.result)
    kblist.append(json_result)
    file.close()

{ "kb": "History of machine learning", "content": "The history of machine learning and artificial intelligence is marked by significant milestones. Notable discoveries include Bayes Theorem (1763, 1812), Least Square Theory (1805), Markov Chains (1913), Perceptron (1957), Nearest Neighbor (1967), Backpropagation (1970), and Recurrent Neural Networks (1982). The concept of a 'machine that can think' was introduced by Alan Turing in 1950. The Dartmouth Summer Research Project in 1956 coined the term 'artificial intelligence'. The period from 1956 to 1974 is known as 'The golden years' of AI. However, the complexity of creating intelligent machines led to an 'AI Winter' from 1974 to 1980. The 1980s saw the rise of expert systems, followed by an 'AI Chill' from 1987 to 1993 due to over-specialization. From 1993 to 2011, the field matured with the increase in data and compute power. Today, machine learning and AI are integral parts of our lives, raising important questions about privacy and

In [11]:
for f in transcrips_files:
    file = open("./data/transcripts/"+f, "r") 
    content = file.read()
    transcripsFunc = files_plugin["Transcrips"]
    result = await transcripsFunc(content)
    print(result.result)
    json_result = json.loads(result.result)
    for item in json_result:
        kblist.append(item)
    file.close()

[
{"kb": "Introducing ML for Beginners", "content": "Open source curriculum, practical coding examples, step by step learning"},
{"kb": "The difference between AI and ML", "content": "AI is task accomplishment, ML is AI subset, uses data learning algorithms"},
{"kb": "What you'll learn in this course", "content": "Classical machine learning, core concepts, statistical techniques"},
{"kb": "What you won't learn in this course", "content": "No data science, deep learning, neural networks, other AI techniques"},
{"kb": "Why study Machine Learning", "content": "Solves complex problems, applicable in many fields, ubiquitous data use"}
]
[
{"kb": "Alan Turing and the Turing test", "content": "Alan Turing, foundation, machine thinking, Turing test, intelligent computer"},
{"kb": "The Dartmouth Summer Research Project on AI", "content": "Artificial intelligence, Dartmouth College, summer research, AI birth, research field"},
{"kb": "The golden years of AI", "content": "AI optimism, problem sol

In [12]:
kblist

[{'kb': 'History of machine learning',
  'content': "The history of machine learning and artificial intelligence is marked by significant milestones. Notable discoveries include Bayes Theorem (1763, 1812), Least Square Theory (1805), Markov Chains (1913), Perceptron (1957), Nearest Neighbor (1967), Backpropagation (1970), and Recurrent Neural Networks (1982). The concept of a 'machine that can think' was introduced by Alan Turing in 1950. The Dartmouth Summer Research Project in 1956 coined the term 'artificial intelligence'. The period from 1956 to 1974 is known as 'The golden years' of AI. However, the complexity of creating intelligent machines led to an 'AI Winter' from 1974 to 1980. The 1980s saw the rise of expert systems, followed by an 'AI Chill' from 1987 to 1993 due to over-specialization. From 1993 to 2011, the field matured with the increase in data and compute power. Today, machine learning and AI are integral parts of our lives, raising important questions about privacy a

In [13]:
base_vectordb = 'aboutMLKBDemoDemo'

### **嵌入式的技巧 - Embeddings**

很多行业希望拥有 LLMs 的能力，希望 LLMs 能解决自己的企业内部问题。这就包括员工相关的内容如入职须知，请假和报销流程，还有福利查询等，企业业务流相关的内容包括相关文档，法规，执行流程等，也有一些面向客户的查询。虽然 LLMs 有强大的知识能力，但是基于行业的数据和知识是没办法获取的。那如何注入这些基于行业的知识内容呢？这也是让 LLMs 迈入企业化重要的一步。本章我们就会和大家讲讲如何注入行业的数据和知识，让 LLMs 变得更专业。也就是我们创建 RAG 应用的基础。

In [14]:

from semantic_kernel.connectors.memory.qdrant import QdrantMemoryStore

In [15]:
qdrant_store = QdrantMemoryStore(vector_size=1536, url="http://localhost",port=6333)
await qdrant_store.create_collection(base_vectordb)

In [16]:
kernel.register_memory_store(memory_store=qdrant_store)

In [17]:
import uuid

In [18]:
uuid.uuid4()

UUID('c3a385bf-d170-43b0-add3-52dafa5bb195')

In [19]:
for item in kblist:
    content = item["kb"] + ' - ' + item["content"]
    id =str(uuid.uuid4())
    await kernel.memory.save_information(base_vectordb, id=id, text=content)

In [20]:
ask = "can you tell me what is different ML and AI"

memories = await kernel.memory.search(
    base_vectordb, ask, limit=1, min_relevance_score=0.8
)

In [21]:
result = ''
for memory in memories:
    print(f"Top Result: {memory.text} with score {memory.relevance}")
    result = memory.text

Top Result: The difference between AI and ML - AI is task accomplishment, ML is AI subset, uses data learning algorithms with score 0.87940943


In [22]:
answer_plugin = kernel.import_semantic_plugin_from_directory(base_plugin , "AnswerPlugin")

In [23]:
answerFunc = answer_plugin["Summary"]

In [24]:
summary_result = await answerFunc(result)

In [25]:
summary_result.result

"AI, or Artificial Intelligence, is about enabling machines to perform tasks that would normally require human intelligence. On the other hand, Machine Learning (ML) is a subset of AI that focuses on using data and algorithms to enable machines to learn and improve from experience. In simple terms, AI is about smart task completion, while ML is about learning from data to improve AI's performance."