# Prompt Engineering，提示工程
## 一、必备Python知识

### 1、导入模块方式

（1）**导入整个模块**：这种方式导入整个模块，你需要使用模块的命名空间来访问其中的函数、类或变量


In [1]:
import math
print(math.sqrt(16))  # 输出: 4.0

4.0


（2）**导入模块的特定部分**：这种方式只导入模块中的特定部分，如函数、类或变量，可以直接使用它们而不需要模块的命名空间

In [2]:
from math import sqrt
print(sqrt(16))  # 输出: 4.0

4.0


（3）使用**别名**导入模块

In [3]:
from datetime import datetime as dt
now = dt.now()
print(now)

2024-07-19 16:16:56.233541


（4）**导入模块的所有内容**

In [4]:
from math import *
print(sqrt(16))  # 输出: 4.0
print(pi)        # 输出: 3.141592653589793

4.0
3.141592653589793


（5）还有很多方式。。。
### 2、常用模块

(1) os：提供了一些与操作系统交互的功能

In [5]:
import os
# 读取环境变量
api_key=os.getenv("OPENAI_BASE_URL")
print(api_key)

None


(2) math：提供了许多数学运算功能

In [6]:
import math

print(math.sqrt(16))        # 输出 4.0
print(math.log10(100))      # 输出 2.0
print(math.degrees(math.pi))  # 输出 180.0

4.0
2.0
180.0


(3) copy：对象复制模块

* copy.copy()：浅拷贝
* copy.deepcopy()：深拷贝

*python的浅拷贝和深拷贝内容有点复杂，建议看一下视频：【人工智能课程（Python预备）-课时21：20220423_3_浅拷贝&amp;深拷贝】*

(4) json：用于处理格式的数据
- `json.dumps()`：将对象编码成 JSON 字符串
- `json.loads()`：将 JSON 字符串解码成对象
- `json.dump()`：将对象写入 JSON 文件
- `json.load()`：从 JSON 文件读取数据

In [7]:
import json

data = {'name': 'Alice', 'age': 30, 'city': 'New York'}
json_str = json.dumps(data, indent=4)
print(json_str)

{
    "name": "Alice",
    "age": 30,
    "city": "New York"
}


In [8]:
data2 = json.loads(json_str)
print(data2)

{'name': 'Alice', 'age': 30, 'city': 'New York'}


In [9]:
with open('data.json', 'w') as file:
    json.dump(data2, file, indent=4)

In [10]:
with open('data.json', 'r') as file:
    data3 = json.load(file)
print(data3)

{'name': 'Alice', 'age': 30, 'city': 'New York'}


### 3、格式化字符串字面量f-string
- f-strings 通过在字符串前面加上字母 `f` 或 `F` 来创建。字符串中的花括号 `{}` 可以包含表达式，这些表达式会在运行时被求值，并替换为其对应的值。

In [11]:
# 1、单行文本
name = "小明"
print(f"我叫{name}!")  

# 2、多行文本
name = "小明"
age = 18
message = f"""
姓名: {name}
年龄: {age}
"""
print(message)

# 4、格式化
value = 3.14159
print(f"Pi is approximately {value:.2f}.\n")  


# 5、使用表达式
a = 5
b = 10
result = f"The sum of {a} and {b} is {a + b}.\n"
print(result) 


# 6、调用函数
def greet(name):
    print(f"我叫{name}!")

name = "小明"
print(f"{greet(name)}")

我叫小明!

姓名: 小明
年龄: 18

Pi is approximately 3.14.

The sum of 5 and 10 is 15.

我叫小明!
None


### 4、字符串操作
- `replace(old, new, count)` 用于将一个子字符串替换为另一个子字符串，**方法不会改变原始字符串，因为 Python 的字符串是不可变的。**

In [12]:
# 基本用法（默认会替换所有匹配的字符串）
text = "Hello, World! World is great!"
new_text = text.replace("World", "Python")
print(new_text)  # 输出: Hello, Python! Python is great!

# 指定替换次数
text = "Hello, World! World is great!"
new_text = text.replace("World", "Python", 1)
print(new_text)  # 输出: Hello, Python! Wython is great!

Hello, Python! Python is great!
Hello, Python! World is great!


- `upper()` & `lower()` : 字符串转大写 & 小写

In [13]:
text = "Hello, world!"
print(text.upper())  # 输出: HELLO, WORLD!
print(text.lower())  # 输出: hello, world!

HELLO, WORLD!
hello, world!


### 5、Python函数定义
（1）基本函数定义：其中的name称为**位置参数**

In [14]:
def greet(name):
    print(f"我叫{name}!")

# 调用函数
greet("小明")  

我叫小明!


（2）带**默认参数**的函数

In [15]:
def greet(name="小红"):
    print(f"我叫{name}!")
  
greet()        
greet("小明")  

我叫小红!
我叫小明!


（3）带可变数量**位置参数**的函数`*args`: 用于传递可变数量的位置参数给函数。这些参数会被收集成一个**元组**，函数可以通过这个元组来访问所有传递的位置参数。

In [16]:
def greet(*names):
    for name in names:
        print(f"我叫{name}!")

greet("张三", "李四", "王五")

我叫张三!
我叫李四!
我叫王五!


（4）带可变数量**关键字参数**的函数`**kwargs`：在函数定义中使用 `**kwargs` 可以让函数接受任意数量的关键字参数，并将这些参数以**字典**的形式传递给函数。

In [17]:
def greet(**kwargs):
    # kwargs 是一个字典，包含所有传递的关键字参数
    for key, value in kwargs.items():
        print(f"{key} = {value}")

# 调用函数，并传递多个关键字参数
greet(name="Alice", age=30, city="New York")

name = Alice
age = 30
city = New York


（5）不同类型的参数的摆放位置有**严格要求**，顺序如下：

* 位置参数必须在所有其他参数之前
* 默认参数必须在位置参数之后，但在 `*args` 之前
* `*args` 必须在所有位置参数和默认参数之后
* `**kwargs` 必须在所有其他参数之后

In [18]:
def example_function(a, b=2, *args, **kwargs):
    print(f"a = {a}")
    print(f"b = {b}")
    print(f"args = {args}")
    print(f"kwargs = {kwargs}")

example_function(1, 3, 4, 5, name="Alice", age=30)

# 注意：b不是2

a = 1
b = 3
args = (4, 5)
kwargs = {'name': 'Alice', 'age': 30}


**注意：b不是2**

（6）提高函数定义的可读性

In [19]:
def greet(name: str, age: int):
    print(f"我叫{name}，今年{age}岁")
greet("小明",  18)
# 输出：我叫小明，今年18岁

我叫小明，今年18岁


### 6、类的定义

In [20]:
class NLU:
    def __init__(self):
        self.prompt_template = f"{instruction}\n\n{output_format}\n\n{examples}\n\n用户输入：\n__INPUT__"

    def _get_completion(self, prompt, model="gpt-3.5-turbo"):
        messages = [{"role": "user", "content": prompt}]
        response = client.chat.completions.create(
            model=model,
            messages=messages,
            temperature=0,  # 模型输出的随机性，0 表示随机性最小
        )
        semantics = json.loads(response.choices[0].message.content)
        return {k: v for k, v in semantics.items() if v}

    def parse(self, user_input):
        prompt = self.prompt_template.replace("__INPUT__", user_input)
        return self._get_completion(prompt)

    def do_nothing(self):
        pass

* `class`是类的关键字，NLU是类名，后面没有()
* `__init__(self) `: 类的初始化方法，在创建对象时被调用，用于初始化对象的属性。`self`参数指向当前对象的实例（类似于Java中的this关键字）
* 每个类方法中必须包含`self`关键字，调用对象属性和方法时，必须使用`self.xxx`
* 方法命名约定：

  * 以双下划线`__`开头：私有的方法
  * 以单下划线`_`开头：受保护的方法
  * 没有下划线开头：公共的方法
  * **这种约定没有强制，但它是一种良好的编程习惯，有助于代码的可读性和可维护性**
  * Python推荐使用**下划线分割法**（又称蛇形命名法，snake_case）来命名函数和方法，而不是驼峰法。
* `pass`关键字：用于表示一个空的代码块，在逻辑上不做任何操作
* `{k: v for k, v in semantics.items() if v}` 字典推导式：

  * `semantics.items()`：`semantics`是一个字典。`semantics.items()`返回一个包含该字典所有键值对的视图对象，每个元素是一个包含键和值的元组。
  * `for k, v in semantics.items()`：遍历字典`semantics`的所有键值对。`k`是键，`v`是值。
  * `if v`：仅当值`v`为真时 **（即值不为**​**​`None`​**​ **、空字符串、0、空列表等）** ，才将该键值对包括在新字典中。
  * `{k: v ...}`：生成一个新字典，其中包含满足条件的键值对。
  * **总得来说**：这段代码是从字典`semantics`中筛选出所有值为真的键值对，生成一个新的字典。

### 7、排序函数
- `sorted()`：用于返回一个新的已排序列表。它不会改变原来的列表，而是生成一个新的列表。语法：`sorted(iterable, key=None, reverse=False)`

In [21]:
numbers = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
sorted_numbers = sorted(numbers)
print(sorted_numbers)  # 输出: [1, 1, 2, 3, 3, 4, 5, 5, 5, 6, 9]

[1, 1, 2, 3, 3, 4, 5, 5, 5, 6, 9]


- `list.sort()`：用于就地排序列表，也就是说它会改变原列表的顺序，而不会返回新的列表。语法：`list.sort(key=None, reverse=False)`

In [22]:
numbers = [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
numbers.sort(reverse=True)
print(numbers)  # 输出: [9, 6, 5, 5, 5, 4, 3, 3, 2, 1, 1]

[9, 6, 5, 5, 5, 4, 3, 3, 2, 1, 1]


#### 案例：`sorted(records, key=lambda x: x[key], reverse=reverse)`

* `records`是一个字典列表，形如

  ```python
  [
  {"name": "经济套餐", "price": 50, "data": 10, "requirement": None},
  {"name": "畅游套餐", "price": 180, "data": 100, "requirement": None}
  ]
  ```
* `key=lambda x: x[key]`

  * 这里的**第一个** `key` 参数用于指定排序的依据。`lambda x: x[key]` 是一个匿名函数（或称为 lambda 表达式），它接受一个列表中的元素 `x` 作为输入，并返回 `x[key]` 作为排序的关键值。
  * 例如，如果**第二个** `key` 的值是 `"price"`，那么 `lambda x: x["price"]` 就会返回记录中 `"price"` 键对应的值，这些值将被用于排序。
* `reverse`是否倒序排序的参数

### 8、eval()函数
- 是 Python 内置的一个函数，用于动态地执行存储在字符串中的 Python 表达式或代码。
- `eval()` 的使用可能会带来安全风险，因为它可以执行任何字符串中的代码，包括恶意代码。
- `eval()` 的使用可能会影响性能，因为它需要在运行时解析和执行代码。

In [23]:
x = 10
expression = "x + 5"
result = eval(expression)
print(result)  # 输出 15

15


### 9、OpenAI Chat Completions API的几个重要参数
> [API Reference - OpenAI API](https://platform.openai.com/docs/api-reference/chat/create)


| 参数名 | 子参数 | 类型 | 必填 | 说明                                                                                                 |
| :------- | -------- | :----- | :----- | :----------------------------------------------------------------------------------------------------- |
| **​`model`​**       |        | `string`     | ✔️ | 要使用的模型名称例如 `"gpt-4"`, `"gpt-3.5-turbo"`                                                                              |
| **​`messages`​**       |        | `array`     | ✔️ | 消息对象数组，每个对象表示一次对话的轮次。                                                           |
| <br />     | `role`       | `string`     | ✔️ | 消息的角色，可能的值为 `"system"`, `"user"`, `"assistant"`, `"function"`                                                                        |
|        | `content`       | `string`     | ✔️ | 消息的内容                                                                                           |
| **​`temperature`​**       |        | `number`     |      | 用于控制生成文本的随机性，越大越随机，越小越固定。取值范围[0, 2],默认值为 1。                        |
| **​`max_tokens`​**       |        | `integer`     |      | 每条结果最多多少个 token（超过截断）                                                                 |
| `stream`       | <br />     | `boolean`     |      | 是否以数据流模式返回消息，默认值为 False。                                                           |
| `top_p`       |        | `number`     |      | 随机采样时，只考虑概率前百分之多少的 token。不建议和 temperature 一起使用，值范围[0,1]。默认值为 1。 |
| `n`       |        | `integer`     |      | 一次生成 n 条结果，默认值1                                                                           |
| `presence_penalty`       |        | `number`     |      | 对出现过的 token 的概率进行降权，默认值0                                                             |
| `frequency_penalty`       |        | `number`     |      | 对出现过的 token 根据其出现过的频次，对其的概率进行降权， 默认值0                                    |
| `logit_bias`       |        | `map`     |      | 对指定 token 的采样概率手工加/降权，不常用                                                           |

In [24]:
def get_completion(prompt, model="gpt-4", temperature=0):
    messages = [{"role": "user", "content": prompt}]
    response = client.chat.completions.create(
        model=model,
        messages=messages,
        temperature=temperature  # 模型输出的随机性，0 表示随机性最小
    )
    return response.choices[0].message.content