# RAG和LLM的Python救星知识

这是一个快速复习，涵盖了理解RAG和LLM所需的最基础Python知识。代码由LLM提供，但我做了笔记。现在很难找到文字背后的人类了...

## 目录
1. Python基础语法
2. 数据结构
3. 函数和模块
4. 面向对象编程
5. 错误处理
6. 布尔逻辑和条件语句
7. 循环和迭代

## 1. Python基础语法

```python
# 打印消息，简单来说就是输出文本到控制台或者屏幕的输出框
print("Hello, World!")

# 变量和数据类型
x = 10          # 整数
y = 3.14       # 浮点数
name = "Alice"  # 字符串
is_active = True  # 布尔值 

# 注释
# 这是单行注释
"""
这是
多行注释
"""
```

In [None]:
print("Hello, World!")
x = 42
y = 3.14
print(f"x: {x}, y: {y}")
print("运算:")
print("加法:", x + y)
print("减法:", x - y)
print("乘法:", x * y)
print("除法:", x / y)

## 2. 数据结构
数据结构是存储和组织数据的方式。Python提供了多种内置数据结构。
```python
# 列表
fruits = ["apple", "banana", "cherry"]
# 访问元素
print(fruits[0])  # 输出: apple
# 在列表末尾添加元素
fruits.append("date")
# 在指定位置插入元素
fruits.insert(1, "blueberry")
# 使用负索引访问元素
print(fruits[-1])  # 输出: date
# 移除元素
fruits.remove("banana")
# 清空列表
fruits.clear()

# 元组
coordinates = (10.0, 20.0)  # 不可变序列，不能被改变
# 访问元素
print(coordinates[0])  # 输出: 10.0

# 集合
unique_numbers = {1, 2, 3, 4, 5} # 唯一元素的无序集合
# 添加元素
unique_numbers.add(6)
# 移除元素
unique_numbers.discard(3)  # 如果元素不存在不会报错
# 集合运算
another_set = {4, 5, 6, 7}
intersection = unique_numbers.intersection(another_set)  # {4, 5, 6}
union = unique_numbers.union(another_set)  # {1, 2, 4, 5, 6, 7} 

# 字典
person = { "name": "Alice", "age": 30, "city": "New York" } # 键值对
# 访问值
print(person["name"])  # 输出: Alice
# 添加新的键值对
person["email"] = "alice@example.com"
# 通过键删除键值对
del person["age"]
# 遍历字典    
for key, value in person.items(): #items()返回键值对
    print(f"{key}: {value}")
# 检查键是否存在
if "city" in person:
    print("字典中存在city键")  
```

In [None]:
#列表操作
my_list = [1, 2, 3, 4, 5]
print("列表:", my_list)
print("第一个元素:", my_list[0])
print("最后一个元素:", my_list[-1])
print("切片:", my_list[1:4]) 
print("列表长度:", len(my_list))
my_list.append(6) # 添加元素
print("添加6后:", my_list)
my_list.remove(3) # 移除元素
print("移除3后:", my_list)
print("列表包含4:", 4 in my_list) # 检查成员
print("列表包含10:", 10 in my_list) # 检查成员 
# 元组和集合
my_tuple = (1, 2, 3) # 元组是不可变的
print("元组:", my_tuple)
my_set = {1, 2, 3, 4, 5} # 集合是唯一元素的无序集合
print("集合:", my_set)   
# 集合对成员测试和去重很有用
print("集合包含3:", 3 in my_set) # 检查成员
print("集合包含10:", 10 in my_set) # 检查成员
# 字典
my_dict = {'name': 'Alice', 'age': 30, 'city': 'New York'}
print("字典:", my_dict)
print("姓名:", my_dict['name'])
print("年龄:", my_dict['age'])
print("城市:", my_dict['city'])
my_dict['age'] = 31 # 更新值
print("更新后的年龄:", my_dict['age'])
my_dict['country'] = 'USA' # 添加新的键值对
print("添加国家后:", my_dict)
print("键:", my_dict.keys())
print("值:", my_dict.values())
print("项目:", my_dict.items()) # 键值对
print("字典包含'name':", 'name' in my_dict) # 检查键是否存在
print("字典包含'salary':", 'salary' in my_dict) # 检查键是否存在
# 安全地处理字典访问非常重要
# 使用get方法避免KeyError
print("安全访问'name':", my_dict.get('name', '未找到'),"它应该返回'name'键的值") # 如果键存在，返回值；否则返回'未找到'
print("安全访问'salary':", my_dict.get('salary', '未找到'),"它应该返回'未找到'，因为'salary'键不存在") # 如果键存在，返回值；否则返回'未找到'
#通过使用get方法，我们可以避免KeyError并在键不存在时提供默认值。如果键存在，返回值；否则返回指定的默认值（在这种情况下是'未找到'）。

## 3. 函数和模块
### 函数
函数是执行特定任务的可重用代码块。它们可以接受参数并返回值。

函数的关键组成部分：
- **函数定义**：使用`def`关键字定义函数。
- **参数**：函数的输入，在括号中定义。有位置参数和关键字参数。位置参数按传递顺序定义，而关键字参数用名称定义，可以按任何顺序传递。
- **返回语句**：用于从函数返回值。函数可以返回多个值作为元组，或者如果没有返回语句则为空。

```python
def add(a, b):
    return a + b

result = add(5, 10)
print(result)  # 输出: 15
# add是函数名，a和b是参数，result是存储返回值的变量。
# a和b是位置参数，意味着它们必须按定义的顺序传递。
# add函数将返回a和b的和。返回值存储在result变量中并打印到控制台。
def greet(name="World"):
    print(f"Hello, {name}!")
greet()  # 输出: Hello, World!
greet("Alice")  # 输出: Hello, Alice!
# greet是一个接受可选参数name的函数，默认值为"World"。
# 如果没有传递参数，它将使用默认值。如果传递了参数，它将使用该值。
# 函数向控制台打印问候消息。
def multiply(*args):
    result = 1
    for num in args:
        result *= num
    return result   
print(multiply(2, 3, 4))  # 输出: 24
# multiply是一个使用*args语法接受可变数量参数的函数。
# 它将所有参数相乘并返回结果。*args语法允许函数接受任意数量的位置参数。
# 在这种情况下，它将2、3和4相乘得到24。
def print_info(name, age, **kwargs):
    print(f"姓名: {name}, 年龄: {age}")
    for key, value in kwargs.items():
        print(f"{key}: {value}")
print_info("Alice", 30, city="New York", occupation="Engineer")
# print_info是一个接受两个位置参数（name和age）和使用**kwargs语法的可变数量关键字参数的函数。
# 它打印姓名和年龄，然后遍历关键字参数打印每个键值对。
# 在这种情况下，它打印姓名"Alice"、年龄30、城市"New York"和职业"Engineer"。
```
### 模块
模块是包含Python代码的文件，可以导入到其他Python脚本中。它们允许您将代码组织成可重用的组件。

您可以创建自己的模块或使用内置模块，如`math`、`os`和`sys`。

导入模块的基本语法是`import module_name`。导入后，您可以使用点符号（module_name.function_name）访问该模块中定义的函数和变量。
```python
# 导入模块
import math
print(math.sqrt(16))  # 输出: 4.0 

# 从模块导入特定函数
from math import pi, sin
print(pi)  # 输出: 3.141592653589793
print(sin(pi / 2))  # 输出: 1.0
# 在这种情况下，您不需要使用math前缀来访问pi和sin，因为它们直接导入到当前命名空间。

# 使用别名导入模块
import numpy as np
array = np.array([1, 2, 3])
print(array)  # 输出: [1 2 3]
```

#### 常用模块及其函数（表格）       
| 模块        | 常见函数/类                            | 描述                                         |
|-------------|----------------------------------------|----------------------------------------------|
| `math`      | `sqrt()`, `pow()`, `sin()`, `cos()`, `tan()` | 基本运算的数学函数                           |
| `os`        | `listdir()`, `path.join()`, `getcwd()` | 与操作系统交互，文件路径和目录               |
| `sys`       | `argv`, `exit()`, `version`            | 访问系统特定参数和函数，命令行参数           |
| `random`    | `randint()`, `choice()`, `shuffle()`   | 生成随机数，从列表中选择随机元素             |
| `datetime`  | `now()`, `timedelta()`, `strftime()`   | 处理日期和时间，执行日期运算，格式化日期     |

还有许多第三方库可用于特定任务，如用于HTTP请求的`requests`、用于数据操作的`pandas`和用于数值计算的`numpy`。您可以使用Python的包管理器`pip`安装这些库。

```bash
pip install requests pandas numpy
``` 

In [None]:
# os模块
# 此模块提供了使用操作系统相关功能的方法，如读取或写入文件系统。
import os
print("当前工作目录:", os.getcwd()) # 获取当前工作目录
print("当前目录中的文件列表:", os.listdir('.')) # 列出当前目录中的文件
print("'my_script.py'是文件吗?:", os.path.isfile('my_script.py')) # 检查文件是否存在
print("'my_script.py'是目录吗?:", os.path.isdir('my_script.py')) # 检查目录是否存在
print("创建新目录'new_dir':", os.mkdir('new_dir')) # 创建新目录
print("删除目录'new_dir':", os.rmdir('new_dir')) # 删除目录
print("将当前工作目录更改为父目录:", os.chdir('..')) # 更改当前工作目录
print("更改后的当前工作目录:", os.getcwd()) # 更改后获取当前工作目录
print("父目录中的文件列表:", os.listdir('.')) # 列出父目录中的文件
print("创建新文件'test.txt':", open('test.txt', 'w').close()) # 创建新文件
print("当前工作目录:", os.getcwd()) # 获取当前工作目录
print("当前目录中的文件列表:", os.listdir('.')) # 列出当前目录中的文件
print("删除文件'test.txt':", os.remove('test.txt')) # 删除文件

In [None]:
#sys模块
# 此模块提供对解释器使用或维护的一些变量以及与解释器交互的函数的访问。
import sys
print("Python版本:", sys.version) # 获取Python版本
print("平台:", sys.platform) # 获取平台信息
print("命令行参数:", sys.argv) # 获取命令行参数
print("退出代码:", sys.exit(0)) # 使用特定退出代码退出程序

### os和sys模块快速说明
- **os模块**：提供使用操作系统相关功能的方法，如读取或写入文件系统、管理目录和执行系统命令。
- **sys模块**：提供对解释器使用或维护的一些变量以及与解释器交互的函数的访问，如命令行参数、Python版本和平台信息。    
`os`和`sys`模块的区别在于`os`用于操作系统交互，而`sys`用于解释器相关功能。

```python

## 4. 面向对象编程
面向对象编程（OOP）是一种使用对象来表示数据和功能的编程范式。在Python中，您可以定义类来创建封装数据和行为的对象。

对初学者来说这很抽象，我也不经常使用，但这里有一些关键概念：
- **类**：创建对象的蓝图。它定义从该类创建的对象将具有的属性（数据）和方法（函数）。将类视为创建对象的模板。例如，`Car`类可能具有`color`、`model`等属性和`start()`、`stop()`等方法。
- **对象**：类的实例。它从类创建，可以有自己独特的属性值。例如，您可以从`Car`类创建对象`my_car`，它可能具有属性`color='red'`和`model='Toyota'`。
- **属性**：属于对象的变量。它表示对象的状态或属性。例如，`Car`类中的`color`和`model`是属性。
- **方法**：属于对象的函数。它定义对象的行为。例如，`Car`类中的`start()`和`stop()`是方法。方法和函数相似，但方法与特定对象关联并可以访问其属性。新手常常混淆方法和函数，但关键区别在于方法在类中定义并对该类的实例进行操作。
- **继承**：基于现有类创建新类的方法。新类（子类）从现有类（超类）继承属性和方法。这允许代码重用和创建类的层次结构。例如，您可以创建从`Car`类继承的`ElectricCar`类，添加新属性如`battery_size`和方法如`charge()`。

```python
# 定义类
class Car:
    def __init__(self, color, model):
        self.color = color  # 属性
        self.model = model  # 属性 
    def start(self):  # 方法
        print(f"{self.color} {self.model} 正在启动。")
    def stop(self):  # 方法
        print(f"{self.color} {self.model} 正在停止。")
# 创建类的对象（实例）
my_car = Car("红色", "Toyota")
# 访问属性
print(my_car.color)  # 输出: 红色
print(my_car.model)  # 输出: Toyota
# 调用方法
my_car.start()  # 输出: 红色 Toyota 正在启动。
my_car.stop()  # 输出: 红色 Toyota 正在停止。
```

OOP的优点是它允许更好地组织代码、封装数据和行为，以及通过继承创建可重用组件的能力。它还通过将相关数据和功能组合在一起来促进代码的可读性和可维护性（前提是您能理解所有这些）。然而，它也可能引入复杂性，特别是对初学者而言，因为它需要理解类、对象和继承等概念。对于RAG和LLM，我们不需要广泛使用OOP，但理解基础知识可以帮助构建代码和组织相关功能。

例如，对于相同的Cat操作，可以如下使用函数和方法：
```python
# 使用函数
def create_cat(name, age):
    return {"name": name, "age": age} 
def meow(cat):
    print(f"{cat['name']} 说喵！")
# 创建cat对象
my_cat = create_cat("Whiskers", 3)
# 调用函数
meow(my_cat)  # 输出: Whiskers 说喵！ 
# 使用类和方法
class Cat:
    def __init__(self, name, age):
        self.name = name  # 属性
        self.age = age  # 属性
    def meow(self):  # 方法
        print(f"{self.name} 说喵！")
# 创建cat对象
my_cat = Cat("Whiskers", 3)
# 调用方法
my_cat.meow()  # 输出: Whiskers 说喵！
```
在这个例子中，两种方法都能达到相同的结果，但如果我们想要许多不同的猫和猫的行为，使用类和方法可以帮助我们更好地组织代码。

## 5. 错误处理
错误处理是编程的重要方面，它允许您优雅地处理代码执行期间可能发生的意外情况或错误。在Python中，您可以使用`try`、`except`、`else`和`finally`块来处理错误。
- **try块**：包含可能引发异常的代码。如果发生异常，`try`块中的代码停止执行，控制权转移到`except`块。
- **except块**：包含处理异常的代码。您可以指定要捕获的异常类型，或使用通用`except`来捕获所有异常。您也可以有多个`except`块来处理不同类型的异常。
- **else块**：可选块，如果`try`块中没有引发异常则运行。它对只有在`try`块成功时才应运行的代码很有用。
- **finally块**：可选块，无论是否引发异常都始终运行。它通常用于清理操作，如关闭文件或释放资源。
Python中错误处理的典型结构如下：

```python
try:
    # 可能引发异常的代码
    result = 10 / 0
except ZeroDivisionError:
    # 处理特定异常
    print("错误：不允许除以零。")
except Exception as e:
    # 处理通用异常
    print(f"错误：{e}")
else:
    # 如果没有引发异常则运行的代码
    print(f"结果：{result}")
finally:
    # 始终运行的代码
    print("可以在这里执行清理操作。")
```
错误处理对像我这样的初学者来说是另一个令人困惑但重要的概念。try块是您放置可能导致错误的代码的地方，except块是您在发生错误时处理错误的地方。错误要么是预定义的异常，如`ZeroDivisionError`，要么是您可以自己定义的自定义异常。例如，如果您想处理文件未找到错误，可以在except块中使用`FileNotFoundError`。else块是可选的，如果try块中没有引发异常则运行，而finally块始终运行，无论是否发生异常。它通常用于清理操作，如关闭文件或释放资源。

```python
# 错误处理示例
try:
    # 可能引发异常的代码
    file = open("non_existent_file.txt", "r")
except FileNotFoundError:
    # 处理特定异常
    print("错误：文件不存在。")
except Exception as e:
    # 处理通用异常
    print(f"错误：{e}")
else:
    # 如果没有引发异常则运行的代码
    content = file.read()
    print(content)
finally:
    # 始终运行的代码
    print("可以在这里执行清理操作。")
```

## 6. 布尔逻辑和条件语句
布尔逻辑是编程中处理真/假值的基本概念。在Python中，布尔值由关键字`True`和`False`表示。布尔逻辑用于控制程序流程、做出决策和执行条件操作。
布尔表达式是求值为`True`或`False`的表达式。它们可以使用比较运算符（如`==`、`!=`、`<`、`>`、`<=`、`>=`）和逻辑运算符（如`and`、`or`、`not`）创建。
- **比较运算符**：用于比较值并返回布尔结果。
  - `==`：等于
  - `!=`：不等于
  - `<`：小于
  - `>`：大于
  - `<=`：小于或等于
  - `>=`：大于或等于
- **逻辑运算符**：用于组合布尔表达式。
  - `and`：如果两个操作数都为真，则返回`True`
  - `or`：如果至少一个操作数为真，则返回`True`
  - `not`：如果操作数为假，则返回`True`，反之亦然
布尔逻辑通常用于条件语句如`if`、`elif`和`else`中，根据特定条件控制程序流程。例如，您可以使用布尔表达式检查数字是正数、负数还是零，然后根据结果执行不同的代码块。

```python
number = 10
if number > 0:
    print("数字是正数。")
elif number < 0:
    print("数字是负数。")
else:
    print("数字是零。")
# 输出: 数字是正数。
# 布尔表达式
is_positive = number > 0  # True
is_negative = number < 0  # False
is_zero = number == 0  # False
# 逻辑表达式
is_positive_and_even = is_positive and (number % 2 == 0)  # True
is_negative_or_zero = is_negative or is_zero  # False
is_not_positive = not is_positive  # False
print(f"数字是正数吗？{is_positive}")  # 输出: 数字是正数吗？True
print(f"数字是负数或零吗？{is_negative_or_zero}")  # 输出: 数字是负数或零吗？False
print(f"数字不是正数吗？{is_not_positive}")  # 输出: 数字不是正数吗？False
```

In [None]:
# 布尔逻辑和条件语句

# 布尔逻辑示例
a = True
b = False
print(a and b)  # 输出: False
print(a or b)   # 输出: True
print(not a)    # 输出: False

# 条件语句示例
x = 10
if x > 0:
    print("正数")
elif x == 0:
    print("零")
else:
    print("负数")

## 7. 循环和迭代
循环用于重复执行代码块，直到满足某个条件。Python提供两种主要的循环类型：`for`循环和`while`循环。
- **for循环**：用于遍历序列（如列表、元组或字符串）或任何可迭代对象。它为序列中的每个项目执行一个代码块。
- **while循环**：用于在指定条件为真时重复执行代码块。它在每次迭代前检查条件，如果条件为假，则退出循环。
- **break语句**：用于在满足某个条件时提前退出循环。可以在`for`和`while`循环中使用。
- **continue语句**：用于跳过循环的当前迭代并移动到下一个迭代。
- **else子句**：可以添加到循环的可选子句。它在循环正常完成后执行（即，不是由`break`语句终止）。通常用于在循环完成遍历序列中的所有项目后执行操作。

```python
# for循环
fruits = ["苹果", "香蕉", "樱桃"]
for fruit in fruits:
    print(fruit)
# 输出:
# 苹果
# 香蕉
# 樱桃    
# while循环
count = 0
while count < 5:
    print(count)
    count += 1
# 输出:
# 0
# 1
# 2
# 3
# 4
# break语句
for i in range(10):
    if i == 5:
        break  # 当i为5时退出循环
    print(i)
# 输出:
# 0
# 1
# 2
# 3
# 4
# continue语句
for i in range(10):
    if i == 5:
        continue  # 当i为5时跳过循环的其余部分
    print(i)
# 输出:
# 0
# 1
# 2
# 3
# 4
# 6
# 7
# 8
# 9
# else子句
for i in range(5):
    print(i)
else:
    print("循环正常完成，没有中断。")
# 输出:
# 0
# 1
# 2
# 3
# 4
# 循环正常完成，没有中断。
```
循环对于遍历数据集合、执行重复任务和控制程序流程至关重要。新手应注意无限循环、边界错误和在循环体内修改循环变量，因为这些可能导致意外行为和难以调试的问题。

In [None]:
# 循环和迭代
# for循环示例
for i in range(5):
    print(i)  # 输出: 0, 1, 2, 3, 4   
# while循环示例
count = 0
while count < 5:
    print(count)  # 输出: 0, 1, 2, 3, 4
    count += 1  

# 高级循环
# 使用列表推导式
squares = [x**2 for x in range(10)]
print("平方数:", squares)  # 输出: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
# 使用生成器表达式
squares_gen = (x**2 for x in range(10))
print("生成器中的平方数:", list(squares_gen))  # 输出: [0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
# 嵌套循环
for i in range(3):
    for j in range(2):
        print(f"i: {i}, j: {j}")  # 输出: i: 0, j: 0; i: 0, j: 1; i: 1, j: 0; i: 1, j: 1; i: 2, j: 0; i: 2, j: 1