# 4 李鲁鲁老师的Python课程 基础数据结构

- [ ] List, Tuple, Dict，Set
- [ ] 数字和String
- [ ] Excel数据可视化

这节课我们需要稍微讲解一下Python的基础数据结构

如果整个班上的同学都已经学习过对应的内容，也可以跳过这节课的学习

但是如果对于List, Tuple, Dict三者区别还不太清楚的同学，这节课还是要进行学习的

这里有一个关键是，很多时候，我们要向ChatGPT清楚地描述我们一个任务的输入和输出是什么

## 向ChatGPT学习这些数据结构

这里我们还是希望同学们能够“学会如何向ChatGPT学习”，当然这很有可能是一句废话

因为向ChatGPT提问这些基础知识实在是太简单了

```
对于Python的List, Tuple, Dictionary, Set各给出一个程序的例子

并简单描述他们之间的不同以及各自的使用场景
```

<details>
  <summary>ChatGPT的回复</summary>
  
好的，下面是Python中List, Tuple, Dictionary, Set的例子，并附上简单的描述和使用场景：

### List

List 是有序的、可变的集合。它允许重复的元素，可以随时添加、删除或修改元素。常用于需要动态调整内容的场景。

```python
# List example
fruits = ["apple", "banana", "cherry"]
fruits.append("orange")
print(fruits)  # Output: ['apple', 'banana', 'cherry', 'orange']
```

### Tuple

Tuple 是有序的、不可变的集合。一旦创建，无法修改其内容。常用于存储不需要改变的数据，例如多返回值函数的返回值，或作为字典的键。

```python
# Tuple example
coordinates = (10.0, 20.0)
print(coordinates)  # Output: (10.0, 20.0)
```

### Dictionary

Dictionary 是无序的键值对集合。键必须是唯一的且不可变的，值可以是任何类型。常用于需要快速查找的场景，例如配置文件、数据库记录等。

```python
# Dictionary example
student = {"name": "John", "age": 21, "courses": ["Math", "Science"]}
print(student["name"])  # Output: John
```

### Set

Set 是无序的、唯一元素的集合。用于去重和集合运算（交集、并集等）的场景。

```python
# Set example
numbers = {1, 2, 3, 4, 4, 5}
print(numbers)  # Output: {1, 2, 3, 4, 5}
```

### 区别和使用场景

1. **List**: 有序且可变，适合需要动态调整元素的场景，如待办事项列表或需要频繁添加、删除元素的场景。

2. **Tuple**: 有序且不可变，适合存储固定结构的数据，如函数返回的多值、数据库记录等。

3. **Dictionary**: 无序的键值对集合，适合需要快速查找和存储数据关联关系的场景，如学生信息、配置文件等。

4. **Set**: 无序且唯一元素的集合，适合去重和集合运算的场景，如处理独特元素的列表、数学集合运算等。

这些数据结构各有优劣，选择合适的结构可以提高代码的效率和可读性。

</details>

这里简单说明一下要点

## List

List就是数组，或者C++中的vector，或者对于没学过编程的同学来说，就是一个从0开始编号的“数列”

List的好处是他可以线性访问，对于一个list a来说 a[100] 可以直接被访问到，不需要花费额外的时间

没有用的冷知识：当然对于Python来说，List有data type binding的特性，也就是List的每个元素的数据类型可以不一样，这一点和C是不一样的。

不过很多时候，我们还是希望List的每个元素是“一致的”

这样我们在和ChatGPT描述的时候，就可以说

```
{变量名} 是一个List of {数据类型}
```

比如

```
a 是一个List of int

统计a里面最大和最小的数字是几位数，请用python为我实现
```


In [1]:
# 定义一个包含整数的列表
a = [123, 4, 56, 7890, 12345, 678]

# 找到列表中的最大值和最小值
max_num = max(a)
min_num = min(a)

# 计算最大值和最小值的位数
max_num_digits = len(str(abs(max_num)))
min_num_digits = len(str(abs(min_num)))

# 输出结果
print(f"列表中最大数字是 {max_num}，它有 {max_num_digits} 位")
print(f"列表中最小数字是 {min_num}，它有 {min_num_digits} 位")


列表中最大数字是 12345，它有 5 位
列表中最小数字是 4，它有 1 位


## Tuple

Tuple最大的用处在于函数返回

```
为我实现一个函数，输入是一个list of float

输出是这个list的均值和方差
```

In [1]:
def calculate_mean_and_variance(numbers):
    """
    计算列表的均值和方差

    参数:
    numbers (list of float): 输入的浮点数列表

    返回:
    tuple: 包含均值和方差的元组
    """
    if not numbers:
        raise ValueError("列表不能为空")

    # 计算均值
    mean = sum(numbers) / len(numbers)

    # 计算方差
    variance = sum((x - mean) ** 2 for x in numbers) / len(numbers)

    return mean, variance

# 示例使用
numbers = [1.5, 2.3, 3.1, 4.7, 5.6]
mean, variance = calculate_mean_and_variance(numbers)
print("均值:", mean)
print("方差:", variance)


均值: 3.4400000000000004
方差: 2.2863999999999995


这里calculate_mean_and_variance函数的返回就是一个tuple

我们可以试试看下面的代码

In [2]:
result = calculate_mean_and_variance(numbers)
print(result)

(3.4400000000000004, 2.2863999999999995)


这个用括号包裹起来的两个数字，就是一个两个元素的tuple

你还可以用a,b = result 来分别给a,b两个变量赋值

不过tuple是我们比较少主动去使用的一种数据结构，还是在函数返回值的时候被最多见到

## Set

set没什么好说的，是一个无序的list，可以自动去掉里面重合的元素

这个就不多说了

## Dictionary

字典是个非常重要的数据结构。我们先让ChatGPT给一个字典的简单介绍

```
简单介绍Python中的字典数据结构，并给出一个例子
```



<details>
<summary> ChatGPT的输出  </summary>

### Python中的字典数据结构

Python中的字典（Dictionary）是一种内置的数据结构，它以键值对（key-value pair）的形式存储数据。字典具有以下几个特点：

1. **无序**：在Python 3.7之前，字典中的元素是无序的。从Python 3.7开始，字典的插入顺序得到了保证，但这一点并不影响字典的主要特性。
2. **键唯一**：字典中的键必须是唯一的，不能重复。相同的键会覆盖之前的值。
3. **键的类型**：字典的键可以是任何不可变的数据类型，例如字符串、数字和元组。
4. **可变性**：字典是可变的，可以动态地添加、修改和删除键值对。

### 字典的基本操作

以下是一些常见的字典操作：

- **创建字典**：可以使用花括号 `{}` 或 `dict()` 函数创建字典。
- **访问元素**：通过键来访问对应的值。
- **添加/修改元素**：通过键来添加新键值对或修改已有键对应的值。
- **删除元素**：可以使用 `del` 语句或 `pop()` 方法删除指定键值对。

### 字典示例

下面是一个字典的简单示例，展示了创建、访问、添加、修改和删除操作：

```python
# 创建一个字典
student = {
    "name": "Alice",
    "age": 21,
    "major": "Computer Science"
}

# 访问字典中的元素
print(student["name"])  # 输出: Alice
print(student["age"])   # 输出: 21

# 添加一个新键值对
student["gpa"] = 3.8
print(student)  # 输出: {'name': 'Alice', 'age': 21, 'major': 'Computer Science', 'gpa': 3.8}

# 修改已有键的值
student["age"] = 22
print(student)  # 输出: {'name': 'Alice', 'age': 22, 'major': 'Computer Science', 'gpa': 3.8}

# 删除一个键值对
del student["major"]
print(student)  # 输出: {'name': 'Alice', 'age': 22, 'gpa': 3.8}

# 使用 pop() 方法删除键值对并返回值
gpa = student.pop("gpa")
print(gpa)       # 输出: 3.8
print(student)  # 输出: {'name': 'Alice', 'age': 22}
```

通过这些操作，你可以灵活地使用字典来存储和管理数据。在实际应用中，字典常用于存储配置信息、计数、分组数据等场景。

</details>

In [1]:
# 创建一个字典
student = {
    "name": "Alice",
    "age": 21,
    "major": "Computer Science"
}

# 访问字典中的元素
print(student["name"])  # 输出: Alice
print(student["age"])   # 输出: 21

# 添加一个新键值对
student["gpa"] = 3.8
print(student)  # 输出: {'name': 'Alice', 'age': 21, 'major': 'Computer Science', 'gpa': 3.8}

# 修改已有键的值
student["age"] = 22
print(student)  # 输出: {'name': 'Alice', 'age': 22, 'major': 'Computer Science', 'gpa': 3.8}

# 删除一个键值对
del student["major"]
print(student)  # 输出: {'name': 'Alice', 'age': 22, 'gpa': 3.8}

# 使用 pop() 方法删除键值对并返回值
gpa = student.pop("gpa")
print(gpa)       # 输出: 3.8
print(student)  # 输出: {'name': 'Alice', 'age': 22}


Alice
21
{'name': 'Alice', 'age': 21, 'major': 'Computer Science', 'gpa': 3.8}
{'name': 'Alice', 'age': 22, 'major': 'Computer Science', 'gpa': 3.8}
{'name': 'Alice', 'age': 22, 'gpa': 3.8}
3.8
{'name': 'Alice', 'age': 22}


字典关键是可以有很多"字段"，这使得程序的可读性会上升很多

因为你在List和Tuple中，都没办法用一个变量来表示一个字段，比如name，age，major，gpa这些字段

但是在Dictionary结构里面，是可以的

另外我们会发现，越来越多的大模型的api，也使用Dictionary的形式来作为输入和输出

比如我们以智谱大模型的为例子

```python
	from zhipuai import ZhipuAI
client = ZhipuAI(api_key="") # 填写您自己的APIKey
response = client.chat.completions.create(
    model="glm-4",  # 填写需要调用的模型名称
    messages=[
        {"role": "user", "content": "作为一名营销专家，请为智谱开放平台创作一个吸引人的slogan"},
        {"role": "assistant", "content": "当然，为了创作一个吸引人的slogan，请告诉我一些关于您产品的信息"},
        {"role": "user", "content": "智谱AI开放平台"},
        {"role": "assistant", "content": "智启未来，谱绘无限一智谱AI，让创新触手可及!"},
        {"role": "user", "content": "创造一个更精准、吸引人的slogan"}
    ],
)
print(response.choices[0].message)
```

他是这么调用的。这里messages就是一个list of dictionary

另外，response的返回，实际上也是一个dictionary

```json
{
  "created": 1703487403,
  "id": "8239375684858666781",
  "model": "glm-4",
  "request_id": "8239375684858666781",
  "choices": [
      {
          "finish_reason": "stop",
          "index": 0,
          "message": {
              "content": "智绘蓝图，AI驱动 —— 智谱AI，让每一刻创新成为可能。",
              "role": "assistant"
          }
      }
  ],
  "usage": {
      "completion_tokens": 217,
      "prompt_tokens": 31,
      "total_tokens": 248
  }
}
```

这种数据结构被称为json数据结构

## Python的Dictionary和json数据结构有什么联系和不同？

```
Python的Dictionary和json数据结构有什么联系和不同？
```

<details>
<summary> ChatGPT的输出 </summary>

### Python的Dictionary和JSON数据结构的联系和不同

#### 联系

1. **结构相似**：
   - **键值对**：两者都是以键值对的形式存储数据。
   - **嵌套**：两者都支持嵌套结构，即值可以是另一个字典或JSON对象。

2. **数据类型**：
   - **字典**：Python的字典可以存储任意数据类型的值，包括其他字典、列表、元组、字符串、数字等。
   - **JSON**：JSON支持的基本数据类型包括字符串、数字、布尔值、数组（对应Python的列表）、对象（对应Python的字典）和null（对应Python的None）。

3. **互相转换**：
   - Python标准库提供了`json`模块，可以方便地将Python字典和JSON字符串进行互相转换。
     - 使用`json.dumps()`将Python字典转换为JSON字符串。
     - 使用`json.loads()`将JSON字符串转换为Python字典。

#### 不同

1. **语法差异**：
   - **Python字典**：使用单引号或双引号表示字符串，键名不需要引号（如果键是字符串，则可以使用引号）。
     ```python
     student = {
         "name": "Alice",
         'age': 21,
         "major": "Computer Science"
     }
     ```
   - **JSON**：使用双引号表示字符串，键名必须使用双引号。
     ```json
     {
         "name": "Alice",
         "age": 21,
         "major": "Computer Science"
     }
     ```

2. **数据类型支持**：
   - **Python字典**：支持更多的数据类型，如元组、集合、函数等。
   - **JSON**：仅支持基本数据类型，如字符串、数字、布尔值、数组、对象和null。

3. **用途**：
   - **Python字典**：主要用于Python程序内部的数据存储和操作。
   - **JSON**：主要用于数据交换格式，特别是在Web应用中用于客户端和服务器之间传递数据。

#### 例子

**Python字典转换为JSON字符串**

```python
import json

# Python字典
student_dict = {
    "name": "Alice",
    "age": 21,
    "major": "Computer Science"
}

# 将字典转换为JSON字符串
student_json = json.dumps(student_dict)
print(student_json)  # 输出: {"name": "Alice", "age": 21, "major": "Computer Science"}
```

**JSON字符串转换为Python字典**

```python
import json

# JSON字符串
student_json = '{"name": "Alice", "age": 21, "major": "Computer Science"}'

# 将JSON字符串转换为Python字典
student_dict = json.loads(student_json)
print(student_dict)  # 输出: {'name': 'Alice', 'age': 21, 'major': 'Computer Science'}
```

通过这些例子可以看出，Python的字典和JSON数据结构虽然有一些差异，但它们之间可以通过标准库的`json`模块进行方便的互相转换，从而实现数据在不同系统和平台之间的传递和使用。

</details>

简单来说，json是一个字符串类型地格式，和Python的dictionary可以有很良好的（一句代码就能实现的）转换

因为类似ChatGPT的大语言模型天然对json数据格式有很好的输入输出。

我们建议同学们更多地去掌握json数据结构，以及对应的在Python中使用字典作为主要的数据传输结构

## 对Excel数据进行可视化

在data/名单.xls 我们放置了一个excel文件

是我在网上随便找的某年某省信息学奥赛入围名单

让我们来做一个简单的任务，我们看看哪个学校入围的学生最多呢？

```
data/名单.xls

第一行是各列的标题行

请帮我实现一段代码，用pandas读取这个表格（所有列都进行读取）

并统计各个学校入围的人数
```


In [7]:
import pandas as pd

# 读取 Excel 文件
file_path = 'data/名单.xls'
df = pd.read_excel(file_path)

# 显示读取的表格内容（可选）
print(df.head())

# 统计各个学校入围的人数
school_counts = df['学校'].value_counts()

# 显示统计结果
print(school_counts)


ImportError: Pandas requires version '2.0.1' or newer of 'xlrd' (version '1.2.0' currently installed).