### 第十九章 简单数据处理

#### 本章内容

1. 使用input和print对数字和字符串数据进行处理
2. 使用Python扩展库对Excel表格文件进行处理
3. 掌握DTD和DOM的概念，使用Python标准库对XML文件数据进行处理
4. 掌握JSON数据结构，使用Python标准库对JSON文件进行处理

#### 1. 标准输入输出流

在数据处理的领域，我们不断与各种形式的数据打交道。这些数据可能是用户输入的信息、存储在文件中的内容，或是来自数据库的记录。回顾我们之前学习的数据结构知识，我们知道数据的基本操作包括增、删、改、查（Create, Read, Update, Delete，简称 CRUD）。这些操作是操作数据的基础，直接影响着数据处理的效率和有效性。因此，理解如何在程序中有效处理数据，是学习编程与数据科学的关键步骤。

在 Python 编程环境中，输入和输出是基础而又重要的操作。使用内置的 `input()` 函数，我们可以从用户处获取输入的数据，而使用 `print()` 函数则可以将结果输出到控制台。这两者的巧妙结合使得数据的交互变得十分简单，而在处理数字和字符串时，我们所采取的基本操作也十分直接。

##### 1.1 数字处理

以下代码示例展示了如何处理数字并执行基本的数学运算：

In [None]:
# 在Jupyter代码单元中强制重启内核
import IPython
IPython.get_ipython().run_line_magic('reset', '-f')  # 清除全部变量和命名空间

# 获取用户输入的两个数字
num1 = input("请输入第一个数字: ")
num2 = input("请输入第二个数字: ")

# 将字符串转换为整数
num1 = int(num1)
num2 = int(num2)

# 执行基本数学操作
sum_result = num1 + num2
diff_result = num1 - num2
prod_result = num1 * num2
quot_result = num1 / num2 if num2 != 0 else "无法除以零"

# 输出结果
print("两个数字的和是:", sum_result)
print("两个数字的差是:", diff_result)
print("两个数字的积是:", prod_result)
print("两个数字的商是:", quot_result)

在这段代码中，我们首先从用户那里获取两个数字，通过 `input()` 函数获取输入，并通过 `int()` 函数将字符串转换为整数。之后我们执行了加、减、乘、除等基本操作，并使用 `print()` 函数输出了这些操作的结果。通过这些操作，用户能够迅速获取结果。

##### 1.2 字符串处理

在信息处理过程中，字符串的操作同样不可或缺。以下代码示例展示了如何进行基本的字符串处理：

In [None]:
# 获取用户输入的字符串
str1 = input("请输入第一个字符串: ")
str2 = input("请输入第二个字符串: ")

# 字符串合并
merged_str = str1 + " " + str2

# 字符串长度
len_str1 = len(str1)
len_str2 = len(str2)

# 字符串比较
are_equal = str1 == str2

# 输出结果
print("合并后的字符串是:", merged_str)
print("第一个字符串的长度是:", len_str1)
print("第二个字符串的长度是:", len_str2)
print("两个字符串是否相等:", are_equal)

在这个示例中，我们获取了两个字符串并进行了合并操作。我们还计算了每个字符串的长度，并检查了它们是否相等。这样的字符串操作在数据处理应用中非常常见，为数据转换和信息提取提供了便利。

##### 1.3 结构化数据

考虑一个实际场景：假设我们需要从用户那里收集一些基本的个人信息，例如姓名、年龄和地址，用户将信息以逗号分隔的字符串形式输入。我们使用字符串的查找和分割功能来提取这些信息。这种形式不仅能简化数据输入，也为后续的处理奠定基础。

示例代码如下：

In [None]:
# 获取用户输入的个人信息
user_input = input("请输入您的姓名、年龄和地址，用逗号分隔: ")

# 使用逗号分割信息
info_list = user_input.split(",")

# 输出提取的信息
name = info_list[0].strip()
age = info_list[1].strip()
address = info_list[2].strip()

print("姓名:", name)
print("年龄:", age)
print("地址:", address)


在这个代码示例中，用户可以输入一个包含姓名、年龄和地址的字符串，程序随后通过 `split()` 方法将字符串分割为一个列表。这样，我们就能够轻松提取出每一个数据元素，并可以进一步处理这些信息。

不知道你在实际测试这段代码时，有没有遇到`IndexError`这个错误，这个错误很有可能是因为你使用的是中文的`“，”`造成的。
另外，你在输入年龄的时候，是不是可能输入的是`"十二岁"`，而不是数字`12`。

在深入一些，加入需要用户输入生日，那岂不是会有更多可能得录入方式，如果你要在代码中进行检测，那将是一个巨大功能。

这时候，我们就需要更加标准化的表格数据，来进行复杂操作。

##### 1.4 标准输入输出流

在编程和数据处理的实践中，文件操作是极为重要的技能。我们常常需要从文件中读取数据，或是将处理结果保存到文件中。在 Python 中，我们利用标准输入输出流及文件操作来进行这些任务。在本小节中，我们将首先关注如何读取和写入简单的文本文件，然后再处理通过特殊符号分割的表格型文本数据。

首先，我们将介绍如何创建一个文本文件并进行简单的读写操作。以下是代码示例：


In [None]:

# 创建一个文本文件并写入内容
# 第二个参数 'w' 表示写入模式，如果文件已存在则会被覆盖
with open('example.txt', 'w', encoding='utf-8') as f:
    f.write("这是第一行文本。\n")
    f.write("这是第二行文本。\n")
    f.write("这是第三行文本。\n")

# 读取并输出文本文件的内容
with open('example.txt', 'r', encoding='utf-8') as f:
    content = f.read()
    print("文本文件的内容如下:\n", content)


在此代码中，使用 `with open()`语句创建一个名为 `example.txt` 的文本文件并写入多行字符串。通过 `write()` 方法，我们将内容输出到文件中，注意每行的结尾使用 `\n` 来换行。随后，我们打开同一文件进行读取，使用 `read()` 方法将整个文件内容加载到内存中，并通过 `print()` 函数输出。在 Python 中，文件可以使用不同的模式打开，以实现不同的操作：

- **`'r'`**: 读取（read）模式，默认模式。文件必须存在。
- **`'w'`**: 写入（write）模式。如果文件存在，则覆盖文件。如果文件不存在，则创建新文件。
- **`'a'`**: 追加（append）模式。如果文件存在，则在文件末尾追加内容。如果文件不存在，则创建新文件。
- **`'b'`**: 二进制模式，可与其他模式组合使用（如 `rb`、`wb`）。
- **`'x'`**: 排他性写入模式，如果文件已存在，操作会失败。
- **`'t'`**: 文本模式，可与其他模式组合使用（如 `rt`、`wt`），这是默认模式。

> with 语句是一种上下文管理器的实现，目的是为了简化资源的管理，特别是当涉及到需要手动关闭的资源时。
> with open(txt) as f，就是打开文件txt并保存至变量f中

##### 1.5 结构化数据

文件操作的另一个常见情形是处理以特定符号分割的表格型文本。通常，我们可能会处理用逗号、制表符（Tab）或其他字符分隔的数据。例如，我们可以创建一个用逗号分隔的用户信息文件。以下是处理此类文件的示例代码：


In [None]:
# 创建一个用逗号分隔的表格型文本文件
with open('user_data.txt', 'w', encoding='utf-8') as f:
    f.write("姓名,年龄,地址\n")
    f.write("张三,25,北京\n")
    f.write("李四,30,上海\n")
    f.write("王五,22,广州\n")

# 读取并输出每一行信息
with open('user_data.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # 使用逗号分割每一行的内容
        user_info = line.strip().split(',')
        print("姓名:", user_info[0], ", 年龄:", user_info[1], ", 地址:", user_info[2])


在这个代码示例中，我们首先以写入模式创建一个名为 `user_data.txt` 的文件，包含多个用逗号分隔的用户信息。随后，读取文件的每一行，通过 `strip()` 方法去除行末的换行符，再使用 `split(',')` 方法将信息分割为列表。这样，我们可以方便地提取出每个用户的姓名、年龄和地址。

这种结构化的文本数据对于后续处理非常有用，但在进行更复杂的数据处理、分析和视觉化时，CSV 文件和 Excel 表格等更高级的数据格式常常提供更好的支持。

这些关于文本文件的操作虽然简单，但在实际应用中，我们可能会面临更复杂的场景，尤其是在处理大量数据时。简单的文本和表格形式的表示往往在使用上会受到限制。例如，当数据量变得庞大或者数据结构复杂时，手动整理和处理这些信息变得繁琐且容易出错。在这种情况下，Excel 表格的使用就显得相对更加灵活和高效。

#### 2. 表格数据

在表格数据处理和分析的过程中，CSV（Comma-Separated Values）和 Excel 文件是两种常用的文件格式。它们各自具有不同的特性和适用场景，理解这两者的区别可以帮助我们更好地选择合适的格式来满足特定的需求。

##### 2.1 CSV文件

CSV（Comma-Separated Values）是一种用于存储表格数据的简单文件格式。每一行代表一条记录，字段之间通过逗号分隔。由于其简单性和通用性，CSV 文件广泛应用于数据交换和存储，适用于各种编程语言和工具。

CSV 的特点：
- 纯文本：数据以文本格式存储，不包含格式信息，便于手动编辑和生成。
- 跨平台兼容性：几乎所有数据库、数据分析和数据处理工具都可以读取和写入 CSV 文件。
- 易于生成：可以通过脚本或文本编辑器轻松创造。
  
CSV 文件示例内容：
```
姓名,年龄,地址
张三,25,北京
李四,30,上海
```


In [None]:
import csv

# 创建一个 CSV 文件并写入内容
csv_file_path = 'user_data.csv'
header = ['姓名', '年龄', '地址']
data = [
    ['张三', 25, '北京'],
    ['李四', 30, '上海'],
    ['王五', 22, '广州'],
]

with open(csv_file_path, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(header)  # 写入标题行
    writer.writerows(data)    # 写入数据行

print(f"CSV 文件 '{csv_file_path}' 创建并写入成功。")

# 读取 CSV 文件
with open(csv_file_path, 'r', encoding='utf-8') as f:
    reader = csv.reader(f)
    print("读取的用户信息:")
    for row in reader:
        print(f"姓名: {row[0]}, 年龄: {row[1]}, 地址: {row[2]}")

##### 2.2 Excel文件

Excel 提供了图形化的界面，支持强大的数据处理、分析和可视化能力。我们可以很方便地使用 Excel 来输入、格式化和分析数据，同时借助 Python 的库，进一步实现自动化的处理与分析。在 Python 中，最常用于操作 Excel 文件的库是 `openpyxl` 和 `pandas`。

- `openpyxl` 是一个用于读写 Excel 2010 xlsx/xlsm/xltx/xltm 文件的库，能够轻松地创建和修改这些文件。
- `pandas` 是一个强大的数据分析库，内置对 Excel 文件的支持，并通过 `read_excel()` 和 `to_excel()` 方法简化数据操作。

在本节中，我们将主要使用 `pandas` 库来进行 Excel 数据的处理。下面，提供一个完整的示例，分别包括对数据的增、删、改、查（CRUD）操作。

示例：使用 Pandas 处理 Excel 文件

首先，确保安装了 `pandas` 和 `openpyxl` 库。如果还没有安装，可以通过以下命令进行安装：

```bash
pip install pandas openpyxl
```

我们将创建一个包含用户信息的 Excel 文件，初始数据包含姓名、年龄和地址。


In [None]:
import pandas as pd

# 创建一个初始的数据表
data = {
    '姓名': ['张三', '李四', '王五'],
    '年龄': [25, 30, 22],
    '地址': ['北京', '上海', '广州']
}

# 生成 DataFrame 对象
df = pd.DataFrame(data)

# 将 DataFrame 写入 Excel 文件
excel_file_path = 'user_data.xlsx'
df.to_excel(excel_file_path, index=False, sheet_name='用户信息')
print(f"已创建 Excel 文件 '{excel_file_path}' 并写入数据。")



在这里，我们首先创建了一个包含用户信息的字典，然后将其转换为 Pandas 的 `DataFrame` 对象，最后使用 `to_excel()` 方法将数据写入一个名为 `user_data.xlsx` 的 Excel 文件中。

接下来，我们可以读取此 Excel 文件以查看内容：

In [None]:
# 读取 Excel 文件
df = pd.read_excel(excel_file_path, sheet_name='用户信息')
print("读取的用户信息:\n", df)

通过 `read_excel()` 方法，我们可以读取刚刚创建的 Excel 文件，并将其存储在 `DataFrame` 对象中。

现在，我们来添加一个新用户到这个数据表中：

In [None]:
# 添加新用户
new_user = pd.DataFrame({'姓名': ['赵六'], '年龄': [28], '地址': ['深圳']})
df = pd.concat([df, new_user], ignore_index=True)
print("添加新用户后的用户信息:\n", df)


在这个代码段中，我们创建了一个新的 `DataFrame`，并使用 `pd.concat()` 方法将其添加到原始的 `DataFrame` 中，更新数据并重新赋值。

接下来，我们将在表格中修改某个用户的信息。比如我们想要更新李四的年龄：

In [None]:

# 修改用户信息
df.loc[df['姓名'] == '李四', '年龄'] = 31
print("修改李四年龄后的用户信息:\n", df)

在这里，我们通过 `loc` 方法定位到指定的用户，并更新其年龄信息。

如果我们需要删除某个用户，比如删除王五的记录：

In [None]:
# 删除用户
df = df[df['姓名'] != '王五']
print("删除王五后的用户信息:\n", df)

此代码使用布尔索引来筛选出需要保留的用户，最终得到一个不包含王五的用户信息列表。

最后，不要忘记将修改后的数据保存回 Excel 文件中：

In [None]:
# 将更新后的 DataFrame 写入原 Excel 文件
df.to_excel(excel_file_path, index=False, sheet_name='用户信息')
print(f"用户信息已更新并写入 '{excel_file_path}'。")

通过这两节的学习，我们可以清楚地看到 CSV 和 Excel 的各自特点、优缺点及其适用场景。对于简单的数据存储和传输，CSV 是一个理想的选择；而对于需要复杂数据分析和处理的场合，Excel 则提供了更为丰富的功能支持。

以下是 CSV 和 Excel 的对比表：

| 特性                | CSV                               | Excel                          |
|---------------------|-----------------------------------|--------------------------------|
| 文件格式            | 纯文本（.csv）                    | 二进制或 XML 格式（.xls, .xlsx） |
| 数据类型支持        | 仅支持文本和数字                  | 支持多种类型（文本、数字、日期等）  |
| 图形界面            | 无图形界面，仅能用文本编辑器操作     | 有图形化用户界面                |
| 文件大小            | 一般较小, 数据量增大时性能通常更好 | 较大, 特别是复杂格式时               |
| 编辑和生成          | 可用任何文本编辑器生成              | 需要 Excel 或兼容软件进行编辑      |
| 增强功能            | 无，仅提供基本数据存储             | 支持公式、图表、数据透视表等功能    |
| 兼容性              | 卓越，所有平台都能读取               | 依赖于 Excel 或相应软件             |
| 安全性              | 无密码保护和安全机制               | 支持密码保护和数据隐私选项         |

#### 3. XML数据

在大数据和网络时代，数据传输的需求愈加迫切。然而，Excel 格式虽然强大，但在网络传输中存在一些不足之处：文件体积庞大、结构化不严谨、数据类型不明确等问题。因此，开发者们需要一种更为轻量级、易于传输和解析的数据格式。这就是 XML（可扩展标记语言）脱颖而出的原因。

XML 于 1996 年首次被引入，而其核心理念是让信息透明且易于共享。最初是为了在 web 上传输数据而设计，后来成为各种协议和标准（如 SOAP、RSS 和 XHTML）的基础，逐步在数据交换、配置文件和文档格式中获得广泛应用。由于 XML 提供了清晰的结构和强大的扩展性，它迅速成为企业应用和数据交换的首选格式。

##### 3.1 XML 文件结构

XML 文件由一系列元素（tags）组成，这些元素可以包含文本、属性和其他子元素。每个 XML 文件都必须有一个根元素，并且元素之间遵循嵌套关系。以下是一个简单的 XML 文件示例：

```xml
<?xml version="1.0" encoding="UTF-8"?>
<note>
    <to>读者</to>
    <from>作者</from>
    <heading>提示</heading>
    <body>周末就要出去玩哦！</body>
</note>
```

在上述示例中，`<note>` 是根元素，包含四个子元素：`<to>`、`<from>`、`<heading>` 和 `<body>`。每个元素之间的内容可以是文本数据，也可以包含其他元素，这种层次结构使得 XML 可以表示复杂的数据关系。

在 Python 中，我们可以使用 `xml.etree.ElementTree` 模块来处理 XML 数据。以下是一个关于如何创建和读取 XML 文件的示例。

In [None]:
# 创建 XML 文件
import xml.etree.ElementTree as ET

# 创建根元素
note = ET.Element("note")

# 创建子元素并赋值
ET.SubElement(note, "to").text = "读者"
ET.SubElement(note, "from").text = "作者"
ET.SubElement(note, "heading").text = "提示"
ET.SubElement(note, "body").text = "周末就要出去玩哦！"

# 创建树并保存到 XML 文件
tree = ET.ElementTree(note)
tree.write("note.xml", encoding='utf-8', xml_declaration=True)

print("XML 文件创建完成：note.xml")

在这个示例中，我们创建了一个简单的 `note` XML 文件，并将其保存为 `note.xml`。

In [None]:
import xml.etree.ElementTree as ET

# 读取 XML 文件
tree = ET.parse('note.xml')
root = tree.getroot()

# 打印根元素的标签
print("根元素:", root.tag)

# 遍历并打印子元素
for child in root:
    print(f"{child.tag}: {child.text}")

在这段代码中，使用 `ET.parse()` 读取了 `note.xml` 文件，并通过遍历打印出其子元素的标签和内容。

##### 3.2 DTD（文档类型定义）

DTD（文档类型定义）用于定义 XML 文档的合法结构，用来验证 XML 数据的有效性。使用 DTD，我们可以指定元素的名称、顺序、属性及数量等。通过 DTD，能够确保 XML 文件符合特定的格式和规则，从而实现数据的有效性验证。

DTD 示例：

```xml
<!DOCTYPE note [
    <!ELEMENT note (to, from, heading, body)>
    <!ELEMENT to (#PCDATA)>
    <!ELEMENT from (#PCDATA)>
    <!ELEMENT heading (#PCDATA)>
    <!ELEMENT body (#PCDATA)>
]>
```

在上述示例中，DTD定义了一个 `note` 元素，该元素必须包含 `to`、`from`、`heading` 和 `body` 四个子元素，每个子元素只能包含文本数据。

##### 3.3 DOM 简介

DOM（文档对象模型）是一个用于表示文档结构的标准接口，它能让程序开发者以一种可编程的方式访问和操作文档的内容和结构。DOM 不仅可以应用于 XML 文档，也同样适用于 HTML 文档。它将整个文档视为一个树形结构，允许开发者对文档进行动态的改变和交互。

DOM 中的节点可分为多种类型，每种类型代表什么样的数据。最常见的节点类型包括：

- **元素节点（Element Node）**：代表 XML 或 HTML 元素。
- **文本节点（Text Node）**：代表元素中的文本。
- **属性节点（Attribute Node）**: 代表元素的属性。
- **文档节点（Document Node）**：表示整个文档。

DOM 将文档表示为一个层次结构的节点树。每个节点都与其父节点、子节点和兄弟节点保持关系，构成一个树形结构。

DOM 解析是将 XML 文档转换为 DOM 节点树的过程。一般来说，XML 解析器会读取 XML 文档并构建相应的节点树，使得每个节点都能够使用 DOM 方法进行操作。

在 Python 中，使用 `xml.etree.ElementTree` 来解析和加载 XML 文档。解析时使用 `.parse()` 函数。

In [None]:
import xml.etree.ElementTree as ET

# 加载 XML 文档
tree = ET.parse('note.xml')
root = tree.getroot()  # 获取根元素

DOM 方法用于操作节点，如添加、删除、修改等。以下是常见的 DOM 方法：

- `.find()`：查找第一个匹配指定标签的子元素。
- `.findall()`：查找所有匹配指定标签的子元素。
- `.get()`：获取元素的属性值。

通过 DOM 可以方便地访问 XML 文档的各个部分，以下是示例代码：

In [None]:
# 获取子节点
for child in root:
    print(child.tag, child.text)

In [None]:
# Node 对象包含了节点的类型、名称、值等信息，通过属性可以访问这些信息。

for node in root.iter():
    print(f"节点类型: {type(node)}, 节点标签: {node.tag}, 节点文本: {node.text}")

In [None]:
# 通过 `ElementTree` 可以方便地获取节点列表。比如获取所有子元素：

children = list(root)  # 获取子元素列表
print(f"子节点数量: {len(children)}")

In [None]:
# 可以使用 `.iter()` 和 `.findall()` 方法遍历树中的节点。

for to_elem in root.iter('to'):
    print(to_elem.text)

在 DOM 中，导航是指在节点之间进行移动，通常使用父节点、子节点、兄弟节点来实现。

In [None]:
# 获取根节点的第一个子节点
first_child = root[0]
print(first_child.tag)  # 输出: to

通过直接访问节点的 `.text` 属性可以更新节点内容。

In [None]:
to_elem.text = '新读者'
tree.write('updated_note.xml', encoding='utf-8', xml_declaration=True)

可以使用 `.remove()` 方法删除节点：

In [None]:
for from_elem in root.findall('from'):
    root.remove(from_elem)  # 删除 'from' 节点
tree.write('note_without_from.xml', encoding='utf-8', xml_declaration=True)

可以使用 `.replace()` 方法实现节点替换，首先通过获得目标节点，然后用其他节点替换。

In [None]:
new_body = ET.Element('body')
new_body.text = "周末好好放松！"

# 替换 'body' 节点
body_elem = root.find('body')
root.remove(body_elem)  # 删除旧的 'body' 节点
root.append(new_body)    # 添加新的 'body' 节点
tree.write('replaced_note.xml', encoding='utf-8', xml_declaration=True)

使用 `ET.Element` 来创建新节点。

In [None]:
new_note = ET.Element('note')
new_to = ET.SubElement(new_note, 'to')
new_to.text = '新读者'

可以使用 `ET.SubElement` 方法添加子节点。

In [None]:
new_body = ET.SubElement(new_note, 'body')
new_body.text = '周末玩得开心！'

DOM 是一种强大的结构化表示数据的方式，能够方便地操作 XML 文档。通过 Python 的 `ElementTree` 等模块，开发者可以轻松对 XML 数据进行读取、修改和验证。

以下是一个综合的 XML 处理示例，结合了上述所有 DOM 方法：

In [None]:
import xml.etree.ElementTree as ET

# 创建根元素
note = ET.Element('note')
to_elem = ET.SubElement(note, 'to')
to_elem.text = '读者'
from_elem = ET.SubElement(note, 'from')
from_elem.text = '作者'
heading = ET.SubElement(note, 'heading')
heading.text = '提示'
body = ET.SubElement(note, 'body')
body.text = '周末也要出去玩！'

# 写入文件
tree = ET.ElementTree(note)
tree.write('example_note.xml', encoding='utf-8', xml_declaration=True)

# 读取并更新文档
tree = ET.parse('example_note.xml')
root = tree.getroot()
root.find('body').text = '周末去旅行吧！'

# 保存更改
tree.write('updated_note.xml', encoding='utf-8', xml_declaration=True)

#### 4. JSON数据

在现代 Web 开发中，数据交换的需求日益增加。随着 AJAX 技术的发展，JSON（JavaScript Object Notation）作为一种轻量级的数据交换格式迅速崛起。与 XML 相比，JSON 更简洁、易于阅读和编写。这使得它成为了很多应用程序和服务的首选数据格式，尤其是在需要与 API 进行交互或在客户端与服务器之间传递数据时。

- **简洁性**：JSON 语法简单，数据结构直观，非常易于理解。
- **轻量级**：相较于 XML，JSON 文件通常体积较小，节省网络带宽。
- **与 JavaScript 的兼容性**：由于 JSON 基于 JavaScript 语言，前端开发人员可以更方便地解析和处理数据。
- **数据类型支持**：JSON 本身支持多种数据类型，包括对象（键值对）、数组、字符串、数字、布尔值和 `null`，可以较好地表示复杂数据结构。

> AJAX（Asynchronous JavaScript and XML）是一种创建异步 web 应用程序的技术，使网页能够在不重新加载整个页面的情况下与服务器交换数据并更新部分网页内容。AJAX 的核心是一种名为 XMLHttpRequest 的 JavaScript 对象，它允许浏览器发送 HTTP 请求并接收响应，而无需刷新页面。

JSON 的数据结构是由 "名称/值" 对（称为键值对）组成的集合。JSON 文档通常以对象或数组的形式表示。以下是 JSON 的基本语法示例：

```json
{
  "name": "张三",
  "age": 25,
  "isStudent": false,
  "courses": ["数学", "计算机科学"],
  "address": {
    "city": "北京",
    "zipCode": "100000"
  }
}
```

在这个示例中，JSON 对象包含多个键值对，表明一个学生的基本信息：姓名、年龄、是否为学生、所修课程及地址等。

Python 提供了一个内置模块 `json` 用于处理 JSON 数据。以下是一些常用的 JSON 操作示例。

将 Python 对象转换为 JSON 字符串。

In [None]:
import json

# 创建一个 Python 对象
data = {
    "name": "张三",
    "age": 25,
    "isStudent": False,
    "courses": ["数学", "计算机科学"],
    "address": {
        "city": "北京",
        "zipCode": "100000"
    }
}

# 将 Python 对象转换为 JSON 字符串
json_string = json.dumps(data, ensure_ascii=False, indent=4)
print(json_string)

将 JSON 字符串转换为 Python 对象。

In [None]:
# JSON 字符串
json_string = '''
{
    "name": "张三",
    "age": 25,
    "isStudent": false,
    "courses": ["数学", "计算机科学"],
    "address": {
        "city": "北京",
        "zipCode": "100000"
    }
}
'''

# 将 JSON 字符串转换为 Python 对象
data = json.loads(json_string)
print(data)
print(data["name"])  # 访问 "name" 属性

可以将 JSON 数据存储在文件中，并从中读取。

In [None]:
# 将数据写入 JSON 文件
with open('data.json', 'w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

# 从 JSON 文件中读取数据
with open('data.json', 'r', encoding='utf-8') as json_file:
    data_from_file = json.load(json_file)
    print(data_from_file)

In [None]:
# 修改数据
data_from_file["age"] = 26  # 更改年龄
data_from_file["courses"].append("物理")  # 添加新课程

# 将修改后的数据保存回 JSON 文件
with open('updated_data.json', 'w', encoding='utf-8') as json_file:
    json.dump(data_from_file, json_file, ensure_ascii=False, indent=4)

在实际应用中，JSON 和 XML 各有优缺点，以下是二者的比较：

| 特性                   | JSON                             | XML                               |
|------------------------|----------------------------------|-----------------------------------|
| 可读性                 | 高                               | 较高                              |
| 文件大小               | 较小                             | 通常较大                          |
| 数据结构               | 像对象或数组                     | 树状结构                          |
| 数据类型               | 支持多种基础数据类型             | 只允许文本，需要通过解析确定数据类型 |
| 解析速度               | 快速                             | 通常较慢                          |
| 适用场景               | 适合数据交换和 API              | 更适合复杂的文档和结构化数据     |

JSON 已成为 RESTful API 和 Web 服务中使用的标准数据格式，因为其结构轻便，解析简单，能够有效支持数据的序列化和反序列化。大部分现代编程语言都提供了对 JSON 的内置支持，这使得在不同平台和系统间传输数据变得更加便捷。

> RESTful（Representational State Transfer）是一种架构风格，用于通过 HTTP 协议进行无状态的网络服务设计。RESTful API 通过定义一组标准化的 URL 和 HTTP 动作（如 GET、POST、PUT、DELETE）来操作和访问资源（如用户、产品等）。


#### 本章总结

##### 本章知识点汇总

1. 标准输入输出流：Python使用`input()`函数从标准输入流获取用户输入数据，使用`print()`函数将数据输出到标准输出流。
2. 字符串处理：在Python中，字符串是一种不可变的序列，可以通过方法如`strip()`去除空白字符，通过`split()`将字符串拆分成列表。
3. 表格数据：表格数据处理是数据分析中的关键。在Python中，常用的表格数据格式包括CSV和Excel。
4. CSV文件：CSV（逗号分隔值）是一种简单的文件格式，每行表示一条记录，字段之间用逗号分隔，广泛应用于数据交换和存储。CSV的优点包括其简单性、通用性和易于生成的数据格式。
5. Excel文件：Excel是一个强大的电子表格工具，能够处理复杂数据并进行数据分析。Python中通过`pandas`等库可实现对Excel文件的读写操作，以便进行数据分析和可视化。
6. XML数据：XML（可扩展标记语言）是一种用于描述结构化信息的标记语言，通过元素、标签定义数据的层次和结构。
7. JSON（JavaScript对象表示法）：JSON是一种轻量级的数据交换格式，结构清晰、易于解析，广泛用于Web服务及API接口。JSON以键值对的形式表示数据，且与编程语言的兼容性较高。

##### 课后练习

1. 编写一个Python函数 `reverse_string(s)`，接受一个字符串`s`作为输入，返回这个字符串的反转结果。  
   示例：  
   ```python
   reverse_string("hello")  # 返回 "olleh"
   ```

2. 编写一个程序，接受用户输入的字符串，并统计该字符串中每个字符出现的次数，输出结果。

3. 编写一个程序，接受用户输入一个数字字符串，检查该字符串是否为有效数字（正数或负数）。如果是有效数字，输出其平方；否则，输出“无效输入”。  
   示例：  
   输入 `"3.14"` 输出 `9.8596`；输入 `"abc"` 输出 `"无效输入"`。

4. 编写一个程序，要求用户输入一个包含数字和字母的字符串，提取出其中的所有数字，计算这些数字的和，并输出结果。

5. 编写一个Python程序，读取一个CSV文件`data.csv`（包含姓名和成绩两列），统计并输出所有学生的平均成绩。假设数据如下：  
   ```
   姓名,成绩
   张三,85
   李四,90
   王五,78
   ```

6. 创建一个包含员工信息的CSV文件（字段包括姓名、职务和工资），并编写代码读取该文件，输出每位员工的信息，格式化为“姓名：职务，工资：xxxx元”。

7. 编写程序，使用`pandas`库读取一个Excel文件`grades.xlsx`（包含姓名和分数两列），计算每个学生的总分并输出。  
   假设Excel数据格式如下：  
   | 姓名 | 分数 |
   |------|-------|
   | 张三 | 85    |
   | 李四 | 90    |
   | 王五 | 78    |  

8. 使用`pandas`库创建一个包含学生成绩的Excel文件（字段包括姓名、数学、英语、科学），并计算每个学生的总成绩和平均成绩，将结果添加到Excel文件中。

9. 创建一个XML文件`books.xml`，包含三本书的信息，每本书的元素包括书名、作者和出版年份。然后编写程序解析这个XML文件并输出每本书的书名和作者。  
   示例结构：
   ```xml
   <图书>
       <书>
           <书名>Python编程</书名>
           <作者>张三</作者>
           <年份>2020</年份>
       </书>
   </图书>
   ```

10. 编写一个程序，创建一个简单的XML文件，包含书籍的标题、作者和出版年份，然后读取该XML文件，输出所有书籍的标题和作者。

11. 写一个程序，将以下字典数据保存为JSON格式的文件`data.json`：  
   ```python
   user_info = {
       "name": "李四",
       "age": 25,
       "hobbies": ["阅读", "编程", "旅行"]
   }
   ```

12. 创建一个字典，包含有关电影的信息（例如：标题、导演、年份、评分），将该字典转换为JSON格式，并保存至文件。然后从文件中读取JSON数据，输出其中的电影标题和评分。

13. 设计一个Py5程序，读取上述的`books.xml`文件，并在画布上绘制每本书的书名，要求书名以不同颜色显示。实现显示的功能。

14. 设计一个Py5应用，读取`data.json`文件中的用户信息，并在画布上显示用户的姓名、年龄和爱好列表，要求格式美观。

15. 设计一个Py5交互程序，用户可以通过输入选择不同的颜色（如红色、绿色或蓝色），然后程序将生成一个对应颜色的圆形。使用XML文件来定义可选颜色和对应RGB值。

16. 设计一个Py5交互程序，用户可以选择不同的形状（如方形、圆形、三角形），程序将根据用户选择的形状在画布上绘制相应的形状，并使用JSON文件存储可选形状及其属性（如边长或半径）。

##### 扩展知识

在本章学习了数据处理的基础知识后，我们将进一步扩展相关知识，帮助你更深入地理解数据。数据库作为一种关键技术，通过有效地存储、管理和检索数据，对当今的信息系统和技术发展起到了重要作用。

首先，数据库可以分为**关系数据库**和**非关系数据库**。关系数据库是以表格形式组织数据，通过主键和外键建立不同表之间的关系。常见的关系数据库包括 MySQL、PostgreSQL 和 Oracle，它们在数据一致性和完整性方面表现优越。然而，随着大数据的兴起，非关系数据库（或 NoSQL 数据库）逐渐受到重视。非关系数据库通常用于处理海量数据，且数据格式灵活，包括文档型数据库（如 MongoDB）、键值存储（如 Redis）、列存储（如 Cassandra）和图数据库（如 Neo4j）。这些数据库能够在高并发环境下提供更好的性能，并且适合处理非结构化或半结构化数据。

在设计数据库时，**数据库范式**是一个非常重要的概念。数据库范式旨在减少数据冗余和确保数据的一致性。常用的范式包括第一范式（1NF）、第二范式（2NF）和第三范式（3NF），这些范式定义了数据表中数据存储的结构和规则。理解这些范式能够帮助你设计出高效且可维护的数据库结构，降低在数据操作中的错误和不一致。

不同类型的数据库可以根据其存储位置和访问方式进行分类。**本地数据库**是安装在用户设备上的数据库，适合开发小型应用或在没有网络条件下使用。例如，SQLite 和 Microsoft Access 都是不错的选择。相比之下，**网络数据库**通过网络提供访问，数据集中存储在服务器上，允许多个客户端同时访问，具有良好的共享性。另一方面，**分布式数据库**由多个物理位置的数据库组成，能够提供更高的可用性和更强的容错能力。**云数据库**是一种新兴的解决方案，用户可以通过互联网访问和操作数据库。服务提供商负责管理和维护数据库，常见的云数据库服务包括 Amazon RDS、Google Cloud SQL 和 Microsoft Azure SQL Database。

在操作数据库时，**查询语言**扮演着至关重要的角色。关系数据库使用结构化查询语言（SQL）来执行各种操作，如数据的插入、更新、删除和查询。SQL的标准化使得不同的关系数据库之间具有较好的兼容性。而在非关系数据库中，由于其数据模型的多样性，不同数据库可能会使用各自特定的查询语言，例如 MongoDB 使用 JavaScript 风格的查询。

确保数据库的**安全性和性能**同样重要。在网络环境中，数据库面临多种安全威胁，因此对访问数据库的用户进行身份验证和权限控制是必要的。通过加密和审计日志的方式，可以保障数据的安全性。同时，优化数据库性能的策略，包括索引、查询优化和数据分区等，能够有效提升数据操作的效率。

数据库是现代信息系统的核心部分，理解其分类、设计原则及操作方式，有助于更好地开发和维护应用程序。为了进一步深入学习，建议参考一些官方文档和在线课程资源，如 MySQL 和 PostgreSQL 的官方文档，或访问导学平台如 edX 和 Coursera，获取更为详细的学习材料。

- [MySQL 官方文档](https://dev.mysql.com/)
- [MongoDB 官方文档](https://docs.mongodb.com/)
- [Coursera: 数据库基础](https://www.coursera.org/t)
- [Udacity: 数据库入门](https://www.udacity.com/)
- [Codecademy: SQL 学习路径](https://www.codecademy.com/)
- [Khan Academy: SQL Basics](https://www.khanacademy.org/)

##### 练习题提示

1. **字符串反转**：
   ```python
   def reverse_string(s):
       return s[::-1]
   ```

2. **字符出现次数统计**：
   ```python
   from collections import Counter

   user_input = input("请输入字符串：")
   count = Counter(user_input)
   print(count)
   ```

3. **有效数字检查**：
   ```python
   num_str = input("请输入数字：")
   try:
       num = float(num_str)
       print(num ** 2)
   except ValueError:
       print("无效输入")
   ```

4. **提取数字并求和**：
   ```python
   import re

   user_input = input("请输入字符串：")
   numbers = re.findall(r'\d+', user_input)
   total = sum(map(int, numbers))
   print("数字总和:", total)
   ```

5. **平均成绩统计**：
   ```python
   import pandas as pd

   df = pd.read_csv("data.csv")
   average = df["成绩"].mean()
   print(f"平均成绩: {average:.2f}")
   ```

6. **员工信息CSV文件输出**：
   ```python
   import pandas as pd

   data = {
       "姓名": ["张三", "李四", "王五"],
       "职务": ["工程师", "经理", "主管"],
       "工资": [8000, 12000, 9000]
   }
   df = pd.DataFrame(data)
   df.to_csv("employees.csv", index=False)

   for index, row in df.iterrows():
       print(f"{row['姓名']}：{row['职务']}，工资：{row['工资']}元")
   ```

7. **Excel文件使用示例**：
   ```python
   import pandas as pd

   df = pd.read_excel("grades.xlsx")
   df["总分"] = df["分数"].sum()
   print(df)
   ```

8. **Excel文件创建与计算**：
   ```python
   import pandas as pd

   data = {
       "姓名": ["张三", "李四", "王五"],
       "数学": [90, 85, 88],
       "英语": [80, 75, 82],
       "科学": [85, 92, 90]
   }
   df = pd.DataFrame(data)
   df["总分"] = df[["数学", "英语", "科学"]].sum(axis=1)
   df["平均成绩"] = df[["数学", "英语", "科学"]].mean(axis=1)
   df.to_excel("grades.xlsx", index=False)
   ```

9. **XML文件解析**：
   ```python
   import xml.etree.ElementTree as ET

   tree = ET.parse('books.xml')
   root = tree.getroot()
   for book in root.findall('书'):
       title = book.find('书名').text
       author = book.find('作者').text
       print(f"书名: {title}, 作者: {author}")
   ```

10. **书籍XML创建与读取**：
    ```python
    import xml.etree.ElementTree as ET

    root = ET.Element("图书")
    book1 = ET.SubElement(root, "书")
    ET.SubElement(book1, "书名").text = "Python编程"
    ET.SubElement(book1, "作者").text = "张三"
    ET.SubElement(book1, "年份").text = "2020"

    tree = ET.ElementTree(root)
    tree.write("books.xml", encoding="utf-8", xml_declaration=True)

    # 读取示例略
    ```

11. **JSON文件写入**：
    ```python
    import json

    user_info = {
        "name": "李四",
        "age": 25,
        "hobbies": ["阅读", "编程", "旅行"]
    }
    with open('data.json', 'w', encoding='utf-8') as f:
        json.dump(user_info, f, ensure_ascii=False, indent=4)
    ```

12. **电影信息JSON处理**：
    ```python
    import json

    movie_info = {
        "标题": "盗梦空间",
        "导演": "克里斯托弗·诺兰",
        "年份": 2010,
        "评分": 8.8
    }
    with open('movie.json', 'w', encoding='utf-8') as f:
        json.dump(movie_info, f, ensure_ascii=False, indent=4)

    with open('movie.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
        print(f"电影标题: {data['标题']}, 评分: {data['评分']}")
    ```

好的，以下是第13到第16题的详细答案，包括完整的代码和简单注释，以帮助理解。

13. 使用XML的Py5交互设计
首先，我们需要创建一个名为 `books.xml` 的XML文件，内容如下：

```xml
<图书>
    <书>
        <书名>Python编程</书名>
        <作者>张三</作者>
        <年份>2020</年份>
    </书>
    <书>
        <书名>数据结构与算法</书名>
        <作者>李四</作者>
        <年份>2021</年份>
    </书>
    <书>
        <书名>机器学习</书名>
        <作者>王五</作者>
        <年份>2022</年份>
    </书>
</图书>
```

接下来，我们编写Py5代码以读取XML并绘制：

```python
# 在Jupyter代码单元中强制重启内核
import IPython
IPython.get_ipython().run_line_magic('reset', '-f')  

import xml.etree.ElementTree as ET
import py5
import random

# 读取XML文件的函数
def load_books():
    tree = ET.parse('books.xml')
    root = tree.getroot()
    
    books = []
    for book in root.findall('书'):
        title = book.find('书名').text
        books.append(title)
    
    return books

# 设置画布
def setup():
    py5.size(600, 400)
    py5.background(255)
    py5.fill(0)
    
    books = load_books()
    
    # 设置Y坐标起始点
    y_position = 30
    for title in books:
        # 随机颜色
        py5.fill(random.randint(0, 255), random.randint(0, 255), random.randint(0, 255))
        py5.text(title, 20, y_position)
        y_position += 30
        
py5.run_sketch()
```

14. 使用JSON的Py5交互设计
首先，创建一个名为`data.json`的文件，内容如下：

```json
{
    "name": "李四",
    "age": 25,
    "hobbies": ["阅读", "编程", "旅行"]
}
```

接下来，编写Py5代码以读取JSON并显示信息：

```python
# 在Jupyter代码单元中强制重启内核
import IPython
IPython.get_ipython().run_line_magic('reset', '-f')  

import json
import py5

# 读取JSON文件的函数
def load_user_info():
    with open('data.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    return data

# 设置画布
def setup():
    py5.size(600, 400)
    py5.background(255)
    
    user_info = load_user_info()
    
    # 显示用户姓名
    py5.text_size(32)
    py5.fill(0)
    py5.text(f"姓名: {user_info['name']}", 20, 50)
    
    # 显示用户年龄
    py5.text_size(24)
    py5.text(f"年龄: {user_info['age']}", 20, 100)
    
    # 显示爱好列表
    py5.text_size(20)
    py5.text("爱好:", 20, 150)
    
    y_offset = 180
    for hobby in user_info['hobbies']:
        py5.text(f"- {hobby}", 20, y_offset)
        y_offset += 30
        
py5.run_sketch()
```

15. 使用XML的Py5交互设计
首先，创建一个 XML 文件 `colors.xml`，内容如下：

```xml
<颜色>
    <选项>
        <名字>红色</名字>
        <R>255</R>
        <G>0</G>
        <B>0</B>
    </选项>
    <选项>
        <名字>绿色</名字>
        <R>0</R>
        <G>255</G>
        <B>0</B>
    </选项>
    <选项>
        <名字>蓝色</名字>
        <R>0</R>
        <G>0</G>
        <B>255</B>
    </选项>
</颜色>
```

接下来，编写Py5代码以读取XML并绘制圆形：

```python
# 在Jupyter代码单元中强制重启内核
import IPython
IPython.get_ipython().run_line_magic('reset', '-f')  

import xml.etree.ElementTree as ET
import py5

# 读取颜色选项的函数
def load_colors():
    tree = ET.parse('colors.xml')
    root = tree.getroot()
    colors = {}
    
    for option in root.findall('选项'):
        name = option.find('名字').text
        r = int(option.find('R').text)
        g = int(option.find('G').text)
        b = int(option.find('B').text)
        colors[name] = (r, g, b)
    
    return colors

# 设置画布
def setup():
    py5.size(600, 400)
    py5.background(255)
    
    colors = load_colors()
    user_input = py5.input("请输入颜色（红色、绿色或蓝色）: ")
    
    if user_input in colors:
        r, g, b = colors[user_input]
        py5.fill(r, g, b)
        py5.ellipse(300, 200, 100, 100)  # 绘制圆形
    else:
        py5.fill(0)
        py5.text("无效颜色输入", 200, 200)

py5.run_sketch()
```

16. 使用JSON的Py5交互设计
首先，创建一个名为 `shapes.json` 的文件，内容如下：

```json
{
    "shapes": [
        {
            "name": "圆形",
            "radius": 50
        },
        {
            "name": "方形",
            "side": 100
        },
        {
            "name": "三角形",
            "size": 100
        }
    ]
}
```

编写Py5代码以读取JSON并根据用户选择绘制形状：

```python
# 在Jupyter代码单元中强制重启内核
import IPython
IPython.get_ipython().run_line_magic('reset', '-f')  

import json
import py5

# 读取形状数据的函数
def load_shapes():
    with open('shapes.json', 'r', encoding='utf-8') as f:
        data = json.load(f)
    return data['shapes']

# 设置画布
def setup():
    py5.size(600, 400)
    py5.background(255)
    
    shapes = load_shapes()
    
    # 获取用户输入
    shape_names = [shape['name'] for shape in shapes]
    user_input = py5.input(f"选择形状：{shape_names} ")
    
    for shape in shapes:
        if shape['name'] == user_input:
            if shape['name'] == "圆形":
                py5.ellipse(300, 200, shape['radius']*2, shape['radius']*2)
            elif shape['name'] == "方形":
                py5.rect(250, 150, shape['side'], shape['side'])
            elif shape['name'] == "三角形":
                py5.triangle(300, 150, 250, 300, 350, 300)

py5.run_sketch()
```