# 利用Python进行数据分析（第二版）——第六章数据加载、存储与文件格式 (p225)
本章介绍了pandas中用于数据加载、存储和文件格式处理的核心工具，帮助用户高效读写多种数据源。主要内容包括：
- **CSV和文本文件**：通过`read_csv`和`read_table`读取常见文本数据。
- **JSON和HTML**：处理结构化JSON数据和网页中的HTML表格。
- **Excel文件**：使用`read_excel`和`to_excel`操作Excel表格。
- **数据库交互**：实现与SQL数据库的连接和数据读写。
**重点**：掌握`read_csv`的灵活参数配置，以适应不同格式的文本文件（如分隔符、缺失值处理等）。

In [None]:
# 导入核心库，用于数据分析和可视化
# np.random.seed：设置随机种子，确保结果可复现
# plt.rc：配置matplotlib图形默认尺寸为10x6
# pd.options：优化pandas输出显示，如列宽和列数限制
# np.set_printoptions：设置numpy数组打印精度为4位小数并禁用科学计数法

import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
pd.options.display.max_colwidth = 75
pd.options.display.max_columns = 20
np.set_printoptions(precision=4, suppress=True)

## 6.2 读写文本格式的数据 (p225)
本节详细讲解了使用pandas的`read_csv`和`read_table`等函数读取和处理文本格式数据（如CSV、TXT等）。通过灵活的参数配置，可以处理不同分隔符、缺失值、索引列等场景。
**核心内容**：
- **读取CSV文件**：使用`pd.read_csv`加载标准CSV文件，支持自定义列名、索引、分隔符等。
- **处理缺失值**：通过`na_values`参数指定缺失值标记。
- **跳过无关行**：使用`skiprows`跳过文件中的注释或无关行。
- **灵活分隔符**：通过`sep`参数处理非逗号分隔的文本文件（如空格分隔）。
**重点**：熟练掌握`read_csv`的常用参数（如`header`、`names`、`index_col`、`na_values`、`skiprows`、`sep`），以适应复杂数据格式。

### 6.2.1 读取标准CSV文件
以下示例展示如何读取一个标准CSV文件`ex1.csv`，并查看其内容。文件包含列名和数据行，格式为逗号分隔。

In [None]:
# 使用!type命令查看ex1.csv文件内容（Windows系统）
# 文件格式：逗号分隔，包含列名（a,b,c,d,message）和三行数据

!type examples\ex1.csv

In [None]:
# 使用pd.read_csv读取ex1.csv
# 默认以第一行为列名，生成DataFrame

df = pd.read_csv("examples/ex1.csv")
df

### 6.2.2 处理无列名的CSV文件
对于没有列名的CSV文件（如`ex2.csv`），可以通过`header=None`或`names`参数手动指定列名。

In [None]:
# 查看ex2.csv文件内容，无列名，仅包含数据行

!type examples\ex2.csv

In [None]:
# header=None：不将第一行作为列名，自动生成数字索引
# names：手动指定列名列表

pd.read_csv("examples/ex2.csv", header=None)
pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "message"])

### 6.2.3 设置索引列
通过`index_col`参数，可以指定某列作为DataFrame的索引。例如，将`message`列设为索引。

In [None]:
# names：定义列名
# index_col：指定'message'列作为索引

names = ["a", "b", "c", "d", "message"]
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

### 6.2.4 多层索引
对于具有层次结构的CSV文件（如`csv_mindex.csv`），可以通过`index_col`指定多个列作为多层索引。

In [None]:
# 查看csv_mindex.csv文件内容，包含两列索引（key1, key2）和两列数据（value1, value2）
# index_col=["key1", "key2"]：指定多层索引

!type examples\csv_mindex.csv
parsed = pd.read_csv("examples/csv_mindex.csv", index_col=["key1", "key2"])
parsed

### 6.2.5 处理非逗号分隔的文本文件
对于非逗号分隔的文本文件（如空格分隔的`ex3.txt`），通过`sep`参数指定分隔符。

In [None]:
# 查看ex3.txt文件内容，使用多个空格分隔

!type examples\ex3.txt

In [None]:
# sep=r"\s+"：使用正则表达式匹配一个或多个空格作为分隔符

result = pd.read_csv("examples/ex3.txt", sep=r"\s+")
result

### 6.2.6 跳过无关行
对于包含注释或无关行的CSV文件（如`ex4.csv`），使用`skiprows`参数跳过指定行。

In [None]:
# 查看ex4.csv文件内容，包含注释行（#开头）
# skiprows=[0, 2, 3]：跳过第0、2、3行

!type examples\ex4.csv
pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

### 6.2.7 处理缺失值
pandas自动识别常见缺失值（如空值、NA），并支持通过`na_values`自定义缺失值标记。

In [None]:
# 查看ex5.csv文件内容，包含缺失值（如NA、空值）
# 读取ex5.csv，自动识别缺失值

!type examples\ex5.csv
result = pd.read_csv("examples/ex5.csv")
result

In [None]:
# pd.isna：检查DataFrame中的缺失值，返回布尔值矩阵

pd.isna(result)

In [None]:
# na_values=["NULL"]：将'NULL'标记为缺失值

result = pd.read_csv("examples/ex5.csv", na_values=["NULL"])
result

In [None]:
# keep_default_na=False：禁用默认缺失值识别
# na_values=["NA"]：仅将'NA'标记为缺失值
# result2：展示禁用默认缺失值后的效果
# result3：展示自定义缺失值后的效果

result2 = pd.read_csv("examples/ex5.csv", keep_default_na=False)
result2
result2.isna()
result3 = pd.read_csv("examples/ex5.csv", keep_default_na=False, na_values=["NA"])
result3
result3.isna()

In [None]:
# sentinels：为不同列指定不同的缺失值标记
# keep_default_na=False：避免默认缺失值干扰

sentinels = {"message": ["foo", "NA"], "something": ["two"]}
pd.read_csv("examples/ex5.csv", na_values=sentinels, keep_default_na=False)

**小结**：
本节通过多个示例展示了`pd.read_csv`的强大功能，包括处理标准CSV、无列名文件、多层索引、非逗号分隔文件、注释行和缺失值等场景。关键在于灵活使用参数（如`header`、`names`、`index_col`、`sep`、`skiprows`、`na_values`），以适应不同数据格式。掌握这些技巧可以高效处理各种文本数据，为后续分析奠定基础。

## 6.3 逐块读取文本文件 (p233)
本节介绍了如何使用pandas处理大型文本文件，通过逐块读取（chunking）技术减少内存占用，适合处理无法一次性加载到内存的大数据集。
**核心内容**：
- **限制行数读取**：使用`nrows`参数读取文件的前几行。
- **逐块读取**：通过`chunksize`参数分块读取文件，生成迭代器。
- **显示优化**：调整pandas显示选项（如`max_rows`）以简化输出。
**重点**：掌握`chunksize`参数的使用，结合迭代器逐块处理大型数据集，优化内存使用。

### 6.3.1 设置显示行数
通过设置`pd.options.display.max_rows`，限制DataFrame输出时的最大行数，方便查看大型数据集。

In [None]:
# 设置pandas显示最大行数为10，防止输出过多行

pd.options.display.max_rows = 10

### 6.3.2 读取大型CSV文件
以下示例展示了如何读取一个大型CSV文件`ex6.csv`，并查看其内容。文件包含多列（`one`, `two`, `three`, `four`, `key`）和10000行数据。

In [None]:
# 读取ex6.csv，生成包含10000行的DataFrame
# 输出显示受max_rows限制，仅展示部分行

result = pd.read_csv("examples/ex6.csv")
result

### 6.3.3 限制读取行数
通过`nrows`参数，可以仅读取文件的前几行，适合快速预览数据。

In [None]:
# nrows=5：仅读取ex6.csv的前5行

pd.read_csv("examples/ex6.csv", nrows=5)

**小结**：
本节介绍了处理大型文本文件的逐块读取技术，通过`nrows`参数快速预览数据，以及`pd.options.display.max_rows`优化输出显示。虽然文档中未直接展示`chunksize`的使用，但这是逐块读取的核心参数（可结合`pd.read_csv`的迭代器功能）。这些方法有效降低了内存占用，适合处理大数据集，为后续数据分析提供了高效支持。

## 6.4 读取HTML和XML数据
本节介绍了如何使用pandas从HTML网页和XML文件中提取结构化数据，适用于网络数据抓取和特定格式的数据处理。
**核心内容**：
- **读取HTML表格**：使用`pd.read_html`从网页中提取表格数据。
- **处理XML数据**：通过`lxml`库解析XML文件，或使用`pd.read_xml`直接读取。
- **数据后处理**：结合pandas功能对提取的数据进行清洗和分析（如时间戳转换）。
**重点**：掌握`pd.read_html`提取HTML表格和`pd.read_xml`处理XML数据的用法，理解如何结合其他库（如`lxml objectify`）解析复杂XML结构。

### 6.4.1 读取HTML表格
`pd.read_html`可以从HTML文件中提取所有`<table>`标签中的表格数据，返回一个DataFrame列表。以下示例从`fdic_failed_bank_list.html`中提取银行倒闭数据。

In [None]:
# 读取HTML文件中的表格，返回DataFrame列表
# tables[0]：提取第一个表格，包含银行倒闭信息
# failures.head()：显示前5行数据

tables = pd.read_html("examples/fdic_failed_bank_list.html")
len(tables)
failures = tables[0]
failures.head()

### 6.4.2 分析HTML表格数据
提取的表格数据可以进一步分析。例如，将`Closing Date`列转换为时间戳，并统计每年银行倒闭数量。

In [None]:
# pd.to_datetime：将Closing Date列转换为时间戳
# dt.year.value_counts()：统计每年银行倒闭次数

close_timestamps = pd.to_datetime(failures["Closing Date"])
close_timestamps.dt.year.value_counts()

### 6.4.3 解析XML数据（使用lxml）
对于XML格式数据，可以使用`lxml.objectify`解析文件，并手动构建DataFrame。以下示例处理地铁北铁路（Metro-North Railroad）的性能数据`Performance_MNR.xml`。

In [None]:
# 导入lxml.objectify用于解析XML文件
# 打开Performance_MNR.xml并获取根节点

from lxml import objectify

path = "../datasets/mta_perf/Performance_MNR.xml"
with open(path) as f:
    parsed = objectify.parse(f)
root = parsed.getroot()

In [None]:
# 定义要跳过的字段（无关数据）
# 遍历XML的INDICATOR节点，提取所需字段
# 构建字典列表并转换为DataFrame

data = []

skip_fields = ["PARENT_SEQ", "INDICATOR_SEQ", "DESIRED_CHANGE", "DECIMAL_PLACES"]

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

perf = pd.DataFrame(data)
perf.head()

### 6.4.4 使用pd.read_xml直接读取XML
pandas提供`read_xml`函数，可直接将XML文件转换为DataFrame，简化处理流程。

In [None]:
# pd.read_xml：直接读取XML文件并生成DataFrame
# head()：显示前5行数据

perf2 = pd.read_xml(path)
perf2.head()

**小结**：
本节展示了从HTML和XML格式中提取结构化数据的技巧。`pd.read_html`能高效提取网页中的表格数据，结合pandas的时间序列功能（如`pd.to_datetime`）可进行深入分析。XML数据处理则提供了两种方式：使用`lxml.objectify`手动解析复杂结构，或通过`pd.read_xml`直接读取。这些方法为处理网络数据和特定格式文件提供了灵活支持，适用于数据抓取和清洗场景。

## 6.5 二进制数据格式 (p247)
本节介绍了pandas处理二进制数据格式的方法，包括Pickle、Parquet和HDF5格式。这些格式相比文本文件更高效，适合存储大型数据集或需要快速读写的场景。
**核心内容**：
- **Pickle格式**：使用`to_pickle`和`read_pickle`序列化和反序列化pandas对象。
- **Parquet格式**：通过`read_parquet`读取高效的列式存储格式。
- **HDF5格式**：使用`HDFStore`或`to_hdf`/`read_hdf`处理高性能分层数据格式，支持部分读取和查询。
**重点**：理解不同二进制格式的适用场景，掌握`HDFStore`的高级用法（如查询和表格式存储）。

### 6.5.1 Pickle格式
Pickle是Python的内置序列化格式，pandas通过`to_pickle`和`read_pickle`支持快速保存和读取DataFrame。

In [None]:
# 读取ex1.csv生成DataFrame
# to_pickle：将DataFrame序列化保存为Pickle文件

frame = pd.read_csv("../examples/ex1.csv")
frame.to_pickle("../examples/frame_pickle")

In [None]:
# read_pickle：从Pickle文件读取DataFrame

pd.read_pickle("../examples/frame_pickle")

In [None]:
# 删除生成的Pickle文件，清理临时文件

!del ..\examples\frame_pickle

### 6.5.2 Parquet格式
Parquet是一种高效的列式存储格式，适合大数据处理。pandas通过`read_parquet`支持读取Parquet文件。

In [None]:
# 读取Parquet格式的fec数据集

fec = pd.read_parquet('../datasets/fec/fec.parquet')

### 6.5.3 HDF5格式
HDF5是一种高性能的分层数据格式，pandas通过`HDFStore`或`to_hdf`/`read_hdf`支持读写，支持部分数据查询和表格式存储。

In [None]:
# 创建包含随机数据的DataFrame
# HDFStore：打开HDF5文件，存储DataFrame和单列
# store['obj1']：保存整个DataFrame
# store['obj1_col']：保存DataFrame的'a'列

frame = pd.DataFrame({"a": np.random.standard_normal(100)})
store = pd.HDFStore("../examples/mydata.h5")
store["obj1"] = frame
store["obj1_col"] = frame["a"]
store

In [None]:
# 从HDFStore读取obj1对应的DataFrame

store["obj1"]

In [None]:
# put：以表格式存储DataFrame，支持查询
# select：通过where条件查询索引在10到15之间的数据
# close：关闭HDFStore连接

store.put("obj2", frame, format="table")
store.select("obj2", where=["index >= 10 and index <= 15"])
store.close()

In [None]:
# to_hdf：直接将DataFrame保存为HDF5文件（表格式）
# read_hdf：读取HDF5文件，where条件限制索引小于5

frame.to_hdf(path_or_buf="examples/mydata.h5", key="obj3", format="table")
pd.read_hdf(path_or_buf="examples/mydata.h5", key="obj3", where=["index < 5"])

In [None]:
# 删除生成的HDF5文件，清理临时文件

import os
os.remove("examples/mydata.h5")

**小结**：
本节展示了pandas处理二进制数据格式的强大功能。Pickle格式通过`to_pickle`和`read_pickle`实现快速序列化，适合小型数据集。Parquet格式通过`read_parquet`支持高效列式存储，适用于大数据场景。HDF5格式通过`HDFStore`和`to_hdf`/`read_hdf`提供高性能读写和查询功能，特别适合需要部分数据加载的大型数据集。这些格式显著提升了数据存储和读取效率，为复杂数据分析提供了灵活支持。

## 6.6 读取Microsoft Excel文件 (p251)
本节介绍了使用pandas读取和写入Microsoft Excel文件的方法，通过`pd.ExcelFile`和`pd.read_excel`处理Excel表格数据，支持多Sheet操作和灵活的索引设置。
**核心内容**：
- **读取Excel文件**：使用`pd.ExcelFile`加载Excel文件，或直接用`pd.read_excel`读取指定Sheet。
- **写入Excel文件**：通过`to_excel`和`ExcelWriter`将DataFrame保存为Excel文件。
- **Sheet和索引管理**：支持指定Sheet名称、索引列，以及处理多Sheet文件。
**重点**：掌握`pd.read_excel`和`to_excel`的基本用法，理解如何通过`ExcelWriter`实现多Sheet写入。

### 6.6.1 使用pd.ExcelFile读取Excel文件
`pd.ExcelFile`用于加载Excel文件，支持访问多个Sheet。以下示例读取`ex1.xlsx`中的Sheet数据。

In [None]:
# 创建ExcelFile对象，加载ex1.xlsx文件

xlsx = pd.ExcelFile("../examples/ex1.xlsx")

In [None]:
# sheet_names：查看Excel文件中的Sheet名称列表

xlsx.sheet_names

In [None]:
# parse：读取指定Sheet（Sheet1）的数据，生成DataFrame

xlsx.parse(sheet_name="Sheet1")

In [None]:
# parse：读取Sheet1，并将第0列设为索引

xlsx.parse(sheet_name="Sheet1", index_col=0)

### 6.6.2 使用pd.read_excel直接读取
`pd.read_excel`可以直接读取Excel文件的指定Sheet，简化操作流程。

In [None]:
# 直接读取ex1.xlsx的Sheet1，生成DataFrame

frame = pd.read_excel("../examples/ex1.xlsx", sheet_name="Sheet1")
frame

### 6.6.3 写入Excel文件
通过`to_excel`和`ExcelWriter`，可以将DataFrame保存为Excel文件，支持多Sheet写入。

In [None]:
# 创建ExcelWriter对象，指定输出文件ex2.xlsx
# to_excel：将frame写入Sheet1
# close：保存并关闭ExcelWriter

writer = pd.ExcelWriter("../examples/ex2.xlsx")
frame.to_excel(excel_writer=writer, sheet_name="Sheet1")
writer.close()

In [None]:
# to_excel：直接将frame保存为ex2.xlsx，默认Sheet名称为Sheet1

frame.to_excel("../examples/ex2.xlsx")

In [None]:
# 删除生成的ex2.xlsx文件，清理临时文件

!del ..\examples\ex2.xlsx

**小结**：
本节展示了pandas处理Excel文件的核心功能。`pd.ExcelFile`通过加载整个Excel文件支持多Sheet访问，而`pd.read_excel`提供更便捷的单Sheet读取方式。写入方面，`to_excel`可直接生成Excel文件，结合`ExcelWriter`支持多Sheet写入。这些工具简化了Excel数据的读写流程，特别适合处理财务、报表等常见场景。

## 6.7 Web APIs交互 (p252)
本节介绍了如何通过Python的`requests`库与Web API交互，获取JSON格式的数据，并使用pandas进行处理。Web API是获取实时网络数据的常见方式。
**核心内容**：
- **使用requests库**：发送HTTP请求获取API返回的JSON数据。
- **JSON数据处理**：将API返回的JSON转换为pandas DataFrame。
- **示例场景**：从GitHub API获取pandas项目的issues数据。
**重点**：掌握`requests.get`获取API数据和`json()`方法解析JSON的流程，理解如何将嵌套JSON结构转换为DataFrame。

### 6.7.1 从GitHub API获取数据
以下示例通过GitHub API获取pandas项目的issues数据，并将其转换为DataFrame。

In [None]:
# 导入requests库，用于发送HTTP请求

import requests

In [None]:
# 定义GitHub API的URL，获取pandas项目的issues
# requests.get：发送GET请求获取API响应
# resp.json()：解析响应为JSON格式

url = "https://api.github.com/repos/pandas-dev/pandas/issues"
resp = requests.get(url)
resp.raise_for_status()
resp

In [None]:
# 提取JSON数据，resp.json()返回列表，每个元素为一个issue
# 查看第一个issue的title字段

data = resp.json()
data[0]["title"]

In [None]:
# 将JSON数据转换为DataFrame，自动提取所有字段
# head()：显示前5行数据

issues = pd.DataFrame(data)
issues.head()

In [None]:
# 选择感兴趣的列（如number, title, state, created_at等）
# 生成新的DataFrame，仅包含指定列

issues = pd.DataFrame(data, columns=["number", "title", "labels", "state", "created_at", "updated_at", "user"])
issues.head()

**小结**：
本节展示了通过`requests`库与Web API交互的核心流程。以GitHub API为例，演示了如何发送GET请求、解析JSON响应，并将嵌套JSON数据转换为pandas DataFrame。关键在于理解API返回数据的结构，使用`pd.DataFrame`提取所需字段并进行后续分析。这种方法适用于从各种Web API获取实时数据，如社交媒体、财务数据等场景。

## 6.8 数据库交互 (p254)
本节介绍了如何使用pandas与关系型数据库（如SQLite、MySQL、PostgreSQL）交互，通过`sqlite3`和`sqlalchemy`实现数据读写。数据库是存储和查询结构化数据的重要工具，pandas提供了高效的接口。
**核心内容**：
- **SQLite数据库**：使用`sqlite3`创建内存数据库并执行SQL操作。
- **pandas与SQL交互**：通过`to_sql`将DataFrame写入数据库，`read_sql`从数据库读取数据。
- **SQLAlchemy支持**：支持更广泛的数据库引擎（如MySQL、PostgreSQL）。
**重点**：掌握`to_sql`和`read_sql`的用法，理解如何结合`sqlite3`或`sqlalchemy`实现数据库操作。

### 6.8.1 使用sqlite3操作SQLite数据库
以下示例展示如何使用`sqlite3`创建内存数据库，插入数据，并通过pandas进行读写。

In [None]:
# 导入sqlite3库，用于操作SQLite数据库

import sqlite3

In [None]:
# 创建内存数据库（:memory:）
# 定义SQL语句，创建mytable表（包含a, b, c, d列）
# 执行SQL语句创建表

query = """
CREATE TABLE mytable
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER);
"""

con = sqlite3.connect(":memory:")
con.execute(query)
con.commit()

In [None]:
# 定义要插入的数据（元组列表）
# 执行插入操作，将数据写入mytable表
# 提交事务

data = [
    ("Atlanta", "Georgia", 1.25, 6),
    ("Tallahassee", "Florida", 2.6, 3),
    ("Sacramento", "California", 1.7, 5),
]
stmt = "INSERT INTO mytable VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)
con.commit()

In [None]:
# 执行SELECT查询，获取mytable表的所有数据
# fetchall()：获取查询结果（元组列表）

cursor = con.execute("SELECT * FROM mytable")
rows = cursor.fetchall()
rows

In [None]:
# description：获取表列名
# pd.DataFrame：将查询结果转换为DataFrame，指定列名

cursor.description
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

### 6.8.2 使用pandas直接读写数据库
`read_sql`和`to_sql`提供了更便捷的数据库交互方式，直接将SQL查询结果转换为DataFrame，或将DataFrame写入数据库。

In [None]:
# read_sql：执行SELECT查询，直接生成DataFrame
# con：指定数据库连接

pd.read_sql("SELECT * FROM mytable", con)

**小结**：
本节展示了pandas与关系型数据库交互的流程。以SQLite为例，通过`sqlite3`创建内存数据库并执行SQL操作，结合`pd.read_sql`直接将查询结果转换为DataFrame。`to_sql`（虽未在示例中展示）可将DataFrame写入数据库。这些工具简化了数据库操作，适合需要从数据库提取数据或存储分析结果的场景。`sqlalchemy`支持更复杂的数据库引擎，扩展了适用范围。

# 第六章总结：数据加载、存储与文件格式
第六章全面介绍了pandas处理多种数据源和格式的工具与技术，涵盖文本文件、二进制格式、Excel文件、Web API以及数据库交互。以下是各小节的核心内容、关键技术和应用场景总结：
## 1. 数据加载、存储与文件格式 (p225)
- **核心内容**：介绍了pandas数据加载与存储的基础工具，包括`read_csv`、`read_excel`、JSON/HTML处理和数据库交互。
- **关键技术**：初始化分析环境（设置随机种子、显示选项），掌握`read_csv`的灵活参数配置。
- **应用场景**：为数据分析奠定基础，适用于多种数据格式的预处理。
## 2. 读写文本格式的数据 (p225)
- **核心内容**：详细讲解`read_csv`和`read_table`，支持处理分隔符、缺失值、索引列等复杂场景。
- **关键技术**：`header`、`names`、`index_col`、`sep`、`skiprows`、`na_values`等参数的灵活使用。
- **应用场景**：处理CSV、TXT等文本文件，清洗非标准数据。
## 3. 逐块读取文本文件 (p233)
- **核心内容**：通过`nrows`和`chunksize`处理大型文本文件，优化内存使用。
- **关键技术**：`nrows`限制行数，`pd.options.display.max_rows`优化输出。
- **应用场景**：处理超大CSV文件，适合内存受限环境。
## 4. 读取HTML和XML数据
- **核心内容**：使用`pd.read_html`提取HTML表格，`lxml`或`pd.read_xml`解析XML数据。
- **关键技术**：`pd.read_html`生成DataFrame列表，`lxml.objectify`处理复杂XML结构。
- **应用场景**：网络数据抓取（如网页表格）、XML格式数据处理。
## 5. 二进制数据格式 (p247)
- **核心内容**：介绍Pickle、Parquet、HDF5格式，支持高效存储和快速读写。
- **关键技术**：`to_pickle`/`read_pickle`、`read_parquet`、`HDFStore`的表格式存储与查询。
- **应用场景**：存储大型数据集，优化大数据分析性能。
## 6. 读取Microsoft Excel文件 (p251)
- **核心内容**：通过`pd.ExcelFile`和`pd.read_excel`读取Excel，`to_excel`写入数据。
- **关键技术**：`ExcelWriter`支持多Sheet写入，`index_col`管理索引。
- **应用场景**：处理财务报表、共享Excel数据。
## 7. Web APIs交互 (p252)
- **核心内容**：使用`requests`库获取JSON数据，转换为DataFrame。
- **关键技术**：`requests.get`发送HTTP请求，`json()`解析API响应。
- **应用场景**：实时获取网络数据（如GitHub issues、财务API）。
## 8. 数据库交互 (p254)
- **核心内容**：通过`sqlite3`或`sqlalchemy`与数据库交互，`read_sql`和`to_sql`简化操作。
- **关键技术**：`sqlite3`创建内存数据库，`read_sql`直接生成DataFrame。
- **应用场景**：从SQL数据库提取数据，存储分析结果。
## 总体评价
第六章展示了pandas在数据加载与存储方面的强大功能，从简单的CSV文件到复杂的数据库和Web API，覆盖了数据分析的常见场景。核心在于灵活的参数配置（如`read_csv`）和高效的格式支持（如HDF5）。学习重点是掌握各方法的适用场景和参数用法，结合实际需求选择合适的工具。
**建议**：通过实践不同数据源的读写操作，熟练掌握参数配置和异常处理，提升数据预处理效率。