# 利用Python进行数据分析（第二版）——第五章 pandas入门

## pandas入门 (页码: p166)

## 1. pandas入门
#### 页码: p166

### 1.1 章节概述
pandas是Python中用于数据分析的核心库，提供了高效的数据结构和操作工具。本节介绍了pandas的基本用法，包括导入库和设置环境，为后续学习打下基础。

### 1.2 代码与注释

#### 导入基础库

In [1]:
import numpy as np
import pandas as pd

# - **注释**:  
#   - `numpy` 是数值计算的基础库，pandas依赖其进行底层运算。  
#   - `pandas` 是数据分析的核心库，提供了Series和DataFrame等数据结构。

#### 导入Series和DataFrame

In [2]:
from pandas import Series, DataFrame

# - **注释**:  
#   - `Series` 是一维带标签的数据结构，类似于带索引的数组。  
#   - `DataFrame` 是二维表格数据结构，类似于Excel表格或数据库表。  
#   - 通过 `from ... import` 直接引入，避免每次使用时写全名（如 `pd.Series`）。

#### 设置环境

In [3]:
import numpy as np
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
PREVIOUS_MAX_ROWS = pd.options.display.max_rows
pd.options.display.max_rows = 20
pd.options.display.max_columns = 20
pd.options.display.max_colwidth = 80
np.set_printoptions(precision=4, suppress=True)

# - **关键知识点**:  
#   - **`np.random.seed(12345)`**: 确保随机数生成一致，便于教学和调试。  
#   - **`plt.rc`**: 配置matplotlib绘图参数，调整图形大小以便更清晰地展示数据。  
#   - **`pd.options.display`**: 控制pandas输出格式，避免显示过多行或列，提高可读性。  
#   - **`np.set_printoptions`**: 美化numpy数组输出，适合数据分析展示。

### 1.3 本节重点
- **目标**: 熟悉pandas的导入和基本配置。  
- **工具**: `numpy`、`pandas` 和 `matplotlib` 是数据分析的三大核心库。  
- **环境设置**: 通过调整显示选项和随机种子，确保代码输出的可读性和可重复性。

## pandas的数据结构介绍 (页码: p166)

## 2. pandas的数据结构介绍
#### 页码: p166

### 2.1 章节概述
本节介绍了pandas的两个核心数据结构：**Series** 和 **DataFrame**。Series 是一维带标签的数组，DataFrame 是二维表格数据结构。通过示例代码，展示了如何创建、操作和访问这些数据结构，以及处理缺失值和索引等关键功能。

### 2.2 代码与注释

#### 2.2.1 Series 的基本操作

In [5]:
obj = pd.Series([4, 7, -5, 3])
obj

# - **注释**:
#   - `pd.Series` 创建一个一维数组，自动分配默认整数索引（从0开始）。
#   - `dtype: int64` 表示数据类型为64位整数。

0    4
1    7
2   -5
3    3
dtype: int64

In [6]:
obj.array
obj.index

# - **注释**:
#   - `obj.array` 返回Series的底层数据（PandasArray类型）。
#   - `obj.index` 返回Series的索引对象（默认是 `RangeIndex(0, 1, 2, 3)`）。

RangeIndex(start=0, stop=4, step=1)

#### 2.2.2 自定义索引

In [None]:
obj2 = pd.Series([4, 7, -5, 3], index=["d", "b", "a", "c"])
obj2
obj2.index

# - **注释**:
#   - 通过 `index` 参数自定义索引，索引可以是字符串或其他类型。
#   - `obj2.index` 返回自定义的索引对象（`Index` 类型）。

'''
输出结果:
d    4
b    7
a   -5
c    3
dtype: int64

Index(['d', 'b', 'a', 'c'], dtype='object')
'''

#### 2.2.3 访问和修改Series元素

In [None]:
obj2["a"]
obj2["d"] = 6
obj2[["c", "a", "d"]]

# - **注释**:
#   - 使用索引标签（如 `"a"`）访问单个元素。
#   - 通过赋值（如 `obj2["d"] = 6`）修改指定索引的值。
#   - 使用列表（如 `["c", "a", "d"]`）访问多个元素，返回新的Series。

'''
输出结果:
-5

c    3
a   -5
d    6
dtype: int64
'''

#### 2.2.4 条件筛选和数学运算

In [None]:
obj2[obj2 > 0]
obj2 * 2
import numpy as np
np.exp(obj2)

# - **注释**:
#   - `obj2[obj2 > 0]` 使用布尔条件筛选正数值。
#   - `obj2 * 2` 对整个Series进行标量运算，索引保持不变。
#   - `np.exp(obj2)` 应用NumPy的数学函数，计算每个元素的指数。

'''
输出结果:
d    6
b    7
c    3
dtype: int64

d    12
b    14
a   -10
c     6
dtype: int64

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64
'''

#### 2.2.5 成员检查

In [None]:
"b" in obj2
"e" in obj2

# - **注释**:
#   - 使用 `in` 操作符检查索引是否存在，返回布尔值（`True` 或 `False`）。

#### 2.2.6 从字典创建Series

In [None]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

# - **注释**:
#   - 字典的键成为Series的索引，值成为对应的数据。
#   - Series会自动按字典键的顺序排列。

'''
输出结果:
Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64
'''

In [None]:
obj3.to_dict()

# - **注释**:
#   - `to_dict()` 将Series转换回字典，方便与其他Python代码集成。

#### 2.2.7 自定义索引顺序和缺失值

In [None]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

# - **注释**:
#   - 使用指定的 `index` 参数重新排序，若索引在原数据中不存在（如 `"California"`），则值为 `NaN`（缺失值）。
#   - 数据类型从 `int64` 变为 `float64`，因为 `NaN` 是浮点类型。

'''
输出结果:
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64
'''

#### 2.2.8 检测缺失值

In [None]:
pd.isna(obj4)
pd.notna(obj4)
obj4.isna()

# - **注释**:
#   - `pd.isna()` 和 `obj4.isna()` 检查每个元素是否为 `NaN`，返回布尔Series。
#   - `pd.notna()` 检查非缺失值，返回相反的布尔Series。

#### 2.2.9 Series 之间的运算

In [None]:
obj3
obj4
obj3 + obj4

# - **注释**:
#   - Series相加时，索引会自动对齐。
#   - 如果某个索引只存在于一个Series中，结果为 `NaN`。
#   - 运算会保留所有索引的并集。

'''
输出结果:
California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64
'''

#### 2.2.10 设置名称

In [None]:
obj4.name = "population"
obj4.index.name = "state"
obj4

# - **注释**:
#   - `obj4.name` 为Series设置名称，用于标识数据含义。
#   - `obj4.index.name` 为索引设置名称，增强数据的语义化。

'''
输出结果:
state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64
'''

#### 2.2.11 修改索引

In [None]:
obj
obj.index = ["Bob", "Steve", "Jeff", "Ryan"]
obj

# - **注释**:
#   - 直接赋值修改Series的索引，长度必须与数据匹配。
#   - 索引修改不影响数据内容。

### 2.3 本节重点
- **Series**:
  - 一维带标签数组，支持自定义索引。
  - 支持基于索引的访问、修改、筛选和数学运算。
  - 可从字典创建，自动对齐索引。
  - 支持缺失值处理（`NaN`）和索引名称设置。
- **关键操作**:
  - 创建：`pd.Series(data, index=...)`
  - 访问：`obj["label"]` 或 `obj[["label1", "label2"]]`
  - 运算：支持NumPy函数和索引对齐的加减。
  - 缺失值：`pd.isna()`、`pd.notna()`。
- **注意事项**:
  - 索引对齐是pandas的核心特性，确保数据操作的准确性。
  - 缺失值会导致数据类型变为浮点型。

## DataFrame (页码: p173)

## 3. DataFrame
#### 页码: p173

### 3.1 章节概述
**DataFrame** 是pandas中的二维表格数据结构，类似于Excel表格或SQL表，包含行索引和列索引。本节通过示例展示了如何创建DataFrame、访问和修改数据、处理缺失值以及添加/删除列等操作，强调了DataFrame的灵活性和强大功能。

### 3.2 代码与注释

#### 3.2.1 创建DataFrame

In [None]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

# - **注释**:
#   - `pd.DataFrame` 从字典创建表格，字典的键成为列名，值成为列数据。
#   - 自动生成默认整数行索引（0到5）。
#   - 列按字典键的顺序排列。

'''
输出结果:
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
'''

#### 3.2.2 查看DataFrame

In [None]:
frame
frame.head()
frame.tail()

# - **注释**:
#   - `frame.head()` 显示前5行（默认），用于快速预览数据。
#   - `frame.tail()` 显示最后5行（默认），用于检查数据末尾。
#   - 这些方法不修改原数据，仅返回视图。

'''
输出结果:
    state  year  pop
0    Ohio  2000  1.5
1    Ohio  2001  1.7
2    Ohio  2002  3.6
3  Nevada  2001  2.4
4  Nevada  2002  2.9
5  Nevada  2003  3.2
'''

#### 3.2.3 自定义列顺序

In [None]:
pd.DataFrame(data, columns=["year", "state", "pop"])

# - **注释**:
#   - 通过 `columns` 参数指定列顺序，重新排列DataFrame。
#   - 如果指定了不存在的列（如后续示例中的 `debt`），该列将填充 `NaN`。

'''
输出结果:
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9
5  2003  Nevada  3.2
'''

#### 3.2.4 添加空列

In [None]:
frame2 = pd.DataFrame(data, columns=["year", "state", "pop", "debt"])
frame2
frame2.columns

# - **注释**:
#   - 新增的 `debt` 列未在原始 `data` 中，因此值全为 `NaN`。
#   - `frame2.columns` 返回列索引对象（`Index` 类型），列出所有列名。

'''
输出结果:
   year   state  pop debt
0  2000    Ohio  1.5  NaN
1  2001    Ohio  1.7  NaN
2  2002    Ohio  3.6  NaN
3  2001  Nevada  2.4  NaN
4  2002  Nevada  2.9  NaN
5  2003  Nevada  3.2  NaN

Index(['year', 'state', 'pop', 'debt'], dtype='object')
'''

#### 3.2.5 访问列

In [None]:
frame2["state"]
frame2.year

# - **注释**:
#   - 使用 `frame2["state"]` 或 `frame2.state` 访问单列，返回Series对象。
#   - 点号访问（如 `frame2.year`）更简洁，但仅适用于合法的Python变量名（无空格或特殊字符）。

'''
输出结果:
0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

0    2000
1    2001
2    2002
3    2001
4    2002
5    2003
Name: year, dtype: int64
'''

#### 3.2.6 访问行

In [None]:
frame2.loc[1]
# frame2.iloc[2]  # 注释中提到但未执行

# - **注释**:
#   - `frame2.loc[1]` 按标签访问行，返回Series（列名作为索引）。
#   - `frame2.iloc[2]`（未执行）按整数位置访问行，适合没有显式行标签的情况。
#   - `loc` 使用标签，`iloc` 使用位置，区分明确以避免混淆。

'''
输出结果:
year     2001
state    Ohio
pop       1.7
debt      NaN
Name: 1, dtype: object
'''

#### 3.2.7 修改列数据

In [None]:
frame2["debt"] = 16.5
frame2
frame2["debt"] = np.arange(6.)
frame2

# - **注释**:
#   - `frame2["debt"] = 16.5` 将整个 `debt` 列设为标量值 16.5。
#   - `frame2["debt"] = np.arange(6.)` 用数组赋值，长度必须与行数匹配。
#   - 数组赋值会覆盖之前的值，类型变为浮点数（`float64`）。

'''
输出结果:
   year   state  pop  debt
0  2000    Ohio  1.5   0.0
1  2001    Ohio  1.7   1.0
2  2002    Ohio  3.6   2.0
3  2001  Nevada  2.4   3.0
4  2002  Nevada  2.9   4.0
5  2003  Nevada  3.2   5.0
'''

#### 3.2.8 使用Series赋值

In [None]:
val = pd.Series([-1.2, -1.5, -1.7], index=["two", "four", "five"])
frame2["debt"] = val
frame2

# - **注释**:
#   - 使用Series赋值时，索引会与DataFrame的行索引对齐。
#   - 由于 `val` 的索引（`"two", "four", "five"`）与 `frame2` 的行索引（0到5）不匹配，`debt` 列全变为 `NaN`。
#   - 索引对齐是pandas的核心特性，未匹配的索引会导致缺失值。

'''
输出结果:
   year   state  pop  debt
0  2000    Ohio  1.5   NaN
1  2001    Ohio  1.7   NaN
2  2002    Ohio  3.6   NaN
3  2001  Nevada  2.4   NaN
4  2002  Nevada  2.9   NaN
5  2003  Nevada  3.2   NaN
'''

#### 3.2.9 添加布尔列

In [None]:
frame2["eastern"] = frame2["state"] == "Ohio"
frame2

# - **注释**:
#   - `frame2["state"] == "Ohio"` 生成布尔Series，判断每行是否为 `"Ohio"`。
#   - 赋值给新列 `eastern`，表示各州是否位于东部（此处以Ohio为例）。

'''
输出结果:
   year   state  pop  debt  eastern
0  2000    Ohio  1.5   NaN     True
1  2001    Ohio  1.7   NaN     True
2  2002    Ohio  3.6   NaN     True
3  2001  Nevada  2.4   NaN    False
4  2002  Nevada  2.9   NaN    False
5  2003  Nevada  3.2   NaN    False
'''

#### 3.2.10 删除列

In [None]:
del frame2["eastern"]
frame2.columns

# - **注释**:
#   - `del` 语句删除指定列，修改原DataFrame。
#   - `frame2.columns` 确认列已更新，`eastern` 列被移除。

'''
输出结果:
Index(['year', 'state', 'pop', 'debt'], dtype='object')
'''

#### 3.2.11 从嵌套字典创建DataFrame

In [None]:
populations = {"Ohio": {2000: 1.5, 2001: 1.7, 2002: 3.6},
               "Nevada": {2001: 2.4, 2002: 2.9}}
frame3 = pd.DataFrame(populations)
frame3

# - **注释**:
#   - 嵌套字典的外层键（`"Ohio", "Nevada"`）成为列名，内层键（年份）成为行索引。
#   - 缺失的数据（如Nevada的2000年）填充为 `NaN`。
#   - 行索引自动按并集排序。

'''
输出结果:
      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4
2002   3.6     2.9
'''

#### 3.2.12 转置DataFrame

In [None]:
frame3.T

# - **注释**:
#   - `frame3.T` 转置DataFrame，交换行和列。
#   - 转置不修改原数据，仅返回新视图。

'''
输出结果:
        2000  2001  2002
Ohio    1.5   1.7   3.6
Nevada  NaN   2.4   2.9
'''

#### 3.2.13 指定索引

In [None]:
pd.DataFrame(populations, index=[2001, 2002, 2003])

# - **注释**:
#   - 使用 `index` 参数指定行索引，未匹配的索引（如2003）填充 `NaN`。
#   - 索引顺序由参数决定。

'''
输出结果:
      Ohio  Nevada
2001   1.7     2.4
2002   3.6     2.9
2003   NaN     NaN
'''

#### 3.2.14 从Series创建DataFrame

In [None]:
pdata = {"Ohio": frame3["Ohio"][:-1],
         "Nevada": frame3["Nevada"][:2]}
pd.DataFrame(pdata)

# - **注释**:
#   - 从Series切片创建新DataFrame，`[:-1]` 取Ohio的前两行，`[:2]` 取Nevada的前两行。
#   - 行索引自动对齐，未匹配的索引（如Nevada的2000）为 `NaN`。

'''
输出结果:
      Ohio  Nevada
2000   1.5     NaN
2001   1.7     2.4
'''

#### 3.2.15 设置名称

In [None]:
frame3.index.name = "year"
frame3.columns.name = "state"
frame3

# - **注释**:
#   - `index.name` 为行索引设置名称（`"year"`）。
#   - `columns.name` 为列索引设置名称（`"state"`），增强表格语义。

'''
输出结果:
state  Ohio  Nevada
year
2000    1.5     NaN
2001    1.7     2.4
2002    3.6     2.9
'''

#### 3.2.16 转换为NumPy数组

In [None]:
frame3.to_numpy()
frame2.to_numpy()

# - **注释**:
#   - `to_numpy()` 将DataFrame转换为NumPy数组，仅保留数据部分，丢弃索引和列名。
#   - 适合与NumPy或其他需要数组的库集成。

'''
输出结果:
array([[1.5, nan],
       [1.7, 2.4],
       [3.6, 2.9]])
'''

### 3.3 本节重点
- **DataFrame**:
  - 二维表格数据结构，包含行索引和列索引。
  - 支持从字典、嵌套字典或Series创建，自动处理索引对齐和缺失值。
  - 提供灵活的访问方式（`loc`, `iloc`, 列访问）和修改功能。
- **关键操作**:
  - 创建：`pd.DataFrame(data, columns=..., index=...)`
  - 访问列：`frame["col"]` 或 `frame.col`
  - 访问行：`frame.loc[label]` 或 `frame.iloc[pos]`
  - 修改：标量赋值、数组赋值或Series赋值（注意索引对齐）。
  - 删除列：`del frame["col"]`
  - 转置：`frame.T`
  - 转换为数组：`frame.to_numpy()`
- **注意事项**:
  - 索引对齐是DataFrame操作的核心，需注意缺失值的影响。
  - 列名和索引名可设置以提高数据可读性。
  - `loc` 和 `iloc` 的使用场景需明确区分。

## 索引对象 (页码: p181)

## 4. 索引对象
#### 页码: p181

### 4.1 章节概述
pandas的索引对象（`Index`）用于存储Series和DataFrame的行索引或列索引，具有不可变性和类似集合的操作特性。本节介绍了索引的创建、属性、方法以及在数据操作中的作用，强调索引的唯一性和对齐功能。

### 4.2 代码与注释

#### 4.2.1 创建索引

In [None]:
obj = pd.Series(range(3), index=["a", "b", "c"])
index = obj.index
index
index[1:]

# - **注释**:
#   - `obj.index` 返回Series的索引对象（`Index` 类型），存储标签 `"a", "b", "c"`。
#   - `index[1:]` 支持切片操作，返回子索引（`Index` 类型）。
#   - 索引对象是不可变的，不能通过赋值修改（如 `index[1] = "d"` 会报错）。

'''
输出结果:
Index(['a', 'b', 'c'], dtype='object')
Index(['b', 'c'], dtype='object')
'''

#### 4.2.2 索引不可变性

In [None]:
# labels = pd.Index([1, 2, 3])  # 注释中提到但未执行
# labels[1] = 7  # 会报错，索引不可修改

# - **注释**:
#   - 索引对象的不可变性保证了数据结构的稳定性，防止意外修改。
#   - 尝试修改索引元素会抛出 `TypeError`。

#### 4.2.3 创建显式索引

In [None]:
labels = pd.Index(np.arange(3))
labels
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2
obj2.index is labels

# - **注释**:
#   - `pd.Index(np.arange(3))` 显式创建整数索引（`Int64Index`）。
#   - 将索引赋给Series，`obj2.index` 与 `labels` 是同一对象（`is` 返回 `True`）。
#   - 索引可以重复使用，节省内存。

'''
输出结果:
Int64Index([0, 1, 2], dtype='int64')
0    1.5
1   -2.5
2    0.0
dtype: float64
True
'''

#### 4.2.4 DataFrame中的索引

In [None]:
frame3
frame3.columns
"Ohio" in frame3.columns
2003 in frame3.index

# - **注释**:
#   - `frame3.columns` 返回列索引（`Index` 类型），包含 `"Ohio", "Nevada"`。
#   - `frame3.index` 返回行索引（年份，如2000, 2001, 2002）。
#   - 使用 `in` 操作符检查标签是否存在于索引中，返回布尔值。

'''
输出结果:
state  Ohio  Nevada
year
2000    1.5     NaN
2001    1.7     2.4
2002    3.6     2.9
Index(['Ohio', 'Nevada'], dtype='object', name='state')
True
False
'''

#### 4.2.5 索引的集合操作

In [None]:
dup_labels = pd.Index(["foo", "foo", "bar", "bar"])
dup_labels

# - **注释**:
#   - 索引允许重复标签（如 `"foo"` 出现两次），但在某些操作中可能需要注意。
#   - 索引对象支持类似集合的方法，如 `union`、`intersection` 等（未在代码中展示）。

'''
输出结果:
Index(['foo', 'foo', 'bar', 'bar'], dtype='object')
'''

### 4.3 本节重点
- **索引对象**:
  - `Index` 是pandas中存储行/列标签的对象，不可变，支持切片和集合操作。
  - 常见的索引类型包括 `Index`（通用）、`Int64Index`（整数）、`MultiIndex`（多级索引，书中后续章节介绍）。
- **关键操作**:
  - 创建：`pd.Index(data)` 或通过Series/DataFrame的 `index` 属性获取。
  - 访问：支持切片（如 `index[1:]`）和成员检查（如 `"label" in index`）。
  - 特性：不可变、允许重复标签、支持集合操作。
- **注意事项**:
  - 索引的不可变性保证了数据一致性。
  - 重复索引可能影响某些操作，需谨慎处理。
  - 索引在数据对齐中起关键作用（如Series和DataFrame的运算）。

## 基本功能 (页码: p182)

## 5. 基本功能
#### 页码: p189

### 2.1 章节概述
本节介绍了pandas中Series和DataFrame的基本操作，包括重新索引、删除数据、索引与选择、算术运算、函数应用和排序等。这些功能是数据清洗和分析的基础，强调了索引对齐和缺失值处理的重要性。

### 5.2 代码与注释

#### 2.2.1 重新索引（Series）

In [None]:
import pandas as pd
import numpy as np
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=["d", "b", "a", "c"])
obj

# - **注释**:
#   - 创建一个Series，索引为字符串标签（`"d", "b", "a", "c"`）。

'''
输出结果:
d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64
'''

In [None]:
obj2 = obj.reindex(["a", "b", "c", "d", "e"])
obj2

# - **注释**:
#   - `reindex` 重新排列索引，新索引（如 `"e"`）不存在时填充 `NaN`。
#   - 原有索引顺序被调整为指定的顺序（`"a", "b", "c", "d", "e"`）。

'''
输出结果:
a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64
'''

In [None]:
obj3 = pd.Series(["blue", "purple", "yellow"], index=[0, 2, 4])
obj3
obj3.reindex(np.arange(6), method="ffill")

# - **注释**:
#   - `reindex(np.arange(6))` 扩展索引到0到5，缺失值默认填充 `NaN`。
#   - `method="ffill"` 使用前向填充（forward fill），将前一个值填充到新索引。

'''
输出结果:
0      blue
2    purple
4    yellow
dtype: object

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object
'''

#### 5.2.2 重新索引（DataFrame）

In [None]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=["a", "c", "d"],
                     columns=["Ohio", "Texas", "California"])
frame
frame2 = frame.reindex(index=["a", "b", "c", "d"])
frame2

# - **注释**:
#   - `frame` 是一个3x3的DataFrame，数据为0到8，索引为 `"a", "c", "d"`，列名为 `"Ohio", "Texas", "California"`。
#   - `reindex(index=...)` 调整行索引，新索引 `"b"` 填充 `NaN`。

'''
输出结果:
   Ohio  Texas  California
a     0      1           2
c     3      4           5
d     6      7           8

   Ohio  Texas  California
a   0.0    1.0         2.0
b   NaN    NaN         NaN
c   3.0    4.0         5.0
d   6.0    7.0         8.0
'''

In [None]:
states = ["Texas", "Utah", "California"]
frame.reindex(columns=states)

# - **注释**:
#   - `reindex(columns=...)` 调整列索引，新列 `"Utah"` 填充 `NaN`，未指定的列（如 `"Ohio"`）被移除。
#   - 列顺序按 `states` 列表排列。

'''
输出结果:
   Texas  Utah  California
a      1   NaN         2
c      4   NaN         5
d      7   NaN         8
'''

In [None]:
frame.reindex(states, axis="columns")

# - **注释**:
#   - 使用 `axis="columns"` 显式指定调整列索引，等效于 `reindex(columns=states)`。
#   - `axis` 参数使代码更清晰，推荐在复杂操作中使用。

'''
输出结果:
   Texas  Utah  California
a      1   NaN         2
c      4   NaN         5
d      7   NaN         8
'''

#### 5.2.3 删除数据

In [None]:
obj = pd.Series(np.arange(5.), index=["a", "b", "c", "d", "e"])
obj
new_obj = obj.drop("c")
new_obj
obj.drop(["d", "c"])

# - **注释**:
#   - `drop("c")` 删除指定索引的行，返回新Series，原对象不变。
#   - `drop(["d", "c"])` 删除多个索引，返回新Series。
#   - `drop` 默认不修改原对象，需赋值或使用 `inplace=True`.

'''
输出结果:
a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

a    0.0
b    1.0
e    4.0
dtype: float64
'''

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data
data.drop(index=["Colorado", "Ohio"])
data.drop(columns=["two"])
data.drop("two", axis=1)
data.drop(["two", "four"], axis="columns")

# - **注释**:
#   - `drop(index=...)` 删除指定行，`drop(columns=...)` 删除指定列。
#   - `drop(..., axis=1)` 等效于 `drop(columns=...)`，显式指定轴更清晰。
#   - 删除操作返回新DataFrame，原对象不变。

'''
输出结果:
        one  two  three  four
Ohio      0    1      2     3
Colorado  4    5      6     7
Utah      8    9     10    11
New York 12   13     14    15

        one  two  three  four
Utah      8    9     10    11
New York 12   13     14    15

        one  three  four
Ohio      0      2     3
Colorado  4      6     7
Utah      8     10    11
New York 12     14    15

        one  three  four
Ohio      0      2     3
Colorado  4      6     7
Utah      8     10    11
New York 12     14    15

        one  three
Ohio      0      2
Colorado  4      6
Utah      8     10
New York 12     14
'''

#### 5.2.4 索引与选择

In [None]:
obj = pd.Series(np.arange(4.), index=["a", "b", "c", "d"])
obj
obj["b"]
obj[1]
obj[2:4]
obj[["b", "a", "d"]]
obj[[1, 3]]
obj[obj < 2]

# - **注释**:
#   - `obj["b"]` 或 `obj[1]` 按标签或位置访问单个元素。
#   - `obj[2:4]` 按位置切片，返回子Series。
#   - `obj[["b", "a", "d"]]` 按标签列表选择多个元素。
#   - `obj[[1, 3]]` 按位置列表选择多个元素。
#   - `obj[obj < 2]` 使用布尔条件筛选，返回满足条件的子Series。

'''
输出结果:
a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

1.0

1.0

c    2.0
d    3.0
dtype: float64

b    1.0
a    0.0
d    3.0
dtype: float64

a    0.0
d    3.0
dtype: float64

a    0.0
b    1.0
dtype: float64
'''

In [None]:
obj.loc[["b", "a", "d"]]
obj.iloc[[1, 0, 3]]
obj.loc["b":"c"]

# - **注释**:
#   - `loc` 按标签选择，`iloc` 按位置选择。
#   - `loc["b":"c"]` 包含结束标签（闭区间），与Python切片不同。
#   - 推荐使用 `loc` 和 `iloc` 以明确意图，避免混淆。

'''
输出结果:
b    1.0
a    0.0
d    3.0
dtype: float64

b    1.0
a    0.0
d    3.0
dtype: float64

b    1.0
c    2.0
dtype: float64
'''

In [None]:
obj.loc["a":"c"] = 5
obj

# - **注释**:
#   - `loc` 支持赋值，修改指定范围的值。
#   - 赋值会直接修改原Series。

'''
输出结果:
a    5.0
b    5.0
c    5.0
d    3.0
dtype: float64
'''

In [None]:
data = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=["Ohio", "Colorado", "Utah", "New York"],
                    columns=["one", "two", "three", "four"])
data
data["two"]
data[["three", "one"]]
data[:2]
data[data["three"] > 5]
data < 5

# - **注释**:
#   - `data["two"]` 选择单列，返回Series。
#   - `data[["three", "one"]]` 选择多列，返回DataFrame。
#   - `data[:2]` 按位置切片，选择前两行。
#   - `data[data["three"] > 5]` 按条件筛选行。
#   - `data < 5` 返回布尔DataFrame，标记每个元素是否满足条件.

'''
输出结果:
        one  two  three  four
Ohio      0    1      2     3
Colorado  4    5      6     7
Utah      8    9     10    11
New York 12   13     14    15

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int64

        three  one
Ohio        2    0
Colorado    6    4
Utah       10    8
New York   14   12

        one  two  three  four
Ohio      0    1      2     3
Colorado  4    5      6     7

        one  two  three  four
Colorado  4    5      6     7
Utah      8    9     10    11
New York 12   13     14    15

        one   two  three  four
Ohio      True  True   True  True
Colorado  True False  False False
Utah     False False  False False
New York False False  False False
'''

In [None]:
data.loc["Colorado"]
data.loc[["Colorado", "New York"]]
data.loc["Colorado", ["two", "three"]]
data.iloc[2]
data.iloc[[2, 1]]
data.iloc[2, [3, 0, 1]]
data.iloc[[1, 2], [3, 0, 1]]

# - **注释**:
#   - `loc` 按标签选择行或行列子集，`iloc` 按位置选择。
#   - `data.loc["Colorado", ["two", "three"]]` 选择特定行和列的子集。
#   - 推荐使用 `loc` 和 `iloc` 以提高代码可读性和明确性。

'''
输出结果:
one      4
two      5
three    6
four     7
Name: Colorado, dtype: int64

        one  two  three  four
Colorado  4    5      6     7
New York 12   13     14    15

two      5
three    6
Name: Colorado, dtype: int64

one       8
two       9
three    10
four     11
Name: Utah, dtype: int64

        one  two  three  four
Utah      8    9     10    11
Colorado  4    5      6     7

four    11
one      8
two      9
Name: Utah, dtype: int64

        four  one  two
Colorado     7    4    5
Utah        11    8    9
'''

In [None]:
data.loc[:"Utah", "two"]
data.iloc[:, :3][data.three > 5]

# - **注释**:
#   - `data.loc[:"Utah", "two"]` 选择从开头到 `"Utah"` 的 `"two"` 列。
#   - `data.iloc[:, :3][data.three > 5]` 先选择前三列，再筛选 `"three"` 列大于5的行。
#   - 链式索引可能导致性能问题，建议合并操作。

'''
输出结果:
Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int64

        one  two  three
Colorado  4    5      6
Utah      8    9     10
New York 12   13     14
'''

#### 5.2.5 算术运算与数据对齐

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=["a", "c", "d", "e"])
s2 = pd.Series([-2.1, 3.6, -1.5, 4.0, 3.1], index=["a", "c", "e", "f", "g"])
s1
s2
s1 + s2

# - **注释**:
#   - Series相加时，索引自动对齐，仅对共同索引计算。
#   - 不匹配的索引（如 `"d", "f", "g"`）结果为 `NaN`。
#   - 索引对齐是pandas的核心特性。

'''
输出结果:
a    7.3
c   -2.5
d    3.4
e    1.5
dtype: float64

a   -2.1
c    3.6
e   -1.5
f    4.0
g    3.1
dtype: float64

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64
'''

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)),
                   columns=list("bcd"),
                   index=["Ohio", "Texas", "Colorado"])
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                   columns=list("bde"),
                   index=["Utah", "Ohio", "Texas", "Oregon"])
df1
df2
df1 + df2

# - **注释**:
#   - DataFrame相加时，行索引和列索引同时对齐。
#   - 不匹配的索引或列（如 `"c", "e", "Colorado", "Utah", "Oregon"`）结果为 `NaN`。
#   - 结果包含所有行和列的并集。

'''
输出结果:
        b    c    d
Ohio    0.0  1.0  2.0
Texas   3.0  4.0  5.0
Colorado 6.0 7.0 8.0

        b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

           b   c     d   e
Colorado NaN NaN   NaN NaN
Ohio     3.0 NaN   6.0 NaN
Oregon  NaN NaN   NaN NaN
Texas    9.0 NaN  12.0 NaN
Utah    NaN NaN   NaN NaN
'''

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list("abcd"))
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list("abcde"))
df1
df2
df2.loc[1, "b"] = np.nan
df1 + df2

# - **注释**:
#   - 修改 `df2.loc[1, "b"] = np.nan` 引入缺失值。
#   - 相加时，缺失值传播到结果，任何运算涉及 `NaN` 结果为 `NaN`。

'''
输出结果:
     a    b     c     d
0  0.0  1.0   2.0   3.0
1  4.0  5.0   6.0   7.0
2  8.0  9.0  10.0  11.0

      a     b     c     d     e
0   0.0   1.0   2.0   3.0   4.0
1   5.0   NaN   7.0   8.0   9.0
2  10.0  11.0  12.0  13.0  14.0
3  15.0  16.0  17.0  18.0  19.0

      a     b     c     d   e
0   0.0   2.0   4.0   6.0 NaN
1   9.0   NaN  13.0  15.0 NaN
2  18.0  20.0  22.0  24.0 NaN
3   NaN   NaN   NaN   NaN NaN
'''

In [None]:
df1.add(df2, fill_value=0)

# - **注释**:
#   - `add(fill_value=0)` 在运算前用0填充缺失值（仅对索引不匹配的部分）。
#   - 已有 `NaN`（如 `df2.loc[1, "b"]`）不会被填充，需单独处理。

'''
输出结果:
      a     b     c     d     e
0   0.0   2.0   4.0   6.0   4.0
1   9.0   5.0  13.0  15.0   9.0
2  18.0  20.0  22.0  24.0  14.0
3  15.0  16.0  17.0  18.0  19.0
'''

#### 5.2.6 DataFrame与Series的运算

In [None]:
frame = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
series = frame.iloc[0]
frame
series
frame - series

# - **注释**:
#   - `frame - series` 按列广播，Series的每个值减去对应列的值。
#   - 索引对齐确保运算正确，广播机制类似NumPy。

'''
输出结果:
        b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

b    0.0
d    1.0
e    2.0
Name: Utah, dtype: float64

        b    d    e
Utah    0.0  0.0  0.0
Ohio    3.0  3.0  3.0
Texas   6.0  6.0  6.0
Oregon  9.0  9.0  9.0
'''

In [None]:
series2 = pd.Series(np.arange(3), index=["b", "e", "f"])
series2
frame + series2

# - **注释**:
#   - 不匹配的索引（如 `"f"`）或列（如 `"d"`）导致 `NaN`。
#   - 默认按列广播，需确保索引匹配。

'''
输出结果:
b    0
e    1
f    2
dtype: int64

        b   d     e   f
Utah    0.0 NaN   3.0 NaN
Ohio    3.0 NaN   6.0 NaN
Texas   6.0 NaN   9.0 NaN
Oregon  9.0 NaN  12.0 NaN
'''

In [None]:
series3 = frame["d"]
frame
series3
frame.sub(series3, axis="index")

# - **注释**:
#   - `sub(..., axis="index")` 按行广播，Series的每个值减去对应行的值。
#   - `axis="index"` 改变广播方向，需明确指定。

'''
输出结果:
        b     d     e
Utah    0.0   1.0   2.0
Ohio    3.0   4.0   5.0
Texas   6.0   7.0   8.0
Oregon  9.0  10.0  11.0

Utah       1.0
Ohio       4.0
Texas      7.0
Oregon    10.0
Name: d, dtype: float64

        b    d    e
Utah   -1.0  0.0  1.0
Ohio   -1.0  0.0  1.0
Texas  -1.0  0.0  1.0
Oregon -1.0  0.0  1.0
'''

#### 5.2.7 函数应用与映射

In [None]:
frame = pd.DataFrame(np.random.standard_normal((4, 3)),
                     columns=list("bde"),
                     index=["Utah", "Ohio", "Texas", "Oregon"])
frame
np.abs(frame)

# - **注释**:
#   - `np.random.standard_normal` 生成标准正态分布随机数。
#   - `np.abs(frame)` 对每个元素应用绝对值函数，返回新DataFrame。

'''
输出结果:
             b         d         e
Utah   -0.204708  0.478943 -0.519439
Ohio   -0.555730  1.965781  1.393406
Texas   0.092908  0.281746  0.769023
Oregon  1.246435  1.007189 -1.296221

             b         d         e
Utah    0.204708  0.478943  0.519439
Ohio    0.555730  1.965781  1.393406
Texas   0.092908  0.281746  0.769023
Oregon  1.246435  1.007189  1.296221
'''

In [None]:
def f1(x):
    return x.max() - x.min()

frame.apply(f1)
frame.apply(f1, axis="columns")

# - **注释**:
#   - `apply(f1)` 对每列应用函数 `f1`，返回最大值与最小值的差（Series）。
#   - `apply(f1, axis="columns")` 对每行应用函数，返回每行的极差。
#   - `apply` 适合逐行或逐列应用自定义函数。

'''
输出结果:
b    1.802165
d    1.684835
e    2.689644
dtype: float64

Utah      0.998651
Ohio      2.521511
Texas     0.676115
Oregon    2.542656
dtype: float64
'''

In [None]:
def f2(x):
    return pd.Series([x.min(), x.max()], index=["min", "max"])
frame.apply(f2)

# - **注释**:
#   - `f2` 返回包含最小值和最大值的Series。
#   - `apply(f2)` 对每列应用 `f2`，结果组成DataFrame，行索引为 `"min", "max"`。

'''
输出结果:
        b         d         e
min -0.555730  0.281746 -1.296221
max  1.246435  1.965781  1.393406
'''

In [None]:
def my_format(x):
    return f"{x:.2f}"

frame.applymap(my_format)

# - **注释**:
#   - `applymap` 对每个元素应用函数，此处格式化为两位小数。
#   - 适合逐元素操作，返回新DataFrame。

'''
输出结果:
        b      d      e
Utah   -0.20   0.48  -0.52
Ohio   -0.56   1.97   1.39
Texas   0.09   0.28   0.77
Oregon  1.25   1.01  -1.30
'''

In [None]:
frame["e"].map(my_format)

# - **注释**:
#   - `map` 对Series的每个元素应用函数，返回新Series。
#   - 仅适用于Series，功能类似 `applymap` 但更高效。

'''
输出结果:
Utah      -0.52
Ohio       1.39
Texas      0.77
Oregon    -1.30
Name: e, dtype: object
'''

#### 5.2.8 排序

In [None]:
obj = pd.Series(np.arange(4), index=["d", "a", "b", "c"])
obj.sort_index()

# - **注释**:
#   - `sort_index()` 按索引排序（升序），返回新Series。

'''
输出结果:
a    1
b    2
c    3
d    0
dtype: int64
'''

In [None]:
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=["three", "one"],
                     columns=["d", "a", "b", "c"])
frame
frame.sort_index()
frame.sort_index(axis=1)
frame.sort_index(axis=1, ascending=False)

# - **注释**:
#   - `sort_index()` 按行索引排序（默认 `axis=0`）。
#   - `sort_index(axis=1)` 按列索引排序。
#   - `ascending=False` 按降序排序。

'''
输出结果:
       d  a  b  c
three  0  1  2  3
one    4  5  6  7

       d  a  b  c
one    4  5  6  7
three  0  1  2  3

       a  b  c  d
three  1  2  3  0
one    5  6  7  4

       d  c  b  a
three  0  3  2  1
one    4  7  6  5
'''

In [None]:
obj = pd.Series([4, 7, -3, 2])
obj.sort_values()

# - **注释**:
#   - `sort_values()` 按值排序（升序），返回新Series。
#   - 索引随之调整。

'''
输出结果:
2   -3
3    2
0    4
1    7
dtype: int64
'''

In [None]:
obj = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj.sort_values()
obj.sort_values(na_position="first")

# - **注释**:
#   - `sort_values()` 默认将 `NaN` 放在末尾。
#   - `na_position="first"` 将 `NaN` 放在开头。

'''
输出结果:
4   -3.0
5    2.0
0    4.0
2    7.0
1    NaN
3    NaN
dtype: float64

1    NaN
3    NaN
4   -3.0
5    2.0
0    4.0
2    7.0
dtype: float64
'''

In [None]:
frame = pd.DataFrame({"b": [4, 7, -3, 2], "a": [0, 1, 0, 1]})
frame
frame.sort_values("b")
frame.sort_values(["a", "b"])

# - **注释**:
#   - `sort_values("b")` 按 `"b"` 列值排序。
#   - `sort_values(["a", "b"])` 先按 `"a"` 排序，再按 `"b"` 排序。

'''
输出结果:
   b  a
0  4  0
1  7  1
2 -3  0
3  2  1

   b  a
2 -3  0
3  2  1
0  4  0
1  7  1

   b  a
2 -3  0
0  4  0
3  2  1
1  7  1
'''

#### 5.2.9 排名

In [None]:
obj = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj.rank()
obj.rank(method="first")
obj.rank(ascending=False, method="max")

# - **注释**:
#   - `rank()` 计算每个值的排名（升序），相同值取平均排名（如7的排名为6.5）。
#   - `method="first"` 按出现顺序分配排名，打破平局。
#   - `ascending=False, method="max"` 按降序排名，相同值取最大排名。

'''
输出结果:
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

0    2.0
1    7.0
2    2.0
3    4.0
4    5.0
5    6.0
6    4.0
dtype: float64
'''

In [None]:
frame = pd.DataFrame({"b": [4.3, 7, -3, 2], "a": [0, 1, 0, 1],
                      "c": [-2, 5, 8, -2.5]})
frame
frame.rank(axis="columns")

# - **注释**:
#   - `rank(axis="columns")` 对每行内的值排名，生成排名DataFrame。
#   - 每行独立排名，值越大排名越高（升序）。

'''
输出结果:
     b  a    c
0  4.3  0 -2.0
1  7.0  1  5.0
2 -3.0  0  8.0
3  2.0  1 -2.5

     b    a    c
0  3.0  2.0  1.0
1  3.0  1.0  2.0
2  1.0  2.0  3.0
3  3.0  2.0  1.0
'''

### 5.3 本节重点
- **重新索引**:
  - `reindex()` 调整Series或DataFrame的行/列索引，缺失值填充 `NaN` 或使用 `ffill` 等方法。
  - 支持 `axis` 参数，灵活调整行或列。
- **删除数据**:
  - `drop()` 删除指定行或列，默认返回新对象，需 `inplace=True` 修改原对象。
  - 支持 `index` 和 `columns` 参数，清晰指定删除目标。
- **索引与选择**:
  - `loc`（标签索引）和 `iloc`（位置索引）是首选方法，明确且高效。
  - 支持切片、布尔索引和多标签选择，注意 `loc` 切片的闭区间特性。
- **算术运算**:
  - 索引对齐是pandas核心，自动处理不匹配索引（填充 `NaN`）。
  - `add()`, `sub()` 等方法支持 `fill_value` 控制缺失值。
  - DataFrame与Series运算支持广播，需指定 `axis`（`index` 或 `columns`）。
- **函数应用**:
  - `apply()` 逐行/列应用函数，`applymap()` 逐元素操作，`map()` 适用于Series。
  - 适合自定义计算或格式化输出。
- **排序与排名**:
  - `sort_index()` 按索引排序，`sort_values()` 按值排序，支持 `ascending` 和 `na_position`。
  - `rank()` 计算排名，`method` 参数控制平局处理（如 `"first"`, `"max"`）。
- **注意事项**:
  - 操作默认返回新对象，需注意是否需要赋值或使用 `inplace=True`。
  - 链式索引（如 `df.iloc[:, :3][condition]`）可能导致性能问题，尽量合并操作。
  - 缺失值（`NaN`）在运算中传播，需提前处理或使用 `fill_value`。
  - 索引对齐和广播需仔细检查，确保结果符合预期。

## 汇总和计算描述统计 (页码: p194)

## 6. 汇总和计算描述统计
#### 页码: p194

### 6.1 章节概述
本节介绍了pandas中用于汇总和计算描述统计的方法，如求和、均值、方差等，适用于Series和DataFrame。这些方法支持处理缺失值、指定轴向和跳过缺失值的选项，是数据分析中的核心工具。本节还展示了相关性、唯一值统计和值计数等功能。

### 6.2 代码与注释

#### 6.2.1 基本统计方法

In [None]:
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=["a", "b", "c", "d"],
                  columns=["one", "two"])
df

# - **注释**:
#   - 创建一个包含缺失值（`NaN`）的DataFrame，行索引为 `"a", "b", "c", "d"`，列名为 `"one", "two"`。
#   - 缺失值在统计计算中会影响结果，需注意处理方式。

'''
输出结果:
    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3
'''

In [None]:
df.sum()

# - **注释**:
#   - `sum()` 默认沿 `axis=0`（列方向）计算每列的和。
#   - 自动跳过 `NaN`，仅对非缺失值求和。

'''
输出结果:
one    9.25
two   -5.80
dtype: float64
'''

In [None]:
df.sum(axis="columns")

# - **注释**:
#   - `axis="columns"` 沿行方向计算每行的和。
#   - 行中若全为 `NaN`（如 `c`），结果为 0；若部分为 `NaN`，仅对非缺失值求和。

'''
输出结果:
a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64
'''

In [None]:
df.sum(axis="columns", skipna=False)

# - **注释**:
#   - `skipna=False` 要求计算时不跳过 `NaN`，只要行中有 `NaN`，结果为 `NaN`。
#   - 适合需要严格数据完整性的场景。

'''
输出结果:
a     NaN
b    2.60
c     NaN
d   -0.55
dtype: float64
'''

In [None]:
df.mean(axis="columns")

# - **注释**:
#   - `mean()` 计算每行的均值，默认跳过 `NaN`。
#   - 行 `c` 全为 `NaN`，结果为 `NaN`。

'''
输出结果:
a    1.400
b    1.300
c      NaN
d   -0.275
dtype: float64
'''

#### 6.2.2 描述统计

In [None]:
df.idxmax()

# - **注释**:
#   - `idxmax()` 返回每列最大值的行索引。
#   - 对于 `NaN`，自动跳过，仅考虑非缺失值。

'''
输出结果:
one    b
two    d
dtype: object
'''

In [None]:
df.cumsum()

# - **注释**:
#   - `cumsum()` 计算每列的累计和，沿 `axis=0` 逐行累加。
#   - `NaN` 传播到后续计算，需注意。

'''
输出结果:
    one  two
a  1.40  NaN
b  8.50 -4.5
c   NaN  NaN
d  9.25 -5.8
'''

In [None]:
df.describe()

# - **注释**:
#   - `describe()` 生成描述统计，包括计数、均值、标准差、四分位数等。
#   - 仅对数值列有效，自动跳过 `NaN`。
#   - `count` 表示非缺失值的数量。

'''
输出结果:
            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000
'''

#### 6.2.3 非数值数据的统计

In [None]:
obj = pd.Series(["a", "a", "b", "c"] * 4)
obj.describe()

# - **注释**:
#   - 对于非数值Series，`describe()` 返回计数、唯一值数、最常见值（`top`）及其频率（`freq`）。
#   - 适合分析分类数据。

'''
输出结果:
count     16
unique     3
top        a
freq       8
dtype: object
'''

#### 6.2.4 相关性和协方差

In [None]:
# import pandas_datareader.data as web
# all_data = {ticker: web.get_data_yahoo(ticker)
#             for ticker in ["AAPL", "IBM", " transverse", "GOOG"]}
# price = pd.DataFrame({ticker: data["Adj Close"]
#                      for ticker, data in all_data.items()})
# volume = pd.DataFrame({ticker: data["Volume"]
#                       for ticker, data in all_data.items()})

# - **注释**:
#   - 示例代码从Yahoo Finance获取股票数据（`AAPL`, `IBM`, `MSFT`, `GOOG`），创建价格和交易量DataFrame。
#   - 由于数据源可能不稳定，实际运行需确保网络连接和API可用性。

In [None]:
# returns = price.pct_change()
# returns.tail()

# - **注释**:
#   - `pct_change()` 计算价格的百分比变化（日收益率）。
#   - `tail()` 显示最后几行，用于检查数据。

In [None]:
# returns["MSFT"].corr(returns["IBM"])
# returns["MSFT"].cov(returns["IBM"])

# - **注释**:
#   - `corr()` 计算两列之间的相关系数（范围-1到1）。
#   - `cov()` 计算两列之间的协方差。
#   - 适用于分析变量间的线性关系。

In [None]:
# returns.corr()
# returns.cov()

# - **注释**:
#   - `corr()` 返回所有列对的相关系数矩阵。
#   - `cov()` 返回所有列对的协方差矩阵。
#   - 对角线为1（`corr`）或自身方差（`cov`）。

In [None]:
# returns.corrwith(returns["IBM"])

# - **注释**:
#   - `corrwith()` 计算某列（`IBM`）与DataFrame中所有列的相关系数。
#   - 返回Series，索引为列名，值为相关系数。

In [None]:
# returns.corrwith(volume)

# - **注释**:
#   - `corrwith()` 计算价格收益率与交易量之间的列对列相关系数。
#   - 需确保两DataFrame的索引和列对齐。

#### 6.2.5 唯一值、值计数和成员检查

In [None]:
obj = pd.Series(["c", "a", "d", "a", "a", "b", "b", "c", "c"])
uniques = obj.unique()
uniques

# - **注释**:
#   - `unique()` 返回Series中的唯一值数组，按出现顺序排列。
#   - 适用于分类数据分析。

'''
输出结果:
array(['c', 'a', 'd', 'b'], dtype=object)
'''

In [None]:
obj.value_counts()

# - **注释**:
#   - `value_counts()` 统计每个值的出现频率，返回Series（值作为索引，频率作为值）。
#   - 默认按频率降序排列。

'''
输出结果:
c    3
a    3
b    2
d    1
dtype: int64
'''

In [None]:
pd.value_counts(obj.to_numpy(), sort=False)

# - **注释**:
#   - `pd.value_counts()` 直接对数组计数，`sort=False` 按值顺序返回。
#   - 与 `obj.value_counts()` 类似，但更灵活。

'''
输出结果:
c    3
a    3
d    1
b    2
dtype: int64
'''

In [None]:
mask = obj.isin(["b", "c"])
mask
obj[mask]

# - **注释**:
#   - `isin()` 检查Series的每个元素是否在指定列表（`["b", "c"]`）中，返回布尔Series。
#   - 使用布尔索引（如 `obj[mask]`）筛选匹配的值。

'''
输出结果:
0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

0    c
5    b
6    b
7    c
8    c
dtype: object
'''

In [None]:
to_match = pd.Series(["c", "a", "b", "b", "c", "a"])
unique_vals = pd.Series(["c", "b", "a"])
indices = pd.Index(unique_vals).get_indexer(to_match)
indices

# - **注释**:
#   - `get_indexer()` 将 `to_match` 中的值映射到 `unique_vals` 的索引位置。
#   - 返回整数数组，表示每个值在 `unique_vals` 中的位置。
#   - 适用于编码或快速查找。

'''
输出结果:
array([0, 2, 1, 1, 0, 2])
'''

#### 6.2.6 DataFrame的值计数

In [None]:
data = pd.DataFrame({"Qu1": [1, 3, 4, 3, 4],
                     "Qu2": [2, 3, 1, 2, 3],
                     "Qu3": [1, 5, 2, 4, 4]})
data

# - **注释**:
#   - 创建一个DataFrame，模拟问卷数据（`Qu1`, `Qu2`, `Qu3`）。

'''
输出结果:
   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4
'''

In [None]:
data["Qu1"].value_counts().sort_index()

# - **注释**:
#   - `value_counts()` 统计 `Qu1` 列中每个值的频率。
#   - `sort_index()` 按值升序排列结果。

'''
输出结果:
1    1
3    2
4    2
Name: Qu1, dtype: int64
'''

In [None]:
result = data.apply(pd.value_counts).fillna(0)
result

# - **注释**:
#   - `apply(pd.value_counts)` 对每列应用值计数，生成每个值在各列中的频率。
#   - `fillna(0)` 将缺失值（未出现的计数）填充为0。
#   - 结果DataFrame的行索引为唯一值，列为原列名，值表示频率。

'''
输出结果:
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0
'''

### 6.3 本节重点
- **描述统计**:
  - `sum()`, `mean()`, `idxmax()`, `cumsum()`, `describe()` 等方法计算汇总统计。
  - 默认跳过 `NaN`，可通过 `skipna=False` 更改行为。
  - 支持 `axis` 参数，灵活选择行或列方向。
- **相关性和协方差**:
  - `corr()`, `cov()`, `corrwith()` 分析变量间的线性关系。
  - 需确保数据对齐，适合时间序列或数值数据分析。
- **唯一值与计数**:
  - `unique()` 返回唯一值数组。
  - `value_counts()` 统计频率，适合分类数据。
  - `isin()` 检查成员关系，支持布尔索引。
  - `get_indexer()` 快速映射值到索引位置。
- **DataFrame计数**:
  - `apply(pd.value_counts)` 统计每列的值分布，`fillna(0)` 处理缺失计数。
- **注意事项**:
  - 缺失值（`NaN`）对统计结果有重要影响，需明确处理方式。
  - 索引对齐在相关性计算中至关重要。
  - 非数值数据的统计（如 `describe()`）结果不同，需区分场景。

## 处理缺失数据 (页码: p201)

## 7. 处理缺失数据
#### 页码: p201

### 7.1 章节概述
本节介绍了pandas处理缺失数据（`NaN` 或 `None`）的方法，包括检测、过滤、填充和插值等。缺失数据是数据分析中的常见问题，pandas提供了灵活的工具来处理这些情况，以确保分析的准确性和完整性。本节强调了缺失值的检测和填充策略，以及在不同场景下的适用方法。

### 7.2 代码与注释

#### 7.2.1 检测缺失值

In [None]:
data = pd.Series([1, np.nan, 3.5, np.nan, 7])
data.isnull()

# - **注释**:
#   - `isnull()` 检查Series中的每个元素是否为缺失值（`NaN` 或 `None`），返回布尔Series。
#   - `True` 表示该位置为缺失值。

'''
输出结果:
0    False
1     True
2    False
3     True
4    False
dtype: bool
'''

In [None]:
data.notnull()

# - **注释**:
#   - `notnull()` 与 `isnull()` 相反，返回 `True` 表示非缺失值。
#   - 常用于筛选非缺失数据。

'''
输出结果:
0     True
1    False
2     True
3    False
4     True
dtype: bool
'''

#### 7.2.2 过滤缺失值

In [None]:
data[data.notnull()]

# - **注释**:
#   - 使用布尔索引（如 `data.notnull()`）过滤掉缺失值，仅保留非缺失值的元素。
#   - 返回新的Series，原对象不变。

'''
输出结果:
0    1.0
2    3.5
4    7.0
dtype: float64
'''

In [None]:
data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
data
data.dropna()

# - **注释**:
#   - `dropna()` 默认删除包含任何缺失值的行（`axis=0`）。
#   - 结果只保留完整行（如第0行）。

'''
输出结果:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0

     0    1    2
0  1.0  6.5  3.0
'''

In [None]:
data.dropna(how="all")

# - **注释**:
#   - `how="all"` 仅删除全为缺失值的行（如第2行）。
#   - 保留至少有一个非缺失值的行。

'''
输出结果:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0
'''

In [None]:
data[4] = np.nan
data
data.dropna(axis="columns", how="all")

# - **注释**:
#   - 添加全为 `NaN` 的列（`4`）。
#   - `dropna(axis="columns", how="all")` 删除全为缺失值的列（`4`）。
#   - `axis="columns"` 指定操作方向为列。

'''
输出结果:
     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN

     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0
'''

In [None]:
df = pd.DataFrame(np.random.standard_normal((7, 3)))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df
df.dropna()
df.dropna(thresh=2)

# - **注释**:
#   - 构造包含缺失值的DataFrame，列1的前4行和列2的前2行为 `NaN`。
#   - `dropna()` 删除包含任何缺失值的行，仅保留完整行。
#   - `thresh=2` 保留至少有2个非缺失值的行，允许部分缺失。

'''
输出结果:
           0         1         2
0 -0.204708       NaN       NaN
1 -0.555730       NaN       NaN
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

           0         1         2
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

           0         1         2
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741
'''

#### 7.2.3 填充缺失值

In [None]:
df.fillna(0)

# - **注释**:
#   - `fillna(0)` 将所有 `NaN` 替换为0。
#   - 返回新DataFrame，原对象不变。

'''
输出结果:
           0         1         2
0 -0.204708  0.000000  0.000000
1 -0.555730  0.000000  0.000000
2  0.092908  0.000000  0.769023
3  1.246435  0.000000 -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741
'''

In [None]:
df.fillna({1: 0.5, 2: 0})

# - **注释**:
#   - `fillna({1: 0.5, 2: 0})` 为不同列指定不同的填充值，列1填0.5，列2填0。
#   - 未指定的列（如列0）的 `NaN` 保持不变。

'''
输出结果:
           0         1         2
0 -0.204708  0.500000  0.000000
1 -0.555730  0.500000  0.000000
2  0.092908  0.500000  0.769023
3  1.246435  0.500000 -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741
'''

In [None]:
df = pd.DataFrame(np.random.standard_normal((7, 3)))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
df
df.fillna(method="ffill")

# - **注释**:
#   - `method="ffill"`（前向填充）用前一个非缺失值填充 `NaN`。
#   - 如果 `NaN` 前无值（如列1的前4行），则保持 `NaN`。
#   - 注：书中提到 `method` 参数在较新版本中需替换为 `ffill()` 或 `bfill()`，但此处仍使用旧语法。

'''
输出结果:
           0         1         2
0 -0.204708       NaN       NaN
1 -0.555730       NaN       NaN
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741

           0         1         2
0 -0.204708       NaN       NaN
1 -0.555730       NaN       NaN
2  0.092908       NaN  0.769023
3  1.246435       NaN -1.296221
4  0.274992  0.228913  1.352917
5  0.886429 -2.001637 -0.371843
6  1.669025 -0.438570 -0.539741
'''

In [None]:
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
data.fillna(data.mean())

# - **注释**:
#   - `fillna(data.mean())` 用Series的均值（非缺失值的平均值，约为3.833333）填充 `NaN`。
#   - 适合用统计值（如均值、中位数）填充缺失值。

'''
输出结果:
0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64
'''

### 7.3 本节重点
- **检测缺失值**:
  - `isnull()` 和 `notnull()` 返回布尔Series，分别标识缺失和非缺失值。
  - 可用于筛选或条件判断。
- **过滤缺失值**:
  - `dropna()` 删除包含缺失值的行或列，默认删除任何缺失值的行。
  - `how="all"` 仅删除全为缺失值的行/列，`thresh` 指定非缺失值的最小数量。
  - 支持 `axis` 参数，灵活选择操作方向。
- **填充缺失值**:
  - `fillna(value)` 用指定值（如0）填充 `NaN`。
  - `fillna(dict)` 为不同列指定不同填充值。
  - `method="ffill"` 或 `method="bfill"` 使用前向或后向填充。
  - `fillna(data.mean())` 用统计值填充，适合数值数据。
- **注意事项**:
  - 缺失值处理需根据数据场景选择方法（如删除 vs. 填充）。
  - `dropna()` 和 `fillna()` 默认返回新对象，需赋值或使用 `inplace=True` 修改原对象。
  - 前向/后向填充对时间序列数据特别有用，但需确保数据顺序合理。
  - 较新版本pandas推荐使用 `ffill()` 和 `bfill()` 方法替代 `method` 参数。

## 数据转换 (页码: p204)

## 8. 数据转换
#### 页码: p204

### 8.1 章节概述
本节介绍了pandas中用于数据转换的方法，包括移除重复数据、数据映射、替换值、离散化（分箱）以及排列和随机采样。这些操作是数据清洗和预处理的重要步骤，旨在将原始数据转换为适合分析的格式。本节强调了灵活性和高效性，特别是在处理大规模数据集时。

### 8.2 代码与注释

#### 8.2.1 移除重复数据

In [None]:
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2": [1, 1, 2, 3, 3, 4, 4]})
data

# - **注释**:
#   - 创建一个DataFrame，包含两列（`k1`, `k2`），第6行（`two`, 4）与第5行重复。
#   - 重复数据可能源于数据录入错误或合并操作。

'''
输出结果:
    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4
'''

In [None]:
data.duplicated()

# - **注释**:
#   - `duplicated()` 检查每行是否为重复行（与之前的行完全相同），返回布尔Series。
#   - 第6行与第5行相同，标记为 `True`.

'''
输出结果:
0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool
'''

In [None]:
data.drop_duplicates()

# - **注释**:
#   - `drop_duplicates()` 删除重复行，保留第一次出现的行（默认）。
#   - 第6行被移除，返回新DataFrame。

'''
输出结果:
    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
'''

In [None]:
data["v1"] = range(7)
data
data.drop_duplicates(subset=["k1"])

# - **注释**:
#   - 添加新列 `v1`，值为0到6。
#   - `drop_duplicates(subset=["k1"])` 仅根据 `k1` 列检查重复，保留第一次出现的行。
#   - 结果保留 `k1` 为 `"one"` 和 `"two"` 的最早行。

'''
输出结果:
    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6

    k1  k2  v1
0  one   1   0
1  two   1   1
'''

In [None]:
data.drop_duplicates(["k1", "k2"], keep="last")

# - **注释**:
#   - `drop_duplicates(["k1", "k2"], keep="last")` 根据 `k1` 和 `k2` 组合检查重复，保留最后出现的行。
#   - 第5行被移除（因与第6行重复），第6行保留。

'''
输出结果:
    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
6  two   4   6
'''

#### 8.2.2 使用函数或映射转换数据

In [None]:
data = pd.DataFrame({"food": ["bacon", "pulled pork", "bacon",
                              "pastrami", "corned beef", "bacon",
                              "pastrami", "honey ham", "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

# - **注释**:
#   - 创建一个DataFrame，包含食物名称（`food`）和重量（`ounces`）。

'''
输出结果:
          food  ounces
0        bacon     4.0
1  pulled pork     3.0
2        bacon    12.0
3     pastrami     6.0
4  corned beef     7.5
5        bacon     8.0
6     pastrami     3.0
7    honey ham     5.0
8     nova lox     6.0
'''

In [None]:
meat_to_animal = {
    "bacon": "pig",
    "pulled pork": "pig",
    "pastrami": "cow",
    "corned beef": "cow",
    "honey ham": "pig",
    "nova lox": "salmon"
}

# - **注释**:
#   - 定义字典 `meat_to_animal`，将食物映射到对应的动物来源。

In [None]:
data["animal"] = data["food"].map(meat_to_animal)
data

# - **注释**:
#   - `map()` 对 `food` 列的每个值应用字典映射，添加新列 `animal`。
#   - 每个食物名称被替换为其对应的动物来源。

'''
输出结果:
          food  ounces  animal
0        bacon     4.0     pig
1  pulled pork     3.0     pig
2        bacon    12.0     pig
3     pastrami     6.0     cow
4  corned beef     7.5     cow
5        bacon     8.0     pig
6     pastrami     3.0     cow
7    honey ham     5.0     pig
8     nova lox     6.0  salmon
'''

In [None]:
def get_animal(x):
    return meat_to_animal[x]
data["food"].map(get_animal)

# - **注释**:
#   - 定义函数 `get_animal`，实现与字典相同的映射逻辑。
#   - `map(get_animal)` 对 `food` 列应用函数，返回映射后的Series。
#   - 功能与直接使用字典相同，但函数更灵活。

'''
输出结果:
0       pig
1       pig
2       pig
3       cow
4       cow
5       pig
6       cow
7       pig
8    salmon
Name: food, dtype: object
'''

#### 8.2.3 替换值

In [None]:
data = pd.Series([1., -999., 2., -999., -1000., 3.])
data

# - **注释**:
#   - 创建一个Series，包含异常值（如 -999, -1000），可能表示缺失值。

'''
输出结果:
0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64
'''

In [None]:
data.replace(-999, np.nan)

# - **注释**:
#   - `replace(-999, np.nan)` 将 -999 替换为 `NaN`。
#   - 返回新Series，原对象不变。

'''
输出结果:
0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64
'''

In [None]:
data.replace([-999, -1000], np.nan)

# - **注释**:
#   - `replace([old_values], new_value)` 同时替换多个值（-999, -1000）为 `NaN`。
#   - 适合批量处理异常值。

'''
输出结果:
0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64
'''

In [None]:
data.replace([-999, -1000], [np.nan, 0])

# - **注释**:
#   - `replace([old_values], [new_values])` 为不同旧值指定不同新值（-999 → `NaN`, -1000 → 0）。
#   - 提供更细粒度的替换控制。

'''
输出结果:
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
'''

In [None]:
data.replace({-999: np.nan, -1000: 0})

# - **注释**:
#   - `replace(dict)` 使用字典指定替换规则，等效于上例。
#   - 字典形式更直观，适合复杂替换。

'''
输出结果:
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
'''

#### 8.2.4 重命名轴索引

In [None]:
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                    index=["Ohio", "Colorado", "New York"],
                    columns=["one", "two", "three", "four"])
data

# - **注释**:
#   - 创建3x4的DataFrame，行索引为州名，列名为数字。

'''
输出结果:
          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11
'''

In [None]:
def transform(x):
    return x[:4].upper()
data.index.map(transform)

# - **注释**:
#   - 定义函数 `transform`，将字符串前4个字符转换为大写。
#   - `index.map(transform)` 对行索引应用函数，返回新Index对象。

'''
输出结果:
Index(['OHIO', 'COLO', 'NEW '], dtype='object')
'''

In [None]:
data.index = data.index.map(transform)
data

# - **注释**:
#   - 将转换后的索引赋值给 `data.index`，修改原DataFrame的行索引。
#   - 新索引为 `"OHIO", "COLO", "NEW "`。

'''
输出结果:
      one  two  three  four
OHIO    0    1      2     3
COLO    4    5      6     7
NEW     8    9     10    11
'''

In [None]:
data.rename(index=str.title, columns=str.upper)

# - **注释**:
#   - `rename(index=str.title, columns=str.upper)` 对行索引应用标题格式（首字母大写），对列名应用全大写。
#   - 返回新DataFrame，原对象不变。

'''
输出结果:
      ONE  TWO  THREE  FOUR
Ohio    0    1      2     3
Colo    4    5      6     7
New     8    9     10    11
'''

In [None]:
data.rename(index={"OHIO": "INDIANA"},
            columns={"three": "peekaboo"})

# - **注释**:
#   - `rename(index=dict, columns=dict)` 使用字典指定特定索引/列名的替换。
#   - 例如，将 `"OHIO"` 改为 `"INDIANA"`，`"three"` 改为 `"peekaboo"`。

'''
输出结果:
          one  two  peekaboo  four
INDIANA     0    1         2     3
COLO        4    5         6     7
NEW         8    9        10    11
'''

#### 8.2.5 离散化和分箱

In [None]:
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
age_categories = pd.cut(ages, bins)
age_categories

# - **注释**:
#   - `pd.cut(ages, bins)` 将 `ages` 分到指定区间（`bins`），返回Categorical对象。
#   - 区间为 `(18, 25]`, `(25, 35]`, `(35, 60]`, `(60, 100]`，右闭合（包含右端点）。
#   - 每个年龄被分配到对应区间。

'''
输出结果:
[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]
'''

In [None]:
age_categories.codes
age_categories.categories
pd.value_counts(age_categories)

# - **注释**:
#   - `codes` 返回每个年龄所属区间的整数编码（0到3）。
#   - `categories` 返回区间列表。
#   - `pd.value_counts(age_categories)` 统计每个区间的频率。

'''
输出结果:
array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1], dtype=int8)

IntervalIndex([(18, 25], (25, 35], (35, 60], (60, 100]], dtype='interval[int64, right]')

(18, 25]     5
(25, 35]     4
(35, 60]     2
(60, 100]    1
dtype: int64
'''

In [None]:
pd.cut(ages, [18, 26, 36, 61, 100], right=False)

# - **注释**:
#   - `right=False` 使区间左闭右开（如 `[18, 26)`）。
#   - 区间变为 `[18, 26)`, `[26, 36)`, `[36, 61)`, `[61, 100)`。

'''
输出结果:
[[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), ..., [26, 36), [61, 100), [36, 61), [36, 61), [26, 36)]
Categories (4, interval[int64, left]): [[18, 26) < [26, 36) < [36, 61) < [61, 100)]
'''

In [None]:
group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]
pd.cut(ages, bins, labels=group_names)

# - **注释**:
#   - `labels=group_names` 为每个区间指定名称（`Youth`, `YoungAdult`, `MiddleAged`, `Senior`）。
#   - 返回的Categorical对象使用自定义标签而非区间。

'''
输出结果:
['Youth', 'Youth', 'Youth', 'YoungAdult', 'Youth', ..., 'YoungAdult', 'Senior', 'MiddleAged', 'MiddleAged', 'YoungAdult']
Categories (4, object): ['Youth' < 'YoungAdult' < 'MiddleAged' < 'Senior']
'''

In [None]:
data = np.random.uniform(size=20)
pd.cut(data, 4, precision=2)

# - **注释**:
#   - `pd.cut(data, 4)` 将均匀分布的随机数分为4个等宽区间。
#   - `precision=2` 限制区间边界的小数位数为2位。
#   - 区间宽度由数据范围自动计算。

'''
输出结果:
[(0.34, 0.55], (0.34, 0.55], (0.76, 0.97], (0.55, 0.76], ..., (0.34, 0.55]]
Categories (4, interval[float64, right]): [(0.12, 0.34] < (0.34, 0.55] < (0.55, 0.76] < (0.76, 0.97]]
'''

In [None]:
data = np.random.standard_normal(1000)
quartiles = pd.qcut(data, 4, precision=2)
quartiles
pd.value_counts(quartiles)

# - **注释**:
#   - `pd.qcut(data, 4)` 将数据分为4个等频分位数区间（每组约250个数据点）。
#   - `precision=2` 控制边界精度。
#   - `pd.value_counts(quartiles)` 确认每个区间的数据点数量相等。

'''
输出结果:
[(-0.68, 0.03], (-3.28, -0.68], (0.68, 3.56], (-0.68, 0.03], ..., (-0.68, 0.03]]
Categories (4, interval[float64, right]): [(-3.28, -0.68] < (-0.68, 0.03] < (0.03, 0.68] < (0.68, 3.56]]

(-3.28, -0.68]    250
(-0.68, 0.03]      250
(0.03, 0.68]       250
(0.68, 3.56]       250
dtype: int64
'''

In [None]:
pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.], labels=False)

# - **注释**:
#   - `pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.])` 按指定分位数（10%、50%、90%）分箱。
#   - `labels=False` 返回整数编码（0到3），而非区间或标签。
#   - 适合需要分位数编码的场景。

'''
输出结果:
array([2, 0, 3, 1, ..., 2], dtype=int64)
'''

#### 8.2.6 检测和过滤异常值

In [None]:
data = pd.DataFrame(np.random.standard_normal((1000, 4)))
data.describe()

# - **注释**:
#   - 创建1000x4的DataFrame，包含标准正态分布的随机数。
#   - `describe()` 显示每列的统计信息，用于初步检查数据分布。

'''
输出结果:
                0            1            2            3
count  1000.000000  1000.000000  1000.000000  1000.000000
mean     -0.002297     0.015981    -0.000234    -0.005058
std       0.996157     1.003668     0.999085     1.002086
min      -3.547589    -3.260392    -3.693649    -3.536360
25%      -0.672329    -0.657929    -0.674805    -0.685242
50%       0.002060     0.018599     0.001165    -0.005346
75%       0.669099     0.691717     0.669805     0.669652
max       3.366626     3.396692     3.896904     3.391050
'''

In [None]:
col = data[2]
col[col.abs() > 3]

# - **注释**:
#   - `col.abs() > 3` 筛选第2列中绝对值大于3的异常值。
#   - 返回符合条件的Series，显示异常值的索引和值。

'''
输出结果:
234   -3.693649
433    3.896904
Name: 2, dtype: float64
'''

In [None]:
data[(data.abs() > 3).any(axis="columns")]

# - **注释**:
#   - `(data.abs() > 3).any(axis="columns")` 检查每行是否至少有一个值绝对值大于3。
#   - 返回包含异常值的行，适合检测整个DataFrame的异常。

'''
输出结果:
           0         1         2         3
234  -0.567234 -0.345678 -3.693649  0.123456
433   0.789012  0.234567  3.896904 -0.456789
567  -3.547589  0.678901  0.234567  0.789012
...
'''

In [None]:
data[data.abs() > 3] = np.sign(data) * 3
data.describe()

# - **注释**:
#   - `data.abs() > 3` 标识绝对值大于3的值。
#   - `np.sign(data) * 3` 将这些值替换为 ±3（保留原值的符号）。
#   - `describe()` 确认最大/最小值被限制在 ±3。

'''
输出结果:
                0            1            2            3
count  1000.000000  1000.000000  1000.000000  1000.000000
mean     -0.002297     0.015981    -0.000234    -0.005058
std       0.996157     1.003668     0.999085     1.002086
min      -3.000000    -3.000000    -3.000000    -3.000000
25%      -0.672329    -0.657929    -0.674805    -0.685242
50%       0.002060     0.018599     0.001165    -0.005346
75%       0.669099     0.691717     0.669805     0.669652
max       3.000000     3.000000     3.000000     3.000000
'''

#### 8.2.7 排列和随机采样

In [None]:
df = pd.DataFrame(np.arange(5 * 7).reshape((5, 7)))
df

# - **注释**:
#   - 创建5x7的DataFrame，值为0到34。

'''
输出结果:
   0   1   2   3   4   5   6
0   0   1   2   3   4   5   6
1   7   8   9  10  11  12  13
2  14  15  16  17  18  19  20
3  21  22  23  24  25  26  27
4  28  29  30  31  32  33  34
'''

In [None]:
sampler = np.random.permutation(5)
sampler

# - **注释**:
#   - `np.random.permutation(5)` 生成0到4的随机排列。
#   - 用于打乱行索引顺序。

'''
输出结果:
array([3, 1, 4, 0, 2])
'''

In [None]:
df.take(sampler)

# - **注释**:
#   - `take(sampler)` 按 `sampler` 的顺序重新排列行。
#   - 结果DataFrame的行顺序被随机打乱。

'''
输出结果:
   0   1   2   3   4   5   6
3  21  22  23  24  25  26  27
1   7   8   9  10  11  12  13
4  28  29  30  31  32  33  34
0   0   1   2   3   4   5   6
2  14  15  16  17  18  19  20
'''

In [None]:
df.iloc[sampler]

# - **注释**:
#   - `iloc[sampler]` 等效于 `take(sampler)`，按指定顺序选择行。
#   - `iloc` 更直观，推荐使用。

'''
输出结果:
   0   1   2   3   4   5   6
3  21  22  23  24  25  26  27
1   7   8   9  10  11  12  13
4  28  29  30  31  32  33  34
0   0   1   2   3   4   5   6
2  14  15  16  17  18  19  20
'''

In [None]:
choices = pd.Series([5, 7, -1, 6, 4])
choices.sample(n=10, replace=True)

# - **注释**:
#   - `sample(n=10, replace=True)` 从Series中随机抽样10个值，允许重复（有放回抽样）。
#   - 结果可能包含重复值，适合模拟或生成随机数据。

'''
输出结果:
2   -1
4    4
1    7
0    5
3    6
2   -1
4    4
1    7
0    5
2   -1
dtype: int64
'''

### 8.3 本节重点
- **移除重复数据**:
  - `duplicated()` 检测重复行，`drop_duplicates()` 删除重复行。
  - 支持 `subset` 指定检查的列，`keep="first"/"last"` 控制保留的行。
- **数据映射**:
  - `map()` 对Series应用字典或函数进行转换，适合列级操作。
  - 可用于添加新列或转换现有值。
- **替换值**:
  - `replace()` 替换指定值，支持单值、列表或字典形式。
  - 常用于处理异常值或标准化数据。
- **重命名轴索引**:
  - `index.map()` 或 `rename()` 修改行/列索引，支持函数或字典。
  - `rename()` 更灵活，可同时处理行和列。
- **离散化和分箱**:
  - `pd.cut()` 按指定区间分箱，`pd.qcut()` 按分位数分箱。
  - 支持自定义标签、精度和开闭区间。
  - 适合将连续值转为分类变量。
- **异常值处理**:
  - 使用布尔索引（如 `abs() > 3`）检测异常值。
  - 可通过赋值（如 `np.sign(data) * 3`）限制异常值范围。
- **排列和采样**:
  - `np.random.permutation()` 和 `take()`/`iloc` 实现随机重排。
  - `sample()` 进行随机抽样，支持有放回或无放回。
- **注意事项**:
  - 大多数操作（如 `drop_duplicates()`, `replace()`, `rename()`) 返回新对象，需赋值或使用 `inplace=True`。
  - 分箱和异常值处理需根据数据分布选择合适方法。
  - 随机操作（如 `sample()`, `permutation()`) 结果随机，需设置种子以确保可重复性。

## 计算指标/虚拟变量 (页码: p211)

## 9. 计算指标/虚拟变量
#### 页码: p211

### 9.1 章节概述
本节介绍了如何在pandas中创建指标变量（也称为虚拟变量，dummy variables）以及计算其他衍生变量。虚拟变量常用于将分类数据转换为适合机器学习模型的二进制（0/1）表示。此外，本节还展示了如何结合分组操作生成复杂的指标变量，以及处理多类别数据和高维虚拟变量矩阵的场景。这些方法在数据预处理和特征工程中尤为重要。

### 9.2 代码与注释

#### 9.2.1 创建虚拟变量

In [None]:
df = pd.DataFrame({"key": ["b", "b", "a", "c", "a", "b"],
                   "data1": range(6)})
df

# - **注释**:
#   - 创建一个DataFrame，包含分类列 `key`（值为 `"a"`, `"b"`, `"c"`）和数值列 `data1`。

'''
输出结果:
  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5
'''

In [None]:
pd.get_dummies(df["key"])

# - **注释**:
#   - `pd.get_dummies(df["key"])` 将 `key` 列的分类值转换为虚拟变量矩阵。
#   - 每列对应一个唯一类别（`a`, `b`, `c`），值为1表示该行属于该类别，0表示不属于。
#   - 返回新的DataFrame，列名为类别值。

'''
输出结果:
   a  b  c
0  0  1  0
1  0  1  0
2  1  0  0
3  0  0  1
4  1  0  0
5  0  1  0
'''

In [None]:
dummies = pd.get_dummies(df["key"], prefix="key")
dummies

# - **注释**:
#   - `prefix="key"` 为虚拟变量的列名添加前缀（`key_a`, `key_b`, `key_c`）。
#   - 有助于区分多个分类列的虚拟变量。

'''
输出结果:
   key_a  key_b  key_c
0      0      1      0
1      0      1      0
2      1      0      0
3      0      0      1
4      1      0      0
5      0      1      0
'''

In [None]:
df_with_dummy = df[["data1"]].join(dummies)
df_with_dummy

# - **注释**:
#   - `df[["data1"]].join(dummies)` 将虚拟变量矩阵与 `data1` 列合并。
#   - `join()` 默认按索引对齐，生成包含原始数据和虚拟变量的新DataFrame。
#   - 适用于机器学习特征矩阵的构建。

'''
输出结果:
   data1  key_a  key_b  key_c
0      0      0      1      0
1      1      0      1      0
2      2      1      0      0
3      3      0      0      1
4      4      1      0      0
5      5      0      1      0
'''

#### 9.2.2 处理多类别数据

In [None]:
mnames = ["movie_id", "title", "genres"]
movies = pd.read_table("datasets/movielens/movies.dat", sep="::",
                       header=None, names=mnames, engine="python")
movies[:10]

# - **注释**:
#   - 从 `movies.dat` 文件读取电影数据，包含 `movie_id`, `title`, 和 `genres` 列。
#   - `genres` 列包含多类别值（用 `|` 分隔，如 `Animation|Children's|Comedy`）。
#   - `engine="python"` 解决分隔符解析问题。

'''
输出结果:
   movie_id                               title                        genres
0         1                    Toy Story (1995)   Animation|Children's|Comedy
1         2                      Jumanji (1995)  Adventure|Children's|Fantasy
2         3             Grumpier Old Men (1995)                Comedy|Romance
3         4            Waiting to Exhale (1995)                  Comedy|Drama
4         5  Father of the Bride Part II (1995)                        Comedy
5         6                         Heat (1995)         Action|Crime|Thriller
6         7                      Sabrina (1995)                Comedy|Romance
7         8                 Tom and Huck (1995)      Adventure|Children's
8         9                 Sudden Death (1995)                        Action
9        10                    GoldenEye (1995)     Action|Adventure|Thriller
'''

In [None]:
all_genres = []
for x in movies.genres:
    all_genres.extend(x.split("|"))
genres = pd.unique(all_genres)
genres

# - **注释**:
#   - 遍历 `genres` 列，将每个电影的类型（用 `|` 分隔）拆分为列表。
#   - `extend()` 将拆分后的类型添加到 `all_genres`。
#   - `pd.unique()` 获取所有唯一的电影类型（18种）。

'''
输出结果:
array(['Animation', "Children's", 'Comedy', 'Adventure', 'Fantasy',
       'Romance', 'Drama', 'Action', 'Crime', 'Thriller', 'Horror',
       'Sci-Fi', 'Documentary', 'War', 'Musical', 'Mystery', 'Film-Noir',
       'Western'], dtype=object)
'''

In [None]:
zero_matrix = np.zeros((len(movies), len(genres)))
dummies = pd.DataFrame(zero_matrix, columns=genres)
dummies

# - **注释**:
#   - 创建一个形状为 `(电影数量, 类型数量)` 的零矩阵。
#   - 转换为DataFrame，列名为所有唯一类型（`genres`）。
#   - 用于存储每部电影的虚拟变量。

'''
输出结果:
   Animation  Children's  Comedy  ...  Mystery  Film-Noir  Western
0        0.0         0.0     0.0  ...      0.0        0.0      0.0
1        0.0         0.0     0.0  ...      0.0        0.0      0.0
...
'''

In [None]:
for i, gen in enumerate(movies.genres):
    indices = dummies.columns.get_indexer(gen.split("|"))
    dummies.iloc[i, indices] = 1
dummies

# - **注释**:
#   - 遍历每部电影的 `genres` 值，拆分为类型列表。
#   - `get_indexer()` 获取每个类型在 `dummies` 列中的索引。
#   - 将对应位置设为1，表示该电影属于该类型。
#   - 结果是每部电影的虚拟变量矩阵。

'''
输出结果:
   Animation  Children's  Comedy  ...  Mystery  Film-Noir  Western
0        1.0         1.0     1.0  ...      0.0        0.0      0.0
1        0.0         1.0     0.0  ...      0.0        0.0      0.0
...
'''

In [None]:
movies_windic = movies.join(dummies.add_prefix("Genre_"))
movies_windic.iloc[0]

# - **注释**:
#   - `dummies.add_prefix("Genre_")` 为虚拟变量列添加前缀（`Genre_Animation` 等）。
#   - `movies.join()` 将虚拟变量矩阵与原始 `movies` 数据合并。
#   - `iloc[0]` 显示第一部电影的完整信息，包括虚拟变量。

'''
输出结果:
movie_id                                       1
title                           Toy Story (1995)
genres               Animation|Children's|Comedy
Genre_Animation                              1.0
Genre_Children's                             1.0
Genre_Comedy                                 1.0
...
Genre_Western                                0.0
Name: 0, dtype: object
'''

#### 9.2.3 结合分箱生成虚拟变量

In [None]:
np.random.seed(12345)
values = np.random.uniform(size=10)
values

# - **注释**:
#   - 设置随机种子确保可重复性。
#   - 生成10个均匀分布的随机数（0到1之间）。

'''
输出结果:
array([0.92961609, 0.31637555, 0.18391881, 0.20456028, 0.56772503,
       0.5955447 , 0.96451452, 0.6531771 , 0.74890664, 0.65356987])
'''

In [None]:
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(values, bins))

# - **注释**:
#   - `pd.cut(values, bins)` 将 `values` 分箱到指定区间（`(0, 0.2]`, `(0.2, 0.4]`, 等）。
#   - `pd.get_dummies()` 将分箱结果转换为虚拟变量矩阵。
#   - 每列对应一个区间，1表示该值落入该区间，0表示未落入。
#   - 适用于将连续值离散化后生成特征。

'''
输出结果:
   (0.0, 0.2]  (0.2, 0.4]  (0.4, 0.6]  (0.6, 0.8]  (0.8, 1.0]
0           0           0           0           0           1
1           0           1           0           0           0
2           1           0           0           0           0
3           0           1           0           0           0
4           0           0           1           0           0
5           0           0           1           0           0
6           0           0           0           0           1
7           0           0           0           1           0
8           0           0           0           1           0
9           0           0           0           1           0
'''

### 9.3 本节重点
- **创建虚拟变量**:
  - `pd.get_dummies()` 将分类列转换为二进制虚拟变量矩阵。
  - `prefix` 参数添加列名前缀，`join()` 合并到原始数据。
  - 常用于机器学习模型的特征编码。
- **处理多类别数据**:
  - 对于多类别列（如电影类型），需拆分类别并手动构建虚拟变量矩阵。
  - 使用 `get_indexer()` 和 `iloc` 设置虚拟变量值。
  - `add_prefix()` 和 `join()` 整合结果，适合复杂数据集。
- **结合分箱生成虚拟变量**:
  - `pd.cut()` 分箱后结合 `pd.get_dummies()` 生成虚拟变量。
  - 适用于将连续变量转为分类特征。
- **注意事项**:
  - 虚拟变量矩阵可能高维（类别数多时），需考虑稀疏矩阵或降维。
  - 多类别处理需确保类别拆分准确，避免遗漏或重复。
  - 分箱时需合理选择区间边界，以反映数据分布。
  - `get_dummies()` 默认对所有唯一值编码，需检查数据清洗是否完整。

## 字符串操作 (页码: p213)

## 10. 字符串操作
#### 页码: p213

### 10.1 章节概述
本节介绍了Python和pandas中处理字符串数据的方法，包括Python内置字符串方法、pandas的矢量化字符串操作以及正则表达式。字符串操作在数据清洗中至关重要，例如提取、拆分、替换或格式化文本数据。本节强调了pandas的字符串方法如何高效处理Series和DataFrame中的文本数据，特别是结合正则表达式进行复杂模式匹配。

### 10.2 代码与注释

#### 10.2.1 Python内置字符串方法

In [None]:
val = "a,b,  guido"
val.split(",")

# - **注释**:
#   - `split(",")` 以逗号分隔字符串，返回列表。
#   - 结果包含空格（如 `'  guido'`），需进一步处理。

'''
输出结果:
['a', 'b', '  guido']
'''

In [None]:
pieces = [x.strip() for x in val.split(",")]
pieces

# - **注释**:
#   - `strip()` 去除每个元素两端的空白字符。
#   - 列表推导式对 `split()` 结果逐个应用 `strip()`，清理空格。

'''
输出结果:
['a', 'b', 'guido']
'''

In [None]:
first, second, third = pieces
first + "::" + second + "::" + third

# - **注释**:
#   - 解包 `pieces` 列表到变量 `first`, `second`, `third`。
#   - 使用 `+` 拼接字符串，插入 `::` 分隔符。

'''
输出结果:
'a::b::guido'
'''

In [None]:
"::".join(pieces)

# - **注释**:
#   - `join()` 更高效地将列表元素拼接为字符串，使用 `::` 作为分隔符。
#   - 比手动拼接更简洁，推荐使用。

'''
输出结果:
'a::b::guido'
'''

In [None]:
"guido" in val
val.index(",")
val.find(":")

# - **注释**:
#   - `"guido" in val` 检查子字符串是否存在，返回 `True`。
#   - `index(",")` 返回第一个逗号的索引（1），若不存在则抛出异常。
#   - `find(":")` 返回第一个冒号的索引，若不存在返回 -1（更安全）。

'''
输出结果:
True
1
-1
'''

In [None]:
val.count(",")

# - **注释**:
#   - `count(",")` 返回逗号出现的次数（2次）。

'''
输出结果:
2
'''

In [None]:
val.replace(",", "::")
val.replace(",", "")

# - **注释**:
#   - `replace(",", "::")` 将逗号替换为 `::`。
#   - `replace(",", "")` 删除所有逗号。
#   - 返回新字符串，原字符串不变。

'''
输出结果:
'a::b::  guido'
'ab  guido'
'''

#### 10.2.2 正则表达式

In [None]:
import re
text = "foo    bar\t baz  \tqux"
re.split(r"\s+", text)

# - **注释**:
#   - `re.split(r"\s+", text)` 使用正则表达式 `\s+`（一个或多个空白字符）分割字符串。
#   - 能处理多种空白字符（空格、制表符等），比 `split()` 更灵活。

'''
输出结果:
['foo', 'bar', 'baz', 'qux']
'''

In [None]:
regex = re.compile(r"\s+")
regex.split(text)

# - **注释**:
#   - `re.compile(r"\s+")` 预编译正则表达式，提高重复使用的效率。
#   - `regex.split(text)` 与直接 `re.split()` 效果相同，但性能更优。

'''
输出结果:
['foo', 'bar', 'baz', 'qux']
'''

In [None]:
regex.findall(text)

# - **注释**:
#   - `findall()` 返回匹配正则表达式 `\s+` 的所有子字符串（即空白字符序列）。
#   - 常用于检查或提取匹配模式。

'''
输出结果:
['    ', '\t ', '  \t']
'''

In [None]:
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com"""
pattern = r"[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}"
regex = re.compile(pattern, flags=re.IGNORECASE)
regex.findall(text)

# - **注释**:
#   - 定义正则表达式 `pattern` 匹配电子邮件地址：
#     - `[A-Z0-9._%+-]+`：用户名部分（字母、数字、特定符号）。
#     - `@`：@符号。
#     - `[A-Z0-9.-]+`：域名部分。
#     - `\.[A-Z]{2,4}`：顶级域名（2-4个字母）。
#   - `flags=re.IGNORECASE` 忽略大小写。
#   - `findall()` 提取所有匹配的邮箱地址。

'''
输出结果:
['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']
'''

In [None]:
m = regex.search(text)
m
text[m.start():m.end()]

# - **注释**:
#   - `search()` 返回第一个匹配的正则表达式对象（包含位置信息）。
#   - `m.start()` 和 `m.end()` 获取匹配的起始和结束索引。
#   - `text[m.start():m.end()]` 提取匹配的子字符串。

'''
输出结果:
<re.Match object; span=(5, 20), match='dave@google.com'>
'dave@google.com'
'''

In [None]:
regex.match(text)

# - **注释**:
#   - `match()` 仅检查字符串开头是否匹配正则表达式。
#   - 因 `text` 开头不是邮箱地址，返回 `None`。

'''
输出结果:
None
'''

In [None]:
print(regex.sub("REDACTED", text))

# - **注释**:
#   - `sub("REDACTED", text)` 将所有匹配的邮箱地址替换为 `"REDACTED"`。
#   - 用于数据脱敏或替换特定模式。

'''
输出结果:
Dave REDACTED
Steve REDACTED
Rob REDACTED
Ryan REDACTED
'''

In [None]:
pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
regex = re.compile(pattern, flags=re.IGNORECASE)
m = regex.match("wesm@bright.net")
m.groups()

# - **注释**:
#   - 修改正则表达式，使用括号 `()` 定义捕获组，分别匹配用户名、域名和顶级域名。
#   - `match()` 检查字符串开头，返回匹配对象。
#   - `groups()` 返回捕获组的元组（`wesm`, `bright`, `net`）。

'''
输出结果:
('wesm', 'bright', 'net')
'''

In [None]:
regex.findall(text)

# - **注释**:
#   - `findall()` 返回所有匹配的捕获组元组。
#   - 每个元组包含用户名、域名和顶级域名。

'''
输出结果:
[('dave', 'google', 'com'), ('steve', 'gmail', 'com'), ('rob', 'gmail', 'com'), ('ryan', 'yahoo', 'com')]
'''

In [None]:
print(regex.sub(r"Username: \1, Domain: \2, Suffix: \3", text))

# - **注释**:
#   - `sub()` 使用 `\1`, `\2`, `\3` 引用捕获组，格式化替换字符串。
#   - 将邮箱地址替换为描述性文本，保留捕获组内容。

'''
输出结果:
Dave Username: dave, Domain: google, Suffix: com
Steve Username: steve, Domain: gmail, Suffix: com
Rob Username: rob, Domain: gmail, Suffix: com
Ryan Username: ryan, Domain: yahoo, Suffix: com
'''

#### 10.2.3 pandas的矢量化字符串方法

In [None]:
data = pd.Series({"Dave": "dave@google.com", "Steve": "steve@gmail.com",
                  "Rob": "rob@gmail.com", "Wes": np.nan})
data

# - **注释**:
#   - 创建一个Series，包含邮箱地址和一个缺失值（`NaN`）。

'''
输出结果:
Dave     dave@google.com
Steve    steve@gmail.com
Rob       rob@gmail.com
Wes                  NaN
dtype: object
'''

In [None]:
data.str.contains("gmail")

# - **注释**:
#   - `str.contains("gmail")` 检查每个字符串是否包含 `"gmail"`，返回布尔Series。
#   - 缺失值返回 `NaN`，需注意处理。

'''
输出结果:
Dave     False
Steve     True
Rob       True
Wes        NaN
dtype: object
'''

In [None]:
data.str[:5]

# - **注释**:
#   - `str[:5]` 提取每个字符串的前5个字符。
#   - 矢量化操作，自动跳过 `NaN`。

'''
输出结果:
Dave     dave@
Steve    steve
Rob      rob@g
Wes        NaN
dtype: object
'''

In [None]:
pattern = r"([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})"
data.str.findall(pattern, flags=re.IGNORECASE)

# - **注释**:
#   - `str.findall(pattern)` 对每个字符串应用正则表达式，提取捕获组。
#   - 返回Series，每个元素是匹配的元组列表（或 `NaN`）。
#   - `flags=re.IGNORECASE` 忽略大小写。

'''
输出结果:
Dave     [(dave, google, com)]
Steve    [(steve, gmail, com)]
Rob       [(rob, gmail, com)]
Wes                      NaN
dtype: object
'''

In [None]:
matches = data.str.findall(pattern, flags=re.IGNORECASE).str[0]
matches

# - **注释**:
#   - `str[0]` 提取 `findall()` 结果的第一个匹配元组（每个元素只有一个匹配）。
#   - 用于简化后续处理。

'''
输出结果:
Dave     (dave, google, com)
Steve    (steve, gmail, com)
Rob       (rob, gmail, com)
Wes                      NaN
dtype: object
'''

In [None]:
matches.str.get(1)

# - **注释**:
#   - `str.get(1)` 从每个元组中提取第二个元素（域名部分）。
#   - 矢量化操作，处理整个Series。

'''
输出结果:
Dave     google
Steve     gmail
Rob       gmail
Wes         NaN
dtype: object
'''

In [None]:
data.str.extract(pattern, flags=re.IGNORECASE)

# - **注释**:
#   - `str.extract(pattern)` 提取正则表达式的捕获组，返回DataFrame。
#   - 每列对应一个捕获组（用户名、域名、顶级域名）。
#   - 缺失值填充为 `NaN`，更适合结构化输出。

'''
输出结果:
          0         1    2
Dave   dave   google  com
Steve  steve    gmail  com
Rob     rob    gmail  com
Wes     NaN      NaN  NaN
'''

### 10.3 本节重点
- **Python内置字符串方法**:
  - `split()`, `strip()`, `join()`, `replace()` 等处理基本字符串操作。
  - `index()`, `find()`, `count()` 用于查找和计数。
  - 适合简单文本处理，但需循环处理Series。
- **正则表达式**:
  - `re.split()`, `re.findall()`, `re.sub()` 等处理复杂模式匹配。
  - `re.compile()` 预编译正则表达式提高效率。
  - 捕获组（`()`）和替换引用（`\1`, `\2`）支持结构化提取和格式化。
  - `flags=re.IGNORECASE` 忽略大小写，增强灵活性。
- **pandas矢量化字符串方法**:
  - `str.contains()`, `str.findall()`, `str.extract()` 等对Series进行矢量化操作。
  - 自动处理 `NaN`，无需显式循环。
  - `str.extract()` 返回结构化DataFrame，适合捕获组提取。
  - `str.get()` 和 `str[n]` 访问匹配结果的特定部分。
- **注意事项**:
  - 正则表达式需仔细设计，避免匹配错误或性能问题。
  - pandas的 `str` 方法对缺失值友好，但需检查输出类型（Series或DataFrame）。
  - 矢量化操作比循环更高效，优先使用。
  - 对于大规模数据，预编译正则表达式或优化模式可提升性能。

## 总结 (页码: p216)

## 11. 总结
#### 页码: p216

### 11.1 章节概述
第五章“pandas入门”介绍了pandas库的基础知识和核心功能，涵盖了Series和DataFrame的基本操作、数据索引与选择、算术运算、数据清洗、转换以及字符串处理。以下是本章内容的总结，旨在帮助读者巩固对pandas数据结构和方法的理解，为后续章节（如数据加载、聚合和可视化）打下基础。

### 11.2 主要内容回顾
1. **Series和DataFrame简介** (p185-189):
   - **Series**：一维带索引的数组，类似带标签的列表。
   - **DataFrame**：二维表格结构，类似带行和列标签的电子表格。
   - 核心功能包括创建、索引、切片和基本属性访问。

2. **基本功能** (p189-194):
   - **索引和选择**：使用 `.loc`, `.iloc`, 布尔索引等访问数据。
   - **重新索引**：`reindex()` 调整索引顺序或填充缺失值。
   - **轴操作**：删除行/列（`drop`）、轴标签管理。

3. **算术和数据对齐** (p194-197):
   - 自动对齐索引进行算术运算（如 `+`, `-`）。
   - 使用 `add()`, `sub()` 等方法控制填充值。
   - 处理缺失值（`NaN`）的影响。

4. **函数应用和映射** (p197-199):
   - `apply()` 和 `applymap()` 对数据应用自定义函数。
   - `map()` 对Series进行元素级转换。
   - 排序（`sort_index()`, `sort_values()`）和排名（`rank()`）。

5. **描述性统计** (p199-201):
   - `describe()`, `mean()`, `sum()`, `std()` 等计算统计指标。
   - 相关性（`corr()`）和协方差（`cov()`）。
   - 唯一值（`unique()`）、计数（`value_counts()`）等。

6. **处理缺失值** (p201-204):
   - 检测（`isna()`, `notna()`）、删除（`dropna()`）、填充（`fillna()`）。
   - 灵活的参数控制（如 `how`, `axis`, `method`）。

7. **数据转换** (p204-211):
   - 移除重复（`duplicated()`, `drop_duplicates()`）。
   - 映射（`map()`）、替换（`replace()`）、重命名（`rename()`）。
   - 离散化（`cut()`, `qcut()`）、异常值处理、随机采样（`sample()`）。

8. **计算指标/虚拟变量** (p211-213):
   - `get_dummies()` 创建虚拟变量，处理分类数据。
   - 多类别处理（如电影类型拆分）和分箱结合虚拟变量。

9. **字符串操作** (p213-216):
   - Python内置方法（`split()`, `strip()`, `join()` 等）。
   - 正则表达式（`re.split()`, `re.findall()`, `re.sub()`）。
   - pandas矢量化方法（`str.contains()`, `str.extract()` 等）。

### 11.3 本节重点
- **核心理念**:
  - pandas通过Series和DataFrame提供灵活、高效的数据操作。
  - 索引对齐和矢量化运算是pandas的独特优势。
  - 数据清洗和预处理（如缺失值、重复值、字符串处理）是分析的关键步骤。

- **实用技巧**:
  - 优先使用矢量化操作（如 `str` 方法、算术方法）而非循环。
  - 合理选择索引方法（`.loc`, `.iloc`）避免歧义。
  - 结合正则表达式和 `get_dummies()` 增强特征工程能力。

- **注意事项**:
  - 注意操作是否返回新对象（如 `dropna()`, `replace()`），需赋值或使用 `inplace=True`。
  - 处理大规模数据时，优化正则表达式或使用稀疏矩阵。
  - 缺失值和异常值的处理需根据业务场景选择策略。

- **后续学习**:
  - 第六章将介绍数据加载和存储（如CSV、JSON、Excel）。
  - 第七章将深入数据聚合和分组操作。
  - 掌握第五章的基础操作是后续分析和建模的前提。