# 数据清理 - 思考题目 | Data cleansing - discussion questions

来源：E校挺好 - 机器学习与深度学习小组
作者：Wanying
日期: 2025年1月


In [3]:
# 导入需要的库
import numpy as np
import pandas as pd

（1）如何理解 ndarray 中的 axis=0 和 axis=1？

In [4]:
arr = np.array([[1, 2, 3],
                [4, 5, 6],
                [7, 8, 9]])

# axis=0 沿着行方向操作（跨行），也就是对列进行操作
print("沿 axis=0 求和（跨行求和，每列相加）:")
print(np.sum(arr, axis=0))  # 输出: [12 15 18]

沿 axis=0 求和（跨行求和，每列相加）:
[12 15 18]


In [5]:
# axis=1 沿着列方向操作（跨列），也就是对行进行操作
print("沿 axis=1 求和（跨列求和，每行相加）:")
print(np.sum(arr, axis=1))  # 输出: [ 6 15 24]

沿 axis=1 求和（跨列求和，每行相加）:
[ 6 15 24]


（2）如何理解 ndarray 在不同轴上求平均值？

In [7]:

# axis=0 求平均值：对每列的值求平均, 是垂直方向（结果是每列的平均值）
print("对列求平均（axis=0）:")
print(np.mean(arr, axis=0))  

对列求平均（axis=0）:
[4. 5. 6.]


In [8]:

# axis=1 求平均值：对每行的值求平均, 是水平方向（结果是每行的平均值）
print("对行求平均（axis=1）:")
print(np.mean(arr, axis=1))  


对行求平均（axis=1）:
[2. 5. 8.]


（3）argmax() 和 argwhere() 的作用

In [9]:
# argmax 返回的是某一轴上最大值的索引
# 如果不指定 axis，会把数组拉平再找最大值的索引
print("数组中最大值的索引（扁平化处理）:")
print(np.argmax(arr))  # 输出: 8 （值为 9 的索引）

数组中最大值的索引（扁平化处理）:
8


In [10]:
# 沿列方向找最大值的索引（axis=0）
print("沿 axis=0 找最大值的索引（每列最大值的行号）:")
print(np.argmax(arr, axis=0))  # 输出: [2 2 2]

沿 axis=0 找最大值的索引（每列最大值的行号）:
[2 2 2]


In [11]:

# 沿行方向找最大值的索引（axis=1）
print("沿 axis=1 找最大值的索引（每行最大值的列号）:")
print(np.argmax(arr, axis=1))  # 输出: [2 2 2]

沿 axis=1 找最大值的索引（每行最大值的列号）:
[2 2 2]


In [12]:

# argwhere 返回满足条件的所有索引
print("找出大于 3 的元素的索引（二维坐标）:")
print(np.argwhere(arr > 3))

找出大于 3 的元素的索引（二维坐标）:
[[1 0]
 [1 1]
 [1 2]
 [2 0]
 [2 1]
 [2 2]]


（4）基于 Series 的 apply() 方法

In [13]:
# 创建一个 Pandas Series
s = pd.Series([1, 2, 3, 4, 5])

# 对 Series 中的每个元素应用函数，比如开平方
print("对每个元素开平方:")
print(s.apply(np.sqrt))  # 输出: 每个元素的平方根

# 使用自定义函数，比如求平方
print("对每个元素求平方:")
print(s.apply(lambda x: x**2))  # 输出: 每个元素的平方

对每个元素开平方:
0    1.000000
1    1.414214
2    1.732051
3    2.000000
4    2.236068
dtype: float64
对每个元素求平方:
0     1
1     4
2     9
3    16
4    25
dtype: int64


（5）基于 DataFrame 的 apply() 和 applymap() 方法

In [14]:
# 创建一个 Pandas DataFrame
df = pd.DataFrame([[1, 2], [3, 4], [5, 6]], columns=['A', 'B'])

# apply() 对行或列应用函数
print("对每列求和（axis=0）:")
print(df.apply(np.sum, axis=0))  # 输出: A 9, B 12

print("对每行求和（axis=1）:")
print(df.apply(np.sum, axis=1))  # 输出: 3, 7, 11

# applymap() 对每个元素应用函数，比如每个元素平方
print("对每个元素求平方:")
print(df.applymap(lambda x: x**2))

对每列求和（axis=0）:
A     9
B    12
dtype: int64
对每行求和（axis=1）:
0     3
1     7
2    11
dtype: int64
对每个元素求平方:
    A   B
0   1   4
1   9  16
2  25  36


  print(df.applymap(lambda x: x**2))


（6）基于 DataFrame 的 style

In [16]:
# 对 DataFrame 添加样式（比如高亮最大值）
styled = df.style.highlight_max(axis=0)  # 高亮列方向的最大值
styled  # 在 Jupyter Notebook 中会以格式化的 HTML 显示

# 自定义样式函数，比如大于 3 的值标红
def highlight_greater_than_3(val):
    color = 'red' if val > 3 else 'black'
    return f'color: {color}'

styled = df.style.map(highlight_greater_than_3)
styled 


Unnamed: 0,A,B
0,1,2
1,3,4
2,5,6
