## 数据清洗与预处理

### 1. 处理缺失值：填充、删除

处理缺失值是数据清洗和预处理中的重要步骤。Pandas 提供了多种方法来处理缺失值，包括填充缺失值和删除包含缺失值的行或列。

In [11]:
import pandas as pd
import numpy as np

# 创建一个示例 DataFrame，包含一些缺失值
data = {
    'Name': ['Alice', 'Bob', np.nan, 'David', 'Eve'],
    'Age': [30, np.nan, 35, 40, np.nan],
    'Salary': [70000, 60000, 80000, np.nan, 65000]
}

df = pd.DataFrame(data)
print("原始 DataFrame:")
print(df)

原始 DataFrame:
    Name   Age   Salary
0  Alice  30.0  70000.0
1    Bob   NaN  60000.0
2    NaN  35.0  80000.0
3  David  40.0      NaN
4    Eve   NaN  65000.0


In [5]:
# 填充缺失值
# 使用常量填充缺失值
filled_df_constant = df.fillna(0)
print("\n使用常量 0 填充缺失值:")
print(filled_df_constant)


使用常量 0 填充缺失值:
    Name   Age   Salary
0  Alice  30.0  70000.0
1    Bob   0.0  60000.0
2      0  35.0  80000.0
3  David  40.0      0.0
4    Eve   0.0  65000.0


In [13]:
# 使用均值填充缺失值
num_cols = df.select_dtypes(include=['number']).columns # 基于列类型选择列
# df[num_cols] = df[num_cols].fillna(df[num_cols].mean())  # 填充均值，填充后还需要赋值回去
filled_df_mean = df[num_cols].fillna(df[num_cols].mean())
print("\n使用均值填充缺失值:")
print(filled_df_mean)


使用均值填充缺失值:
    Age   Salary
0  30.0  70000.0
1  35.0  60000.0
2  35.0  80000.0
3  40.0  68750.0
4  35.0  65000.0


In [20]:
# 使用前向填充（ffill） 使用上一条数据填充下一条
# filled_df_ffill = df.fillna(method='ffill') # deprecated 
filled_df_ffill = df.ffill()
print("\n使用前向填充（ffill）填充缺失值:")
print(filled_df_ffill)


使用前向填充（ffill）填充缺失值:
    Name   Age   Salary
0  Alice  30.0  70000.0
1    Bob  30.0  60000.0
2    Bob  35.0  80000.0
3  David  40.0  80000.0
4    Eve  40.0  65000.0


In [23]:
# 使用后向填充（bfill）
# filled_df_bfill = df.fillna(method='bfill') #deprecated
filled_df_bfill = df.bfill()
print("\n使用后向填充（bfill）填充缺失值:")
print(filled_df_bfill)


使用后向填充（bfill）填充缺失值:
    Name   Age   Salary
0  Alice  30.0  70000.0
1    Bob  35.0  60000.0
2  David  35.0  80000.0
3  David  40.0  65000.0
4    Eve   NaN  65000.0


In [27]:
# 删除缺失值
# 删除包含缺失值的行
dropped_rows = df.dropna()
print("\n删除包含缺失值的行:")
print(dropped_rows)


删除包含缺失值的行:
    Name   Age   Salary
0  Alice  30.0  70000.0


In [29]:
# 删除包含缺失值的列
dropped_columns = df.dropna(axis=1)
print("\n删除包含缺失值的列:")
print(dropped_columns)


删除包含缺失值的列:
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]


实际使用的时候，先选择某些数据或数据列，然后使用dropna()方法删除缺失值。