# 第5章　使用 `pandas` 进行数据预处理

## 实训1　插补用户用电量数据缺失值

1. 训练要点

    1. 掌握缺失值识别方法。
    2. 掌握对缺失值数据处理的方法。

2. 需求说明

    &emsp;&emsp;用户用电量数据呈现一定的周期性关系， `missing_data.csv` 表中存放了用户A、用户B和用户C的用电量数据，其中存在缺失值，需要进行缺失值插补才能进行下一步分析。

3. 实现思路及步骤

    1. 读取 `missing_data.csv` 表中的数据。
    2. 查询缺失值所在位置。
    3. 使用 `SciPy` 库中 `interpolate` 模块中的 `Lagrange` 对数据进行拉格朗日插值。
    4. 查看数据中是否存在缺失值，若不存在则说明插值成功。

In [1]:
import numpy
import pandas

In [2]:
# 读取数据
data = pandas.read_csv(
    'data/missing_data.csv', encoding='gbk',
    names=('User_A', 'User_B', 'User_C')
)
print('数据缺失值数量为：', data.isnull().sum(), sep='\n')

数据缺失值数量为：
User_A    2
User_B    4
User_C    4
dtype: int64


In [3]:
# 定位缺失值
null_location = data.isnull()

In [4]:
# 拉格朗日插值
from scipy.interpolate import lagrange
x_A = [i for i in range(null_location.shape[0]) if not null_location.iloc[i, 0]]
y_A = [data.iloc[i, 0] for i in range(null_location.shape[0]) if not null_location.iloc[i, 0]]
x_B = [i for i in range(null_location.shape[0]) if not null_location.iloc[i, 1]]
y_B = [data.iloc[i, 1] for i in range(null_location.shape[0]) if not null_location.iloc[i, 1]]
x_C = [i for i in range(null_location.shape[0]) if not null_location.iloc[i, 2]]
y_C = [data.iloc[i, 2] for i in range(null_location.shape[0]) if not null_location.iloc[i, 2]]
lar_A = lagrange(x_A, y_A)
lar_B = lagrange(x_B, y_B)
lar_C = lagrange(x_C, y_C)
for i in range(null_location.shape[0]):
    if i not in x_A:
        data.iloc[i, 0] = lar_A(i)
    if i not in x_B:
        data.iloc[i, 1] = lar_B(i)
    if i not in x_C:
        data.iloc[i, 2] = lar_C(i)

In [5]:
print('数据中的缺失值数量为：', data.isnull().sum(), sep='\n')

数据中的缺失值数量为：
User_A    0
User_B    0
User_C    0
dtype: int64
