# pandas中的缺失值处理

在数据分析的过程中，处理缺失数据是一个常见且重要的任务。缺失数据会影响数据的质量，导致分析结果不准确。Pandas 提供了一系列的功能来帮助我们识别、统计和处理缺失值。

In [3]:
import numpy as np
import pandas as pd

## 缺失值的统计和删除

### 缺失信息的统计

在Pandas中，缺失值通常被表示为`NaN`（Not a Number）。为了确定数据中的缺失值，可以使用`isna()`或`isnull()`方法。这两个方法在功能上是等价的，可以帮助我们检测数据中的缺失值。

In [11]:
df = pd.read_csv('./data/pandas_starter.csv')
df.isna().head()

Unnamed: 0,t_dat,customer_id,article_id,price,sales_channel_id,product_code,prod_name,product_type_no,product_type_name,product_group_name,...,section_name,garment_group_no,garment_group_name,detail_desc,FN,Active,club_member_status,fashion_news_frequency,age,postal_code
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


通过使用`mean()`方法，我们可以计算出每列缺失值的比例，这有助于我们了解数据缺失的严重程度。

In [12]:
df.isna().mean()

t_dat                           0.000000
customer_id                     0.000000
article_id                      0.000000
price                           0.000000
sales_channel_id                0.000000
product_code                    0.000000
prod_name                       0.000000
product_type_no                 0.000000
product_type_name               0.000000
product_group_name              0.000000
graphical_appearance_no         0.000000
graphical_appearance_name       0.000000
colour_group_code               0.000000
colour_group_name               0.000000
perceived_colour_value_id       0.000000
perceived_colour_value_name     0.000000
perceived_colour_master_id      0.000000
perceived_colour_master_name    0.000000
department_no                   0.000000
department_name                 0.000000
index_code                      0.000000
index_name                      0.000000
index_group_no                  0.000000
index_group_name                0.000000
section_no      

若要查看特定列（如`Active`）缺失或非缺失的行，可以使用布尔索引：

In [13]:
df['Active'].isna()

0        False
1        False
2        False
3        False
4        False
         ...  
50719    False
50720    False
50721    False
50722    False
50723    False
Name: Active, Length: 50724, dtype: bool

In [16]:
df.loc[df['Active'].isna(),['Active']].head()

Unnamed: 0,Active
14,
15,
16,
17,
18,


为了检索出在多个列中全部缺失、至少有一个缺失或没有缺失的行，可以结合使用`isna()`, `notna()`与`any()`, `all()`方法：

In [18]:
sub_set = df[['Active', 'detail_desc', 'FN']]
df.loc[sub_set.isna().all(axis=1),['Active', 'detail_desc', 'FN']] # 全部缺失

Unnamed: 0,Active,detail_desc,FN
14,,,
688,,,
865,,,
875,,,
957,,,
...,...,...,...
27714,,,
27715,,,
34505,,,
36026,,,


In [19]:
df.loc[sub_set.isna().any(axis=1),['Active', 'detail_desc', 'FN']].head() # 至少有一个缺失

Unnamed: 0,Active,detail_desc,FN
14,,,
15,,Short-sleeved top in soft jersey made from a m...,
16,,5-pocket ankle-length jeans in washed stretch ...,
17,,"Satin blouse with a boat neck, yoke with decor...",
18,,5-pocket ankle-length jeans in washed stretch ...,


In [20]:
df[sub_set.notna().all(axis=1)].head() # 没有缺失

Unnamed: 0,t_dat,customer_id,article_id,price,sales_channel_id,product_code,prod_name,product_type_no,product_type_name,product_group_name,...,section_name,garment_group_no,garment_group_name,detail_desc,FN,Active,club_member_status,fashion_news_frequency,age,postal_code
0,2018-09-20,03d0011487606c37c1b1ed147fc72f285a50c05f00b971...,668766002,0.042356,2,668766,Roger,258,Blouse,Garment Upper body,...,Womens Casual,1010,Blouses,Blouse in an airy modal and cotton weave with ...,1.0,1.0,ACTIVE,Regularly,51.0,8db52856d17c197683efbc9d5ef2dc873aaf7062486b2d...
1,2018-09-20,03d0011487606c37c1b1ed147fc72f285a50c05f00b971...,652946001,0.050831,2,652946,&DENIM Bootcut RW Speed,272,Trousers,Garment Lower body,...,Ladies Denim,1016,Trousers Denim,5-pocket jeans in washed stretch denim with a ...,1.0,1.0,ACTIVE,Regularly,51.0,8db52856d17c197683efbc9d5ef2dc873aaf7062486b2d...
2,2018-09-20,03d0011487606c37c1b1ed147fc72f285a50c05f00b971...,691275008,0.06778,2,691275,Waves blouse,258,Blouse,Garment Upper body,...,Womens Trend,1010,Blouses,"Blouse in an airy jacquard weave with a small,...",1.0,1.0,ACTIVE,Regularly,51.0,8db52856d17c197683efbc9d5ef2dc873aaf7062486b2d...
3,2018-09-20,1320d4b3dd6481cde05bb80fb7ca37397f70470b9afb96...,501820043,0.016932,2,501820,SIRPA,252,Sweater,Garment Upper body,...,Divided Collection,1003,Knitwear,Jumper in a soft knit with a slightly wider ne...,1.0,1.0,ACTIVE,Regularly,54.0,da2dffc9d9cb6a1449dae3835ecb74cdf826ba152df3a0...
4,2018-09-20,1320d4b3dd6481cde05bb80fb7ca37397f70470b9afb96...,501820043,0.016932,2,501820,SIRPA,252,Sweater,Garment Upper body,...,Divided Collection,1003,Knitwear,Jumper in a soft knit with a slightly wider ne...,1.0,1.0,ACTIVE,Regularly,54.0,da2dffc9d9cb6a1449dae3835ecb74cdf826ba152df3a0...


### 缺失信息的删除

在某些情况下，我们可能会选择删除包含缺失值的行或列。Pandas提供了`dropna()`方法来进行这样的操作。这个方法可以基于不同的标准来删除含有缺失值的行或列。

例如，删除`FN`或`Active`至少有一个缺失的行：

In [23]:
res = df.dropna(how='all', subset=['FN', 'Active'])
res.shape,df.shape

((33282, 35), (50724, 35))

## 缺失值的填充和插值

### 利用fillna进行填充

`fillna()`方法可以用来填充缺失值。这个方法的常用参数包括：`value`（填充值），`method`（填充方法，如`ffill`表示前向填充，`bfill`表示后向填充），以及`limit`（连续缺失值的最大填充次数）。

下面是使用`fillna()`的一些例子：

In [24]:
s = pd.Series([np.nan, 1, np.nan, np.nan, 2, np.nan], list('aaabcd'))
s

a    NaN
a    1.0
a    NaN
b    NaN
c    2.0
d    NaN
dtype: float64

In [25]:
s.fillna(method='ffill') # 用前面的值向后填充

a    NaN
a    1.0
a    1.0
b    1.0
c    2.0
d    2.0
dtype: float64

In [26]:
s.fillna(method='ffill', limit=1) # 连续出现的缺失，最多填充一次

a    NaN
a    1.0
a    1.0
b    NaN
c    2.0
d    2.0
dtype: float64

In [27]:
s.fillna(s.mean()) # 用平均值填充

a    1.5
a    1.0
a    1.5
b    1.5
c    2.0
d    1.5
dtype: float64

In [28]:
s.fillna(0) # 用0填充

a    0.0
a    1.0
a    0.0
b    0.0
c    2.0
d    0.0
dtype: float64

In [29]:
s.fillna({'a': 100, 'd': 200}) # 通过索引映射填充的值

a    100.0
a      1.0
a    100.0
b      NaN
c      2.0
d    200.0
dtype: float64

### 插值函数

#### 插值的基本概念

插值是一种数学方法，用于估算给定数据集中缺失值的过程。在`pandas`中，`interpolate`函数是处理缺失数据的强大工具，它支持多种插值方法。插值的核心思想是利用已知点之间的关系来估计未知点的值。

#### 常用的插值方法

1. **线性插值**：这是最常见的插值方法，简单且应用广泛。它假设两个已知点之间的值变化是线性的，即直线形式。在两个已知点之间，缺失的值将通过直线上的相应点来估计。
2. **最近邻插值**：这种方法将缺失值替换为距离最近的非缺失值。它不考虑周围值的模式或趋势，只是简单地“复制”最接近的有效数据。
3. **索引插值**：这种方法在插值时考虑索引的大小。它适用于索引本身就是有意义的数据，如时间序列数据。在这种情况下，插值不仅仅是基于数值的顺序，还考虑了索引值的变化。

#### 插值的实际应用

让我们通过一些具体的例子来理解这些插值方法的运行原理。

**线性插值示例**：

In [30]:
s = pd.Series([1, np.nan, np.nan, 10])
s

0     1.0
1     NaN
2     NaN
3    10.0
dtype: float64

In [31]:
s.interpolate()

0     1.0
1     4.0
2     7.0
3    10.0
dtype: float64

这里，我们有一个简单的序列，其中包含两个缺失值。使用线性插值，`pandas`会计算1和10之间的线性路径，并据此估计中间的缺失值。结果将是在1和10之间等间隔的数值。

**最近邻插值示例**：

In [32]:
s.interpolate(method='nearest')

0     1.0
1     1.0
2    10.0
3    10.0
dtype: float64

在这个例子中，缺失值将被最近的有效值替换。第一个缺失值靠近1，因此会被填充为1；第二个缺失值同样会被替换为1，因为它离1更近。

**索引插值示例**：

In [34]:
s = pd.Series([0, np.nan, 100], index=[0, 1, 10])
s

0       0.0
1       NaN
10    100.0
dtype: float64

In [35]:
s.interpolate(method='index')

0       0.0
1      10.0
10    100.0
dtype: float64

在这里，我们的索引是0、1和10。索引插值会根据索引的比例来确定缺失值。由于索引1在0和10之间，插值后的值将接近0。