# 3.5 处理缺失值

三种形式: null NaN NA

两种方式:

- 通过一个覆盖全局的掩码表示缺失值
- 用一个标签值表示缺失值

Pandas选择了用标签方法表示缺失值，包括 浮点数据的NaN 和 python的 None对象。

无论和NaN进行何种操作，最终结果都是NaN

Pandas中字符串类型的数据通常是用object类型存储的

Pandas不同类型缺失值的转换规则

| Typeclass  | Conversion When Storing NAs | NA Sentinel Value  |
|------------|-----------------------------|--------------------|
| `floating` | No change                   | `np.nan`           |
| `object`   | No change                   | `None` or `np.nan` |
| `integer`  | Cast to `float64`           | `np.nan`           |
| `boolean`  | Cast to `object`            | `None` or `np.nan` |


In [1]:
import numpy as np
import pandas as pd

vals1 = np.array([1, None, 3, 4])
print(vals1.dtype)

vals1

object


array([1, None, 3, 4], dtype=object)

In [2]:
vals2 = np.array([1, np.nan, 3, 4])
vals2.dtype

dtype('float64')

In [3]:
vals2.sum(), vals2.min(), vals2.max()

(nan, nan, nan)

In [4]:
# 忽略缺失值的影响
np.nansum(vals2), np.nanmin(vals2), np.nanmax(vals2)

(8.0, 1.0, 4.0)

In [5]:
"""
分组取最小

"""

# 创建一个示例数据集  
data = {
    'group': ['A', 'A', 'B', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6]
}

df = pd.DataFrame(data)
print(df)

# 分组并按值排序，然后取每组的第一个行  
result = df.sort_values('value').groupby('group').first().reset_index()

print(result)

  group  value
0     A      1
1     A      2
2     B      3
3     B      4
4     A      5
5     B      6
  group  value
0     A      1
1     B      3


## 3.5.3 处理缺失值

```
isnull 创建一个布尔类型的掩码标签缺失值, 一个掩码数组

notnull

dropda  剔除缺失值的数据

fillna: ffill和bfill 

```


In [6]:
data = pd.Series([1, np.nan, 'hello', None])

In [7]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [8]:
data[data.notnull()]

0        1
2    hello
dtype: object

In [9]:
df = pd.DataFrame([[1,      np.nan, 2],
                   [2,      3,      5],
                   [np.nan, 4,      6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [10]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


In [11]:
# 设置不同的坐标轴剔除缺失值

# df.dropna(axis=1)
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


In [12]:
df[3] = np.nan
print(df)

df.dropna(axis='columns', how='all')

     0    1  2   3
0  1.0  NaN  2 NaN
1  2.0  3.0  5 NaN
2  NaN  4.0  6 NaN


Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


In [13]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
print(data)
print(data.fillna(0))
print(data.fillna(method='ffill'))

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64
a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64
a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64
