## 6.4 欠損データの取り扱い

### 6.4.2 欠損値データの調査

In [1]:
import pandas as pd
import numpy as np

pd.set_option('display.notebook_repr_html', False)

null_data = pd.DataFrame({'number':[1, 2, np.nan, 4 ],
                          'obj':['pandas', None, pd.NA, None]})
null_data

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [2]:
# 欠損値データのブールマスク
null_data.isna()

   number    obj
0   False  False
1   False   True
2    True   True
3   False   True

In [2]:
# isna()とisnull()メソッドが同じであることを確認
null_data.isna().equals(null_data.isnull())

True

In [3]:
# 欠損値でないデータのブールマスク
null_data.notnull()

   number    obj
0    True   True
1    True  False
2   False  False
3    True  False

### 6.4.3 欠損値データの抽出

In [4]:
# 反対にobj列の欠損値の行だけをスライスで抽出
null_data[ null_data['obj'].isnull() ]

   number   obj
1     2.0  None
2     NaN  <NA>
3     4.0  None

In [5]:
# obj列の欠損値ではない行だけをスライスで抽出
null_data[ null_data['obj'].notnull() ]

   number     obj
0     1.0  pandas

### 6.4.4 欠損値の集計

In [6]:
# 欠損値の集計
null_data.isna().sum()

number    1
obj       3
dtype: int64

In [7]:
# 欠損値の総数
null_data.isna().sum().sum()

4

In [8]:
# 列別欠損値ではない要素の数
null_data.count()

number    3
obj       1
dtype: int64

In [9]:
# 欠損値ではない要素の総数
null_data.count().sum()

4

### 6.4.5 欠損値を特定の値で埋める

In [10]:
# 欠損値を 「LOVE」で埋める
null_data.fillna('LOVE')

  number     obj
0    1.0  pandas
1    2.0    LOVE
2   LOVE    LOVE
3    4.0    LOVE

In [11]:
# 欠損値を「0」で埋める
null_data.fillna(0)

   number     obj
0     1.0  pandas
1     2.0       0
2     0.0       0
3     4.0       0

In [12]:
# 「直前の値」で埋める
null_data.pad()

   number     obj
0     1.0  pandas
1     2.0  pandas
2     2.0  pandas
3     4.0  pandas

In [13]:
null_data.fillna(method='ffill')

   number     obj
0     1.0  pandas
1     2.0  pandas
2     2.0  pandas
3     4.0  pandas

In [14]:
# 「直後の値」で埋める
null_data.backfill()


   number     obj
0     1.0  pandas
1     2.0    None
2     4.0    None
3     4.0    None

In [15]:
null_data.fillna(method='bfill')

   number     obj
0     1.0  pandas
1     2.0    None
2     4.0    None
3     4.0    None

In [16]:
# 欠損値を「平均値」で埋める
null_data['number'].fillna(null_data['number'].mean())

0    1.000000
1    2.000000
2    2.333333
3    4.000000
Name: number, dtype: float64

In [17]:
# 欠損値を「最大値」で埋める
null_data['number'].fillna(null_data['number'].max())

0    1.0
1    2.0
2    4.0
3    4.0
Name: number, dtype: float64

In [29]:
null_data

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [18]:
null_data.interpolate()

   number     obj
0     1.0  pandas
1     2.0    None
2     3.0    <NA>
3     4.0    None

In [19]:
# 辞書を用いて列ごとに異なる値で補間する
NA_val = {'number': 11, 'obj':'python'}
null_data.fillna(NA_val)

   number     obj
0     1.0  pandas
1     2.0  python
2    11.0  python
3     4.0  python

### 6.4.6 欠損値データの処理

In [20]:
null_data

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [21]:
null_data2 = pd.DataFrame({'number':[0, np.nan, 2, 2 ],
                           'obj':['pandas', None, pd.NA, None]})
null_data2

   number     obj
0     0.0  pandas
1     NaN    None
2     2.0    <NA>
3     2.0    None

In [22]:
null_data.add(null_data2)

   number           obj
0     1.0  pandaspandas
1     NaN           NaN
2     NaN           NaN
3     6.0           NaN

In [23]:
null_data.add(null_data2, fill_value=0)

   number           obj
0     1.0  pandaspandas
1     2.0           NaN
2     2.0           NaN
3     6.0           NaN

### 6.4.7 欠損値の削除

In [24]:
null_data3 = pd.DataFrame({'number':[1, 2, np.nan, 4 ],
                           'obj':['pandas', None, pd.NA, None],
                           'opt':[None, None, None, None]})
null_data3

   number     obj   opt
0     1.0  pandas  None
1     2.0    None  None
2     NaN    <NA>  None
3     4.0    None  None

In [25]:
null_data3.dropna()

Empty DataFrame
Columns: [number, obj, opt]
Index: []

In [26]:
null_data3.dropna(axis=1, how='all')

   number     obj
0     1.0  pandas
1     2.0    None
2     NaN    <NA>
3     4.0    None

In [27]:
# 正常なデータが２つ以上の行のみ残し、その他は削除
null_data3.dropna(thresh=2)

   number     obj   opt
0     1.0  pandas  None

In [28]:
# 列名で列を指定
null_data3.dropna(subset=['obj'])

   number     obj   opt
0     1.0  pandas  None