欠損値のメカニズム<br>
"無視可能" or "無視不可能”<br>
無視可能とは「欠損データの解析結果ともし欠損していなかった場合の<br>
完全なデータの解析結果との間に違いがない」ことを言います。

1. MCAR(完全ランダム欠損値)(無視可能)
    → 完全にランダムに生じる欠損
2. MAR(観測データ依存ランダム欠損値)
    → 特定の特徴量だけが欠損
    → 例)女性は男性より体重を教えない確率が高い=男女で欠損確率が変わる
        だが、女性だけに絞ると欠損はランダムである
3. MNAR(欠損データ依存欠損値)
    → 元々データとして収集されていない欠損値(データがない)
    → 例)体重が重い人ほど体重を測りたくない→体重によって欠損確率が変わる
    欠損変数自体に依存している

In [1]:
from typing import List, Union

import numpy as np
import pandas as pd
import xgboost as xgb
from IPython.core.display import display

  from IPython.core.display import display


In [49]:
df = pd.read_csv(
    "https://raw.githubusercontent.com/nkmk/python-snippets/217ee1c1fde5d816726f083185036af252a39647/notebook/data/src/sample_pandas_normal_nan.csv"
)
df

Unnamed: 0,name,age,state,point,other
0,Alice,24.0,NY,,
1,,,,,
2,Charlie,,CA,,
3,Dave,68.0,TX,70.0,
4,Ellen,,CA,88.0,
5,Frank,30.0,,,


In [50]:
df = df.drop("other", axis=1)
df

Unnamed: 0,name,age,state,point
0,Alice,24.0,NY,
1,,,,
2,Charlie,,CA,
3,Dave,68.0,TX,70.0
4,Ellen,,CA,88.0
5,Frank,30.0,,


## 欠損値に対するアプローチ
***
1. 欠損値の除去
2. 代入法
3. 不完全データとして尤度を記述
***

## 欠損値除去
- リストワイズ除去
    - 欠損があるリストを削除
- ペアワイズ除去
    - 変数のいずれかに欠損があるリストだけをその計算から削除

In [51]:
listwise_df = df.copy()
print(listwise_df)

      name   age state  point
0    Alice  24.0    NY    NaN
1      NaN   NaN   NaN    NaN
2  Charlie   NaN    CA    NaN
3     Dave  68.0    TX   70.0
4    Ellen   NaN    CA   88.0
5    Frank  30.0   NaN    NaN


In [52]:
listwise_df = listwise_df.dropna(how="any")
listwise_df

Unnamed: 0,name,age,state,point
3,Dave,68.0,TX,70.0


## 代入法

1. 平均値
2. 最頻値
3. 中央値

In [53]:
df_mean = df.copy()
# 各特徴量の平均, 文字はスキップ
df_mean.fillna(df_mean.mean(), inplace=True)
df_mean

  df_mean.fillna(df_mean.mean(), inplace=True)


Unnamed: 0,name,age,state,point
0,Alice,24.0,NY,79.0
1,,40.666667,,79.0
2,Charlie,40.666667,CA,79.0
3,Dave,68.0,TX,70.0
4,Ellen,40.666667,CA,88.0
5,Frank,30.0,,79.0


In [55]:
df_median = df.copy()
df_median.fillna(df_median.median(), inplace=True)
df_median

  df_median.fillna(df_median.median(),inplace=True)


Unnamed: 0,name,age,state,point
0,Alice,24.0,NY,79.0
1,,30.0,,79.0
2,Charlie,30.0,CA,79.0
3,Dave,68.0,TX,70.0
4,Ellen,30.0,CA,88.0
5,Frank,30.0,,79.0


In [58]:
df

Unnamed: 0,name,age,state,point
0,Alice,24.0,NY,
1,,,,
2,Charlie,,CA,
3,Dave,68.0,TX,70.0
4,Ellen,,CA,88.0
5,Frank,30.0,,


In [59]:
df_mode = df.copy()
df_mode.fillna(df_mode.mode().iloc[0], inplace=True)
df_mode

Unnamed: 0,name,age,state,point
0,Alice,24.0,NY,70.0
1,Alice,24.0,CA,70.0
2,Charlie,24.0,CA,70.0
3,Dave,68.0,TX,70.0
4,Ellen,24.0,CA,88.0
5,Frank,30.0,CA,70.0


4. 回帰代入(MARの必要がある)<br>
欠損が生じていない標本を用いて、欠損している項目を目的変数、<br>
観測されている項目を説明変数とする回帰モデルを用いる。

5. 比率代入<br>
![スクリーンショット 2023-01-03 12.58.21.png](attachment:b30186c1-85eb-4bda-a885-c76113a0642a.png)

6. ホットデック法
- 同じデータセットの中で類似したデータと同じ値を代入する
- 標本間の距離を定義して、欠損がある標本に近い標本をお手本とする
    - LOF
    - ユークリッド距離
    - マハラノビス距離

7. LOCF
- 欠損が発生している標本について直近の観測値を代入する
- 欠損以降での伸び率を計算して直近の値との積を代入する

8. 多重代入法(MICE)<br>
![スクリーンショット 2023-01-03 13.09.45.png](attachment:11867611-7bdd-4a1f-81d4-a949bfa03d3c.png)