# 欠損値への対応

In [5]:
import numpy as np
import pandas as pd
# サンプルのデータセットを作成
df = pd.DataFrame(
    {
        "A": [1, np.nan, 3, 4, 5],
        "B": [6, 7, 8, np.nan, 10],
        "C": [11, 12, 13, 14, 15]
    }
)
df

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,,7.0,12
2,3.0,8.0,13
3,4.0,,14
4,5.0,10.0,15


In [6]:
# 各要素が欠損値かどうかを確かめる
df.isnull()

Unnamed: 0,A,B,C
0,False,False,False
1,True,False,False
2,False,False,False
3,False,True,False
4,False,False,False


### 欠損値の除去

In [21]:
# 欠損値の存在する行を除去する
df.dropna(axis=0)
# df.dropna()

Unnamed: 0,A,B,C
0,1.0,6.0,11
2,3.0,8.0,13
4,5.0,10.0,15


In [12]:
# 欠損値の存在する列を除去する
df.dropna(axis=1)

Unnamed: 0,C
0,11
1,12
2,13
3,14
4,15


### 欠損値の補完

In [18]:
# 欠測値に0を代入
df.fillna(0) 

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,0.0,7.0,12
2,3.0,8.0,13
3,4.0,0.0,14
4,5.0,10.0,15


In [14]:
# 直前の値を使って代入
df.ffill() 

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,1.0,7.0,12
2,3.0,8.0,13
3,4.0,8.0,14
4,5.0,10.0,15


In [15]:
# 全ての列の欠損値を各列の平均値で代入
df.fillna(df.mean()) 

Unnamed: 0,A,B,C
0,1.0,6.0,11
1,3.25,7.0,12
2,3.0,8.0,13
3,4.0,7.75,14
4,5.0,10.0,15


In [16]:
from sklearn.impute import SimpleImputer
# 平均値で欠損値を補完するインスタンスを作成する
imp = SimpleImputer(strategy="mean")
# 欠損値を補完
imp.fit(df)
imp.transform(df)

array([[ 1.  ,  6.  , 11.  ],
       [ 3.25,  7.  , 12.  ],
       [ 3.  ,  8.  , 13.  ],
       [ 4.  ,  7.75, 14.  ],
       [ 5.  , 10.  , 15.  ]])

## カテゴリ変数のエンコーディング

In [22]:
import pandas as pd
df = pd.DataFrame(
    {
        "A": [1, 2, 3, 4, 5],
        "B": ["a", "b", "a", "b", "c"]
    }
)
df

Unnamed: 0,A,B
0,1,a
1,2,b
2,3,a
3,4,b
4,5,c


In [23]:
from sklearn.preprocessing import LabelEncoder
# ラベルエンコーダのインスタンスを生成
le = LabelEncoder()
# ラベルのエンコーディング
le.fit(df.loc[:, "B"])
le.transform(df.loc[:, "B"])

array([0, 1, 0, 1, 2])

### One-hotエンコーディング


In [None]:
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# カテゴリエンコード→One-hotエンコーディングの順番

# DataFrameをコピー
df_ohe = df.copy()
# ラベルエンコーダのインスタンス化
le = LabelEncoder()
# 英語のa、b、cを1、2、3に変換
df_ohe.loc[:, "B"] = le.fit_transform(df_ohe.loc[:, "B"])
# One-hotエンコーダのインスタンス化
ohe = ColumnTransformer([("OneHotEncoder",
                          OneHotEncoder(), [1])],
                          remainder = "passthrough") # その他の列はそのまま返すこの場合は[1]で指定した列のみをOne-hotエンコーディングする
# One-hotエンコーディング
df_ohe = ohe.fit_transform(df_ohe)
df_ohe

array([[1., 0., 0., 1.],
       [0., 1., 0., 2.],
       [1., 0., 0., 3.],
       [0., 1., 0., 4.],
       [0., 0., 1., 5.]])