# 欠損値の取り扱い

In [74]:
from io import StringIO
import pandas as pd
import numpy as np

In [75]:
# サンプルデータ作成
csv_data = '''A,B,C,D
              1.0,2.0,3.0,4.0
              5.0,6.0,,8.0
              10.0,11.0,12.0,'''

In [76]:
StringIO(csv_data)

<_io.StringIO at 0x2f3e681d8b8>

In [77]:
# csv_data = unicode(csv_data)
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


# 各カラムのNaNの個数をカウント

In [78]:
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

# 欠損値を除去

In [79]:
# 1つでも欠損値を含む行削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [80]:
# 1つでも欠損値を持つ列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [81]:
# すべての列がNaNの行を削除
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [82]:
# 非NaN値が4つ未満の行を削除
df.dropna(thresh=4)

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [83]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [84]:
# 特定の列がNaNを含む行を削除
df.dropna(subset=['C'])

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
2,10.0,11.0,12.0,


In [85]:
df.columns

Index(['A', 'B', 'C', 'D'], dtype='object')

# 欠損値補完

In [86]:
# 平均値補完
from sklearn.preprocessing import Imputer
from sklearn.impute import SimpleImputer
# 欠損値補完のインスタンス生成（平均値補完）
# imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imr = SimpleImputer(missing_values=np.nan, strategy='mean')
# データを適合
imr = imr.fit(df.values)
# 補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

# カテゴリデータの処理

In [87]:
df = pd.DataFrame([
    ['green', 'M', 10.1, 'class1'],
    ['red', 'L', 13.5, 'class2'],
    ['ble', 'XL', 15.3, 'class1']])
df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,ble,XL,15.3,class1


# 順序特徴量のマッピング

In [88]:
# サイズと整数を対応させるディクショナリ
size_mapping = {'XL':3, 'L':2, 'M':1}
# サイズを整数へ変換
df['size'] = df['size'].map(size_mapping)

In [89]:
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,ble,3,15.3,class1


In [69]:
# 逆にマッピング
inv_size_mapping = {v:k for k, v in size_mapping.items()}
df['size'] = df['size'].map(inv_size_mapping)

In [70]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,ble,XL,15.3,class1


# クラスラベルのエンコーディング

In [71]:
# マッピング用ディクショナリ作成
class_mapping = {label:idx for idx, label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [72]:
# クラスラベルを整数に変換
df['classlabel'] = df['classlabel'].map(class_mapping)

In [73]:
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,0
1,red,L,13.5,1
2,ble,XL,15.3,0


In [43]:
inv_class_mapping = {v:k for k, v in class_mapping.items()}
df['classlabel'] = df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,ble,XL,15.3,class1


In [46]:
from sklearn.preprocessing import LabelEncoder
# ラベルエンコーダのインスタンス生成
class_le = LabelEncoder()
# クラスラベルを整数へ変換
y = class_le.fit_transform(df['classlabel'].values)
y

array([0, 1, 0])

In [48]:
# クラスラベルを文字列に戻す
class_le.inverse_transform(y)

array(['class1', 'class2', 'class1'], dtype=object)

# 名義特徴量でのone-hotエンコーディング

In [101]:
from sklearn.preprocessing import OneHotEncoder
# one-hotエンコーダの生成
ohe = OneHotEncoder(categorical_features=[0])
# one-hotエンコーディングを実行
X = df[['color', 'size', 'price']].values
color_le = LabelEncoder()
X[:, 0] = color_le.fit_transform(X[:, 0])
print(X)
ohe.fit_transform(X).toarray()

[[1 1 10.1]
 [2 2 13.5]
 [0 3 15.3]]


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[ 0. ,  1. ,  0. ,  1. , 10.1],
       [ 0. ,  0. ,  1. ,  2. , 13.5],
       [ 1. ,  0. ,  0. ,  3. , 15.3]])

In [102]:
from sklearn.compose import ColumnTransformer
ct = ColumnTransformer([("category", OneHotEncoder(), [0])], remainder="passthrough")
ct.fit_transform(X)

In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


array([[0.0, 1.0, 0.0, 1, 10.1],
       [0.0, 0.0, 1.0, 2, 13.5],
       [1.0, 0.0, 0.0, 3, 15.3]], dtype=object)

In [104]:
pd.get_dummies(df[['price', 'color', 'size']])

Unnamed: 0,price,size,color_ble,color_green,color_red
0,10.1,1,0,1,0
1,13.5,2,0,0,1
2,15.3,3,1,0,0


In [105]:
pd.get_dummies(df[['price', 'color', 'size']], drop_first=True)

Unnamed: 0,price,size,color_green,color_red
0,10.1,1,1,0
1,13.5,2,0,1
2,15.3,3,0,0
