## 欠測データへの対処

In [1]:
import pandas as pd
from io import StringIO

# sampledate create
csv_data = '''A,B,C,D
              1.0,2.0,3.0,4.0
              5.0,6.0,,8.0
              10.0,11.0,12.0'''

# Sampledata read
df = pd.read_csv(StringIO(csv_data))
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [2]:
# 各特徴量の欠測値をカウント
df.isnull().sum()

A    0
B    0
C    1
D    1
dtype: int64

scikit-learnはNumpyの配列に対応するように開発されたいるが、データの前処理においてはpandasのDataFrameクラスを使用するほうが便利なことがある。scikit-learnの推定器に入力される前のDataFrameオブジェクトはNumpyの配列である、values属性を使っていつでもアクセスできる。

#### データの処理においてはpandasのほうが便利な機能があるからだと思う。

In [3]:
df.values

array([[ 1.,  2.,  3.,  4.],
       [ 5.,  6., nan,  8.],
       [10., 11., 12., nan]])

## 欠測値をもつサンプル/特徴量を取り除く

In [4]:
# 欠測値を含む行を削除
df.dropna()

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0


In [5]:
# 欠測値を含む列を削除
df.dropna(axis=1)

Unnamed: 0,A,B
0,1.0,2.0
1,5.0,6.0
2,10.0,11.0


In [6]:
# すべて列がNaNである行だけ削除
df.dropna(how='all')

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [7]:
# 非NaN値が4つ未満の行を削除
print(df.dropna(thresh=4))

     A    B    C    D
0  1.0  2.0  3.0  4.0


In [8]:
# 特定の列に（この場合はC）にNaNが含まれている行だけ削除
print(df.dropna(subset=['C']))

      A     B     C    D
0   1.0   2.0   3.0  4.0
2  10.0  11.0  12.0  NaN


#### 有益な情報を削除しないよう注意！

## 欠測値を補完する。

In [9]:
from sklearn.preprocessing import Imputer

# 欠測値補完のインスタンスを生成(平均値補完）
imr = Imputer(missing_values='NaN',strategy='mean',axis=0)
# データを適合
imr = imr.fit(df.values)

# 補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

strategy引数 = 'median'(中央値)、'most_frequent'(最頻値)

## カテゴリデータの処理

In [15]:
import pandas as pd

# sample data create
df = pd.DataFrame([
    ['green','M',10.1,'class1'],
    ['red','L',13.5,'class2'],
    ['blue','XL',15.3,'class1']])

# 列名を設定
df.columns = ['color','size','price','classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class1
1,red,L,13.5,class2
2,blue,XL,15.3,class1


## 順序特徴量のマッピング

In [16]:
# Tシャツのサイズと整数を対応させるディクショナリを生成
size_mapping = {'XL':3,'L':2,'M':1}
# Tシャツのサイズを整数に変換
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [18]:
inv_size_mapping = {v:k for k,v in size_mapping.items()}
df['size'].map(inv_size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


## クラスラベルのエンコーディング

In [21]:
import numpy as np

# class labelと整数を対応させるディクショナリを生成
class_mapping = {label:idx for idx ,label in enumerate(np.unique(df['classlabel']))}
class_mapping

{'class1': 0, 'class2': 1}

In [22]:
df['classlabel'] = df['classlabel'].map(class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,0
1,red,2,13.5,1
2,blue,3,15.3,0


In [25]:
inv_class_mapping = { v:k for k,v in class_mapping.items()}
df['classlabel']= df['classlabel'].map(inv_class_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class1
1,red,2,13.5,class2
2,blue,3,15.3,class1


In [26]:
from sklearn.preprocessing import  LabelEncoder
# ラベルエンコーダのインスタンスを生成
class_le = LabelEncoder()
# クラスラベルから整数に変換
y = class_le.fit_transform(df['classlabel'])
y

array([0, 1, 0], dtype=int64)

In [27]:
# クラスラベルを元に戻す
class_le.inverse_transform(y)

  if diff:


array(['class1', 'class2', 'class1'], dtype=object)

## 名義特徴量でのone-hot エンコーディング

In [31]:
# Tシャツの色、サイズ、価格を抽出
X = df[['color','size','price']].values
color_le = LabelEncoder()
X[:,0] = color_le.fit_transform(X[:,0])
X

array([[1, 1, 10.1],
       [2, 2, 13.5],
       [0, 3, 15.3]], dtype=object)