### 欠損データへの対処

他のサンプルか特徴量で欠損値を保管する。<br>

### 表形式のデータで欠損値を特定

In [9]:
import pandas as pd
from io import StringIO


# サンプルデータを作成
csv_data = '''A, B, C, D
1.0, 2.0, 3.0, 4.0
5.0, 6.0,, 8.0
10.0, 11.0, 12.0,'''

In [10]:
df = pd.read_csv(StringIO(csv_data))

In [11]:
df

Unnamed: 0,A,B,C,D
0,1.0,2.0,3.0,4.0
1,5.0,6.0,,8.0
2,10.0,11.0,12.0,


In [12]:
df.isnull().sum()

A     0
 B    0
 C    1
 D    1
dtype: int64

### 欠損値の補完

平均値補完。

In [14]:
from sklearn.preprocessing import Imputer
# 欠損値補完のインスタンスを作成(列)
imr = Imputer(missing_values='NaN', strategy='mean',axis=0)
# データを適合
imr = imr.fit(df.values)
# 補完を実行
imputed_data = imr.transform(df.values)
imputed_data

array([[ 1. ,  2. ,  3. ,  4. ],
       [ 5. ,  6. ,  7.5,  8. ],
       [10. , 11. , 12. ,  6. ]])

### カテゴリデータの処理

数値データだけでなく、カテゴリ値の特徴量の対処について<br>

### 名義特徴量と順序特徴量

Tシャツの例<br>
順序特徴量 : XL > L > M<br>
名義特徴量 : 赤, 青, 黄<br>

### サンプルデータセットの作成

In [15]:
import pandas as pd
df = pd.DataFrame([['green', 'M', 10.1, 'class2'],
                   ['red', 'L', 13.5, 'class1'],
                   ['blue', 'XL', 15.3, 'class2']])

df.columns = ['color', 'size', 'price', 'classlabel']
df

Unnamed: 0,color,size,price,classlabel
0,green,M,10.1,class2
1,red,L,13.5,class1
2,blue,XL,15.3,class2


### 順序特徴量のマッピング

In [16]:

size_mapping = {'XL':3, 'L':2, 'M':1}
df['size'] = df['size'].map(size_mapping)
df

Unnamed: 0,color,size,price,classlabel
0,green,1,10.1,class2
1,red,2,13.5,class1
2,blue,3,15.3,class2
