In [1]:
# データ代入
import pandas as pd
import numpy as np

columns = ['Name', 'English', 'Mathematics', 'Japanese']
data = [['kawasaki', 71, 84, 81 ],
             ['fujisawa', 70, 77, 73 ],
             ['kikukawa', 60, 68, 56 ],
             ['kanaya', np.NaN, 89, 72],
             ['takatsuka', 18, 93, 87 ],
             ['totsuka', 56, 73, np.NaN],
             ['okazaki', 86, 71, 94],
             ['ogaki', 99, 74, np.NaN],
             ['mishima', 79, 71, 86],
             ['oofuna', 50, 62, 53],
             ['oiso', 40, 71, 37],
             ['ninomiya', 68, 53, 49],
             ['hayakawa', 83, np.NaN, 39],
             ['toyohashi', 72, 15, 88],
            ]
train = pd.DataFrame(data, columns=columns)

In [2]:
# データ確認
train

Unnamed: 0,Name,English,Mathematics,Japanese
0,kawasaki,71.0,84.0,81.0
1,fujisawa,70.0,77.0,73.0
2,kikukawa,60.0,68.0,56.0
3,kanaya,,89.0,72.0
4,takatsuka,18.0,93.0,87.0
5,totsuka,56.0,73.0,
6,okazaki,86.0,71.0,94.0
7,ogaki,99.0,74.0,
8,mishima,79.0,71.0,86.0
9,oofuna,50.0,62.0,53.0


In [3]:
# trainのデータ数を確認
len(train.index)

14

In [4]:
# 値がNullの項目数を数える
train.isnull().sum()

Name           0
English        1
Mathematics    1
Japanese       2
dtype: int64

In [5]:
# リストワイズ削除
#　指定された変数の少なくとも１つに欠損値がある場合、分析から除く
train.dropna()

Unnamed: 0,Name,English,Mathematics,Japanese
0,kawasaki,71.0,84.0,81.0
1,fujisawa,70.0,77.0,73.0
2,kikukawa,60.0,68.0,56.0
4,takatsuka,18.0,93.0,87.0
6,okazaki,86.0,71.0,94.0
8,mishima,79.0,71.0,86.0
9,oofuna,50.0,62.0,53.0
10,oiso,40.0,71.0,37.0
11,ninomiya,68.0,53.0,49.0
13,toyohashi,72.0,15.0,88.0


In [6]:
# リストワイズ削除後のデータ数
len(train.dropna().index)

10

In [7]:
# ペアワイズ削除
# 英語と数学を分析したい場合、国語の欠損はあっても良いので、
# 英語と数学のいずれかに欠損値がある場合のみ削除する
train[train.English.notna() & train.Mathematics.notna()]

Unnamed: 0,Name,English,Mathematics,Japanese
0,kawasaki,71.0,84.0,81.0
1,fujisawa,70.0,77.0,73.0
2,kikukawa,60.0,68.0,56.0
4,takatsuka,18.0,93.0,87.0
5,totsuka,56.0,73.0,
6,okazaki,86.0,71.0,94.0
7,ogaki,99.0,74.0,
8,mishima,79.0,71.0,86.0
9,oofuna,50.0,62.0,53.0
10,oiso,40.0,71.0,37.0


In [8]:
# 平均値代入
# 国語の欠損値には、その他の値の平均値を代入してみる（最頻値や中央値でも良い）
train.Japanese = train.Japanese.fillna(train.Japanese.mean())

In [9]:
train

Unnamed: 0,Name,English,Mathematics,Japanese
0,kawasaki,71.0,84.0,81.0
1,fujisawa,70.0,77.0,73.0
2,kikukawa,60.0,68.0,56.0
3,kanaya,,89.0,72.0
4,takatsuka,18.0,93.0,87.0
5,totsuka,56.0,73.0,67.916667
6,okazaki,86.0,71.0,94.0
7,ogaki,99.0,74.0,67.916667
8,mishima,79.0,71.0,86.0
9,oofuna,50.0,62.0,53.0


In [10]:
# 平均値代入（Imputer）
from sklearn.preprocessing import Imputer

# Nameカラムを除去
train_dropped_name = train.drop('Name', axis=1)
print(train_dropped_name)
# 変換モデルImputerに対し、欠損値NaNを平均値（mean）に変換することを明示
imp = Imputer(missing_values='NaN',strategy='mean')
# モデルImpurterに欠損値を含んぬデータを学習させる
imp.fit(train_dropped_name)
# 欠損値を平均値に置き換える
new_train = pd.DataFrame(imp.transform(train_dropped_name),columns=train_dropped_name.columns)
print(new_train)

    English  Mathematics   Japanese
0      71.0         84.0  81.000000
1      70.0         77.0  73.000000
2      60.0         68.0  56.000000
3       NaN         89.0  72.000000
4      18.0         93.0  87.000000
5      56.0         73.0  67.916667
6      86.0         71.0  94.000000
7      99.0         74.0  67.916667
8      79.0         71.0  86.000000
9      50.0         62.0  53.000000
10     40.0         71.0  37.000000
11     68.0         53.0  49.000000
12     83.0          NaN  39.000000
13     72.0         15.0  88.000000
      English  Mathematics   Japanese
0   71.000000    84.000000  81.000000
1   70.000000    77.000000  73.000000
2   60.000000    68.000000  56.000000
3   65.538462    89.000000  72.000000
4   18.000000    93.000000  87.000000
5   56.000000    73.000000  67.916667
6   86.000000    71.000000  94.000000
7   99.000000    74.000000  67.916667
8   79.000000    71.000000  86.000000
9   50.000000    62.000000  53.000000
10  40.000000    71.000000  37.000000
11  



In [11]:
# 回帰代入法
reg_train = train.copy()

# 線形回帰、英語のスコアから日本語のスコアを予想する。
# 英語のスコアと日本語のスコアには相関があると仮定する。
import sklearn.linear_model as lm
reg = lm.LinearRegression()

# 英語と日本語のスコアが両方あるデータから回帰モデルを作成
indexer = reg_train['Japanese'].notna() & reg_train['English'].notna()
reg_data = reg_train.loc[indexer]
X = reg_data.loc[:, ['English']]
Y = reg_data['Japanese']
# 英語と日本語のスコアを学習させる
reg.fit(X,Y)

# 英語のスコアがあるデータから日本語のスコアを埋める
indexer = reg_train['Japanese'].isnull() & reg_train['English'].notna()
reg_data = reg_train.loc[indexer]
X = reg_data.loc[:, ['English']]
if(len(X)!=0):
  predicted = reg.predict(X)
  reg_train.loc[indexer, 'Japanese'] = predicted

reg_train

Unnamed: 0,Name,English,Mathematics,Japanese
0,kawasaki,71.0,84.0,81.0
1,fujisawa,70.0,77.0,73.0
2,kikukawa,60.0,68.0,56.0
3,kanaya,,89.0,72.0
4,takatsuka,18.0,93.0,87.0
5,totsuka,56.0,73.0,67.916667
6,okazaki,86.0,71.0,94.0
7,ogaki,99.0,74.0,67.916667
8,mishima,79.0,71.0,86.0
9,oofuna,50.0,62.0,53.0


In [None]:
#fancyimputeは行列補完アルゴリズム・補完アルゴリズムのライブラリ
#fancyimputeがなければインストール
#!pip install fancyimpute
from fancyimpute import KNN
KNN(k=3).complete(train.drop(columns='Name'))