# 欠損値を穴埋めする関数を作成

## 条件

- 欠損箇所を埋める既定値には列ごとにある
- データはintとflortの場合がある
- 列内のNoneのところだけに穴埋め処理し、他は影響なし
- 空文字はNone扱い
- 既定値の値もデータ型もそのまま変えずに穴埋め
- 穴埋めの既定値を基本的にint型として、float型で穴埋めしたい列名を引数でリスト形式で指定できる

## 困りごと

pd.fillna(var)を使うと、以下の機能が実現できない。

- 欠損値を既定値で埋めるけど、他の値のデータ型は壊したくない。
- 列ごとに別の値で埋めたい。
- NaNは無視したい。




## 処理の流れ

1. データ型を保持しておくデータフレームを作成
2. データをNoneにのみ代入（NaNは無視）
3. データ型が代入した値に応じて列ごとに変化してしまうので、元の型に戻す

## 入力

In [4]:
# 欠損値の穴埋め
import numpy as np
import pandas as pd
input_dfm = pd.DataFrame(
    [
    {"hash":10,"age":28,"wt":56.1},
    {"hash":20,"age":None,"wt":None},
    {"hash":30,"age":'',"wt":''},
    {"hash":40,"name":33,"wt":100}
    ],columns=["hash","age","wt"]
)

input_dfm



Unnamed: 0,hash,age,wt
0,10,28.0,56.1
1,20,,
2,30,,
3,40,,100.0


### 各データのデータ型を確認

In [7]:
# 1. データ型を保持しておくデータフレームを作成
input_dfm_type = input_dfm.copy()

# データ型で置き代えるラムダ式
# set_type = lambda x: type(x)
def get_type(val):
    return type(val)

input_dfm_type = input_dfm_type.applymap(get_type)

input_dfm_type

Unnamed: 0,hash,age,wt
0,<class 'int'>,<class 'int'>,<class 'float'>
1,<class 'int'>,<class 'NoneType'>,<class 'NoneType'>
2,<class 'int'>,<class 'NoneType'>,<class 'NoneType'>
3,<class 'int'>,<class 'float'>,<class 'int'>


## 関数による処理

In [6]:
# 既定値を設定
AGE_DEFAULT = 99 # int型
WT_DEFAULT = 99.9 # float型

### データ型を変えずに穴埋め

現在、試行錯誤中

保持しておいたデータ型を適用しようとしてもうまくいかない→要素に代入を行うと列ごとにデータ型の制約がかかる？

In [None]:
# 試行錯誤中

# 2. データ型を確認し、'NoneType'の場合のみ代入

DEFAULT = AGE_DEFAULT

def set_default(val):
    if isinstance(val, type(None)):
        return DEFAULT
    else:
        return val    
    
    
dfm['age'] = dfm['age'].map(set_default)

# 3. 保持しておいたデータ型を適用
# うまくいかない→列ごとに制約がかかっている…？
for i in range(len(dfm)):
    pre_type = dfm_type['age'][i]
    if pre_type == type(None):
        if isinstance(AGE_DEFAULT, int):
            dfm['age'][i] = int(dfm['age'][i])
        elif isinstance(AGE_DEFAULT, float):
            dfm['age'][i] = float(dfm['age'][i])
    elif pre_type == int:
        dfm['age'][i] = int(dfm['age'][i])
    elif pre_type == float:
        dfm['age'][i] = float(dfm['age'][i])

dfm

## 出力

欠損値の穴埋め後のイメージ

|hash|age|wt|
|:-----------|:------------|:------------|
|10|28|56.1|
|20|99|99.9|
|30|99|99.9|
|40|NaN|100|

|hash|age|wt|
|:-----------|:------------|:------------|
|<class 'int'>|<class 'int'>|<class 'float'>|
|<class 'int'>|<class 'int'>|<class 'float'>|
|<class 'int'>|<class 'int'>|<class 'float'>|
|<class 'int'>|<class 'float'>|<class 'int'>|