# 4_欠損値の確認と処理
- データに欠損値（情報の歯抜け）があると分析に悪影響を及ぼします
- 分析の準備として欠損値に対する処理を行うことをデータクレンジングといいます

## ■写経

### ライブラリインポート（今回はPandasのみでOK）
- 表形式データを簡単に扱うためのPandasをプログラムにインポートします。インポートすることでPandasの機能が有効化されます

In [1]:
import pandas as pd

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


### データ読み込み（前章と同じ）
- Pandasの機能を使い、"train.csv"というデータをPythonコードで読み込み、Dataframeオブジェクトとして扱います

In [2]:
df = pd.read_csv(r"C:\Eiko Nakamizo\Teck０\index_files\train.csv")

In [3]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### データを見てみる（前章と同じ）
- head関数をつかって、先頭5行分のデータをダイジェスト表示します

In [4]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


### 各値が欠損値か否かの確認
- isnull関数は欠損値のBoolean判定（True or False）をする関数です
- 元データと同形のテーブルであり、値が入っていればFalse、欠損値であればTrueという値が入ります

In [5]:
df.isnull()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


### 各列で1つ以上欠損値があるかの確認
- 膨大な行数・列数のデータにおいてTrueを探すのは手間=>上記の結果に対してany関数をチェイン
- サクっと、「列ごとに1つでも欠損値がある？」という観点で確認します
- 全列において、1つでも欠損値があればTrue、全行データが入っていればFalseと表示されます

In [6]:
# 関数を連続して書くと、最初の関数の戻り値を次の関数の引数として自動的に渡します。このような記法はメソッドチェインといいます
df.isnull().any()

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

### 欠損値の個数の確認
- 欠損値の有無ではなく、個数を確認しましょう
- isnull関数に対してsum関数をチェインします

In [7]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### 欠損値処理（固定値で埋める）
- 欠損値は何等かの値で補完するか、欠損値を含む行そのものを削除するという対応をとる必要があります
- ここではまず、Cabin（客室番号）の欠損値を固定値"No-cabin"で補完します

In [11]:
# Cabinの欠損値を"No-cabin"で補完
df[["Cabin"]].fillna("No-cabin", inplace=True)
# 再度、isnull.anyでCabinを確認
df.isnull().any()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[["Cabin"]].fillna("No-cabin", inplace=True)


PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

### 欠損値処理（平均で埋める）
- 次に、Ageの欠損値をAgeの平均値で補完します

In [12]:
# まず、Ageの平均値を計算
age_mean = df["Age"].mean()
# 次にAgeの欠損値をage_meanにおきかえる
df["Age"].fillna(age_mean, inplace=True)
# 再度、isnull.anyでAgeを確認
df.isnull().any()

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["Age"].fillna(age_mean, inplace=True)


PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age            False
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

### 欠損値処理（消す）
- Embarkedについては欠損値が2個だけであり取り除いてもデータ量減少は微々たるものなので、消してしましましょう
- dropna関数を使います

In [13]:
# Embarkedの欠損値を削除
df.dropna(subset=["Embarked"], inplace=True)
# 再度、isnull.anyでEmbarkedを確認
df.isnull().any()

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age            False
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked       False
dtype: bool

### 最後に
- 上記であつかった欠損値処理は、わかりやすいシンプルなものだけです
- 他にも、分析精度をあげるためのリーズナブルで複雑な処理は考えられるので、文脈に応じて使い分けもしくは考案する必要があります。下記にキーワードのみ列挙します
  - 中央値補完
  - 前方補完・後方補完
  - 予測モデルによる補完
  - 最尤推定法
  - 多重代入法