欠損値処理

欠損値とは「　　NaN　　」であらわされる、データが存在しない項目のこと。

欠損値が入ったまま計算を行うと結果に狂いが生じることがあるため、正しい値で欠損値を「　　補完　　」する必要がある。

In [1]:
# pandas のインポート
import pandas as pd

# vgsales.csvを読み込み、df という変数に格納する。
df = pd.read_csv("vgsales.csv")

# dfの先頭から10行を表示する
df.head(10)

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1,Wii Sports,Wii,2006,Sports,,41.49,29.02,3.77,8.46,82.74
1,2,Super Mario Bros.,NES,1985,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24
2,3,Mario Kart Wii,Wii,2008,Racing,,15.85,12.88,3.79,3.31,35.82
3,4,Wii Sports Resort,Wii,2009,Sports,Nintendo,15.75,11.01,3.28,2.96,33.0
4,5,Pokemon Red/Pokemon Blue,GB,1996,Role-Playing,,11.27,8.89,10.22,1.0,31.37
5,6,Tetris,GB,1989,Puzzle,Nintendo,23.2,2.26,4.22,0.58,30.26
6,7,New Super Mario Bros.,DS,2006,Platform,Nintendo,11.38,9.23,6.5,2.9,30.01
7,8,Wii Play,Wii,2006,Misc,Nintendo,14.03,9.2,2.93,2.85,29.02
8,9,New Super Mario Bros. Wii,Wii,2009,Platform,Nintendo,14.59,7.06,4.7,2.26,28.62
9,10,Duck Hunt,NES,1984,Shooter,Nintendo,26.93,0.63,0.28,0.47,28.31


In [2]:
# 覚える！
# 欠損値の有無を確認する
# null == NaNと考える
# データをひとつひとつ確認して、NaNならTrue、値が入っていればFalseと表示する
df.isnull()

Unnamed: 0,Rank,Name,Platform,Year,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,False,False,False,False,False,True,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,True,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,True,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
16593,False,False,False,False,False,False,False,False,False,False,False
16594,False,False,False,False,False,False,False,False,False,False,False
16595,False,False,False,False,False,False,False,False,False,False,False
16596,False,False,False,False,False,False,False,False,False,False,False


In [None]:
#  覚える！！！！
# 各列ごとのNanの数を求める
df.isnull().sum()

Rank              0
Name              0
Platform          3
Year            271
Genre             0
Publisher        62
NA_Sales          1
EU_Sales          0
JP_Sales          6
Other_Sales       1
Global_Sales      2
dtype: int64

In [10]:
# P165 fillnaメソッドを使って、すべての欠損値を 0 で補完し、df2 という変数に格納しましょう。
df2 = df.copy()

df2 = df.fillna(0)

# df2の各列ごとのNanの数を表示する
df2.isnull().sum()

Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       0
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

In [9]:
# P165 fillnaメソッドを使って、すべての欠損値をひとつ前のデータで補完し、df3 という変数に格納しましょう。
df3 = df.copy()

df3 = df.fillna(method="ffill")

# df3の各列ごとのNanの数を表示する
df3.isnull().sum()

Rank            0
Name            0
Platform        0
Year            0
Genre           0
Publisher       1
NA_Sales        0
EU_Sales        0
JP_Sales        0
Other_Sales     0
Global_Sales    0
dtype: int64

In [None]:
# 考えてみよう
# なぜ Publisher のデータに欠損値が残っているでしょう？？
# 先頭がNaNのときには「ffill」を使ってはいけない

In [8]:
# やり方をおぼえる！！！
# P166 fillnaメソッドを使って、[JP_Sales]の欠損値を中央値で補完し、df4 という変数に格納しましょう。
# 特定の列のみを対象にする方法
df4 = df.copy()

df4['JP_Sales'] = df4.fillna(df4['JP_Sales'].median())

# df4の各列ごとのNanの数を表示する
df4.isnull().sum()

Rank              0
Name              0
Platform          3
Year            271
Genre             0
Publisher        62
NA_Sales          1
EU_Sales          0
JP_Sales          0
Other_Sales       1
Global_Sales      2
dtype: int64

In [13]:
# fillnaメソッドを使って、[Publisher]の欠損値を最頻値で補完し、df5 という変数に格納しましょう。
df5 = df.copy()

df5["Publisher"] = df5.fillna(df5["Publisher"].mode())

df5.isnull().sum()

Rank              0
Name              0
Platform          3
Year            271
Genre             0
Publisher         0
NA_Sales          1
EU_Sales          0
JP_Sales          6
Other_Sales       1
Global_Sales      2
dtype: int64