In [5]:
import numpy as np
from numpy import nan
from pandas import Series,DataFrame
import pandas as pd

In [6]:
data = Series(['one','two', nan, 'four'])

In [7]:
data

0     one
1     two
2     NaN
3    four
dtype: object

In [8]:
# null値は簡単に見つけられます。
data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [9]:
# null値は簡単に取り除けます。
data.dropna()

0     one
1     two
3    four
dtype: object

In [10]:
# DataFrameの場合をみてみます。
dframe = DataFrame([[1,2,3],[np.nan,5,6],[7,np.nan,9],[np.nan,np.nan,np.nan]])

In [11]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,


In [12]:
clean_dframe = dframe.dropna() #欠損値nanのある行を消去する。

In [13]:
clean_dframe  #一つでもNaNがある行を削除する。

Unnamed: 0,0,1,2
0,1.0,2.0,3.0


In [14]:
# 取り除き方を指定することもできます。how = 'all' とするとすべてNaNの行がなくなります。
dframe.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0


In [15]:
# 軸を指定することも可能です。
dframe.dropna(axis=1)
# どの列にも必ず1つはnull値があるので、すべての列がなくなります。

0
1
2
3


In [25]:
#閾値を決めることも可能です。
dframe2 = DataFrame([[1,2,3,nan],[2,nan,5,6],[nan,7,nan,9],[1,nan,nan,nan]], index=list('ABCD'))
dframe2

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,
B,2.0,,5.0,6.0
C,,7.0,,9.0
D,1.0,,,


In [26]:
# nullではない値が2個以上必要 thresh = 2
dframe2.dropna(thresh=2)

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,
B,2.0,,5.0,6.0
C,,7.0,,9.0


In [27]:
# 同じく3個以上 thresh = 3
dframe2.dropna(thresh=3)

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,
B,2.0,,5.0,6.0


In [28]:
#dropnaによって元のデータは書き換えられない。
# null値を埋められます。 fillnaでも元のDataframeは書き換えられない.
dframe2.fillna(1)

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,1.0
B,2.0,1.0,5.0,6.0
C,1.0,7.0,1.0,9.0
D,1.0,1.0,1.0,1.0


In [29]:
# 列ごとに埋める値を変えられます。 dictionariで指定。
dframe2.fillna({0:0,1:1,2:2,3:3})

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,3.0
B,2.0,1.0,5.0,6.0
C,0.0,7.0,2.0,9.0
D,1.0,1.0,2.0,3.0


In [30]:
dframe2

Unnamed: 0,0,1,2,3
A,1.0,2.0,3.0,
B,2.0,,5.0,6.0
C,,7.0,,9.0
D,1.0,,,


In [22]:
# inplace=Trueにすると、元のDataFrameを変更してくれます。
# dframe2 = dframe2.fillna(....)と同じ
dframe2.fillna(0,inplace=True)

In [23]:
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,0.0
1,2.0,0.0,5.0,6.0
2,0.0,7.0,0.0,9.0
3,1.0,0.0,0.0,0.0
