In [1]:
import numpy as np
from numpy import nan
from pandas import Series,DataFrame
import pandas as pd

In [2]:
data = Series(['one','two', np.nan, 'four'])

In [3]:
data

0     one
1     two
2     NaN
3    four
dtype: object

In [4]:
# null値は簡単に見つけられます。
data.isnull()

0    False
1    False
2     True
3    False
dtype: bool

In [5]:
# null値は簡単に取り除けます。
data.dropna()

0     one
1     two
3    four
dtype: object

In [6]:
# DataFrameの場合をみてみます。
dframe = DataFrame([[1,2,3],[np.nan,5,6],[7,np.nan,9],[np.nan,np.nan,np.nan]])

In [7]:
dframe

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0
3,,,


In [8]:
clean_dframe = dframe.dropna()

In [9]:
clean_dframe

Unnamed: 0,0,1,2
0,1,2,3


In [9]:
# 取り除き方を指定することもできます。すべてNaNの行がなくなります。
dframe.dropna(how='all')

Unnamed: 0,0,1,2
0,1.0,2.0,3.0
1,,5.0,6.0
2,7.0,,9.0


In [10]:
# 軸を指定することも可能です。
dframe.dropna(axis=1)
# どの列にも必ず1つはnull値があるので、すべての列がなくなります。

0
1
2
3


In [11]:
#閾値を決めることも可能です。
dframe2 = DataFrame([[1,2,3,nan],[2,nan,5,6],[nan,7,nan,9],[1,nan,nan,nan]])
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,1.0,,,


In [12]:
# nullではない値が2個以上必要
dframe2.dropna(thresh=2)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0


In [13]:
# 同じく3個以上
dframe2.dropna(thresh=3)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0


In [14]:
# null値を埋められます。
dframe2.fillna(1)

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,1.0
1,2.0,1.0,5.0,6.0
2,1.0,7.0,1.0,9.0
3,1.0,1.0,1.0,1.0


In [15]:
# 列ごとに埋める値を変えられます。
dframe2.fillna({0:0,1:1,2:2,3:3})

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,3.0
1,2.0,1.0,5.0,6.0
2,0.0,7.0,2.0,9.0
3,1.0,1.0,2.0,3.0


In [17]:
dframe2

Unnamed: 0,0,1,2,3
0,1.0,2.0,3.0,
1,2.0,,5.0,6.0
2,,7.0,,9.0
3,1.0,,,


In [18]:
# inplace=Trueにすると、元のDataFrameを変更してくれます。
# dframe2 = dframe2.fillna(....)と同じ
dframe2.fillna(0,inplace=True)

In [29]:
dframe2

Unnamed: 0,0,1,2,3
0,1,2,3,0
1,2,0,5,6
2,0,7,0,9
3,1,0,0,0
