In [1]:
import numpy as np
import pandas as pd

In [2]:
# R에서의 NA는 '잘못된 값', null은 '아직 정해지지 않은 값'으로 표현된다.
# python에서는 NaN(Na)와 null을 '정해지지 않은 값'의 의미로 같이 사용한다.
# null값의 type은 float으로 인식한다.
# 정수형 : int32, 문자형 : <U2, 실수형 : float64
# 정수형 + 문자형 : <U11
# 정수형 + 실수형 + 문자형 : <U32

In [3]:
a = np.array(np.nan)

In [4]:
a.dtype

dtype('float64')

In [5]:
b = np.array([1, np.nan, 2, "a"])

In [6]:
b.dtype

dtype('<U32')

In [7]:
# null값 계산하기
# null값과 연산된 모든 결과는 null값이다.

In [8]:
1 + np.nan

nan

In [9]:
0 * np.nan

nan

In [10]:
# null값을 빼고 계산하기
# np.nansum, np.nanmin, np.nanmax 사용

In [11]:
a = np.array([1, 2, np.nan, 3])

In [12]:
print(np.nansum(a))
print(np.nanmin(a))
print(np.nanmax(a))

6.0
1.0
3.0


In [13]:
# null값 찾기
pd.isnull(a)

array([False, False,  True, False])

In [14]:
# null값 갯수 찾기
pd.isnull(a).sum()

1

In [15]:
# 데이터가 모두 null인지 검사
pd.isnull(a).all()

False

In [16]:
# null값이 하나라도 있는지 검사
pd.isnull(a).any()

True

In [17]:
# null값 제거하기
df = pd.DataFrame({"a" : [1, np.nan, 2, np.nan], "b" : [3, 4, 5, np.nan], "c" : [6, 7, np.nan, np.nan]})
df

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,,4.0,7.0
2,2.0,5.0,
3,,,


In [18]:
# 행 기준으로 제거하기
df.dropna()

Unnamed: 0,a,b,c
0,1.0,3.0,6.0


In [19]:
# 열 기준으로 제거하기
df.dropna(axis = 1)

0
1
2
3


In [20]:
# 행 전체가 null인 행만 삭제
df.dropna(how="all")

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,,4.0,7.0
2,2.0,5.0,


In [21]:
# null 값 채워 넣기
df.fillna(1)

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,1.0,4.0,7.0
2,2.0,5.0,1.0
3,1.0,1.0,1.0


In [22]:
# 각 column 별로 null값 채워 넣기
df.fillna({"a":"a", "b":"b", "c":"c"})

Unnamed: 0,a,b,c
0,1,3,6
1,a,4,7
2,2,5,c
3,a,b,c


In [23]:
# 이전 행 데이터로 채워 넣기
df.fillna(method="ffill")

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,1.0,4.0,7.0
2,2.0,5.0,7.0
3,2.0,5.0,7.0


In [24]:
# 이후 행 데이터로 채워 넣기
df.fillna(method="bfill")

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,2.0,4.0,7.0
2,2.0,5.0,
3,,,


In [25]:
# 자동으로 null값을 채워주는 함수
df.interpolate()

Unnamed: 0,a,b,c
0,1.0,3.0,6.0
1,1.5,4.0,7.0
2,2.0,5.0,7.0
3,2.0,5.0,7.0


In [26]:
# 데이터 프레임에서의 null값 연산
# null 연산 불가능
df + 1

Unnamed: 0,a,b,c
0,2.0,4.0,7.0
1,,5.0,8.0
2,3.0,6.0,
3,,,


In [27]:
# sum 연산 가능
df.sum()

a     3.0
b    12.0
c    13.0
dtype: float64

In [28]:
# mean 연산 가능
df.mean()

a    1.5
b    4.0
c    6.5
dtype: float64