In [2]:
# -----------------------------------------------------------
# 결측치 (Missing Value)
# - 값이 들어 있지 않는 것을 의미
# - 표기 : NaN, NA
# -----------------------------------------------------------
import pandas as pd
import numpy as np

In [3]:
# DF 생성 ----------------------------------------------------
data = [[10, 13, np.nan, 7], [2, np.nan, 3, 1], [21, 31, np.nan, 51], [21, 31, np.nan, 51]]

dataDF = pd.DataFrame(data)
dataDF

Unnamed: 0,0,1,2,3
0,10,13.0,,7
1,2,,3.0,1
2,21,31.0,,51
3,21,31.0,,51


In [4]:
# 결측치 처리 ================================================
dataDF.isnull().sum() # 컬럼별로 결측치 갯수 반환

0    0
1    1
2    3
3    0
dtype: int64

In [5]:
# 결측치 처리 - (1) 삭제 dropna() =============================
# [기본값] 행 방향, 한개라도 NaN이 있으면 삭제
dataDF.dropna()

Unnamed: 0,0,1,2,3


In [6]:
# [기본값 변경] 열 방향, 한개라도 NaN이 있으면 삭제
dataDF.dropna(axis=1)

Unnamed: 0,0,3
0,10,7
1,2,1
2,21,51
3,21,51


In [7]:
# [기본값 변경] 행 방향, 모두가 NaN이면 삭제
dataDF.dropna(how='all')

Unnamed: 0,0,1,2,3
0,10,13.0,,7
1,2,,3.0,1
2,21,31.0,,51
3,21,31.0,,51


In [9]:
# [기본값 변경] 열 방향, 모두가 NaN이면 삭제
dataDF.dropna(axis=1, how='all')

Unnamed: 0,0,1,2,3
0,10,13.0,,7
1,2,,3.0,1
2,21,31.0,,51
3,21,31.0,,51


In [13]:
# [기본값] 행 방향, 정상 데이터가 3개 미만인 행 삭제
dataDF.dropna(thresh=3)

Unnamed: 0,0,1,2,3
0,10,13.0,,7
1,2,,3.0,1
2,21,31.0,,51
3,21,31.0,,51


In [11]:
# [기본값 변경] 열 방향, 정상 데이터가 3개 미만인 행 삭제
dataDF.dropna(axis =1, thresh=3)

Unnamed: 0,0,1,3
0,10,13.0,7
1,2,,1
2,21,31.0,51
3,21,31.0,51


In [14]:
# [기본값 변경] 특정 컬럼 지정해서 그 컬럼만 NaN 체크 --> 행 삭제
dataDF.dropna(subset=[1])

Unnamed: 0,0,1,2,3
0,10,13.0,,7
2,21,31.0,,51
3,21,31.0,,51


In [15]:
# [기본값 변경] 특정 컬럼 지정해서 그 컬럼만 NaN 체크 --> 열 삭제
dataDF.dropna(axis = 1, subset=[1])

Unnamed: 0,0,2,3
0,10,,7
1,2,3.0,1
2,21,,51
3,21,,51
