1. 결측치가 포함된 데이터프레임 생성
먼저 실습을 위해 곳곳에 구멍(NaN)이 뚫린 예제 데이터를 만듭니다.

In [None]:
import pandas as pd
import numpy as np

In [None]:
# np.nan을 사용하여 결측치(비어있는 값)가 포함된 데이터프레임을 생성합니다.
# Row 0: A(NaN), B(2), C(NaN), D(0)
# Row 1: A(3), B(4), C(NaN), D(1)
# Row 2: A(NaN), B(NaN), C(NaN), D(5)
df = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1],
                   [np.nan, np.nan, np.nan, 5]],
                  columns=list('ABCD'))
df

2. 결측치 삭제하기 (Dropna)
데이터에 결측치가 있을 때, 해당 행이나 열을 아예 삭제해 버리는 방법입니다.

In [None]:
# 1. 결측치가 있는 '열(Column)' 삭제
# axis=1 : 열(세로)을 기준으로 동작
# how='any' : 결측치가 '하나라도' 있으면 해당 열을 지워라
# 결과: A, B, C 열에는 NaN이 하나씩은 들어있어서 다 삭제되고, 
#       결측치가 하나도 없는 'D' 컬럼만 남습니다.
df.dropna(axis=1, how='any')

In [None]:
# 2. 결측치가 있는 '행(Row)' 삭제 (조건부)
# axis=0 : 행(가로)을 기준으로 동작 (기본값)
# how='all' : 해당 행의 '모든' 값이 NaN일 때만 지워라
# 결과: 모든 행이 최소한 하나의 값(D컬럼의 숫자들)은 가지고 있으므로, 
#       아무 행도 삭제되지 않습니다.
df.dropna(axis=0, how='all')

3. 결측치 채우기 (Fillna)
데이터를 삭제하기 아까울 때, 0이나 평균값 등 다른 값으로 채워 넣는 방법입니다.

In [None]:
# 1. 특정 값(Scalar)으로 일괄 채우기
# 모든 NaN을 0으로 변경합니다.
df.fillna(0)

In [None]:
# 2. 컬럼별로 다른 값으로 채우기
# 딕셔너리를 사용하여 A열의 NaN은 0, B는 1, C는 2, D는 3으로 채웁니다.
values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
df.fillna(value=values)

In [None]:
# 원본 데이터 확인 (fillna는 기본적으로 원본을 바꾸지 않고 새 객체를 반환함)
df

4. 통계값으로 결측치 채우기
임의의 수가 아니라, 데이터의 통계적 특성(평균, 최대값 등)을 이용해 채우는 실무적인 방법입니다.

In [None]:
# 1. 채울 기준값 계산
# 'D' 컬럼의 최댓값(max)을 구합니다. (0, 1, 5 중 최댓값인 5)
fill_na_value = df['D'].max()
fill_na_value

In [None]:
# 2. 구한 통계값으로 채우기
# 모든 NaN 값을 5로 채웁니다.
df.fillna(fill_na_value)

5. 결측치 개수 확인하기
데이터 전처리 전/후에 결측치가 얼마나 있는지 확인하는 필수 과정입니다.

In [None]:
# 1. 결측치(NaN)의 개수 세기 (자주 사용!)
# 결과: A(2개), B(1개), C(3개), D(0개)
df.isnull().sum()

In [None]:
# 2. 결측치가 아닌(유효한) 데이터의 개수 세기
# 결과: A(1개), B(2개), C(0개), D(3개)
df.notnull().sum()