【 데이터 전처리 - 결측치 치환 】
- 결측치 (Missing Value)
    * 데이터/값이 존재하지 않는 것
- 결측치 체크
    * isna() : 결측치 여부에 따라 True/False 반환
- 결측치 처리
    * 삭제 : dropna()
    * 치환 : fillna()

[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
## 모듈 로딩
import pandas as pd
import numpy as np


## DF 생성
df =pd.DataFrame( { 'age' : [ 5, 6, np.nan ],
                    'born': [ pd.NaT, pd.Timestamp('1939-05-27'), pd.Timestamp('1940-04-25')],
                    'name' : ['Alfred', 'Batman', ''],
                    'toy' : [None, 'Batmobile', 'Joker']})

 ## DF 출력
display( df )

## 기본 요약 정보
df.info()

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   age     2 non-null      float64       
 1   born    2 non-null      datetime64[ns]
 2   name    3 non-null      object        
 3   toy     2 non-null      object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 228.0+ bytes


[2] 결측치 체크 : isna() / isnull() <hr>

In [2]:
## 결측치 체크
display( df.isna() )

## True => 1, False => 0
print(f'컬럼별 결측치 수 \n{df.isna().sum()}')

Unnamed: 0,age,born,name,toy
0,False,True,False,True
1,False,False,False,False
2,True,False,False,False


컬럼별 결측치 수 
age     1
born    1
name    0
toy     1
dtype: int64


[3] 결측치 치환 : fillna() <hr>

In [3]:
## -------------------------------------------------
## 치환값 : 모든 결측치에 동일한 값 설정
## -------------------------------------------------
df.fillna(-1)

Unnamed: 0,age,born,name,toy
0,5.0,-1,Alfred,-1
1,6.0,1939-05-27 00:00:00,Batman,Batmobile
2,-1.0,1940-04-25 00:00:00,,Joker


In [12]:
## -------------------------------------------------
## 치환값 : 컬럼별로 다른 결측치
## -------------------------------------------------
df.fillna({'age':0, 'born':'미입력', 'toy':'없음'})

Unnamed: 0,age,born,name,toy
0,5.0,미입력,Alfred,없음
1,6.0,1939-05-27 00:00:00,Batman,Batmobile
2,0.0,1940-04-25 00:00:00,,Joker


In [13]:
## -------------------------------------------------
## 치환값 : 컬럼별로 다른 결측치 => 평균, 중앙값, 최빈값 등등
## -------------------------------------------------
age_mean = df['age'].mean()     # df['age'].median()
born_mode = df['born'].mode()[0]
toy_mode = df['toy'].mode()[0]

df.fillna({'age':age_mean, 'born':born_mode, 'toy':toy_mode})

Unnamed: 0,age,born,name,toy
0,5.0,1939-05-27,Alfred,Batmobile
1,6.0,1939-05-27,Batman,Batmobile
2,5.5,1940-04-25,,Joker


In [15]:
## -------------------------------------------------
## 치환값 : 이전값/이후값
## -------------------------------------------------
## 이전행 값
#df.fillna(method='ffill')
display("이전행값", df.ffill())


## 다음행 값
#df.fillna(method='bfill')
#display("이전행값", df.bfill())

'이전행값'

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,6.0,1940-04-25,,Joker


In [None]:

## 결측치 존재하는 열 제거
#       age	    born	    name	    toy
# 0	    5.0	    -1	        Alfred	    -1
# 1	    6.0	    1939-05-27	Batman	    Batmobile
# 2	     -1	    1940-04-25	            Joker
df.dropna(axis='columns')


Unnamed: 0,name
0,Alfred
1,Batman
2,


In [5]:
## 결측치 존재하는 행/열 제거
## how : 제거 방식/기준 설정
##      'all' : 모든 속성이 결측치인 행
##      'any' : 1개 이상 속성이 결측치인 행 [기본]


df.dropna(how='all')

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [6]:
## 결측치 존재하는 행/열 제거
## thresh : 결측치가 아닌 최소 데이터 개수 설정
##          how와 함꼐 사용 불가

#       age	    born	    name	    toy
# 0	    5.0	    NaT	        Alfred	    None
# 1	    6.0	    1939-05-27	Batman	    Batmobile
# 2	    NaN	    1940-04-25	Joker

df.dropna(thresh=2)

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [7]:
#       age	    born	    name	    toy
# 0	    5.0	    NaT	        Alfred	    None            <= 결측치 2개, 정상 2개  : 삭제
# 1	    6.0	    1939-05-27	Batman	    Batmobile       <= 결측치 0개, 정상 4개  : 유지
# 2	    NaN	    1940-04-25	Joker                       <= 결측치 1개, 정상 3개  : 유지

df.dropna(thresh=3)

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [8]:
#       age	    born	    name	    toy
# 0	    5.0	    NaT	        Alfred	    None            <= 결측치 2개, 정상 2개  : 삭제
# 1	    6.0	    1939-05-27	Batman	    Batmobile       <= 결측치 0개, 정상 4개  : 유지
# 2	    NaN	    1940-04-25	Joker                       <= 결측치 1개, 정상 3개  : 삭제

df.dropna(thresh=4)

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile


In [9]:
## subset : 특정 컬럼 또는 행만 결측치 검사 설정
#df.dropna(subset=['name'])   #<= name 컬럼이 결측치면 행 삭제
df.dropna(subset=['born'])    #<= born 컬럼이 결측치인 행 삭제

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [10]:
## subset : 특정 컬럼 또는 행만 결측치 검사 설정
df.dropna(subset=['name', 'toy'])

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [11]:
## subset : 특정 컬럼 또는 행만 결측치 검사 설정
#       age	    born	    name	    toy
# 0	    5.0	    NaT	        Alfred	    None            <= 결측치 toy, born 컬럼
# 1	    6.0	    1939-05-27	Batman	    Batmobile       <= 결측치 없음
# 2	    NaN	    1940-04-25	Joker                       <= 결측치 age 컬럼

df.dropna(subset=['name', 'toy'], how='all')            #<= name, toy 컬럼 모두 결측치면 삭제

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker
