### 【데이터 전처리 - 결측치 삭제】
- 결측치 (Missing Value)    
    * 데이터/값이 존재하지 않는 것
- 결측치 체크
    * isna() : 결측치 여부에 따라 True/False 반환
- 결측치 처리
    * 삭제 : dropna()
    * 치환 : fillna()

    
[1] 모듈 로딩 및 데이터 준비 <hr>

In [1]:
## 모듈 로딩
import pandas as pd
import numpy as np

In [None]:
## DF 생성
df = pd.DataFrame( { 'age' : [ 5, 6, np.nan ],
                     'born': [ pd.NaT,pd.Timestamp('1939-05-27'), pd.Timestamp('1940-04-25')],
                     'name' : ['Alfred', 'Batman', ''],
                     'toy' : [None, 'Batmobile', 'Joker']})

## DF 출력
display( df )

## 기본 요약 정보
df.info( )



Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   age     2 non-null      float64       
 1   born    2 non-null      datetime64[ns]
 2   name    3 non-null      object        
 3   toy     2 non-null      object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 228.0+ bytes


In [12]:
## 결측치 체크
display(df.isna())

print(f'컬럼별 결측치 수 \n{df.isna().sum()}')

Unnamed: 0,age,born,name,toy
0,False,True,False,True
1,False,False,False,False
2,True,False,False,False


컬럼별 결측치 수 
age     1
born    1
name    0
toy     1
dtype: int64


[3] 결측치 삭제 : dropna() <hr>

In [None]:
## 결측치 존재하는 행 제거 : 행 단위로 검사 진행해서 1개라도 결측치 있으면 삭제
#      age    born        name    toy     
#  0   5.0    NaT         Alfred  None
#  1   6.0    1939-05-27  Batman  Batmobile      
#  2   NaN    1940-04-25  ''      Joker       
df.dropna()

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile


In [None]:
## 결측치 존재하는 행/영 제거
## how : 제거 방식/기준 설정
##      'all' : 모든 속성이 결측치인 행
##      'any' : 1개 이상 속성이 결측치인 행 [기본]

#      age    born        name    toy     
#  0   5.0    NaT         Alfred  None        <= 결측치 2개, 정상 2개 
#  1   6.0    1939-05-27  Batman  Batmobile   <= 결측치 0개, 정상 4개
#  2   NaN    1940-04-25  ''      Joker       <= 결측치 1개, 정상 3개 
df.dropna(how ='all')

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [None]:
#      age    born        name    toy     
#  0   5.0    NaT         Alfred  None        <= 결측치 2개, 정상 2개 : 삭제
#  1   6.0    1939-05-27  Batman  Batmobile   <= 결측치 0개, 정상 4개 : 유지
#  2   NaN    1940-04-25  ''      Joker       <= 결측치 1개, 정상 3개 : 유지
df.dropna(thresh=3)

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [17]:
#      age    born        name    toy     
#  0   5.0    NaT         Alfred  None        <= 결측치 2개, 정상 2개 : 삭제
#  1   6.0    1939-05-27  Batman  Batmobile   <= 결측치 0개, 정상 4개 : 유지
#  2   NaN    1940-04-25  ''      Joker       <= 결측치 1개, 정상 3개 : 유지
df.dropna(thresh=4)

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile


In [18]:
## subset : 특정 컬럼 또는 행만 결측치 검사 설정
#df. dropna(subset =['name'])  <= name 컬럼이 결측치면 행 삭제
df. dropna(subset =['born'])  #<= name 컬럼이 결측치면 행 삭제

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [21]:
#      age    born        name    toy     
#  0   5.0    NaT         Alfred  None        <= 결측치 2개, 정상 2개 : 삭제
#  1   6.0    1939-05-27  Batman  Batmobile   <= 결측치 0개, 정상 4개 : 유지
#  2   NaN    1940-04-25  ''      Joker       <= 결측치 1개, 정상 3개 : 유지

df. dropna(subset =['name', 'toy'], how='all')          #<= name, toy 컬럼 중 1개라도 결측치면 삭제

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker
