### [데이터 전처리 - 결측치 삭제]
- 결측치(Missing Value)
    * 데이터/값이 존재하지 않는 것
- 결측치 체크
    * isna(): 결측치 여부에 따라 True/False 반환
- 결측치 처리
    * 삭제: dropna()
    * 치환: fillna()

[1] 모듈 로딩 및 데이터 준비 <hr>

In [None]:
## 모듈 로딩
import pandas as pd
import numpy as np

## DF 생성
df = pd.DataFrame({'age': [ 5, 6, np.nan ],
                   'born': [ pd.NaT, pd.Timestamp('1939-05-27'), pd.Timestamp('1940-04-25')],       ## 판다스의 Timestamp 함수
                   'name': ['Alfred', 'Batman', ''],
                   'toy': [None, 'Batmobile', 'Joker']})


## DF 출력
display(df)

## 기본 요약 정보
df.info()

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   age     2 non-null      float64       
 1   born    2 non-null      datetime64[ns]
 2   name    3 non-null      object        
 3   toy     2 non-null      object        
dtypes: datetime64[ns](1), float64(1), object(2)
memory usage: 228.0+ bytes


[2] 결측치 체크: isna() / isnull() <hr>

In [None]:
## 결측치 체크
display(df.isna())

print(f'컬럼별 결측치 수 \n{df.isna().sum()}')      # 각 컬럼별 결측치를 print

Unnamed: 0,age,born,name,toy
0,False,True,False,True
1,False,False,False,False
2,True,False,False,False


컬럼별 결측치 수 
age     1
born    1
name    0
toy     1
dtype: int64


[3] 결측치 삭제: dropna() <hr>

In [None]:
## 결측치 존재하는 행을 통째로 제거
print(df.dropna())

   age       born    name        toy
1  6.0 1939-05-27  Batman  Batmobile


In [None]:
df.dropna(axis='columns')       ## None, NaT, NaN 모두 결측치

Unnamed: 0,name
0,Alfred
1,Batman
2,


In [10]:
## 결측치 존재하는 행/열 제거
## how: 제거 방식/기준 설정
##      'all': 모든 속성이 결측치인 행
##      'any': 1개 이상 속성이 결측치인 행 [기본]

df.dropna(how='all')

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [12]:
## 결측치 존재하는 행/열 제거
## thresh: 결측치가 아닌 최소 데이터 개수 설정
##          how와 함께 사용 불가

df.dropna(thresh=2)

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [14]:
## 결측치 존재하는 행/열 제거
## thresh: 결측치가 아닌 최소 데이터 개수 설정
##          how와 함께 사용 불가

df.dropna(thresh=3)     # thresh=3: 결측치 아닌 데이터가 최소 3개는 있어야 한다.

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [None]:
df.dropna(thresh=4) # thresh=3: 결측치 아닌 데이터가 최소 4개는 있어야 한다.

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile


In [18]:
## subset: 특정 컬럼 또는 행만 결측치 검사 설정
# df.dropna(subset=['name'])      # name 컬럼만 결측치가 없으면 된다, 빈 문자열은 결측치가 아님!
df.dropna(subset=['born'])        # born 컬럼이 결측치인 행 삭제

Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


In [None]:
display(df)

df.dropna(subset=['name', 'toy'])       # name, toy 컬럼 중 1개라도 결측치이면 삭제 (or 연산)

Unnamed: 0,age,born,name,toy
0,5.0,NaT,Alfred,
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker


Unnamed: 0,age,born,name,toy
1,6.0,1939-05-27,Batman,Batmobile
2,,1940-04-25,,Joker
