### [결측치 처리]
- 빈 칸 즉, 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
<br>
* 처리 방법<br>
     * 제거
     * 치환

In [1]:
# 모듈로딩
import pandas as pd

In [8]:
# 데이터 준비
file_name = './data.csv'

In [9]:
# csv ==> DF 저장
dataDF = pd.read_csv(file_name)

In [10]:
dataDF.head()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


##### 데이터 전처리

##### 1) 결측치 체크
* isnull()
* isna()

In [12]:
# 컬럼별 결측치 개수 합계
dataDF.isna().sum()

no        0
name      1
age       1
gnader    0
dtype: int64

##### 2) 결측치 삭제 
      # 2_1 dropna():   결측치 존재 행/열 삭제
      #             :   기본 행방향 & 행 안에 1개 컬럼 값이 NA여도 삭제(any)
      #             :   옵션) how='all'             :  모든 원소가 NaN일 때 삭제
      #             :   옵션) thresh=자연수          :  정상 데이터 개수가 지정한 개수 이하일 때, 삭제
      #             :   옵션) subset=['col_namer']   :특정 컬럼만 NaN 여부 검사

In [13]:
# 2_1 dropna():   결측치 존재 행/열 삭제
#             :   기본 행방향 & 행 안에 1개 컬럼 값이 NA여도 삭제(any)
dataDF.dropna()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [14]:
dataDF.dropna(axis=1)

Unnamed: 0,no,gnader
0,1,M
1,2,F
2,3,M
3,4,F
4,5,M


In [15]:
# how='all'  :  모든 원소가 NaN일 때 삭제
dataDF.dropna(axis=0, how='all')

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [16]:
# thresh=자연수  :  정상 데이터 개수가 지정한 자연수 미만일 때, 삭제
dataDF.dropna(axis=0, thresh=4)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [17]:
dataDF.dropna(axis=0, thresh=3)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [18]:
# subset  :   특정 컬럼만 NaN 여부 검사 

# 예) 나이 분석 --> 중요 컬럼: age
dataDF.dropna(axis=0, subset=['age'])

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [19]:
dataDF.dropna(axis=0, subset=['age', 'name'])

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


##### 2) 결측치 치환
      # 2_2 fillna(대체값):   결측치 대체값 치환
      #             :   대체값은 1. 칼럼의 평균값 / 최빈값 등     2. 이전,이후 값        3. 그외
      #                      예시) dataDF.fillna( {'name':'unknown', 'age':0} ) 
      
      #             :   메서드) ffill()              : NaN 전(위)의 값으로 대체    / if. 1st 값이 NaN이면 치환 불가!
      #             :   메서드) bfill()              : NaN 후(아래)의 값으로 대체  / if. Last 값이 NaN이면 치환 불가!

In [20]:
dataDF.fillna(0)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,0,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,0.0,M


In [22]:
dataDF.fillna( {'name':'unknown', 'age':0})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,unknown,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,0.0,M


In [24]:
# dataDF.fillna(method='ffill')        # -> FutureWarning

dataDF.ffill()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,16.0,M


In [25]:
dataDF.bfill()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Kim,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [30]:
# 나이 결측치 -> 나이 평균으로 치환
dataDF.fillna({'age': dataDF['age'].mean()})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,12.75,M


In [31]:
# 이름 결측치 -> 최빈값 이름으로 치환
dataDF.fillna({'name': dataDF['name'].mode()})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,12.75,M
