### [결측치 처리]
- 빈 칸 즉, 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
- 처리 방법
    * 제거
    * 치환

In [139]:
# [1] 모듈 로딩
import pandas as pd

In [140]:
# [2] 데이터 준비
file_name = '/Users/anhyojun/VSCode/K-Digital Training/Pandas/DAY04/data.csv'

In [141]:
# [3] CSV 파일을 DataFrame으로 저장
dataDF = pd.DataFrame(pd.read_csv(file_name))

In [142]:
# [4] 데이터 확인
dataDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   no      5 non-null      int64  
 1   name    4 non-null      object 
 2   age     4 non-null      float64
 3   gender  5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 288.0+ bytes


In [143]:
# - 실제 데이터와 컬럼별 타입 체크
dataDF.head()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,,M


In [144]:
# [5] 데이터 전처리
# - [5-1] 결측치 체크
dataDF.isna()

Unnamed: 0,no,name,age,gender
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,True,False


In [145]:
dataDF.isna().sum()

no        0
name      1
age       1
gender    0
dtype: int64

In [146]:
# - [5-2] 결측치 처리 -> 방법 1) 삭제 dropna()메서드
# - 기본값 : 행 방향, 행 안에 1개의 컬럼이라도 Na면 삭제
dataDF.dropna()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f


In [147]:
# - 설정값 : 열 방향, 열 안에 1개의 원소라도 Na면 삭제
dataDF.dropna(axis = 1)

Unnamed: 0,no,gender
0,1,F
1,2,F
2,3,M
3,4,f
4,5,M


In [148]:
# - 설정값 : 모든 원소가 NaN일때 삭제 how = 'all'
dataDF.dropna(axis = 0, how = 'all')

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,,M


In [149]:
dataDF.dropna(axis = 1, how = 'all')

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,,M


In [150]:
# - 설정값 : 정상 데이터가 지정된 개수 이하이면 삭제 : thresh = 정수
dataDF.dropna(axis = 0, thresh = 4)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f


In [151]:
# 설정값 : 특정 컬럼만 NaN 여부 검사 진행 후 결정 : subset
# - 나이를 분석하고 싶음 => 중요한 컬럼 age
dataDF.dropna(axis = 0, subset = ['age', 'name'])

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f


In [152]:
dataDF.dropna(axis = 0, subset = ['age'])

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f


In [153]:
# - [5-2] 결측치 처리 -> 방법 2) 대체/치환 fillna()메서드
# - 대체값 : 원하는 값 또는 컬럼의 평균값/최빈값 등을 채우기
dataDF.fillna({'name' : 'unknown', 'age' : 0})

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,unknown,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,0.0,M


In [154]:
# - 이전 컬럼의 값으로 채우기
# dataDF.fill(method = 'ffill')     # 미래에 제거될 매개변수
dataDF.ffill()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,16.0,M


In [155]:
# - 아래 컬럼의 값으로 채우기
# dataDF.fill(method = 'bfill')     # 미래에 제거될 매개변수
dataDF.bfill()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,Kim,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,,M


In [160]:
# - 나이의 결측치는 나이 평균으로 채우기
dataDF.fillna({'age' : dataDF['age'].mean()}, inplace = True)

In [161]:
# - 이름의 결측치는 가장 많이 사용된 이름으로 채우기
dataDF.fillna({'name' : dataDF['name'].mode()}, inplace = True)

In [162]:
dataDF

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,Kim,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,f
4,5,Lim,12.75,M
