#### [결측치 처리]
- 빈칸 즉, 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
- 처리 방법 :
    * 제거
    * 치환

In [53]:
import pandas as pd

In [54]:
dataDF=pd.read_csv(r'C:\Users\KDP-17\EX_PANDAS6\day_04\data.csv')

In [55]:
# [3] 데이터 정보 파악
dataDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   no      5 non-null      int64  
 1   name    4 non-null      object 
 2   age     4 non-null      float64
 3   gender  5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 288.0+ bytes


In [56]:
# [4] 실제 데이터와 컬럼별 타입 체크
dataDF.head()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,,F
4,5,CapA,123.0,M


In [57]:
# [5] 데이터 전처리
# [5-1] 결측치 체크 => isnull(),isna() 메서드
dataDF.isnull()

Unnamed: 0,no,name,age,gender
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,False,False,True,False
4,False,False,False,False


In [58]:
dataDF.isnull().sum()

no        0
name      1
age       1
gender    0
dtype: int64

In [59]:
# - [5-2] 결측치 처리 -> 방법1) 삭제 dropna() 메서드
# - 기본값 : 행방향, 행 안에 1개의 컬럼이라도 NA면 삭제
dataDF.dropna()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Jang,63.0,M
4,5,CapA,123.0,M


In [60]:
# - 설정값 : 열방향, 열 안에 1개의 컬럼이라도 NA면 삭제
dataDF.dropna(axis=1)

Unnamed: 0,no,gender
0,1,F
1,2,F
2,3,M
3,4,F
4,5,M


In [61]:
# - 설정값 : 모든 원소가 NaN일때 삭제 how='all'
dataDF.dropna(axis=0,how='all')

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,,F
4,5,CapA,123.0,M


In [62]:
# - 설정값 : 정상데이터가 지정된 개수 미만이면 삭제 thresh=정수
dataDF.dropna(axis=0,thresh=4)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Jang,63.0,M
4,5,CapA,123.0,M


In [63]:
# - 설정값 : 특정 컬럼만 NaN 여부 검사 진행 후 결정 : subset
# - 나이를 분석하고 싶음 -> 중요한 컬럼 Age
dataDF.dropna(axis=0,subset=['age'])

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,25.0,F
2,3,Jang,63.0,M
4,5,CapA,123.0,M


In [64]:
# - 설정값 : 특정 컬럼만 NaN 여부 검사 진행 후 결정 : subset
# - 나이와 이름을 분석하고 싶음 -> 중요한 컬럼 Age
dataDF.dropna(axis=0,subset=['age','name'])

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
2,3,Jang,63.0,M
4,5,CapA,123.0,M


In [65]:
# - [5-2] 결측치 처리 -> 방법2) 치환 fillna() 메서드
# - 대체값 : 원하는 값 또는 컬럼의 평균값/최빈값 등을 사용 가능
#            이전의 값 또는 이후의 값으로 대체
dataDF.fillna(0)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,0,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,0.0,F
4,5,CapA,123.0,M


In [66]:
dataDF.fillna({'name':'unknown','age':0})

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,unknown,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,0.0,F
4,5,CapA,123.0,M


In [69]:
# - 이전 컬럼의 값으로 채우기
# dataDF.fillna(method='ffill')  미래에 제거되는 매개변수 method
#dataDF.fillna()

In [None]:
# - 아래 컬럼의 값으로 채우기
# dataDF.fillna(method='bfill')
dataDF.bfill()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,Jang,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,123.0,F
4,5,CapA,123.0,M


In [None]:
# - 나이의 결측치는 나이 평균으로 채우기
dataDF.fillna({'age':dataDF['age'].mean()},inplace=True)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,55.25,F
4,5,CapA,123.0,M


In [None]:
dataDF.fillna({'name':dataDF['name'].mode()},inplace=True)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,F
1,2,Hong,25.0,F
2,3,Jang,63.0,M
3,4,IronMan,,F
4,5,CapA,123.0,M
