### [결측치 처리]
- 빈칸, 즉 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
- 처리 방법
    * 제거
    * 치환


In [117]:
import pandas as pd

In [118]:
file_name='data.csv'
dataDF=pd.read_csv(file_name)
dataDF

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,,여
5,3,Lee,56.0,남


In [119]:
# [4] 데이터 기본 정보 확인
dataDF.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   no      6 non-null      int64  
 1   name    5 non-null      object 
 2   age     5 non-null      float64
 3   gender  6 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 320.0+ bytes


In [120]:
# - 실제 데이터와 컬럼별 타입 체크
dataDF.head()

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,,여


In [121]:
# [5] 데이터 전처리
# - [5-1] 결측치 체크 -> isnull(), isna() 메서드
dataDF.isna()

Unnamed: 0,no,name,age,gender
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,True,False
5,False,False,False,False


In [122]:
dataDF.isna().sum()  #isna->True만큼 합산


no        0
name      1
age       1
gender    0
dtype: int64

In [123]:
# - [5-2] 결측치 처리->방법1. 삭제 ->dropna() 메서드
# - 기본값: 행방향, 행 안에 1개의 칼럼이라도 na면 삭제
dataDF.dropna()

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
2,3,Lee,56.0,남
3,4,Kim,56.0,남
5,3,Lee,56.0,남


In [124]:
# - 설정값:열방향, 열 안에 1개의 원소이라도 na면 삭제
dataDF.dropna(axis=1)

Unnamed: 0,no,gender
0,1,남
1,2,여
2,3,남
3,4,남
4,5,여
5,3,남


In [125]:
# - 설정값:모든 원소가 NaN일때 삭제 =>how='all'
dataDF.dropna(axis=0, how='all')

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,,여
5,3,Lee,56.0,남


In [126]:
dataDF.dropna(axis=1, how='all')

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,,여
5,3,Lee,56.0,남


In [127]:
# - 설정값:정장데이터가 지정된 개수 미만이면 삭제 =>thresh=,정수
dataDF.dropna(axis=0, thresh=4)

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
2,3,Lee,56.0,남
3,4,Kim,56.0,남
5,3,Lee,56.0,남


In [128]:
# - 설정값:특정 컬럼만 NaN 여부 검사 진행 후 결정: subset
# - 나이와 이름을 분석하고 싶음 -> 중요한 컬럼='age
dataDF.dropna(axis=0, subset=['age', 'name'])


Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
2,3,Lee,56.0,남
3,4,Kim,56.0,남
5,3,Lee,56.0,남


In [129]:
# [5-2] 결측치 처리 ->방법2. 대체/치환 fillna()메서드
# - 대체값: 원하는 값 또는 컬럼의 평균값/최빈값 등을 사용 가능
# -         이전의 값 또는 이후의 값으로 대체 가능
dataDF.fillna({'name':'unknown', 'age':0})    #->dict 형태 사용시 중괄호!!

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,unknown,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,0.0,여
5,3,Lee,56.0,남


In [130]:
# - 이전 컬럼의 값으로 채우기
# dataDF.fillna(method='ffill')  ->차후 제거되는 매개변수 메서드
dataDF.ffill()

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,Hong,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,56.0,여
5,3,Lee,56.0,남


In [131]:
# - 아래 컬럼의 값으로 채우기
# dataDF.fillna(method='bfill')  ->차후 제거되는 매개변수 메서드
dataDF.bfill()    #->아래에 데이터가 없는 경우 결측치 대체가 되지 않음!!

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,Lee,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,56.0,여
5,3,Lee,56.0,남


In [132]:
#- 나이의 결측치는 나이 평균으로 채우기
dataDF.fillna({'age': dataDF['age'].mean()})

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,40.6,여
5,3,Lee,56.0,남


In [135]:
# - 이름의 결측치는 가장 많이 사용된 이름으로 채우기 
#  - >최빈값이 여러개의 경우 시리즈 타입으로 도출됨-> 인덱싱으로 지정해야 변경 가능
dataDF.fillna({'name': dataDF['name'].mode()[0]})

Unnamed: 0,no,name,age,gender
0,1,Hong,15.0,남
1,2,Lee,20.0,여
2,3,Lee,56.0,남
3,4,Kim,56.0,남
4,5,Han,,여
5,3,Lee,56.0,남


In [134]:
dataDF['name'].mode()


0    Lee
Name: name, dtype: object