#### [결측치 처리]
- 빈 칸 즉, 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
- 처리 방법
    * 제거
    * 치환

In [1]:
# [1]
import pandas as pd

In [2]:
# [2]
df = pd.read_csv(r'C:\Users\a\Desktop\EX_PANDAS\DAY_04\data.csv')

In [3]:
# [4] 데이터 확인
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   no      6 non-null      int64  
 1   name    5 non-null      object 
 2   age     5 non-null      float64
 3   gender  6 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 320.0+ bytes


In [4]:
# - 실제 데이터와 컬럼별 타입 체크
df.head()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,,남


In [5]:
# [5] 데이터 전처리
# - [5-1] 결측치 체크 => isnull(),isna() 메서드
df.isnull()

Unnamed: 0,no,name,age,gender
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,True,False
5,False,False,False,False


In [6]:
# 결측치는 1로 나오므로 확인 가능

df.isnull().sum()

no        0
name      1
age       1
gender    0
dtype: int64

In [7]:
# - [5-2] 결측치 처리 => 방법 1) 삭제 dropna() 메서드
# - 기본값 : 행방향, 행 안에 1개의 컬럼이라도 Na면 삭제
df.dropna()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
5,3,Kim,12.0,남


In [8]:
# - 설정값 : 열방향, 열 안에 1개의 원소라도 Na면 삭제
df.dropna(axis= 1)

Unnamed: 0,no,gender
0,1,남
1,2,남
2,3,남
3,4,남
4,5,남
5,3,남


In [9]:
# - 설정값 : 모든 원소가 NaN일떄 삭제 how ='all' 
df.dropna(axis = 0 , how = 'all')

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,,남
5,3,Kim,12.0,남


In [10]:
df.dropna(axis = 1 , how = 'all')

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,,남
5,3,Kim,12.0,남


In [11]:
# - 설정값 : 정상데이터가 지정된 개수 이하이면 삭제! :thresh = 정수
df.dropna(axis = 0 ,thresh= 4)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
5,3,Kim,12.0,남


In [12]:
df.dropna(axis = 0 ,thresh= 3)

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,,남
5,3,Kim,12.0,남


In [13]:
# - 설정값 : 특정 컬럼만 NaN여부 검사 진행 후 결정 : subset
# - 나이와 이름을 분석하고 싶음 => 중요항 컬럼 age
df.dropna(subset=['age','name'])

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
5,3,Kim,12.0,남


In [14]:
# - [5-2] 결측치 처리 => 방법 1) 대체/치환 fillna() 메서드
# - 데체값 : 원하는 값 또는 컬럼의 평균값,최빈값 등을 사용
#           이전의 값 또는 이후의 값으로 대체

In [15]:
df.fillna({'name':'unkown', 'age':0})

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,unkown,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,0.0,남
5,3,Kim,12.0,남


In [16]:
# 이전 컬럼의 값으로 채우기
# df.fillna(method='ffill') # 미래에 제거되는 매개변수 method
df.ffill()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,Hong,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,12.0,남
5,3,Kim,12.0,남


In [17]:
df.bfill()

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,Kim,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,12.0,남
5,3,Kim,12.0,남


In [18]:
df.fillna(df.mean(numeric_only=True),inplace=True)

In [19]:
# - 이름의 결측치는 가장 많이 사용된 이름으로 채우기
df.fillna({'name' : df['name'].mode()[0]},inplace=True)

In [20]:
df

Unnamed: 0,no,name,age,gender
0,1,Hong,10.0,남
1,2,Kim,13.0,남
2,3,Kim,12.0,남
3,4,Lee,12.0,남
4,5,Lim,11.8,남
5,3,Kim,12.0,남
