### 결측치 처리
- 빈칸 즉, 데이터가 없는 부분을 의미
- 결측치 체크 후 처리 방법 결정
- 처리방법
    - 제거
    - 치환

In [10]:
import pandas as pd

In [11]:
file_path = './data.csv'

data_df = pd.read_csv(file_path)

In [12]:
data_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   no      5 non-null      int64  
 1   name    4 non-null      object 
 2   age     4 non-null      float64
 3   gnader  5 non-null      object 
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


In [13]:
# 실제 데이터 체크
data_df.head()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [14]:
# - 데이터 전처리
# - 결측치 체크 ==> isnull(), isna()
data_df.isnull()

Unnamed: 0,no,name,age,gnader
0,False,False,False,False
1,False,True,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,True,False


In [15]:
data_df.isna().sum()

no        0
name      1
age       1
gnader    0
dtype: int64

In [17]:
# - 결측치 처리 -> 삭제 dropna() 사용
# - 기본값 : 행방향, 행 안에 1개의 컬럼이라도 Na면 날림
data_df.dropna()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [18]:
# - 설정값 : 열방향, 열 안에 1개의 컬럼이라도 Na면 날림
data_df.dropna(axis=1)

Unnamed: 0,no,gnader
0,1,M
1,2,F
2,3,M
3,4,F
4,5,M


In [19]:
# - 성정값 : 모든 원소가 NaN일 삭제 ==> how = 'all
data_df.dropna(axis=0, how='all')

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [20]:
data_df.dropna(axis=1, how='all')

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [21]:
# 성절값 : 정상 데이터가 지정된 개수 이하이면 삭제 : thresh=int
data_df.dropna(axis=0, thresh=4)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [23]:
data_df.dropna(thresh=3)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [24]:
# - 설정값 : 특정 컬럼만 NaN 여부 검사 진행 후 결정 : subet
# - 나이를 분석 해보고 싶음 => 중요한 컴럼 == age
data_df.dropna(axis=0, subset=['age'])

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [25]:
# - 나이와 이름을 분석
# - 중요한 컬럼 : age, name
data_df.dropna(subset=['age', 'name'])

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
2,3,Kim,12.0,M
3,4,Lee,16.0,F


In [26]:
# 결측치 저리 -> 대체/치환 fillna()
# - 대체값 : 원하는 값 또는 컬럼의 평균이나 최빈값을 이용. 
# 이전의 값 또는 이후의 값으로 대체
data_df.fillna(0)

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,0,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,0.0,M


In [28]:
data_df.fillna({'name':'unknwon', 'age':0})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,unknwon,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,0.0,M


In [29]:
# - 이전 컬럼의 값으로 대체
data_df.fillna(method='ffill')  # 미래에 없어지는 메서드

  data_df.fillna(method='ffill')


Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,16.0,M


In [30]:
data_df.ffill()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,16.0,M


In [32]:
data_df.bfill()

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Kim,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [34]:
# 나이의 결측치를 나의의 평균으로 채우기
data_df.fillna({'age':data_df['age'].mean(numeric_only=True)})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,12.75,M


In [35]:
# 이름의 결측치를 가장 많이 나온걸로 채우기
data_df.fillna({'name':data_df['name'].mode()})

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,,M


In [36]:
# 종합
data_df.fillna({'name':data_df['name'].mode(), 'age':data_df['age'].mean(numeric_only=True)}, inplace=True)

data_df

Unnamed: 0,no,name,age,gnader
0,1,Hong,10.0,M
1,2,Hong,13.0,F
2,3,Kim,12.0,M
3,4,Lee,16.0,F
4,5,Han,12.75,M
