데이터 분석에 앞서 전처리가 완료된 데이터에 대해 결측치나 이상치를 처리

- 제거 : 결측치나 가진 데이터를 제거하는 것을 의미한다.
- 제거를 하게 되면 데이터가 왜곡되지만 학습량이 줄어든다.
- 대체 : 결측치나 이상치를 다른 값으로 바꾸는 것을 의미한다.
- 대체를 하게 되면 데이터가 왜곡되지만, 학습량은 유지된다.
- 제거를 추천. 제거 후 성능이 매우 안 좋다면 일단 집에 전화하고 대체할 값 을 찾아야한다.
- 대체를 선택했을 때는 누구나 납득할 수 있는 객관적인 지표를 찾아야하고 찾을 수가 없다면 평균이나 중간값을 추천한다.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [4]:
df1 = pd.read_csv('data/grade.csv', encoding='euc-kr')
df1.set_index('이름', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
민수,1,남자,92,70.0,,
수현,3,여자,63,60.0,31.0,70.0
호영,4,남자,120,50.0,,88.0


### 1.  결측치 확인

In [5]:
# Non-Null Count : 결측치를 제외한 데이터의 개수
df1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 철수 to 호영
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   학년      5 non-null      int64  
 1   성별      5 non-null      object 
 2   국어      5 non-null      int64  
 3   영어      4 non-null      float64
 4   수학      3 non-null      float64
 5   과학      4 non-null      float64
dtypes: float64(3), int64(2), object(1)
memory usage: 280.0+ bytes


In [6]:
# count는 결측치를 제외한 데이터의 개수를 알아볼 수 있다.
df1.count()

학년    5
성별    5
국어    5
영어    4
수학    3
과학    4
dtype: int64

In [7]:
# isna : 결측치인 부분은 True, 결측치가 아닌 부분을 False로 되어있는 데이터 프레임을 반환한다.
# sum : 각 컬럼의 총합을 구한다. True나 False로 되어 있을 경우 각각 1, 0으로 환산하여 총합을 구한다.
df1.isna().sum()

학년    0
성별    0
국어    0
영어    1
수학    2
과학    1
dtype: int64

### 2. 결측치 제거

In [8]:
# 결측치가 포함된 모든 행을 제거한다.
df2 = df1.dropna()
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [10]:
# 특정 컬럼에 결측치가 있는 row를 제거한다.
df3 = df1.dropna(subset=['수학','과학'])
df3

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1,남자,98,,88.0,64.0
영희,2,여자,88,90.0,62.0,72.0
수현,3,여자,63,60.0,31.0,70.0


In [13]:
# 모든 컬럼에 결측치가 있는 로우를 삭제한다.
# (지금까지 프로젝트하면서 한 번도 써본 적이 없습니다 ..ㅋㅋ)
df1.loc['길동'] = [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]
display(df1)

df1.dropna(how='all', inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,98.0,,88.0,64.0
영희,2.0,여자,88.0,90.0,62.0,72.0
민수,1.0,남자,92.0,70.0,,
수현,3.0,여자,63.0,60.0,31.0,70.0
호영,4.0,남자,120.0,50.0,,88.0
길동,,,,,,


Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,98.0,,88.0,64.0
영희,2.0,여자,88.0,90.0,62.0,72.0
민수,1.0,남자,92.0,70.0,,
수현,3.0,여자,63.0,60.0,31.0,70.0
호영,4.0,남자,120.0,50.0,,88.0


### 3. 결측치가 포함된 열 제거
결측치의 비율이 높은 열을 그냥 제거하는 게 나을 수도 있다.

In [14]:
# 결측치가 하나라도 들어있는 컬럼은 모두 제거한다.
df2 = df1.dropna(axis=1)
df2

Unnamed: 0_level_0,학년,성별,국어
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
철수,1.0,남자,98.0
영희,2.0,여자,88.0
민수,1.0,남자,92.0
수현,3.0,여자,63.0
호영,4.0,남자,120.0


###  결측치 대체


In [15]:
# 데이터프레임의 모든 결측치를 50으로 설정한다.
df2 = df1.fillna(value=50)
df2

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,98.0,50.0,88.0,64.0
영희,2.0,여자,88.0,90.0,62.0,72.0
민수,1.0,남자,92.0,70.0,50.0,50.0
수현,3.0,여자,63.0,60.0,31.0,70.0
호영,4.0,남자,120.0,50.0,50.0,88.0


In [16]:
# 컬럼별로 결측치를 대체한다.
df1['영어'].fillna(value=50, inplace=True)
df1['수학'].fillna(value=60, inplace=True)
df1['과학'].fillna(value=70, inplace=True)
df1

Unnamed: 0_level_0,학년,성별,국어,영어,수학,과학
이름,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
철수,1.0,남자,98.0,50.0,88.0,64.0
영희,2.0,여자,88.0,90.0,62.0,72.0
민수,1.0,남자,92.0,70.0,60.0,70.0
수현,3.0,여자,63.0,60.0,31.0,70.0
호영,4.0,남자,120.0,50.0,60.0,88.0
