# 5. 결측치 처리

이번장에서는 **결측치(missing value)** 를 확인 하고 처리하는 방법을 학습 한다. 이상치와 마찬가지로 결측치도 실제 분석에서 자주 만나는 데이터 문제이다.   

※ **판다스의 데이터 프레임에서 결측치는 'NaN' 으로 표기**된다.

In [10]:
# 새로운 데이터 파일 Ex_Missing.csv 로드
import pandas as pd
data = pd.read_csv('./extrafiles/Ex_Missing.csv', encoding='utf-8')
data

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,,9958.0,10.9,1
2,,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,,13.8,1
5,1145.0,,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,,2


## 5.1 결측치 확인

### 가. 전체 및 변수별 결측 확인

결측치를 세부적으로 파악 하기 위해 pandas 의 **isnull()** 혹은 **notnull()함수를 이용**하여 데이터를 확인한다.

In [11]:
# isnull : 결측이면 True, 결측이 아니면 False 값을 반환한다. 아래 함수중 어느걸 사용해도 무방
# pd.isnull(data)
data.isnull()

Unnamed: 0,salary,sales,roe,industry
0,False,False,False,False
1,True,False,False,False
2,True,False,False,False
3,False,False,False,False
4,False,True,False,False
5,False,True,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,True,False


In [13]:
# notnull() : 결측인 경우 False, 결측이 아닌 경우True 반환
# pd.notnull(data)
data.notnull()

Unnamed: 0,salary,sales,roe,industry
0,True,True,True,True
1,False,True,True,True
2,False,True,True,True
3,True,True,True,True
4,True,False,True,True
5,True,False,True,True
6,True,True,True,True
7,True,True,True,True
8,True,True,True,True
9,True,True,False,True


In [15]:
# 변수 이름 별로 결측값의 갯수 확인하기.
data.isnull().sum()

salary      2
sales       2
roe         1
industry    0
dtype: int64

In [16]:
# 특정 컬럼의 결측값 개수 확인
data['salary'].isnull().sum()

2

In [17]:
# 변수 별로 결측 아닌 값의 개수 확인
data.notnull().sum()

salary       8
sales        8
roe          9
industry    10
dtype: int64

In [18]:
# 특정 컬럼의 결측이 아닌 값 개수 확인
data.notnull().sum()

salary       8
sales        8
roe          9
industry    10
dtype: int64

### 나. 행별 결측 확인 및 저장

결측이 발생한 자리에 새로운 변수로 저장이 필요한 경우.

In [24]:
# 행 단위로의 전체 결측값의 개수를 구한다.
data.isnull().sum(1)

0    0
1    1
2    1
3    0
4    1
5    1
6    0
7    0
8    0
9    1
dtype: int64

In [26]:
# 행 단위로 결측 값의 개수를 구하여 새 변수에 할당한다.
data['missing'] = data.isnull().sum(1)
data

Unnamed: 0,salary,sales,roe,industry,missing
0,1095.0,27595.0,14.1,1,0
1,,9958.0,10.9,1,1
2,,6125.899902,23.5,1,1
3,578.0,16246.0,5.9,1,0
4,1368.0,,13.8,1,1
5,1145.0,,20.0,2,1
6,1078.0,2266.699951,16.4,2,0
7,1094.0,2966.800049,16.299999,2,0
8,1237.0,4570.200195,10.5,2,0
9,833.0,2830.0,,2,1


In [27]:
# 행 단위로 실측값(유효값)의 갯수 구하기
del data['missing']
data['valid'] = data.notnull().sum(1)
data

Unnamed: 0,salary,sales,roe,industry,valid
0,1095.0,27595.0,14.1,1,4
1,,9958.0,10.9,1,3
2,,6125.899902,23.5,1,3
3,578.0,16246.0,5.9,1,4
4,1368.0,,13.8,1,3
5,1145.0,,20.0,2,3
6,1078.0,2266.699951,16.4,2,4
7,1094.0,2966.800049,16.299999,2,4
8,1237.0,4570.200195,10.5,2,4
9,833.0,2830.0,,2,3


## 5.2 결측값 제거 : dropna()

결측값을 처리하는 간단하고 확인한 방법은 제거하는 것 입니다. **결측치는 dropna() 함수를 통해 제거 가능** 합니다.

### 가. 결측값이 존재하는 행(row/case)의 제거

행(row) 의 축(axis) 은 '0' 입니다. 아래와 같이 dropna(axis=0) 명령을 통해 행(가로)를 제거 할 수 있습니다.

In [29]:
# 결측치로 인해 제거된 행 보긴
data_del_row = data.dropna(axis=0)
data_del_row

Unnamed: 0,salary,sales,roe,industry,valid
0,1095.0,27595.0,14.1,1,4
3,578.0,16246.0,5.9,1,4
6,1078.0,2266.699951,16.4,2,4
7,1094.0,2966.800049,16.299999,2,4
8,1237.0,4570.200195,10.5,2,4


### 나. 결측값이 존재하는 열(column/variable) 제거

열(column)의 축(axis) 는 '1' 입니다. 아래와 같이 dropna(axis=1) 명령을 통해 열(세로)을 제거 할 수 있습니다.

In [30]:
# 결측치가 하나라도 존재하는 모든 컬럼들이 제거 된다.
data_del_col = data.dropna(axis=1)
data_del_col

Unnamed: 0,industry,valid
0,1,4
1,1,3
2,1,3
3,1,4
4,1,3
5,2,3
6,2,4
7,2,4
8,2,4
9,2,3


### 다. 결측값이 존재하는 특정 행/열 제거

데이터프레임의 컬럼명 지정을 통해 특정 행의 결측값을 제거 할 수 있다.

In [31]:
# salary 단일 컬럼 데이터프레임에서 dropna 실행
data[['salary']].dropna()

Unnamed: 0,salary
0,1095.0
3,578.0
4,1368.0
5,1145.0
6,1078.0
7,1094.0
8,1237.0
9,833.0


In [32]:
# 4개의 변수중 결측치가 존재하는 케이스를 제거 한다. 상당한 데이터 유실이 발생중
data[['salary', 'sales', 'roe', 'industry']].dropna()

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
3,578.0,16246.0,5.9,1
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2


In [33]:
data[['salary', 'sales', 'roe', 'industry']].dropna(axis=0) # 축을 열로 준 경우 default 벨류

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
3,578.0,16246.0,5.9,1
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2


In [34]:
data[['salary', 'sales', 'roe', 'industry']].dropna(axis=1) # 축을 행으로 준 경우 - 컬럼 삭제

Unnamed: 0,industry
0,1
1,1
2,1
3,1
4,1
5,2
6,2
7,2
8,2
9,2


## 5.3 결측값 대체

만약 결측치가 다양한 위치에 포진해 있어 삭제시 분석 데이터에 치명 적인 경우 다른 값으로 대체하는 방법을 고려 해야 한다.

**결측값을 대체하는 명령문은 fillna()** 이며, 이를 활용하는 방법은 크게 4가지 정도로 분류가능하다.

1. 결측값을 특정 값으로 일방 교체한다    : replace missing values with scalar value
2. 결측값을 변수별 평균 값으로 대체 한다 : filling missing values with mean value per columns
3. 결측값을 다른 변수의 값으로 대체한다  : fillinf missing values with mean value per columns
4. 결측값을 그룹의 평균값으로 대체 한다  : fillinf missing values with another column's values

In [59]:
import pandas as pd
data = pd.read_csv('./extrafiles/Ex_Missing.csv', encoding='utf-8')
data

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,,9958.0,10.9,1
2,,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,,13.8,1
5,1145.0,,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,,2


### 가. 특정값으로 대체 : df.fillna(value/string)

fillna() 함수에 인자 값으로 변경하고자 하는 값이나 문자를 지정 하여 적용한다.

In [37]:
# fillna(0)
data_0 = data.fillna(0)
data_0

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,0.0,9958.0,10.9,1
2,0.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,0.0,13.8,1
5,1145.0,0.0,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,0.0,2


In [38]:
# 결측 값을 'missing' 문자열로 대체하는 방법
data_missing = data.fillna('missing')
data_missing

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,missing,9958.0,10.9,1
2,missing,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,missing,13.8,1
5,1145.0,missing,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,missing,2


In [41]:
# 결측 값을 바로 직전 값을 이용하여 대체하는 방법
# data_ffill = data.fillna(method='ffill' or 'pad'
data_ffill = data.fillna(method='ffill')
data_ffill

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1095.0,9958.0,10.9,1
2,1095.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,16246.0,13.8,1
5,1145.0,16246.0,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,10.5,2


In [40]:
# ffill 과 동일한 함수 pad
data_pad = data.fillna(method='pad')
data_pad

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1095.0,9958.0,10.9,1
2,1095.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,16246.0,13.8,1
5,1145.0,16246.0,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,10.5,2


In [42]:
# 결측치를 현재 위치 이후 값으로 대체 하는 방법
# data.fillna(method='bfill' or 'backfill')
data.fillna(method='bfill')

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,578.0,9958.0,10.9,1
2,578.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,2266.699951,13.8,1
5,1145.0,2266.699951,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,,2


In [43]:
data.fillna(method='backfill')

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,578.0,9958.0,10.9,1
2,578.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,2266.699951,13.8,1
5,1145.0,2266.699951,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,,2


### 나. 평균 대체

결측값을 앞 또는 뒤의 값을 대입 하는 것이 아닌 **해당 컬럼의 평균 값으로 대체 하는 방법이다. mean() 함수를 이용**할 수 있으며 fillna(df.mean()) 과 같은 명령문으로 적용 가능하다.


In [44]:
# 평균값 대체 mean 함수 사용
data_mean = data.fillna(data.mean())
data_mean

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1053.5,9958.0,10.9,1
2,1053.5,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,9069.825012,13.8,1
5,1145.0,9069.825012,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,14.6,2


In [45]:
# 중위수 대체 median 함수 사용
data_median = data.fillna(data.median())
data_median

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1094.5,9958.0,10.9,1
2,1094.5,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,5348.050049,13.8,1
5,1145.0,5348.050049,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,14.1,2


In [46]:
# 최대값 대체 max 함수 사용
data_max = data.fillna(data.max())
data_max

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1368.0,9958.0,10.9,1
2,1368.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,27595.0,13.8,1
5,1145.0,27595.0,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,23.5,2


In [55]:
# 특정 컬럼의 값으로  결측치 모두를 대체
data_other_mean = data.fillna(data.mean()['salary']) # mean 값을 산출 후 ['salary'] 컬럼만 호출
# data_other_mean = data.fillna(data['salary'].mean()) # 어느 형식을 사용해도 무방.
data_other_mean

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1053.5,9958.0,10.9,1
2,1053.5,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,1053.5,13.8,1
5,1145.0,1053.5,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,1053.5,2


### 다. 다른 변수 값으로 대체
sales 의 결측값을 salary 의 값으로 대체 할 수 있다. 기존 sales 값이 결측인 경우 salary 값으로 대체 하고 그 결과는 sales_new 변수(컬럼)에 대입하여 본다. 이때 numpy 의 where 함수를 이용하여 구현이 가능하다.

In [60]:
# where 함수의 사용
import numpy as np
data2 = data.copy()

# where 함수는 3항 연산자와 동일한 구조.
data2['sales_new'] = np.where(pd.notnull(data2['sales']) == True, data2['sales'], data2['salary'])
data2

Unnamed: 0,salary,sales,roe,industry,sales_new
0,1095.0,27595.0,14.1,1,27595.0
1,,9958.0,10.9,1,9958.0
2,,6125.899902,23.5,1,6125.899902
3,578.0,16246.0,5.9,1,16246.0
4,1368.0,,13.8,1,1368.0
5,1145.0,,20.0,2,1145.0
6,1078.0,2266.699951,16.4,2,2266.699951
7,1094.0,2966.800049,16.299999,2,2966.800049
8,1237.0,4570.200195,10.5,2,4570.200195
9,833.0,2830.0,,2,2830.0


### 라. 집단 평균값으로 대체

결측값을 대체 하는 방법으로 전체 평균이 아닌 어떤 변수의 그룹별 평균을 이용하여 결측값을 대체하는 방법이다.
여기서는 산업별 평균으로 결측값을 대체하는 방법을 알아보자.

In [61]:
# 산업별 평균의 확인
data.groupby('industry').mean()

Unnamed: 0_level_0,salary,sales,roe
industry,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1013.666667,14981.224975,13.64
2,1077.4,3158.425049,15.8


In [66]:
# lambda 함수를 이용하여 평균으로 대체한다는 함수 구성
fill_mean_func = lambda g : g.fillna(g.mean())

# 생성된 함수의 적용은 apply 함수 이용
# data_group_mean=data.groupby('industry').apply(fill_mean_func)

# lambda 를 바로 선언하여 적용할 수도 있다.
data_group_mean=data.groupby('industry').apply(lambda g : g.fillna(g.mean()))
data_group_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,salary,sales,roe,industry
industry,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,0,1095.0,27595.0,14.1,1
1,1,1013.666667,9958.0,10.9,1
1,2,1013.666667,6125.899902,23.5,1
1,3,578.0,16246.0,5.9,1
1,4,1368.0,14981.224975,13.8,1
2,5,1145.0,3158.425049,20.0,2
2,6,1078.0,2266.699951,16.4,2
2,7,1094.0,2966.800049,16.299999,2
2,8,1237.0,4570.200195,10.5,2
2,9,833.0,2830.0,15.8,2


### 마. 사용자가 정의한 값으로 매핑

분석자가 설정한 특정 값으로 대체하는 방법에 대해 알아 보자. 

In [70]:
# 산업영역의 카테고리 값을 각 1:1000 으로 2:2000으로 대입한다는 설정을 적용
fill_values = {1:1000, 2:2000} # 매핑 벨류를 정의
fill_func = lambda d : d.fillna(fill_values[d.name]) # 결측값을 채우는 변수로 사용한다는 함수 정의

# 정의된 함수의 적용
# 산업별로 그룹핑 후, 산업코드 1에는 1000으로 2에는 2000으로 결측값을 제각각 채워 넣는다.
data_group_value = data.groupby('industry').apply(fill_func) 
data_group_value

Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,1000.0,9958.0,10.9,1
2,1000.0,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,1000.0,13.8,1
5,1145.0,2000.0,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,2000.0,2


In [75]:
# 변수별로 다른 대체 방법 적용
# 결측값에 대한 보간법 : 주변 값에 위화감이 없는 선에서 그라데이션 형태의 값으로 비워진 값을 채우는 기법
missing_fill_val = {'salary':data.salary.interpolate(),# salary 에는 보간법을 적용 한다.
                    'sales':data.sales.mean(), # sales 에는 평균값을 적용한다.
                    'roe':'missing' # row 에는 missing 이라는 문자열을 적용한다.
                   }
print(missing_fill_val)

# 컬럼별 결측값 처리 기준을 대입
data_multi = data.fillna(missing_fill_val)
data_multi

{'salary': 0    1095.000000
1     922.666667
2     750.333333
3     578.000000
4    1368.000000
5    1145.000000
6    1078.000000
7    1094.000000
8    1237.000000
9     833.000000
Name: salary, dtype: float64, 'sales': 9069.825012125, 'roe': 'missing'}


Unnamed: 0,salary,sales,roe,industry
0,1095.0,27595.0,14.1,1
1,922.666667,9958.0,10.9,1
2,750.333333,6125.899902,23.5,1
3,578.0,16246.0,5.9,1
4,1368.0,9069.825012,13.8,1
5,1145.0,9069.825012,20.0,2
6,1078.0,2266.699951,16.4,2
7,1094.0,2966.800049,16.299999,2
8,1237.0,4570.200195,10.5,2
9,833.0,2830.0,missing,2
