# 결측치 처리 실습

다음은 부산광역시 사상구 약수터 수질현황표(검사일: 2015년 11월 5일)이다. 

표 상에 나타난 결측 속성값을 채우시오.

- 데이터 파일 : ch2-1(약수터수질현황).csv

In [1]:
# pandas 라이브러리 불러오기
import pandas as pd

In [6]:
# 데이터 적재
# engine='python'
# encoding='utf-8'  / 'cp949'
data = pd.read_csv('ch2-1(약수터수질현황).csv', engine='python',
                  encoding='cp949')

In [7]:
data.head()

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합


In [5]:
data.shape

(24, 7)

In [None]:
# 결측치 확인
# 1. 컬럼별 결측치 개수
# 2. 결측치가 있는 레코드 확인

In [9]:
data.isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     2
질산성질소    2
적합       0
dtype: int64

In [13]:
data[data.isnull().any(axis=1)]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,,적합
16,17,밤골,주례,음 성,,,적합
19,20,승학,학장,양 성,,0.3,부적합


#### 1) 결측치가 있는 레코드 삭제

- 하나라도 있는 데이터 삭제
- 모든 값이 결측인 데이터 삭제

In [16]:
# 7개의 컬럼 중에 결측치가 하나라도 있으면 해당 튜플을 삭제
# df.dropna() : 기본동작(how='any')
data.shape

(24, 7)

In [17]:
data.isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     2
질산성질소    2
적합       0
dtype: int64

In [19]:
data.dropna().shape

(21, 7)

In [20]:
data.dropna().isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     0
질산성질소    0
적합       0
dtype: int64

In [21]:
# 7개의 컬럼이 모두 결측인 튜플을 삭제
# df.dropna(how='all')
data.dropna(how='all').shape

(24, 7)

In [22]:
data.dropna(how='all').isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     2
질산성질소    2
적합       0
dtype: int64

In [None]:
# 7개의 컬럼을 모두 보는것이 아니고
# 3개 컬럼(총대장균군, 일반세균, 질산성질소)
# 2개 컬럼(일반세균, 질산성질소) 
# => 둘 중 하나가 결측
# => 둘 다 결측

In [24]:
data[['일반세균', '질산성질소']].isnull().sum()

일반세균     2
질산성질소    2
dtype: int64

In [25]:
tmp = data[['일반세균', '질산성질소']].copy()

In [27]:
# 둘 중 하나에 결측이 있는 튜플 삭제
tmp.dropna().isnull().sum()

일반세균     0
질산성질소    0
dtype: int64

In [32]:
# 둘 중 하나에 결측이 있는 튜플의 인덱스 찾기
# 원본 데이터에서 해당 인덱스를 삭제
case1 = tmp[tmp.isnull().any(axis=1)].index.tolist()

In [33]:
case1

[3, 16, 19]

In [35]:
data.drop(case1).shape

(21, 7)

In [37]:
# 둘 다 결측이 있는 튜플 삭제를 하기 위해 필요한 값
# 둘 다 결측이 있는 튜플의 인덱스 찾기
# 원본 데이터에서 해당 인덱스를 삭제
case2 = tmp[tmp.isnull().all(axis=1)].index.tolist()

In [40]:
data.drop(case2).shape

(23, 7)

#### 2) 임의의 값을 사용하여 결측값 대체

In [42]:
# 결측값(NaN값)을 전역상수(0)로 대체
data.fillna(0).isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     0
질산성질소    0
적합       0
dtype: int64

In [44]:
# 결측값이 있던 데이터만 조회하기
data.fillna('값없음').loc[case1]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10,값없음,적합
16,17,밤골,주례,음 성,값없음,값없음,적합
19,20,승학,학장,양 성,값없음,0.3,부적합


#### 3) 데이터의 평균값을 사용하여 결측값 대체

In [None]:
# 전체 : 수치형 데이터 => 일반세균, 질산성질소 데이터

In [45]:
data.head(1)

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합


In [48]:
# 수치형 데이터
# data.select_dtypes(include='float')
# data._get_numeric_data()

Unnamed: 0,연번,일반세균,질산성질소
0,1,10.0,6.7
1,2,20.0,0.9
2,3,10.0,1.1
3,4,10.0,
4,5,20.0,2.7
5,6,10.0,2.2
6,7,10.0,2.6
7,8,10.0,2.7
8,9,20.0,3.1
9,10,10.0,3.1


In [54]:
# 결측치를 0으로 대체하여 평균 구하기
mean1 = tmp.fillna(0).values.mean()

In [55]:
data.fillna(mean1).loc[case1]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,10.58125,적합
16,17,밤골,주례,음 성,10.58125,10.58125,적합
19,20,승학,학장,양 성,10.58125,0.3,부적합


In [60]:
# 결측치를 삭제하고 평균 구하기
mean2 = tmp.dropna().values.mean()

In [61]:
data.fillna(mean2).loc[case1]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,11.847619,적합
16,17,밤골,주례,음 성,11.847619,11.847619,적합
19,20,승학,학장,양 성,11.847619,0.3,부적합


#### 4) 결측치가 속한 클래스의 속성 평균값을 사용하여 결측값 대체

In [65]:
# 일반세균
x1 = data['일반세균'].mean()

In [70]:
data['일반세균'][data['일반세균'].isnull()].index

Int64Index([16, 19], dtype='int64')

In [73]:
data['일반세균'].fillna(x1).loc[[16,19]]

16    20.454545
19    20.454545
Name: 일반세균, dtype: float64

In [66]:
# 질산성질소
x2 = data['질산성질소'].mean()

In [71]:
data['질산성질소'][data['질산성질소'].isnull()].index

Int64Index([3, 16], dtype='int64')

In [72]:
data['질산성질소'].fillna(x2).loc[[3,16]]

3     2.631818
16    2.631818
Name: 질산성질소, dtype: float64

In [77]:
data.fillna(data.mean()).loc[[3,16,19]]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,2.631818,적합
16,17,밤골,주례,음 성,20.454545,2.631818,적합
19,20,승학,학장,양 성,20.454545,0.3,부적합


In [78]:
# 수치형 컬럼별 평균
data.mean()

연번       12.500000
일반세균     20.454545
질산성질소     2.631818
dtype: float64

In [97]:
# 일반세균/질산성질소 => 적합/부적합 별로 속성의 평균
# 적합/부적합 별로 결측치를 대체
tmp2 = data[['일반세균', '적합']].copy()
tmp4 = data[['질산성질소', '적합']].copy()

In [83]:
# 일반세균
# 적합 / 부적합
tmp2['적합'].unique()

array(['부적합', '적합'], dtype=object)

In [87]:
# 일반세균 중에 부적합인 경우의 평균값
mean3 = tmp2[tmp2['적합'] == '부적합']['일반세균'].mean()

33.333333333333336

In [98]:
mean4 = tmp2[tmp2['적합'] == '적합']['일반세균'].mean()

In [99]:
mean5 = tmp4[tmp4['적합'] == '부적합']['질산성질소'].mean()

In [100]:
mean6 = tmp4[tmp4['적합'] == '적합']['질산성질소'].mean()

In [89]:
tmp.columns

Index(['일반세균', '질산성질소'], dtype='object')

In [91]:
tmp3 = data[['일반세균', '질산성질소', '적합']].copy()

In [93]:
tmp3.columns[:-1]

Index(['일반세균', '질산성질소'], dtype='object')

In [104]:
# 반복 대상 : 적합, 부적합, 일반세균, 질산성질소
# 반복 규칙 : 적합 -> 일반세균, 질산성질소 / 부적합 -> 일반세균,..
for i in tmp3['적합'].unique():
#     print(i)
    for j in tmp3.columns[:-1]:
        x = tmp3[tmp3['적합'] == i][j].mean()
        print(i,j,x)
        print(tmp3[tmp3['적합'] == i][j].fillna(x).isnull().sum())
#         print(j)

부적합 일반세균 33.333333333333336
0
부적합 질산성질소 2.4714285714285715
0
적합 일반세균 15.625
0
적합 질산성질소 2.7066666666666666
0
