# 결측치 처리 실습

다음은 부산광역시 사상구 약수터 수질 현황표(검사일 : 2015년 11월 5일)이다.

표 상에 나타난 결측 속성값을 채우시오. 

- 데이터 파일 : ch2-1(약수터수질현황).csv

In [3]:
# pandas 라이브러리 불러오기
import pandas as pd

In [4]:
# 데이터 적재 
# encoding = 'utf-8' or 'CP949' => Encoding Error or UnicodeError
# engine = 'python' => OSerror
data = pd.read_csv('data/ch2-1(약수터수질현황).csv', engine='python', encoding='CP949')
data.head()

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합


#### 1) 결측치가 있는 레코드 삭제

- 결측치 확인
- 하나라도 있는 데이터 삭제
- 모든 값이 결측인 데이터 삭제

In [5]:
# 컬럼별 결측치 개수
#data.isnull()
data.isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     2
질산성질소    2
적합       0
dtype: int64

In [6]:
# 결측치가 있는 로우만 남겨서 조회하기
data[data.isnull().any(axis=1)]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,,적합
16,17,밤골,주례,음 성,,,적합
19,20,승학,학장,양 성,,0.3,부적합


In [7]:
nan_idx = data[data.isnull().any(axis=1)].index
nan_idx

Int64Index([3, 16, 19], dtype='int64')

In [8]:
# 하나라도 결측이 있는 레코드 삭제
# data : 24 x 7
# 21 x 7
data.dropna()

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합
10,11,체육공원,감전,음 성,20.0,4.0,적합


In [9]:
# 삭제 확인
data.dropna().isnull().sum()

연번       0
약수터명     0
동명       0
총대장균군    0
일반세균     0
질산성질소    0
적합       0
dtype: int64

In [10]:
# 전체 값이 결측인 레코드만 삭제하기
# 하나의 로우 전체가 결측인 케이스만 삭제
data.dropna(how='all')

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합


In [11]:
# 두 개 컬럼('일반세균', '질산성질소') 모두가 결측인 로우 삭제
# 전체 데이터프레임에 바로 적용되지 않음(일시적으로 결과만 확인 가능)
data[['일반세균', '질산성질소']].dropna(how='all')

Unnamed: 0,일반세균,질산성질소
0,10.0,6.7
1,20.0,0.9
2,10.0,1.1
3,10.0,
4,20.0,2.7
5,10.0,2.2
6,10.0,2.6
7,10.0,2.7
8,20.0,3.1
9,10.0,3.1


In [12]:
tmp = data[['일반세균', '질산성질소']].copy()
tmp

Unnamed: 0,일반세균,질산성질소
0,10.0,6.7
1,20.0,0.9
2,10.0,1.1
3,10.0,
4,20.0,2.7
5,10.0,2.2
6,10.0,2.6
7,10.0,2.7
8,20.0,3.1
9,10.0,3.1


In [13]:
# 하나라도 결측이 있는 데이터를 가져오기 v
tmp[tmp.isnull().any(axis=1)]

Unnamed: 0,일반세균,질산성질소
3,10.0,
16,,
19,,0.3


In [14]:
# tmp 내에서 모든 값이 결측인 로우 가져오기
tmp[tmp.isnull().all(axis=1)]

Unnamed: 0,일반세균,질산성질소
16,,


In [15]:
# drop(idx/col, axis=0(row삭제), 1(columns삭제))
# 16번 로우를 삭제해보세요
data.drop(16, axis=0)

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합


#### 2) 임의의 값을 사용하여 결측값 대체

In [16]:
# 결측값(NaN값)을 전역상수 0으로 대체
data2 = data.fillna(0)

In [17]:
data2

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,0.0,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합


In [18]:
nan_idx

Int64Index([3, 16, 19], dtype='int64')

In [19]:
# 결측값이 있던 로우만 소환
data2.iloc[nan_idx] # 19번 세균이 0인데 부적합

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,0.0,적합
16,17,밤골,주례,음 성,0.0,0.0,적합
19,20,승학,학장,양 성,0.0,0.3,부적합


#### 3) 데이터의 평균값을 사용하여 결측값 대체

In [20]:
# 결측값(NULL값)을 데이터의 평균값으로 대체
# 전체 데이터의 속성 타입 확인 후 숫자형 데이터에 개한 평균값 사용
# 일반 세균, 질산성 ...
# df.select_dtypes(include=특정타입) # int/float/object
# df._get_numeric_data()
data._get_numeric_data()

Unnamed: 0,연번,일반세균,질산성질소
0,1,10.0,6.7
1,2,20.0,0.9
2,3,10.0,1.1
3,4,10.0,
4,5,20.0,2.7
5,6,10.0,2.2
6,7,10.0,2.6
7,8,10.0,2.7
8,9,20.0,3.1
9,10,10.0,3.1


In [21]:
# 일반세균, 질산성질소
avg1 = tmp.fillna(0).values.mean()

In [22]:
avg1

10.58125

In [23]:
# 평균값으로 data 변수의 결측값을 채워준 다음, 결측값이 있던 로우만 조회해주세요
data.fillna(avg1).iloc[nan_idx]

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
3,4,서당골,모라,음 성,10.0,10.58125,적합
16,17,밤골,주례,음 성,10.58125,10.58125,적합
19,20,승학,학장,양 성,10.58125,0.3,부적합


#### 4) 결측치가 속한 클래스의 평균값을 사용하여 결측값 대체

In [24]:
data3 = data.copy()

In [26]:
# data3를 이용해 일반세균이 null인 로우만 골라서 출력해주세요
data3['일반세균'][data3['일반세균'].isnull()]

16   NaN
19   NaN
Name: 일반세균, dtype: float64

In [30]:
# 일반세균 컬럼의 평균을 구해주세요
avg1 = data['일반세균'].mean() # fillna(0)으로 채우면 평균값이 다름

In [32]:
# 일반세균 컬럼의 결측치를 avg1로 채워주고 data3에 영구 적용 v
data3['일반세균'].fillna(avg1, inplace=True)

In [33]:
# data3 데이터프레임의 16, 19번 로우만 골라서 출력해주세요
data3['일반세균'].iloc[[16, 19]]

16    20.454545
19    20.454545
Name: 일반세균, dtype: float64

In [34]:
# 질산성질소가 null인 로우만 골라서 출력
data3['질산성질소'][data3['질산성질소'].isnull()]

3    NaN
16   NaN
Name: 질산성질소, dtype: float64

In [35]:
# 질산성질소 컬럼의 평균을 구해주세요
avg2 = data['질산성질소'].mean()

In [37]:
# 질산성질소 컬럼의 결측치를 avg로 채워주고 data3에 영구 적용
data3['질산성질소'].fillna(avg2, inplace=True)

In [40]:
# data3의 데이터프레임에서 결측치였던 로우만 골라서 출력해주세요
data3['질산성질소'].iloc[[3, 16]]

3     2.631818
16    2.631818
Name: 질산성질소, dtype: float64

In [41]:
# 적합 컬럼이 부적합인 자료만 모아보기
data[data['적합']=='부적합']

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
12,13,백양골,주례,양 성,10.0,2.8,부적합
14,15,승록정,주례,음 성,20.0,2.3,부적합
18,19,무명,주례,음 성,110.0,0.7,부적합
19,20,승학,학장,양 성,,0.3,부적합
21,22,백련,엄궁,양 성,40.0,1.9,부적합


In [42]:
# 적합 컬럼이 적합인 자료 모아보기
data[data['적합']=='적합']

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합
10,11,체육공원,감전,음 성,20.0,4.0,적합
11,12,건강,주례,음 성,10.0,1.8,적합


In [43]:
# 적합여부별로 속성별 평균값을 구하여 결측치 대체
# groupby() : 범주형 데이터에 대해 집계 기준을 설정
data4 = data.copy()

In [49]:
# 적합 컬럼을 기준으로 집계한 '일반세균' 평균 구하기
avg3 = data4.groupby('적합').mean()
avg3

Unnamed: 0_level_0,연번,일반세균,질산성질소
적합,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
부적합,13.857143,33.333333,2.471429
적합,11.941176,15.625,2.706667


In [50]:
avg3.drop('연번', axis=1, inplace=True)
avg3

Unnamed: 0_level_0,일반세균,질산성질소
적합,Unnamed: 1_level_1,Unnamed: 2_level_1
부적합,33.333333,2.471429
적합,15.625,2.706667


In [60]:
avg3

Unnamed: 0_level_0,일반세균,질산성질소
적합,Unnamed: 1_level_1,Unnamed: 2_level_1
부적합,33.333333,2.471429
적합,15.625,2.706667


In [None]:
avg3['']

In [68]:
# 적합에는 적합 평균, 부적합에는 부적합 평균 대입하기 (조건색인 활용)
# fancy 인덱싱 사용 or 조건색인 사용
# 조건색인 사용
data4['일반세균'][data4['적합']=='적합'] = data4['일반세균'][data4['적합']=='적합'].fillna(avg3['일반세균'].loc['적합'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


In [71]:
# fancy 인덱싱 사용
not_ok = data4['일반세균'][data4['적합']=='부적합'].index

In [72]:
not_ok

Int64Index([0, 6, 12, 14, 18, 19, 21], dtype='int64')

In [73]:
data4['일반세균'].iloc[not_ok] = data4['일반세균'].iloc[not_ok].fillna(avg3['일반세균'].loc['부적합'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


In [74]:
data4

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합


In [75]:
# 질산성질소 컬럼을 적합/부적합을 나눠서 각각 채워주세요
# 적합 채우기
data4['질산성질소'][data4['적합']=='적합'] = data4['질산성질소'][data4['적합']=='적합'].fillna(avg3['질산성질소'].loc['적합'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


In [76]:
# 부적합 채우기 => 부적합은 없음
data4['질산성질소'].iloc[not_ok] = data4['질산성질소'].iloc[not_ok].fillna(avg3['질산성질소'].loc['부적합'])

In [77]:
data4

Unnamed: 0,연번,약수터명,동명,총대장균군,일반세균,질산성질소,적합
0,1,백수,모라,양 성,10.0,6.7,부적합
1,2,이칠,모라,음 성,20.0,0.9,적합
2,3,운수사,모라,음 성,10.0,1.1,적합
3,4,서당골,모라,음 성,10.0,2.706667,적합
4,5,청수,괘법,음 성,20.0,2.7,적합
5,6,사상,괘법,음 성,10.0,2.2,적합
6,7,탑골,괘법,양 성,10.0,2.6,부적합
7,8,삼각산,괘법,음 성,10.0,2.7,적합
8,9,괘내,괘법,음 성,20.0,3.1,적합
9,10,황씨묘위,감전,음 성,10.0,3.1,적합
