#결측 데이터
##1. 결측치 이해
>결측치란 누락되거나 문제가 있는 데이터를 의미한다. 데이터 입력 시 선택사항 부분이나 네트워크 문제 등으로 누락되는 데이터 또는 저장 시 인코딩 문제로 잘못 저장되어 무엇인지 판단하기 어려운 데이터가 결측치이다.

>판다스에서는 결측값을 NaN(Not a Number)으로 표기하며 'None'도 결측치로 사용된다.

>결측치는 다음과 같은 방법으로 처리할 수 있다.
* 결측치 확인
* 결측치 대체 / 제거
* 결측치 반영 확인

##2. 결측치 처리
###2.1 결측치 확인
>결측치 확인 시 다음과 같은 함수를 이용할 수 있다.
* isnull() : 결측치이면 True, 유효데이터이면 False 반환
* notnull() : 유효데이터이면 True, 결측치이면 False 반환

> 데이터는 서울특별시 공공자전거 대여 이력 정보 데이터를 임의로 결측치를 생성하여 사용할 것이다. 우선 다음과 같이 구글 드라이브로 마운트 시키자.


In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


> 현재 등록되어 있는 자전거 파일을 열어 보자

In [None]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/1. 데이터 분석을 위한 기초 통계 수학/1. 데이터 클랜징/data/bicycle.csv', engine='python', encoding='cp949')
df

> 가끔 파일이 안 열릴 겨우 engine='python'을 입력하면 해결할 수 있다. 공공데이터의 경우 한글 인코딩 방식이 cp949를 주로 사용함으로 encoding을 지정해 준다. 지정해 주지 않으면 한글이 깨져서 출력된다.

> 위의 내용에서 반납거치대와 이용거리에 각각 결측치가 나타난 것을 볼 수 있다.

In [None]:
df.isnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True
3,False,False,False,False,False,False,False,False,True,False,False
4,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...
415,False,False,False,False,False,False,False,False,False,False,False
416,False,False,False,False,False,False,False,False,True,False,True
417,False,False,False,False,False,False,False,False,False,False,False
418,False,False,False,False,False,False,False,False,False,False,False


> isnull을 이용하면 결측치가 발생한 지점이 True로 나타나는 것을 볼 수 있다.

In [None]:
df.notnull()

Unnamed: 0,자전거번호,대여일시,대여소번호,대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간,이용거리
0,True,True,True,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,False
3,True,True,True,True,True,True,True,True,False,True,True
4,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...
415,True,True,True,True,True,True,True,True,True,True,True
416,True,True,True,True,True,True,True,True,False,True,False
417,True,True,True,True,True,True,True,True,True,True,True
418,True,True,True,True,True,True,True,True,True,True,True


> notnull을 이용하면 결측치가 발생한 부분에 False가 나타난다. 이 두 함수가 결측치를 확인하는 함수로 본인이 편한 함수를 이용하면 된다.

In [None]:
df.isnull().sum()

자전거번호       0
대여일시        0
대여소번호       0
대여소명        0
대여거치대      24
반납일시        0
반납대여소번호     0
반납대여소명      0
반납거치대      11
이용시간       15
이용거리       16
dtype: int64

> sum을 이용하면 결측치의 총합을 얻을 수 있다.

In [None]:
df.notnull().sum(1)

0      11
1      11
2      10
3      10
4      11
       ..
415    11
416     9
417    11
418    11
419    11
Length: 420, dtype: int64

> sum에 숫자를 입력하면 axis 형태로 값을 확인할 수 있다. dataframe은 이차원 데이터임으로 0은 열단위 1은 행단위로 데이터를 얻어오게 된다. 위의 내용에서는 0을 입력하여 열단위로 데이터를 출력하고 있으며 notnull이므로 정상 데이터의 갯수를 보여주고 있다.

###2.2 결측치 제거
> 결측치 제거는 결측치가 포함되어 있는 행, 열 또는 전체를 제거할 수 있으며 다음과 같이 사용 가능하다.
* 행 삭제 : df.dropna(axis=0)
* 열 삭제 : df.dropna(axis=1)
* 전체 삭제 : df.dropna()

In [None]:
df.dropna(axis=0)

> 실행해 보면 결측치가 존재하던 2, 3행이 제거된 것을 볼 수 있다.

In [None]:
df.dropna(axis=1)

>열을 기준으로 제거했더니 대여거치대, 반납거치대, 이용시간, 이용거리 열이 제거된 것을 볼 수 있다.

In [None]:
print(df['이용거리'])
# df['이용거리'].dropna()

> 이용거리에선 2, 416번이 결측치가 존재한다. 특정 열을 지정하면 결측치를 제거할 수 있다.

In [None]:
print(df[['대여소번호', '대여거치대', '이용거리']])
# df[['대여소번호', '대여거치대', '이용거리']].dropna(axis=0)

>특정열만 지정하여 필요한 데이터를 추출하고 이 중 결측치 행을 지우기 위해 axis를 0으로 지정했다.

###2.3 결측치 대체
데이터가 충분하지 않은 경우 하나의 데이터도 소중하다. 이를 유지하기 위해 결측치로 나타나는 데이터를 0 또는 대표값으로 치환할 수 있다.
* 결측치를 0으로 대체 : df.fillna(0)
* 결측치를 빈 공간으로 대체 : df.fillna(' ')
* 결측치를 변수별 평균으로 대체 : df.fillna(df.mean())

In [None]:
df.fillna(0)

>이용거리의 세번째 행을 보면 0으로 치환된 것을 볼 수 있다.

In [None]:
df.이용거리.fillna(0)

> 위처럼 특정 열만 지정하여 대체할 수도 있다.

In [None]:
df.fillna('missing')

> 원하는 문자열을 지정할 수도 있다.

In [None]:
df2=df
# df2.mean()
df2.mean()['이용거리']
# df2['이용거리'].fillna(df2.mean()['이용거리'])
# df2.fillna(df2.mean()['이용거리'])
df2['이용거리'] = df2.fillna(df2.mean()['이용거리'])['이용거리']
df2

> 평균은 열에 따라 변경됨으로 각 열에 맞는 평균을 구하여 치환해야 한다.