# 결측치missing value 처리하기
* 데이터 수집과정에서 채워지지 못한 값을 의미
* 데이터에 결측치가 포함되어 있으면
* 데이터 분석시 편향/왜곡된 결과가 도출될 수 있음
* 해결책 : 제거하거나 추정값으로 대체

### 결측치 제거

In [3]:
x <- c(1,2,3, NA, 5, NA, 7)

print(sum(x))  # 결측치가 포함되어 있으므로 NA 출력!
print(sum(x, na.rm=T))  # 결측치 제외하고 함수 적용

[1] NA
[1] 18


In [4]:
# is.na : 결측치 여부 확인
is.na(x)

In [5]:
sum(is.na(x))  # NA 인 항목 수 출력

In [7]:
table(is.na(x))  # NA 여부를 빈도표로 출력


FALSE  TRUE 
    5     2 

In [8]:
# na.omit : NA요소는 제거하고 출력
na.omit(x)

In [9]:
x2 <- na.omit(x)
sum(x2)

### 결측치 대체

In [11]:
y <- c(10,9,NA,7,NA,NA,4)

mean(y, na.rm=T)

In [12]:
# 결측치를 중앙값으로 대체
m <- median(y, na.rm=T)

In [13]:
is.na(y)

In [14]:
y[is.na(y)] <- m  # 결측치인 요소에 중앙값으로 대체
y

### 사원 데이터 결측치 처리

In [5]:
emp <- read.csv('./data/employees.csv')
head(emp, 5)

Unnamed: 0_level_0,EMPLOYEE_ID,FIRST_NAME,LAST_NAME,EMAIL,PHONE_NUMBER,HIRE_DATE,JOB_ID,SALARY,COMMISSION_PCT,MANAGER_ID,DEPARTMENT_ID
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<int>,<int>
1,100,Steven,King,SKING,515.123.4567,2003-06-17,AD_PRES,24000,,,90
2,101,Neena,Kochhar,NKOCHHAR,515.123.4568,2005-09-21,AD_VP,17000,,100.0,90
3,102,Lex,De Haan,LDEHAAN,515.123.4569,2001-01-13,AD_VP,17000,,100.0,90
4,103,Alexander,Hunold,AHUNOLD,590.423.4567,2006-01-03,IT_PROG,9000,,102.0,60
5,104,Bruce,Ernst,BERNST,590.423.4568,2007-05-21,IT_PROG,6000,,103.0,60


In [6]:
# 결측치 확인 1
sum(is.na(emp))

In [7]:
# 결측치 확인 2
table(is.na(emp))


FALSE  TRUE 
 1103    74 

In [8]:
# 결측치 확인 3
# colSums : 조건에 따른 컬럼별 합계 출력
colSums(is.na(emp))

In [9]:
# 수당이 없는 사원들을 대상으로 NA를 0으로 변경
find <- is.na(emp$COMMISSION_PCT)
emp$COMMISSION_PCT[find] <- 0

In [10]:
# 수당이 없는 사원들을 대상으로 NA를 0으로 변경
emp$COMMISSION_PCT

In [11]:
head(emp, 5)

Unnamed: 0_level_0,EMPLOYEE_ID,FIRST_NAME,LAST_NAME,EMAIL,PHONE_NUMBER,HIRE_DATE,JOB_ID,SALARY,COMMISSION_PCT,MANAGER_ID,DEPARTMENT_ID
Unnamed: 0_level_1,<int>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<int>,<int>
1,100,Steven,King,SKING,515.123.4567,2003-06-17,AD_PRES,24000,0,,90
2,101,Neena,Kochhar,NKOCHHAR,515.123.4568,2005-09-21,AD_VP,17000,0,100.0,90
3,102,Lex,De Haan,LDEHAAN,515.123.4569,2001-01-13,AD_VP,17000,0,100.0,90
4,103,Alexander,Hunold,AHUNOLD,590.423.4567,2006-01-03,IT_PROG,9000,0,102.0,60
5,104,Bruce,Ernst,BERNST,590.423.4568,2007-05-21,IT_PROG,6000,0,103.0,60


### 우편번호 데이터 결측치 처리

In [3]:
# sep : 컬럼을 구분할 구분자 지정
# encoding : 데이터 객체에 사용할 인코딩 지정
# fileEncoding : 파일의 인코딩 형식 지정
# na.strings : NA로 지정할 문자열 정의 - 빈 문자열을 NA로 지정
zip <- read.csv('./data/zipcode2013.txt', sep='\t', encoding='utf-8', fileEncoding='euc-kr', na.strings='')
head(zip, 5)

Unnamed: 0_level_0,ZIPCODE,SIDO,GUGUN,DONG,RI,BUNJI,SEQ
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,135-806,서울,강남구,개포1동,경남아파트,,1
2,135-807,서울,강남구,개포1동,우성3차아파트,(1∼6동),2
3,135-806,서울,강남구,개포1동,우성9차아파트,(901∼902동),3
4,135-770,서울,강남구,개포1동,주공아파트,(1∼16동),4
5,135-805,서울,강남구,개포1동,주공아파트,(17∼40동),5


In [4]:
str(zip)

'data.frame':	52144 obs. of  7 variables:
 $ ZIPCODE: chr  "135-806" "135-807" "135-806" "135-770" ...
 $ SIDO   : chr  "서울" "서울" "서울" "서울" ...
 $ GUGUN  : chr  "강남구" "강남구" "강남구" "강남구" ...
 $ DONG   : chr  "개포1동" "개포1동" "개포1동" "개포1동" ...
 $ RI     : chr  "경남아파트" "우성3차아파트" "우성9차아파트" "주공아파트" ...
 $ BUNJI  : chr  NA "(1∼6동)" "(901∼902동)" "(1∼16동)" ...
 $ SEQ    : int  1 2 3 4 5 6 7 8 9 10 ...


In [5]:
colSums(is.na(zip))

In [6]:
# NA로 설정된 주소컬럼을 '-' 문자열로 대체
find <- is.na(zip$GUGUN)
zip$GUGUN[find] <- '-'

find <- is.na(zip$RI)
zip$RI[find] <- '-'

find <- is.na(zip$BUNJI)
zip$BUNJI[find] <- '-'

In [7]:
colSums(is.na(zip))

In [8]:
# 자료형 변환은 전처리하고 난 뒤 수행
zip$SIDO <- as.factor(zip$SIDO)
zip$GUGUN <- as.factor(zip$GUGUN)
zip$DONG <- as.factor(zip$DONG)

In [9]:
# 처리된 데이터는 파일로 저장
write.csv(x=zip, file='./data/zipcode2013.csv', row.names=F)