# 07 결측치

## 결측치 : missing value (누락값)
+ 데이터 수집과정에서 채워지지 못한 값을 의미
+ 예를 들어 설문조사시 설문자가 특정문항에 답을 하지 않으면 그 문항이 결측치가 됨
+ 데이터에 결측치가 포함되어 있으면 데이터 분석시 편향/왜곡된 결과가 도출될 수 있음
+ 해결책 : 제거하거나 추정값으로 대체

In [1]:
x <- c(1,2,3,NA,5,NA,7)
sum(x)   # 결측치 때문에 연산 불가

## 결측치 여부 확인

In [2]:
is.na(x)   # NA 존재 여부 확인

In [3]:
sum(is.na(x))   # NA 갯수 출력

In [4]:
table(is.na(x))   # 빈도표 결측치 확인


FALSE  TRUE 
    5     2 

In [5]:
colSums(is.na(x))   # 컬럼별 결측치 확인
                    # 단, 데이터프레임에서만 사용가능!

ERROR: Error in colSums(is.na(x)): 'x' must be an array of at least two dimensions


## 결측치 처리 : 제거

In [6]:
sum(x, na.rm=T)   # NA 제회 후 계산

In [7]:
na.omit(x)        # NA 제거

In [8]:
x2 <- as.vector(na.omit(x))   # NA 제거 후 새로운 벡터로 저장
sum(x2)

## 결측치 처리 : 대체

In [9]:
mean <- mean(x, na.rm=T)

In [10]:
x[is.na(x)] <- mean   # boolean 인덱싱을 이용해서 
                      # na요소를 찾은 후 평균값으로 대체

In [11]:
x

In [12]:
sum(x)

## 우편번호 데이터를 읽어오고 결측치 처리함

In [15]:
# read.csv(파일명, header여부, 구분자, 범주형처리, 결측치처리)
# na.strings=c(대상, 지정할결측치)
zip2013 <- read.csv('csv/zipcode_2013.txt', header=T, sep='\t', 
                    na.strings=c('', 'NA'), stringsAsFactors=F)

In [16]:
# zip2013$ZIPCODE <- as.character(zip2013$ZIPCODE)
# zip2013$RI <- as.character(zip2013$RI)
# zip2013$BUNJI <- as.character(zip2013$BUNJI)

In [17]:
str(zip2013)

'data.frame':	52144 obs. of  7 variables:
 $ ZIPCODE: chr  "135-806" "135-807" "135-806" "135-770" ...
 $ SIDO   : chr  "서울" "서울" "서울" "서울" ...
 $ GUGUN  : chr  "강남구" "강남구" "강남구" "강남구" ...
 $ DONG   : chr  "개포1동" "개포1동" "개포1동" "개포1동" ...
 $ RI     : chr  "경남아파트" "우성3차아파트" "우성9차아파트" "주공아파트" ...
 $ BUNJI  : chr  NA "(1∼6동)" "(901∼902동)" "(1∼16동)" ...
 $ SEQ    : int  1 2 3 4 5 6 7 8 9 10 ...


In [18]:
head(zip2013,10)

Unnamed: 0_level_0,ZIPCODE,SIDO,GUGUN,DONG,RI,BUNJI,SEQ
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,135-806,서울,강남구,개포1동,경남아파트,,1
2,135-807,서울,강남구,개포1동,우성3차아파트,(1∼6동),2
3,135-806,서울,강남구,개포1동,우성9차아파트,(901∼902동),3
4,135-770,서울,강남구,개포1동,주공아파트,(1∼16동),4
5,135-805,서울,강남구,개포1동,주공아파트,(17∼40동),5
6,135-966,서울,강남구,개포1동,주공아파트,(41∼85동),6
7,135-807,서울,강남구,개포1동,주공아파트,(86∼103동),7
8,135-805,서울,강남구,개포1동,주공아파트,(104∼125동),8
9,135-807,서울,강남구,개포1동,현대1차아파트,(101∼106동),9
10,135-805,서울,강남구,개포1동,,565,10


In [19]:
table(is.na(zip2013))


 FALSE   TRUE 
312792  52216 

In [20]:
colSums(is.na(zip2013))   # 컬럼별 결측치 확인
                          # 단, 데이터프레임에서만 사용가능!

In [21]:
# NA가 아닌 행 출력
zip2013[!is.na(zip2013)]

In [22]:
# RI컴럼 중에서 NA가 아닌 행 중 우편번호 출력
# 데이터객체$컬럼명[!is.na(데이터객체$컬럼명)]
zip2013$ZIPCODE[!is.na(zip2013$RI)]

In [23]:
# RI컴럼 중에서 NA가 아닌 행 출력
# 데이터객체[!is.na(데이터객체$컬럼명),]
zip2013[!is.na(zip2013$RI),]

Unnamed: 0_level_0,ZIPCODE,SIDO,GUGUN,DONG,RI,BUNJI,SEQ
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,135-806,서울,강남구,개포1동,경남아파트,,1
2,135-807,서울,강남구,개포1동,우성3차아파트,(1∼6동),2
3,135-806,서울,강남구,개포1동,우성9차아파트,(901∼902동),3
4,135-770,서울,강남구,개포1동,주공아파트,(1∼16동),4
5,135-805,서울,강남구,개포1동,주공아파트,(17∼40동),5
6,135-966,서울,강남구,개포1동,주공아파트,(41∼85동),6
7,135-807,서울,강남구,개포1동,주공아파트,(86∼103동),7
8,135-805,서울,강남구,개포1동,주공아파트,(104∼125동),8
9,135-807,서울,강남구,개포1동,현대1차아파트,(101∼106동),9
15,135-800,서울,강남구,개포2동,우성8차아파트,(801∼803동),15


In [24]:
# DONG 컬럼 중에서 NA인 컬럼에 '-' 문자 대체
# zip2013$GUGUN <- '-'   # 모든 GUGUN에 - 문자 대체
zip2013$GUGUN[is.na(zip2013$GUGUN)] <- '-'

In [25]:
# RI 컬럼 중에서 NA인 컬럼에 '-' 문자 대체
zip2013$RI[is.na(zip2013$RI)] <- '-'

In [26]:
# BUNJI 컬럼 중에서 NA인 컬럼에 '-' 문자 대체
zip2013$BUNJI[is.na(zip2013$BUNJI)] <- '-'

In [27]:
head(zip2013)

Unnamed: 0_level_0,ZIPCODE,SIDO,GUGUN,DONG,RI,BUNJI,SEQ
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
1,135-806,서울,강남구,개포1동,경남아파트,-,1
2,135-807,서울,강남구,개포1동,우성3차아파트,(1∼6동),2
3,135-806,서울,강남구,개포1동,우성9차아파트,(901∼902동),3
4,135-770,서울,강남구,개포1동,주공아파트,(1∼16동),4
5,135-805,서울,강남구,개포1동,주공아파트,(17∼40동),5
6,135-966,서울,강남구,개포1동,주공아파트,(41∼85동),6


In [28]:
head(zip2013[zip2013$GUGUN == '-',])

Unnamed: 0_level_0,ZIPCODE,SIDO,GUGUN,DONG,RI,BUNJI,SEQ
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>
19217,339-001,세종,-,가람동,-,-,19217
19218,339-002,세종,-,고운동,-,-,19218
19219,339-003,세종,-,나성동,-,-,19219
19220,339-004,세종,-,다정동,-,-,19220
19221,339-703,세종,-,대평동,행정중심복합도시건설청,-,19221
19222,339-005,세종,-,대평동,-,-,19222


# titanic데이터 결측치 처리

In [31]:
titanic <- read.csv('csv/titanic2.csv', na.strings=c('','NA'))

In [32]:
str(titanic)

'data.frame':	1310 obs. of  11 variables:
 $ pclass  : int  1 1 1 1 1 1 1 1 1 1 ...
 $ survived: int  1 1 0 0 0 1 1 0 1 0 ...
 $ name    : Factor w/ 1307 levels "Abbing, Mr. Anthony",..: 22 24 25 26 27 31 46 47 51 55 ...
 $ sex     : Factor w/ 2 levels "female","male": 1 2 1 2 1 2 1 2 1 2 ...
 $ age     : num  29 0.917 2 30 25 ...
 $ sibsp   : int  0 1 1 1 1 0 1 0 2 0 ...
 $ parch   : int  0 2 2 2 2 0 0 0 0 0 ...
 $ ticket  : Factor w/ 929 levels "110152","110413",..: 188 50 50 50 50 125 93 16 77 826 ...
 $ fare    : num  211 152 152 152 152 ...
 $ cabin   : Factor w/ 186 levels "A10","A11","A14",..: 44 80 80 80 80 150 146 16 62 NA ...
 $ embarked: Factor w/ 3 levels "C","Q","S": 3 3 3 3 3 3 3 3 3 1 ...


In [33]:
summary(titanic)

     pclass         survived                                name     
 Min.   :1.000   Min.   :0.000   Connolly, Miss. Kate         :   2  
 1st Qu.:2.000   1st Qu.:0.000   Kelly, Mr. James             :   2  
 Median :3.000   Median :0.000   Abbing, Mr. Anthony          :   1  
 Mean   :2.295   Mean   :0.382   Abbott, Master. Eugene Joseph:   1  
 3rd Qu.:3.000   3rd Qu.:1.000   Abbott, Mr. Rossmore Edward  :   1  
 Max.   :3.000   Max.   :1.000   (Other)                      :1302  
 NA's   :1       NA's   :1       NA's                         :   1  
     sex           age              sibsp            parch      
 female:466   Min.   : 0.1667   Min.   :0.0000   Min.   :0.000  
 male  :843   1st Qu.:21.0000   1st Qu.:0.0000   1st Qu.:0.000  
 NA's  :  1   Median :28.0000   Median :0.0000   Median :0.000  
              Mean   :29.8811   Mean   :0.4989   Mean   :0.385  
              3rd Qu.:39.0000   3rd Qu.:1.0000   3rd Qu.:0.000  
              Max.   :80.0000   Max.   :8.0000   M

In [34]:
head(titanic)

Unnamed: 0_level_0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
Unnamed: 0_level_1,<int>,<int>,<fct>,<fct>,<dbl>,<int>,<int>,<fct>,<dbl>,<fct>,<fct>
1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S
2,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S
3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S
4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S
5,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S
6,1,1,"Anderson, Mr. Harry",male,48.0,0,0,19952,26.55,E12,S


In [35]:
colSums(is.na(titanic))
# age:264, cabin:1015
# age : 다른값으로 대체
# cabin : 컬럼 자체 제거

In [36]:
# cabin 컬럼 제거
titanic$cabin <- NULL

In [37]:
# age 컬럼의 결측치는 중앙값으로 대체
md <- median(titanic$age, na.rm=T)
titanic$age[is.na(titanic$age)] <- md

In [38]:
# embarked의 결측치가 3개이므로 이것을 기준으로 제거함
titanic <- na.omit(titanic)

In [39]:
# 최종 확인
colSums(is.na(titanic))

In [40]:
# 최종결과파일 저장
save(titanic, file='titanic.rdata')