<h1><center>Chapter03. 데이터 마트</center></h1>

<h1><center>제 3절. 기초 분석 및 데이터 관리</center></h1>

## 1. 결측값 처리

결측값은 `NA, ., 999999..., Unkowon, Not Anser`등으로 표현되며 결측값을 적절히 처리하는 것이 중요하다.
- 결측 : 계획된 실험에서 어떤 이유로 인해 이루어지지 못한 관측
- **is.na()** : 결측값을 확인하는 명령어. 
- **colSums()** : 각 변수별 결측값을 확인.
- **na.rm = TRUE** : 결측값을 제거하는 옵션.
- **na.omit()** : 결측값이 있는 행 전체를 제거.
- **complete.cases()** : 결측값이 있는 특정 행,열을 제거.
- **$var** : 결측값을 다른 값으로 대체. `dataset$var[is.na(dataset$var)] <- New Data`
- **sapply()** : 일괄적으로 작업할 때 사용.

### 결측값 예제
http://rfriend.tistory.com/34

In [4]:
# 간단한 정보는 바로 결측값을 확인 가능
x <- c(1,2,3,4,NA,6,7,NA,8,9,NA)
is.na(x)

In [10]:
# 결측값의 개수를 게산
library(MASS)
sum(is.na(Cars93))  # 전체 결측값
sum(is.na(Cars93$Manufacturer))  # 특정 변수 결측값
colSums(is.na(Cars93))  # 전체 변수별로 결측값

In [17]:
# 결측값이 포함된 데이터로 계산시 NA 처리됨.
sum(Cars93$Luggage.room)   # NA
mean(Cars93$Luggage.room)   # NA

In [18]:
# SUM, MEAN 등의 계산을 위핸 결측값을 제거
sum(Cars93$Luggage.room, na.rm=T)
mean(Cars93$Luggage.room, na.rm=T)

In [22]:
# 결측값이 들어있는 행 전체를 제거 
Cars93.rmMissValue <- na.omit(Cars93)b
sum(is.na(Cars93.rmMissValue))

In [71]:
# 특정 행과 열과 행을 제거
# Rear.sear.room 칼럼 내 결측값이 있는 행 전체 선택
rear <- Cars93[, "Rear.seat.room"]   # 26.5 30 28 31 27 28 30.5 ...
rear.case <- complete.cases(rear)   # TRUE TRUE TRUE ...
Cars93.rear <- Cars93[case,]        # rear.case가 FALSE인 행만 제거

# 중간 점검
cat('결측값 수 / 전체 수 :', sum(F == rear.case), '/', length(Cars93[, "Rear.seat.room"]), '\n')

# 결과
cat('전체 결측값 수 : ', sum(is.na(Cars93.rear)))   # 12개 중 3개가 줄어 9개

결측값 수 / 전체 수 : 2 / 93 
전체 결측값 수 :  9

In [110]:
# 23~24번째 칼럼중 결측값이 있는 행 전체 삭제
't3t4' <- Cars93[23:24]   # 26.5, 11, 30.0, 15, 28.0, 14
t3t4.case <- complete.cases(t3t4)   # TRUE TRUE TRUE TRUE TRUE
Cars93.t3t4 <- Cars93[t3t4.case, ]  # 23~24열중 FALSE인 행만 제거

# 중간 점검
cat('총 행 개수 : ', nrow(t3t4), '\n')  # 총 93개의 행
cat('결측값 수 / 전체 수 :', sum(F == t3t4.case), '/', nrow(Cars93[23:24]), '\n')

# 결과
cat('dim :', dim(Cars93.t3t4) )  # 관측값이 82개로 11개 줄어듬

총 행 개수 :  93 
결측값 수 / 전체 수 : 11 / 93 
dim : 82 27

In [122]:
# 결측값을 다른 값으로 대체
# Luggage.room의 결측값을 다른 값으로 대체
cat('Luggage.room의 결측값 개수: ', sum(is.na(Cars93$Luggage.room)), '\n')   # 11

Cars93.new <- Cars93
Cars93.new$Luggage.room[is.na(Cars93.new$Luggage.room)] <- 0  # 결측값을 0으로 채움

cat('0으로 대체후 0의 개수', length(Cars93.new$Luggage.room[Cars93.new$Luggage.room==0]), '\n')

cat('0으로 대체된 위치: ', which(0==Cars93.new$Luggage.room))

Luggage.room의 결측값 개수:  11 
0으로 대체후 0의 개수 11 
0으로 대체된 위치:  16 17 19 26 36 56 57 66 70 87 89

In [127]:
# 0이 아닌 평균값으로 대체
# NA의 값이 해당 열의 평균값으로 대체
Care93.missMean <- Cars93
Care93.mlr <- Care93.missMean$Luggage.room
Care93.mlr[is.na(Care93.mlr)] <- mean(Care93.mlr, na.rm=T)
Care93.mlr

In [129]:
# 데이터 프레임의 모든 팽의 결측값을 0으로 일괄 대체
Cars93_allCol <- Cars93
Cars93_allCol[is.na(Cars93_allCol)] <- 0
sum(is.na(Cars93_allCol))  # 0

In [162]:
# 각 변수의 결측값을 변수별 평균값으로 일괄 대체
# sapply()함수로 일괄적으로 작업 가능
Cars93_sapply <- Cars93[1:20, c("Rear.seat.room", "Luggage.room")]  # 1부터 20행까지 rear와 luggage 칼럼
colSums(is.na(Cars93_sapply))  # 각 1, 3개의 결측치

tail(Cars93_sapply)  # 테이블로 보면 NA 확인 가능

sapply(Cars93_sapply, function(x) mean(x, na.rm=T))  # 각 행별 평균을 구하는 공식
       
Cars93_sapply_table <- data.frame(
                            sapply(
                                Cars93_sapply, 
                                function(x) 
                                    ifelse(is.na(x), mean(x, na.rm=T), x)
                                )
                            )
       
# 테이블로 표시하면 평균값으로 바뀐 걸 확인 가능
tail(Cars93_sapply_table)

Unnamed: 0,Rear.seat.room,Luggage.room
15,28.5,16.0
16,30.5,
17,33.5,
18,29.5,20.0
19,,
20,31.0,15.0


Unnamed: 0,Rear.seat.room,Luggage.room
15,28.5,16.0
16,30.5,15.35294
17,33.5,15.35294
18,29.5,20.0
19,29.10526,15.35294
20,31.0,15.0


### 1_1. 결측값이 의미 있는 경우
- 쇼핑몰 가입자 중 특정 거래가 존재하지 않는 경우.
- 인구통계학 데이터에서, 아주 부자거나 아주 가난한 경우를 구분할 때.

### 1_2. 결측값 처리의 영향
- 이상값은 반드시 제거할 데이터가 아니므로 분석 목적에 따라 적절히 처리.
- `na.rm=T` 옵션으로 결측값을 제거하여 계산 가능.

## 2. 결측값 처리 방법

### 2_1. [SI Single Imputation 단순대치법]
1. 결측값이 존재하는 레코드를 삭제
2. **[Mean Imputation 평균대치법]** : 평균 데이터로 대치. 비조건부와 조건부 평균 대치법으로 구분.
3. **[Single Stochastic Imputation 단순확률대치법]** : 평균대치법을 표준오차 문제를 보완.
    - Hot-deck, Nearest-neighbor 방법
    
### 2_2 [MI Mutiple Imputation 다중대치법]
단순대치법을 여러번 실행하여 m번의 대치로 m개의 자료를 만드는 방법이다.
- 1단계 [Imputation 대치], 2단계 [Aanalysis 분석], 3단계 [Comvination 결합]
- Amelia-time series cross sectional dataset : 세계 여러 나라에서 특정한 데이터를 활용한 다중 대치법

## 3.R에서 결측값 처리

### 3_1. [Random Forest 랜덤 포레스트] 
랜덤 포레스트 모델은 결측값이 존재할 경우 바로 에러 발생하므로 rflmpute()함수를 사용하여 NA를 제거하여 적용한다.

### 3_2 결측값 관련 함수
1. `complte.case()` : 레코드내에 결측값이 있으면 FALSE, 아니면 TRUE를 반환
1. `is.na()` : 데이터 내에 결측값이 있으면 TRUE, 아니면 TURE를 반환
1. `centralImputation()` : DMwR 패키지, NA값에 가운데 값으로 대치
1. `knnImputation()` : NA값을 k최근접 이웃 분류 알고리즘을 사용하여 대치
1. `amelia()` : time series cross sectional dataset에서 활용

## 4. 이상값 찾기와 처리

### 4_1. [Outlier 이상값]
의도하지 않게 잘못 입력하거나 분석 목적에 부합하지 않아 제거해야 하는 데이터.

### 4_2. 이상값 인식 방법
1. [ESD Extreme Studentized Deviation] : 평균으로 부터 표준편차 3이상 떨어진 값
    - 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차 
1. 사분위수로 상자 밖의 값을 제거.
    - Q1 - 2.5(Q3-Q1) < data < Q3 - 2.5(Q3-Q1)
    
### 4_3 극단값 [Trimming 절단] 방법
1. `geo_mean` : 기하평균을 이용하여 제거
1. 하단, 상단 5%(전체 10%) 제거

### 4_4 극단값[Winsorizing  조정] 방법
1. 상한값과 하한값을 벗어나는 값을 하한, 상한 값으로 바꾸어 활용

----