# 데이터전처리

## 데이터 변환

### 데이터 정규화 Feature Scaling

`scale`: 행렬 유형의 데이터를 정규화

In [24]:
cbind(as.data.frame(scale(iris[1:4])), iris$Species)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,iris$Species
<dbl>,<dbl>,<dbl>,<dbl>,<fct>
-0.89767388,1.01560199,-1.335752,-1.3110521,setosa
-1.13920048,-0.13153881,-1.335752,-1.3110521,setosa
-1.38072709,0.32731751,-1.392399,-1.3110521,setosa
-1.50149039,0.09788935,-1.279104,-1.3110521,setosa
-1.01843718,1.24503015,-1.335752,-1.3110521,setosa
-0.53538397,1.93331463,-1.165809,-1.0486668,setosa
-1.50149039,0.78617383,-1.335752,-1.1798595,setosa
-1.01843718,0.78617383,-1.279104,-1.3110521,setosa
-1.74301699,-0.36096697,-1.335752,-1.3110521,setosa
-1.13920048,0.09788935,-1.279104,-1.4422448,setosa


## 데이터 축소

### 주성분 분석 PCA

`princomp`: 주성분 분석을 수행한다

1부터 10까지의 숫자가 저장된 x, x에 노이즈를 추가한 y, x+y에 노이즈를 추가한 z가 있을 때 이 데이터들에 대해 주성분 분석을 수행해보자.

In [26]:
x <- 1:10
y <- x + runif(10, min=-.5, max=.5)
z <- x + y + runif(10, min=-10, max=.10)
data <- data.frame(x, y, z)
data

x,y,z
<int>,<dbl>,<dbl>
1,1.315798,-3.551288
2,2.386083,-4.33749
3,2.764251,5.677149
4,3.723234,-1.140691
5,5.399367,2.268947
6,5.583849,2.929462
7,7.286319,9.290354
8,7.856138,13.998106
9,9.273736,13.469809
10,10.084639,13.387923


Proportion of Variance 행을 보면 주성분들이 원 데이터의 분산 중 얼만큼을 설명해주는지를 알 수 있다. 원 데이터의 분산은 첫 번째와 두 번째 주성분에 의해 99.97%가 표현된다.<br>
따라서, x, y, z를 Comp1, Comp2의 2개의 차원으로 축약해볼 수 있다.

In [27]:
pr <- princomp(data)
summary(pr)

Importance of components:
                          Comp.1     Comp.2       Comp.3
Standard deviation     7.6997501 1.49471705 0.2031631123
Proportion of Variance 0.9630378 0.03629176 0.0006704706
Cumulative Proportion  0.9630378 0.99932953 1.0000000000

In [29]:
pr$scores[, 1:2]

Comp.1,Comp.2
-10.670556,-1.00371203
-10.623203,0.65796612
-1.452914,-3.49344917
-6.674635,1.10182235
-2.776733,1.05468858
-1.785339,1.43957872
4.680844,-0.06061299
9.316658,-1.44904261
9.709352,0.30236194
10.276526,1.4503991


### 원 핫 인코딩

`model.matrix`: 디자인 행렬(모델 행렬)을 생성한다.

A, B, C 의 3개 레벨을 저장한 lvl이라는 ㄴ팩터를 3개의 변수로 재표현해보자. A는 (0, 0), B는 (1, 0), C는 (0,1)로 변환되었다.

In [33]:
x <- data.frame(lvl=factor(c('A', 'B', 'A', 'A', 'C')), value=c(1, 3, 2, 4, 5))
x

lvl,value
<fct>,<dbl>
A,1
B,3
A,2
A,4
C,5


In [34]:
model.matrix(~ lvl, data=x)[, -1]

Unnamed: 0,lvlB,lvlC
1,0,0
2,1,0
3,0,0
4,0,0
5,0,1


## 결측치 처리

`complete.cases`: 관측값에 결측치가 없는지 테스트<br>
`is.na`: 결측치인 NA인지 여부 확인<br>
`DMwR::centrallmputation`: NA를 가운데 값으로 대체<br>
`DMwR::knnImputation`: NA를 K 최근 이웃 분류 알고리즘을 사용하여 대체

결측치의 존재를 확인해보자.<br>
데이터프레임의 각 행에 저장된 모든 값이 NA가 아닐 때만 TRUE를 반환한다.

In [35]:
iris_na <- iris
iris_na[c(10, 20, 25, 40, 32), 3] <- NA
iris_na[c(33, 100, 123), 1] <- NA
iris_na[!complete.cases(iris_na), ]

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
10,4.9,3.1,,0.1,setosa
20,5.1,3.8,,0.3,setosa
25,4.8,3.4,,0.2,setosa
32,5.4,3.4,,0.4,setosa
33,,4.1,1.5,0.1,setosa
40,5.1,3.4,,0.2,setosa
100,,2.8,4.1,1.3,versicolor
123,,2.8,6.7,2.0,virginica


한 컬럼에 대해서만 NA 여부를 조사해보자.

In [36]:
iris_na[is.na(iris_na$Sepal.Length), ]

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
33,,4.1,1.5,0.1,setosa
100,,2.8,4.1,1.3,versicolor
123,,2.8,6.7,2.0,virginica


데이터의 평균이나 중앙값으로 NA 값을 대체해보자.

In [37]:
mapply(median, iris_na[1:4], na.rm=TRUE)

In [52]:
library(DMwR)

ERROR: Error in library(DMwR): there is no package called ‘DMwR’


In [53]:
iris_na[!complete.cases(iris_na), ]

Unnamed: 0_level_0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<fct>
10,4.9,3.1,,0.1,setosa
20,5.1,3.8,,0.3,setosa
25,4.8,3.4,,0.2,setosa
32,5.4,3.4,,0.4,setosa
33,,4.1,1.5,0.1,setosa
40,5.1,3.4,,0.2,setosa
100,,2.8,4.1,1.3,versicolor
123,,2.8,6.7,2.0,virginica


In [54]:
centralImputation(iris_na[1:4])[c(10, 20, 25, 32, 33, 40, 100, 123), ]

ERROR: Error in centralImputation(iris_na[1:4]): could not find function "centralImputation"


In [55]:
knnImputation(iris_na[1:4])[c(10, 20, 25, 32, 33, 40, 100, 123), ]

ERROR: Error in knnImputation(iris_na[1:4]): could not find function "knnImputation"


## 변수 선택

### 0에 가까운 분산 제거

`caret::nearZeroVar`: 데이터에서 분산이 0에 가까운 변수를 찾는다

nzv 컬럼이 0에 가까운 분산을 의미하므로 nzv 컬럼이 TRUE로 표시된 변수들을 제거해주면 된다.

In [65]:
library(caret)
library(mlbench)
data(Soybean)

In [63]:
nearZeroVar(Soybean)

In [66]:
nearZeroVar(Soybean, saveMetrics=TRUE)

Unnamed: 0_level_0,freqRatio,percentUnique,zeroVar,nzv
Unnamed: 0_level_1,<dbl>,<dbl>,<lgl>,<lgl>
Class,1.010989,2.7818448,False,False
date,1.137405,1.0248902,False,False
plant.stand,1.208191,0.2928258,False,False
precip,4.098214,0.4392387,False,False
temp,1.879397,0.4392387,False,False
hail,3.425197,0.2928258,False,False
crop.hist,1.004587,0.5856515,False,False
area.dam,1.213904,0.5856515,False,False
sever,1.651282,0.4392387,False,False
seed.tmt,1.373874,0.4392387,False,False


### 상관계수

`caret::findCorrelation`: 상관계수가 높은 변수들을 찾는다<br>
`FSelector::linear.correlation`: 피어슨 상관계수를 고려한 변수의 가중치 계산<br>
`FSelector::rank.correlation`: 스피어만 상관계수를 고려한 변수의 가중치 계산<br>
`FSelector::cutoff.k`: 순위가 매겨진 속성으로부터 k번째 등수까지를 선택

In [67]:
library(mlbench)
library(caret)
data(Vehicle)

분류에 해당하는 Class 컬럼을 제외하고 상관계수가 높은 컬럼을 찾아보자.

In [68]:
findCorrelation(cor(subset(Vehicle, select=-c(Class))))

In [70]:
library(FSelector)
data(Ozone)

팩터형 변수 V1, V2, V3를 제외하고 피어슨 상관계수의 절댓값으로 변수의 중요도를 평가해보자.

In [72]:
v <- linear.correlation(V4 ~ ., data=subset(Ozone, select=-c(V1, V2, V3)))
v

Unnamed: 0_level_0,attr_importance
Unnamed: 0_level_1,<dbl>
V5,0.58414447
V6,0.00468138
V7,0.44356639
V8,0.76986408
V9,0.72317299
V10,0.58026757
V11,0.22990285
V12,0.73194978
V13,0.41471463


In [73]:
cutoff.k(v, 3)

### 카이제곱검정

`FSelector::chi.squared`: 카이제곱검정을 사용한 독립성 검정으로 변수의 가중치를 계산한다

Vehicle 변수들의 중요도를 평가하고 그 중 세 개의 변수를 선택해보자.

In [74]:
cs <- chi.squared(Class ~., data=Vehicle)
cs

Unnamed: 0_level_0,attr_importance
Unnamed: 0_level_1,<dbl>
Comp,0.3043172
Circ,0.2974762
D.Circ,0.3587826
Rad.Ra,0.3509038
Pr.Axis.Ra,0.2264652
Max.L.Ra,0.3234535
Scat.Ra,0.4653985
Elong,0.4556748
Pr.Axis.Rect,0.4475087
Max.L.Rect,0.305976


In [75]:
cutoff.k(cs, 3)

### 모델을 사용한 변수 중요도 평가

`caret::varlmp`: 회귀, 분류 모델을 위한 변수 중요도를 계산한다

유방암 데이터에 대한 의사결정나무를 만든 다음, 변수의 중요성을 계산해보자. varImp는 의사결정나무의 노드에서 가지가 나뉠 때의 손실 함수 감소량을 각 변수에 더하는 방법으로 변수 중요도를 평가한다.

In [76]:
library(rpart)
data(BreastCancer)

In [77]:
m <- rpart(Class ~., data=BreastCancer)
varImp(m)

Unnamed: 0_level_0,Overall
Unnamed: 0_level_1,<dbl>
Bare.nuclei,203.7284
Bl.cromatin,197.9057
Cell.shape,216.3834
Cell.size,222.9401
Id,307.8953
Cl.thickness,0.0
Marg.adhesion,0.0
Epith.c.size,0.0
Normal.nucleoli,0.0
Mitoses,0.0
