# Qualitative Variables (질적 변수)

## Contents
1. 질적 변수를 더미화하고 회귀모델에 적합하기
2.  mtcars의 질적 변수 회귀모델 구하기
3. 질적 변수를 더미화시키지 않고 회귀모델에 적합하기
---
## 1. 질적 변수를 더미화하고 회귀모델에 적합하기
성별과 같이 문자열로 들어온 데이터를 더미화하고 이를 회귀모델에 넣어 그 결과를 해석해보자.

더미변수는 'class 개수 - 1'개를 추가하고 1 또는 0으로 코딩한다.

In [1]:
# Step 1: 데이터 불러오기
DF <- read.csv("./data/example_sewing.csv")
head(DF, 5)
summary(DF)
str(DF)

Unnamed: 0_level_0,바느질소요시간,성별,나이
Unnamed: 0_level_1,<dbl>,<chr>,<int>
1,182.5,남자,34
2,185.3,남자,21
3,163.0,남자,31
4,203.5,남자,22
5,194.5,남자,32


 바느질소요시간      성별                나이      
 Min.   : 83.4   Length:20          Min.   :21.00  
 1st Qu.:114.8   Class :character   1st Qu.:31.00  
 Median :139.6   Mode  :character   Median :34.50  
 Mean   :143.9                      Mean   :35.05  
 3rd Qu.:183.2                      3rd Qu.:40.00  
 Max.   :203.5                      Max.   :47.00  

'data.frame':	20 obs. of  3 variables:
 $ 바느질소요시간: num  182 185 163 204 194 ...
 $ 성별          : chr  "남자" "남자" "남자" "남자" ...
 $ 나이          : int  34 21 31 22 32 38 40 42 31 47 ...


In [None]:
# Step 2: 더미화하기
#DF$성별 <- as.factor(DF$성별)
DF$성별 <- ifelse(DF$성별 == "남자", 0, 1)

cf) R에서 명목형 변수 / 순서형 변수 만들기
* 명목형 변수 : ```as.factor(벡터)```, ```factor(벡터, levels=벡터)```
* 순서형 변수 : ```as.factor(벡터, order=T)```, ```factor(벡터, levels=벡터, order=T)```

```ifelse()```함수를 이용해서 남자인 경우 0을, 여자인 경우 1을 지정해줬다. 이제 성별변수를 추가한 회귀모델을 구해보자.

In [2]:
# Step 3: 회귀모델 구하기
Lm <- lm(바느질소요시간 ~ 성별 + 나이, data=DF)
Lm
summary(Lm)


Call:
lm(formula = 바느질소요시간 ~ 성별 + 나이, data = DF)

Coefficients:
(Intercept)     성별여자         나이  
   198.7339     -48.9540      -0.8664  



Call:
lm(formula = 바느질소요시간 ~ 성별 + 나이, data = DF)

Residuals:
    Min      1Q  Median      3Q     Max 
-56.611 -19.647   7.768  22.766  33.941 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 198.7339    32.0447   6.202 9.66e-06 ***
성별여자    -48.9540    12.4182  -3.942  0.00105 ** 
나이         -0.8664     0.9130  -0.949  0.35596    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 27.29 on 17 degrees of freedom
Multiple R-squared:  0.5203,	Adjusted R-squared:  0.4639 
F-statistic: 9.219 on 2 and 17 DF,  p-value: 0.001942


성별 변수의 회귀계수값인 -48.9540은 "성별이 0에서 1로 증가할 시, 즉, 남자가 아니라 여자라면 바느질 속도가 48.9540만큼 감소할 것이다" 라고 해석할 수 있다. 

---
## 2. mtcars의 질적 변수 회귀모델 구하기
mtcars에는 transmission 방식에 따라 automatic은 0, manual은 1 값을 갖는 am이라는 질적 변수가 포함되어 있었다.
전체 변수를 넣은 회귀모델에서 am 변수의 영향을 해석해보자.

In [None]:
DF <- mtcars
Lm <- lm(mpg ~ ., data=DF)
Lm

다른 변수를 고정할 때, automatic에서 manual이 되면 연비가 2.52023 증가함을 알 수 있다.

한편, 이 결과는 am만을 변수로 갖는 회귀모델에 fitting한 결과와 다를 수 있다. 왜일까?

In [None]:
Lm2 <- lm(mpg ~ am, data=DF)
Lm2

---
## 3. 질적 변수를 더미화시키지 않고 회귀모델에 적합하기
R의 car 패키지에 내장된 Vocab 데이터셋을 이용해보자.

In [None]:
# Step 1: 데이터셋 불러오기
#install.packages("car")
library("car")

In [None]:
# Step 2: Vocab 데이터 살펴보기
head(Vocab, 10)
str(Vocab)

총 21638 관측치에 변수 개수는 4개로 이루어져 있다. 

In [None]:
# Step 3: 데이터 요약해서 보기
summary(Vocab)

성별이 질적 변수로 들어있는 것을 확인할 수 있다.

* 종속변수: vocabulary
* 독립변수: sex, education

앞서 본 예제와 같이 성별을 0과 1로 더미화시키지 않고 그대로 ```lm()```함수에 넣어보자.

In [None]:
# Step 4: 다중회귀모델링
Lm <- lm(vocabulary ~ sex + education, data=Vocab)
Lm

level 중 하나를 기준으로 잡고 회귀계수이름에 명시해준다. 이 예제에서 회귀계수의 의미는 여자가 아니라 남자이면 0.1687만큼 단어시험점수가 낮아지는 것이다.