# 범주형 독립변수
회귀모형에서 독립 변수가 범주형인 경우, 이 변수를 수치형 변수로 변환하여 모델에 포함시켜야 한다.

이는 범주형 변수의 각 수준(level)을 독립 변수로 표현하기 위해 **더미변수(dummy variables)**를 사용하는 방식으로 이루어진다.

## 레벨(Level) 소개

범주형 변수의 각 수준을 **레벨(level)**이라고 한다. 

예를 들어, 변수 `X`가 `A`, `B`, `C`라는 세 가지 레벨을 가지면, 이 변수는 3개의 레벨을 가진다고 한다. 

이 범주형 변수를 회귀모형에 포함시키기 위해서는 각 레벨을 0과 1로 변환한 더미변수를 사용해야 한다.

## 계획행렬(Design Matrix) 소개

**계획행렬**은 회귀 분석에서 독립 변수들의 값을 수치형 형태로 배열한 행렬이다. 

이 행렬은 각 관측치에 대한 독립 변수의 값을 포함하며, 회귀모형의 설계와 분석에 사용된다. 

예를 들어, 회귀모형의 계획행렬은 다음과 같은 형태를 가질 수 있다:

$$
\mathbf{X} = \begin{bmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_n
\end{bmatrix}
$$

여기서 첫 번째 열은 절편(intercept) 항을 위한 1로 채워져 있으며, 두 번째 열은 독립 변수 \( x \)의 값을 포함한다.

# 더미변수의 필요성 및 갯수

범주형 변수를 회귀모형에 포함시키기 위해 **더미변수**가 필요하다. 

각 범주의 레벨을 0과 1로 표현하여, 모델이 이들 레벨이 종속 변수에 미치는 영향을 평가할 수 있도록 한다. 

예를 들어, 변수 `X`가 `A`, `B`, `C`의 세 가지 레벨을 가질 때, 두 개의 더미변수만을 사용하여 `A`를 레퍼런스 수준으로 설정하고 나머지 두 레벨을 표현할 수 있다.

$$
X_A = \begin{cases}
1 & \text{if } X = A \\
0 & \text{otherwise}
\end{cases}
$$

$$
X_B = \begin{cases}
1 & \text{if } X = B \\
0 & \text{otherwise}
\end{cases}
$$

여기서 `C`는 레퍼런스 수준(reference level)으로 설정된다.

## 계획행렬의 Rank와 관련성

계획행렬의 **rank**는 독립 변수들 간의 선형 독립성을 나타낸다.

더미변수를 포함한 계획행렬이 full-rank가 아니면, 즉, rank가 계획행렬의 열의 개수보다 작으면, **다중공선성(multicollinearity)** 문제가 발생할 수 있다. 

이는 모델이 과다 파라미터화(over-parameterization)되었음을 의미하며, 정확한 회귀계수 추정이 어렵거나 해석이 불가능할 수 있다.

# 더미변수의 선정 방법

## Reference Coding 소개

**Reference coding**은 범주형 변수의 수준 중 하나를 기준(reference)으로 설정하고, 나머지 수준들을 이 기준에 대해 상대적으로 표현하는 방법이다. 예를 들어, 범주 `A`, `B`, `C`에서 `A`를 기준으로 설정하면, `B`와 `C`의 더미변수는 다음과 같이 표현된다:

$$
X_B = \begin{cases}
1 & \text{if } X = B \\
0 & \text{otherwise}
\end{cases}
$$

$$
X_C = \begin{cases}
1 & \text{if } X = C \\
0 & \text{otherwise}
\end{cases}
$$

이 방식은 기준 수준에 대한 나머지 수준들의 상대적인 효과를 평가할 수 있게 한다.

## Cellmean Coding

**Cellmean coding**은 각 범주에 대해 평균을 계산하고, 이 평균을 더미변수로 표현하는 방법이다. 이는 각 범주의 평균 효과를 명확하게 보여주며, 변수의 영향을 더 잘 설명할 수 있다. 예를 들어, `A`, `B`, `C`의 각 범주에 대해 cellmean coding은 다음과 같이 표현될 수 있다:

$$
X_A = \text{mean}(Y) - \text{mean}(Y_{\text{A}})
$$

$$
X_B = \text{mean}(Y) - \text{mean}(Y_{\text{B}})
$$

$$
X_C = \text{mean}(Y) - \text{mean}(Y_{\text{C}})
$$

# 실험계획법과의 연관성

**실험계획법**(Design of Experiments, DOE)은 실험을 설계하고 분석하여 데이터를 수집하는 방법론이다.

실험계획법에서는 계획행렬을 활용하여 실험의 독립 변수와 그 상호작용을 모델링하며, 더미변수와 회귀모형의 원칙을 적용하여 실험 결과를 분석한다.

따라서 회귀모형에서 범주형 변수를 다루는 방법은 실험계획법의 설계와 분석 원칙을 반영한 것이다.

이러한 연관성 덕분에 회귀모형과 실험계획법은 실험 데이터를 분석하고 해석하는 데 효과적인 도구를 제공한다.

# 회귀분석에서의 응용

인제 본격적으로 범주형 변수가 들어간 회귀모형을 알아보자.

범주형 변수가 들어간 회귀모형은 크게 2가지의 역할을 한다.

1. 상호작용 변수(Interaction term)이 들어간 회귀모형을 구성하는데 중요한 역할을 한다.

2. 분산분석을 회귀분석처럼 해석하는데 중요한 역할을 한다.