**Factor Analysis(요인분석)** 는 다변량 통계 기법 중 하나로, 데이터 내에 잠재된 구조를 식별하기 위해 사용됩니다. 이 방법은 여러 변수들 간의 상관관계를 분석하여, 이들 변수들이 공통으로 설명될 수 있는 잠재 요인(Latent Factors)을 추출하는 것이 목적입니다.

### 주요 개념 및 과정

1. **목적**:
   - 여러 관찰된 변수들 간의 관계를 설명하는 데 필요한 잠재 요인을 식별.
   - 데이터 차원을 축소하여 중요한 정보를 유지하면서 데이터를 단순화.

2. **모델**:
   - 관찰된 변수 $X$들은 잠재 요인 $F$들의 선형 결합으로 표현됩니다.
   - 수식: $ X = \Lambda F + \epsilon $
     - $X$: 관찰된 변수들의 벡터
     - $ \Lambda $: 요인 적재 행렬 (Factor Loadings), 각 요인이 변수에 미치는 영향력
     - $ F $: 잠재 요인들(Latent Factors)의 벡터
     - $ \epsilon $: 잔차 벡터 (Noise)

3. **과정**:
   - **상관행렬 계산**: 변수들 간의 상관관계를 계산합니다.
   - **고유값 분해**: 상관행렬의 고유값을 분해하여 주성분을 추출합니다.
   - **요인 회전**: 요인 적재 행렬을 더 해석하기 쉬운 형태로 회전(Orthogonal/Oblique Rotation)시킵니다.
   - **해석 및 명명**: 각 요인의 의미를 해석하고 이름을 붙입니다.

4. **유형**:
   - **탐색적 요인 분석 (Exploratory Factor Analysis, EFA)**: 요인의 수와 구조를 사전에 가정하지 않고 데이터를 탐색하는 방식.
   - **확인적 요인 분석 (Confirmatory Factor Analysis, CFA)**: 사전에 가정한 요인 구조가 데이터에 적합한지 검증하는 방식.

### 응용 분야
- 심리학: 설문지나 심리검사의 잠재 구조를 파악.
- 사회과학: 사회 현상이나 태도의 잠재 요인을 식별.
- 경영학: 고객 만족도나 소비자 행동의 주요 요인을 파악.
- 생물학: 유전자 표현 데이터의 패턴 분석.

### 예시
예를 들어, 심리학에서 성격검사 설문지에 여러 질문 항목이 있다고 가정하면, 각 항목이 특정 성격 요인(예: 외향성, 성실성 등)을 측정한다고 볼 수 있습니다. 요인 분석을 통해 이러한 항목들이 공통적으로 측정하는 잠재 요인을 식별하여, 각 질문이 어떤 성격 요인에 관련되는지 알 수 있습니다.

요인분석은 데이터 분석에서 중요한 도구로, 복잡한 데이터를 더 잘 이해하고 중요한 패턴을 파악하는 데 유용하게 사용됩니다.

요인 분석 모델은 여러 관찰된 변수들이 잠재 요인(Latent Factors)의 선형 결합으로 설명될 수 있다는 가정 하에 구축됩니다. 요인 분석은 두 가지 주요 형태, 즉 탐색적 요인 분석(Exploratory Factor Analysis, EFA)과 확인적 요인 분석(Confirmatory Factor Analysis, CFA)으로 나눌 수 있습니다. 여기서는 요인 분석 모델의 주요 개념과 구성 요소를 자세히 설명하겠습니다.

### 요인 분석의 기본 모델

요인 분석의 기본 모델은 다음과 같은 수학적 형태로 표현됩니다:

$$
X = \Lambda F + \epsilon
$$

- $ X $: $ p $개의 관찰된 변수들의 벡터 $(X_1, X_2, ..., X_p)$.
- $ \Lambda $: $ p \times m $ 크기의 요인 적재 행렬(Factor Loadings Matrix), 각 요인이 변수에 미치는 영향력.
- $ F $: $ m $개의 잠재 요인들(Latent Factors)의 벡터 $(F_1, F_2, ..., F_m)$.
- $ \epsilon $: 잔차 벡터(Noise), 각 변수의 고유 요인(Specific Factor).

### 요인 분석의 주요 단계

1. **데이터 준비 및 상관 행렬 계산**:
   - 먼저, 각 변수의 상관 행렬을 계산하여 변수들 간의 상관관계를 파악합니다. 상관 행렬은 요인 분석의 기초 데이터입니다.

2. **요인 수 결정**:
   - 몇 개의 요인이 데이터의 구조를 잘 설명할지를 결정합니다. 주로 고유값(Eigenvalues)과 스크리 플롯(Scree Plot)을 사용하여 결정합니다. 일반적으로 고유값이 1 이상인 요인을 선택합니다.

3. **초기 요인 추출**:
   - 초기 요인 적재 행렬을 계산합니다. 주성분 분석(Principal Component Analysis, PCA)이나 주축 인자법(Principal Axis Factoring, PAF) 등이 사용됩니다.

4. **요인 회전(Factor Rotation)**:
   - 요인 회전은 요인 적재 행렬을 더 해석하기 쉽도록 변환하는 과정입니다. 회전은 크게 직교 회전(Orthogonal Rotation)과 사각 회전(Oblique Rotation)으로 나눌 수 있습니다.
     - **직교 회전(Orthogonal Rotation)**: 요인들이 서로 독립적이라고 가정합니다. 대표적인 방법으로 Varimax, Quartimax 등이 있습니다.
     - **사각 회전(Oblique Rotation)**: 요인들이 상호 상관될 수 있다고 가정합니다. 대표적인 방법으로 Direct Oblimin, Promax 등이 있습니다.

5. **요인 해석 및 명명**:
   - 회전된 요인 적재 행렬을 바탕으로 각 요인이 무엇을 의미하는지 해석하고, 요인의 의미에 따라 이름을 붙입니다.

### 요인 분석의 통계적 가정

- **선형성**: 변수와 요인 간의 관계는 선형적입니다.
- **정규성**: 요인과 잔차는 정규 분포를 따릅니다.
- **독립성**: 잔차는 요인과 독립적입니다.
- **공분산 구조**: 관찰된 변수들의 공분산 구조는 요인 모델에 의해 설명될 수 있습니다.

### 예시

예를 들어, 심리학 연구에서 10개의 설문 항목이 있다고 가정합니다. 각 항목은 특정 성격 특성을 측정합니다. 요인 분석을 통해 이 10개의 항목이 3개의 잠재 요인으로 설명될 수 있다고 결론지을 수 있습니다. 이때, 요인 적재 행렬은 각 항목이 각 요인과 얼마나 관련이 있는지를 보여줍니다. 

- **요인 적재 행렬 예시**:
  ```
  항목 1: 0.7 (요인 1), 0.2 (요인 2), 0.1 (요인 3)
  항목 2: 0.8 (요인 1), 0.1 (요인 2), 0.3 (요인 3)
  항목 3: 0.3 (요인 1), 0.9 (요인 2), 0.2 (요인 3)
  ...
  ```

위의 예시에서 항목 1과 항목 2는 요인 1과 높은 상관을 보이고, 항목 3은 요인 2와 높은 상관을 보입니다. 이를 통해 연구자는 요인 1이 특정 성격 특성(예: 외향성)을 나타내며, 요인 2가 다른 특성(예: 성실성)을 나타낸다고 해석할 수 있습니다.

요인 분석은 데이터를 더 잘 이해하고 주요 패턴을 식별하는 데 유용한 도구입니다. 이를 통해 데이터의 차원을 축소하고, 복잡한 관계를 단순화하여 해석할 수 있습니다.

$$
X = \mu + Lf + \epsilon
$$

- $ X $: $ p $개의 관찰된 변수들의 벡터 $(X_1, X_2, ..., X_p)$.
- $ L $: $ p \times m $ 크기의 요인 적재 행렬(Factor Loadings Matrix), 각 요인이 변수에 미치는 영향력.
- $ f $: $ m $개의 공통 요인들(Latent Factors)의 벡터 $(F_1, F_2, ..., F_m)$.
- $ \epsilon $: 잔차 벡터(Noise), 각 변수의 특성 요인(Specific Factor).

$ f \sim N(0, I)$ \
$ \epsilon \sim N(0, \psi)$

$ X \sim N(\mu, LL^T + \psi)$

$$
E(X) = E(\mu + Lf + \epsilon) \\
$$

$$
\text{Var}(X) = \sum \\
= E(X-\mu)(X -\mu)^T
$$

숄레스키 분해(LU 분해)