# 인자분석
다변량 통계 분석 기법 중 하나로, 다양한 관찰 변수들 사이의 내재된 구조를 이해하고 설명하는 데 사용됨. 인자 분석은 관찰 변수들을 더 적은 수의 잠재적 요인이나 인자로 설명하는 방법을 제공. 이를 통해 데이터의 차원을 축소하고, 변수들 간의 상호관계나 패턴을 파악할 수 있음

## 인자분석의 목적
- 데이터의 차원 축소
- 변수 간의 상관관계 파악 : 인자분석은 변수들 간의 상관관게를 파악할 수 있다. 인자 분석을 통해 변수들이 함께 변화하는 패턴이나 구조 파악 가능
- 잠재적 요인 식별 : 변수들이 어떤 의미 있는 인자로 설명될 수 있는지 파악 가능
- 변수 선택 및 특성 추출 : 인자분석을 통해 중요한 인자나 변수들을 선택하고, 데이터의 핵심적인 특성 추출


## 인자분석 데이터의 결측치 처리
- 완전 데이터를 사용 : 결측치가 있는 행을 삭제하거나, 결측치가 있는 변수를 제외하고 분석을 수행하는 방법
- 대체값 사용 : 결측치를 다른 값을 대체하여 분석에 활용하는 방법. 대체값으로는 평균, 중앙값, 최빈값 등 사용 가능. 결측치의 특성과 데이터의 분포를 고려해 대체값 선택
- 예측 모델을 활용한 대체
- EM 알고리즘 : 결측치가 있는 데이터를 활용해 최대우동 추정을 수행하는 방법

## 인자분석 변수의 정규화 또는 표준화
변수들을 표준화 하는 이유
- 변수들의 단위 일치
- 변수들의 상대적 중요도 파악
- 분석 결과의 해석 용이성

## 인자 모델의 설정 - 인자의 개수 결정
- Scree plot : 주성분 분석에서 각 주성분의 고유값을 그래프로 나타내는 방법. 고유값은 해당 주성분이 설명하는 데이터의 분산을 나타내는데, Scree plot에서는 고유값이 그래프 상에서 급격히 감소하는 지점을 찾는다. 이 지점 이후의 주성분들은 데이터의 분산을 상대적으로 적게 설명하므로, 이전 지점까지의 주성분 개수를 인자의 개수로 선택하는 방법
- Kaiser Citerion : 고유값의 크기를 기준으로 인자의 개수를 결정하는 방법. 고유값이 1보다 큰 경우를 유지하는 인자만 선택하는 것으로 정의됨. 이 기준은 주성분이 설명하는 분산이 랜덤한 데이터의 분산보다 큰 경우에 해당하며, 해당 기준을 충족하는 주성분들을 선택하여 인자의 개수를 결정한다.

## 인자 모델의 설정 -인자 분석의 가정 설명(인자 독립성, 정규성)
#### 인자 독립성
1. 인자들이 서로 독립적이라는 가정. 즉, 인자들 간에 상관관계가 없거나 매우 약함
2. 인자 분석의 결과를 신뢰할 수 있도록 하기 위해 중요한 가정.
3. 인자들 간에 상관관계가 있다면, 상관 구조를 반영하는 대안적인 분석 방법 고려
#### 인자의 정규성
1. 인자들이 정규분포를 따른다는 가정. 즉, 데이터가 정규분포에 가까운 형태로 분포되어 있다는 것을 의미
2. 인자 분석의 통계적 기법을 적용하기 위해 중요. 정규분포를 따르지 않는 데이터의 경우 다른 분포를 따르는 경우에는 적절한 분석 방법 선택해야 함
3. 만약 데이터가 정규분포를 따르지 않는다면, 비모수적인 방법이나 변환 기법을 사용해 인자분석 수행

## 주요 인자 추출 방법
1. 주성분 분석
2. 최대우도 추정법 : 인자 분석 모델의 파라미터를 추정하는 기법으로, 관측된 데이터가 주어졌을 때 모델의 우도를 최대화하는 파라미터를 찾는다. 인자 분석에서 최대우도 추정법은 인자구조와 관측변수 사이의 관계를 모델링하는 데 사용됨. 인자의 개수와 인자들의 관계에 대한 파라미터를 추정하여 모델을 구축한다.

## 인자와 원본 변수 간의 관계 파악
#### 인자의 구성
1. 인자는 주로 원본 변수들의 선형 조합으로 구성
2. 인자는 원본 변수들의 가중치(계수)를 조합하여 생성되며, 이를 통해 원본 변수들 간의 관계를 요약

## 인자분석의 가정
1. 선형성 가정
2. 독립성 가정
3. 정규성 가정

## 인자분석의 한계
1. 해석의 주관성
2. 정보 손실
3. 표본 크기

## 인자분석 - 다른 차원 축소 방법과의 비교
다차원 척도법 : 객체들 간의 유사성을 고려해 저차원 공간에 매핑하는 방법. 데이터의 거리나 유사성을 유지하는 데 초점을 맞추며, 시각화를 위해 주로 사용. 인자분석과 다차원 척도법 모두 데이터의 구조를 요약하고 시각화하는 데 활용되지만 접근 방식과 목적이 다름

In [2]:
# 랜덤 데이터셋을 사용한 인자분석 실습
import numpy as np
from sklearn.decomposition import FactorAnalysis

# 데이터셋 생성
np.random.seed(0)
n_samples = 100    # 샘플 수
n_features = 5     # 변수 수
# 데이터셋을 랜덤하게 생성
X = np.random.randn(n_samples, n_features)

# 인자 분석 수행
n_components = 2    # 추출할 인자 수
factor_analysis = FactorAnalysis(n_components=n_components, random_state=0)
X_factors = factor_analysis.fit_transform(X)

# 결과 출력
print("원본 데이터셋 크기 : ", X.shape)
print("인자 분석 결과 (인자 개수 = {}):".format(n_components))
print(X_factors)

원본 데이터셋 크기 :  (100, 5)
인자 분석 결과 (인자 개수 = 2):
[[-1.01244523e+00 -1.30255487e-01]
 [-4.66728317e-01  1.13128805e-01]
 [-5.43752664e-01 -5.21333643e-03]
 [ 7.84485254e-02  5.18446209e-01]
 [-1.38761949e+00 -7.19926702e-01]
 [-9.76908725e-01 -1.46287371e-01]
 [ 4.16681019e-01  4.39943804e-01]
 [-9.33912119e-02 -2.05477909e-01]
 [ 3.64050421e-01  3.62622003e-01]
 [ 6.01596203e-01 -6.83470132e-01]
 [ 3.50941854e-02  1.47999277e-01]
 [ 3.27489939e-01 -4.67195360e-02]
 [ 2.35314537e-01  1.14712133e-01]
 [ 5.05245409e-01 -6.23279966e-01]
 [ 3.59883386e-02 -4.08163985e-01]
 [ 2.39779405e-01 -4.48204528e-02]
 [-8.19922431e-01 -2.90047066e-01]
 [-3.74929007e-01  4.89847246e-01]
 [-5.91241735e-01  1.33901943e-01]
 [-1.25865487e-01 -6.65994076e-01]
 [ 1.09189763e+00  5.99643113e-01]
 [-5.03067494e-01  4.54821044e-01]
 [-3.78276132e-02  8.83335518e-01]
 [-5.86593018e-01  3.42129299e-01]
 [ 5.34799613e-01 -2.23164331e-01]
 [-1.80718542e-01 -8.86797699e-01]
 [ 1.48310037e-01  3.39796716e-01]
 [ 4.54069

인자 분석을 통해 추출된 2개의 인자에 대한 결과<br>
각 행은 원본 데이터 포인트에 대한 인자 값으로 구성되어 있음<br>
첫 번째 열은 첫 번째 인자를 나타내고, 두 번째 열은 두 번째 인자를 나타냄.<br>