# Lecture 8: Factor Analysis

## 8.1 요인분석이란?
- 심리학, 행동과학 등의 여러 영역에서 주된 관심의 개념을 직접 측정 불가하기 때문에 간접적으로 측정 (랜덤 오차 포함)
    - 예: 지능- 시험점수 
    - 예: 사회계급 – 직업, 교육배경, 집의 소유 등 
- 잠재변수 (latent variable) - 직접 측정이 불가하지만 측정할 수 있는 변수 
- 요인분석 – 측정변수와 잠재변수 사이의 관계를 밝히는 것
    - 탐색적 요인분석(Exploratory Factor Analysis) – 어떤 측정변수가 어떤 요인에 관련된다는 특정한 가정없이 측정변수와 요인 사이의 관계 조사
    - 확인적 요인분석(Confirmatory Factor Analysis) – 사전에 가정된 특정한 요인모형에 대해 측정변수 사이의 공분산 또는 상관관계를 적절하게 적합하는지 검정

## 8.2 탐색적 요인분석(Exploratory Factor Analysis)
### 8.2.1 요인분석의 원리: two-factor model
- 학생들의 심리테스트
- 5개의 문항
    - paragraph comprehension (PARA)
    - sentence completion (SENT)
    - word meaning (WORD)
    - addition (ADD)
    - counting dots (DOTS)
    

- Correlation matrix

 <img src='http://drive.google.com/uc?export=view&id=1SlbZ8E9iPY5zn-xyd4XXNIKZp8B3ZYFl' width=70%/><br>

- 공통 요인(common factor):$f$
    - 5개의 문항에 내재된 두 개의 잠재요인
- 특정요인(specific factor): $u_i$ - 랜덤변동
    - 공통요인이 설명하지 못하는 각 문항의 
    - 특정요인의 분산은 순전히 공통요인를 완벽히 측정하지 못하는 데서 오는 오차라고 가정


- 학생들의 성적이 두 개의 잠재력의 표현: 언어능력($f_1$), 수리능력($f_2$)
<img src='http://drive.google.com/uc?export=view&id=1sYXNMR7qt9_t5HAdKMOENioLuWbZKG12' width=30%/><br>
    

### 8.2.3 요인분석 모형 

<img src='http://drive.google.com/uc?export=view&id=1V94QVSs803euJCE66qVxoeRU3G5leOAv' width=20% /><br>

- 가정
    - $u_i$들은 서로 독립이다. 
    - $f_j$들이 서로 독립이다.
    - $u_i$와 $f_j$는 서로 독립이다.

- $X_i$의 분산을 공통요인$f$의 분산과 특정요인$u_i$의 분산으로 구분
$$var(X_i)= var(l_i f +u_i)= l_i^2 + var(u_i) \mbox{(=1 만일 표준화 되었다면)} $$

#### 요인적재량(factor loading): $L$
- 각 변수와 각 요인 간의 관련성 정도를 나타내는 값 
- 일반적으로 0.3 이상이면 유의한 관계가 있다고 판단

#### 공통성(communality)
- $X_i$의 분산 중 공통요인에 의해 발생하는 분산의 비율 
- Communality of $X_i$ = $l_{i1}^2 +l_{i2}^2$
- Communality가 크면(1에 가까우면) 변수 $X_i$가 공통요인를 잘 측정
- 예: $X_2$(sentence completion)의 결과는 언어능력에 의존적일 것이므로 $l_{21}\approx 1, l_{22} \approx 0$

#### 요인 점수(factor score)
- 요인분석 결과를 바탕으로 각 응답자 또는 사례가 추출된 요인을 반영하고 있는 정도를 나타내는 점수 
- 기존의 변수 값이 아닌 요인 점수 값을 통해 요인수준의 회귀분석이나 분산분석 등을 수행할 수 있음

    
### 8.2.4 Example: 쇼핑 고객만족도

A쇼핑 고객만족도 조사는 상품품질에서 안내표지판 설명까지 총 10개의 항목으로 실행되었다. 개별 항목들도 중요한 고객만족도 항목
들이지만, 보다 효율적인 측정지표 관리를 위해 탐색적 요인분석을 실시하고자 한다. 

In [1]:
import pandas as pd
from factor_analyzer import FactorAnalyzer

df = pd.read_csv('../data/Ashopping.csv',sep=',',encoding='CP949') 

In [2]:
df.head()

Unnamed: 0,고객ID,이탈여부,총_매출액,방문빈도,1회_평균매출액,할인권_사용 횟수,총_할인_금액,고객등급,구매유형,클레임접수여부,...,매장_청결성,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명,친절성,신속성,책임성,정확성,전문성
0,1,0,4007080,17,235711,1,5445,1,4,0,...,6,7,6,6,6,6,6,6,6,6
1,2,1,3168400,14,226314,22,350995,2,4,0,...,7,7,6,6,6,5,3,6,6,6
2,3,0,2680780,18,148932,6,186045,1,4,1,...,6,6,6,6,6,7,7,6,6,7
3,4,0,5946600,17,349800,1,5195,1,4,1,...,6,6,5,6,6,6,6,6,5,6
4,5,0,13745950,73,188301,9,246350,1,2,0,...,5,6,6,6,5,5,6,6,5,6


In [3]:
# 변수 추출
X=df[['상품_품질','상품_다양성','가격_적절성','상품_진열_위치','상품_설명_표시','매장_청결성','공간_편의성','시야_확보성','음향_적절성','안내_표지판_설명']]
X.head()

Unnamed: 0,상품_품질,상품_다양성,가격_적절성,상품_진열_위치,상품_설명_표시,매장_청결성,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명
0,7,7,6,7.0,6.0,6,7,6,6,6
1,6,7,6,6.0,,7,7,6,6,6
2,6,7,6,7.0,,6,6,6,6,6
3,6,6,6,5.0,6.0,6,6,5,6,6
4,5,6,6,5.0,6.0,5,6,6,6,5


In [4]:
# 탐색적요인분석
fa = FactorAnalyzer(n_factors=2, rotation='varimax').fit(X)
# 결과 출력
print('요인적재량 :\n',pd.DataFrame(fa.loadings_, index=X.columns))

요인적재량 :
                   0         1
상품_품질      0.424585  0.469091
상품_다양성     0.335576  0.521441
가격_적절성     0.245717  0.621675
상품_진열_위치   0.280455  0.662115
상품_설명_표시   0.183904  0.559667
매장_청결성     0.553540  0.279346
공간_편의성     0.538517  0.411586
시야_확보성     0.522633  0.285351
음향_적절성     0.512300  0.298342
안내_표지판_설명  0.698504  0.146443


- Factor1
    - 매장 청결성, 공간 편의성, 시야 확보성, 음향 적절성, 안내 표지판의 변수에 대한 factor loading 값이 큼
    - "매장 만족도"라고 명명
- Factor2
    - 상품 품질, 상품 다양성, 가격 적절성, 상품 진열위치, 상품설명 표시에 대한 factor loading 값이 큼
    - "상품 만족도"라고 명명 

In [5]:
print('\n공통성 :\n', pd.DataFrame(fa.get_communalities(), index=X.columns))


공통성 :
                   0
상품_품질      0.400319
상품_다양성     0.384512
가격_적절성     0.446857
상품_진열_위치   0.517051
상품_설명_표시   0.347048
매장_청결성     0.384441
공간_편의성     0.459403
시야_확보성     0.354571
음향_적절성     0.351460
안내_표지판_설명  0.509353


In [6]:
print('\n요인점수 :\n', fa.transform(X.dropna()))


요인점수 :
 [[ 0.51484379  1.1780319 ]
 [ 0.16525296 -0.17930471]
 [-0.48014705 -0.09537536]
 ...
 [ 0.22596869  0.72047489]
 [-2.07188396 -1.25077316]
 [ 0.72731621  0.90366169]]


In [7]:
df

Unnamed: 0,고객ID,이탈여부,총_매출액,방문빈도,1회_평균매출액,할인권_사용 횟수,총_할인_금액,고객등급,구매유형,클레임접수여부,...,매장_청결성,공간_편의성,시야_확보성,음향_적절성,안내_표지판_설명,친절성,신속성,책임성,정확성,전문성
0,1,0,4007080,17,235711,1,5445,1,4,0,...,6,7,6,6,6,6,6,6,6,6
1,2,1,3168400,14,226314,22,350995,2,4,0,...,7,7,6,6,6,5,3,6,6,6
2,3,0,2680780,18,148932,6,186045,1,4,1,...,6,6,6,6,6,7,7,6,6,7
3,4,0,5946600,17,349800,1,5195,1,4,1,...,6,6,5,6,6,6,6,6,5,6
4,5,0,13745950,73,188301,9,246350,1,2,0,...,5,6,6,6,5,5,6,6,5,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,0,5135090,8,641886,3,44445,1,3,1,...,6,6,7,6,7,6,6,6,6,6
996,997,0,10315690,49,210524,6,186545,1,2,0,...,6,7,6,5,6,5,7,6,6,6
997,998,0,2741290,10,274129,8,260700,2,4,0,...,5,6,6,6,5,6,4,5,6,5
998,999,0,11268990,15,751266,20,347700,1,3,0,...,5,4,4,4,4,4,5,5,4,4


In [8]:
pd.DataFrame(fa.transform(X.dropna()))

Unnamed: 0,0,1
0,0.514844,1.178032
1,0.165253,-0.179305
2,-0.480147,-0.095375
3,-0.454941,2.072313
4,-0.637199,-1.514769
...,...,...
836,0.485662,0.910487
837,1.159119,-0.368889
838,0.225969,0.720475
839,-2.071884,-1.250773


- 모든 고객에 대해 산출된 요인 점수를 활용하여 추후 다양한 다변량 통계분석에 활용 가능

### 8.2.5 요인회전(Factor Rotation)
- 요인적재값에 의해 원 변수를 그룹화 하지만 그 결과가 언제가 명확하지는 않음
    - 하나의 원 변수에 부하값이 큰 요인이 2개 이상 존재하는 경우
    - 요인의 크기가 0을 중심으로  $\pm$의 작은 값이 같이 있는 경우
- 요인회전의 개념
    $$\Sigma = LL'+ \Psi$$
    - 요인의 개수가 k<q인 경우 요인적재값행렬 L의 해는 무수히 많음
        - 임의의 직교행렬 $M$(즉, $MM'=M'M=I$)에 대해
        $$\Sigma = L(MM')L'+ \Psi = L^* {L^*}' + \Psi, ~~ L^* = LM$$
    - 요인적재값의 구별이 쉬운 직교행렬을 찾아 회전 
    

- Wine example
    - 와인의 특징을 7개의 변수로 측정 
    
    ![](figures/factor-rotation.png)
    ![](figures/factor-rotation2.png)
    - 회전 후 요인의 의미가 더 선명해짐
    - factor1: price vs. acidity, alcohol, going with meat, hedonic
    - factor2: sweetness/going with dessert

#### 요인회전의 종류
- 직교회전(orthogonal rotation): 회전된 요인들이 서로 상관되지 않도록 제약
    - Varimax rotation
        - 한 공통요인에 대해 각 변수가 가지는 요인적재값 제곱의 분산이 최대화 되도록 변환
        - 요인적재값행렬의 각 열의 분산을 최대화
    - Quartimax rotation 
        - 한 변수가 각 공통요인에서 차지하는 비중의 제곱에 대해 분산을 최대화하도록 변환
        - 요인적재값행렬의 각 행의 분산을 최대화
        - 하나의 일반적인 공통요인와 작은 여러 개의 그룹화된 공통요인를 만드는 경향

- 사각회전(oblique rotation): 상관된 요인들을 허용
    - Oblinmin rotation
        - 요인들 사이의 상관성 정도를 제어하는데 사용되는 모수를 통해 단순한 구조를 찾음
        - -0.5에서 0.5 사이
    - Promax rotation
        - varimax 회전에 의한 적재값을 어떤 승수로 올리는 방법
        - 가능한 낮은 승수를 사용하고 요인들 사이에 낮은 상관성을 갖도록 하는 해 

- 어떤 회전이 적절한가?
    - 보편적인 답은 없음
    - 데이터에 가장 잘 맞는 결과를 얻는데 관심이 있다면 사각회전 사용
    - 결과를 일반화 하는데 더 관심이 있다면 직교회전 사용

In [9]:
fa_none = FactorAnalyzer(n_factors=2, rotation=None).fit(X)

print('요인적재량(No rotation) :\n',pd.DataFrame(fa_none.loadings_, index=X.columns))
print('\n 요인적재량(Varimax) :\n',pd.DataFrame(fa.loadings_, index=X.columns))

요인적재량(No rotation) :
                   0         1
상품_품질      0.631842 -0.033082
상품_다양성     0.605666 -0.132972
가격_적절성     0.612659 -0.267406
상품_진열_위치   0.665807 -0.271573
상품_설명_표시   0.525105 -0.267045
매장_청결성     0.589432  0.192381
공간_편의성     0.672050  0.088040
시야_확보성     0.571758  0.166326
음향_적절성     0.573595  0.149829
안내_표지판_설명  0.598461  0.388841

 요인적재량(Varimax) :
                   0         1
상품_품질      0.424585  0.469091
상품_다양성     0.335576  0.521441
가격_적절성     0.245717  0.621675
상품_진열_위치   0.280455  0.662115
상품_설명_표시   0.183904  0.559667
매장_청결성     0.553540  0.279346
공간_편의성     0.538517  0.411586
시야_확보성     0.522633  0.285351
음향_적절성     0.512300  0.298342
안내_표지판_설명  0.698504  0.146443
