In [None]:
'''해야할 일
   1)공통량, 고유값의 의미와 분석결과 해석 조사하기
   2)요인회전 조사하기
   3)PCA, CFA, SVD 등 요인분석방법 조사하기
   4)탐색적요인분석의 직교모형의 의미, 구조방정식과 확인적요인분석 내용 조사하기
   5)요인분석 최신 코드 조사하기
'''

In [1]:
import pandas as pd
factors = pd.read_csv('data/Ashopping.csv', encoding='cp949', 
                       usecols=['상품_품질', '상품_다양성', '가격_적절성', '상품_진열_위치', '상품_설명_표시', '매장_청결성', 
                                '공간_편의성', '시야_확보성', '음향_적절성', '안내_표지판_설명'])

## Factor Analysis(요인 분석)
다수의 변수들간의 상관관계를 바탕으로 여러 변수들을 단순한 구조로 축소, 요약한다. 
- 변수들 중 유사한 변수들끼리 묶어 만들어진 소수의 요인은 상호독립적 특성을 가져 변수들의 구조적인 특성을 명확하게 파악할 수 있다.<br>또한 관련성이 없거나 중요도가 낮은 변수들을 선별할 수 있고 하나의 요인으로 묶이는 변수들을 살펴보아 변수들의 타당성을 평가할 수 있다.
- 요인분석의 의의를 바탕으로 사전지식 없이 상향식으로 변수들간 관계성을 파악하고 요인을 도출하는 탐색적 요인분석과 사전지식을 바탕으로 변수들간 요인구조를 확인하는 확인적 요인분석으로 구분된다.
- 요인분석으로 얻으려는 요인을 결정하는 주요 지표는 아래와 같다.
  - 요인적재량(Factor Loading): 하나의 측정변수를 종속변수로, 추출된 각 요인을 독립변수로 하는 일종의 회귀모형의 계수값으로 특정 변수가 각 요인들간의 상관정도를 의미한다. 표준화된 자료를 사용하는 경우 요인적재량은 단순히 변수와 요인간의 상관계수 값이라 볼 수 있다. 일반적으로 요인적재량이 0.3 이상이면 유의한 관계가 있다고 한다. 
$$a_{Rr} = \rho(F_r, x_R) = Corr(F_r, x_R) = \frac{Cov(F_r, x_R)}{\sqrt{Var(F_r)}\sqrt{Var(x_R)}}$$
$$(a_{Rr}\text{: 변수}R\text{에 대한 }r\text{번째 공통요인의 재량}, x_R: R\text{번째 변수}, F_r: r\text{번째 요인})$$
  - 공통량(Communality): 요인분석에서 제외할 변수를 결정짓는 값으로 특정 변수와 모든 요인들간 요인적재량의 제곱합이다. `특정 변수에 대해 추출된 요인들이 설명하는 비율, 특정 변수가 다른 모든 변수들과 공유하는 분산의 양을 의미한다.` 보통 0.5 이하의 공통성을 갖는 변수가 존재한다면 그 변수는 중요도가 떨어지는 변수이다.<br>
    이때, 변수제거 지표로 공통량이 사용되나 공통량에만 의존하지 않고 변수의 연구목적, 변수들의 측정 정확도, 사전지식 등을 고려해 제외해야 한다.
    $$h_R^2 = \sum_{r=1}^R a_{Rr}^2$$
    $$(h_R^2\text{: 변수}R\text{의 공통성}, a_{Rr}\text{: 변수}R\text{에 대한 }r\text{번째 공통요인의 적재량}, R\text{: 공통요인의 수})$$
  - 고유값(Eigenvalue): 특정 요인과 모든 변수간 요인적재량의 제곱합으로  측정된 변수들의 변량 중에서 어떤 한 요인에 의해 설명되는 분산의 양으로써 특정 요인이 측정변수를 몇 개나 설명하는지를 나타낸다. 개별측정변수의 변량을 1이라 할 때 추출된 각 요인이 갖는 변량의 크기이다. 고유값이 1보다 큰 값의 개수를 요인수로 설정한다.
    $$\partial_r = \sum_{k=1}^K a_{Rr}^2$$
    $$(\partial_r:~\text{번째 요인의 고유값}, a_{Rr}\text{: 변수}R\text{에 대한 }r\text{번째 공통요인의 적재량},~K\text{: 변수의 수}$$ 
  - 요인점수(Factor Score): 요인분석 결과를 바탕으로 각각의 응답자, 사례가 추출된 요인을 반영하고 있는 정도를 나타내는 점수, 각 변수들의 표준화된 값을 요인점수 계수행렬에 곱해서 구한다. 요인적재량이 각 측정변수와 각 요인에 대한 관계의 정도를 나타내는 반면, 요인점수는 각 응답자 또는 사례가 각 요인에 대해 갖는 관계의 정도를 나타낸다. 각 사례에 추가된 요인점수를 통해 기존의 변수 값이 아닌 요인점수 값을 통해 요인수준의 회귀분석이나 분산분석 등을 수행할 수 있다.
  $$F_{ir} = x_{i1}\beta_{1r} + x_{i2}\beta_{2r} + \cdots + x_{iK}\beta_{Kr}$$
  $$(F_{ir}:~i\text{번째 개체의 }r\text{번째 공통요인에 대한 점수}, x_{ij}: ~i\text{번째 개체의 }j\text{번째 변수에 대한 표준화된 관찰값}, \beta_{\_r}:~r\text{번째 공통요인의 요인점수계수})$$

In [None]:
# 신뢰성 분석과 연관되는 내용
# -> 요인분석을 통해 어느 특성의 개념을 측정하는 변수들이 동일한 요인으로 묶이는 지를 확인하여 측정항목들의 타당성을 평가할 수 있다.

### 탐색적 요인분석
변수들의 이면에 있는 공통요인들간의 관련성을 알아보기 위해 탐색적으로 요인을 파악하려는 것이다. 개별 측정 변수들을 분류 또는 통합할 가이드 없이 순수하게 통계쩍으로 결합되는 변수들을 묶어 나가는 방법이다. 상향식 분석으로 분석결과로 도출된 요인들이 몇 개 일지,그 요인들이 포함하는 세부 측정변수들은 무엇일 지 미리 알 수 없다.
- 탐색적 요인분석을 위한 직교요인 모형은 통상적으로 각 변수들은 요인들의 선형결합 또는 고유요인에 의해 나타내어 지고 공통요인들은 모든 변수에 영향을 주지만 각 고유요인은 해당 변수에만 영향을 준다. 공통요인들은 서로 독립이며 고유요인들도 서로 독립, 공통요인과 고유요인도 서로 독립이다.

In [None]:
# !pip install factor_analyzer
# 정여진 교수님 Code확인해보기

In [3]:
# 1) 탐색적 요인분석
# :PCA를 통해 요인을 추출하고 요인 수를 2개로, 요인 회전 방법을 베리멕스로 설정한 결과
#  제 1 요인은 매장 청결성, 공간 편의성, 시야 확보성, 음향 적절성, 안내 표지판 설명 5가지 변수로 이루어졌으며 매장 만족도로 이름 붙인다.
#  제 2 요인은 상품 품질, 상품 다양성, 가격 적절성, 상품 진열 위치, 상품 설명 표시 5가지 변수로 이루어져 있으며 상품 만족도로 이름 붙인다.
#  본 고객 만족도 데이터는 매장 만족도와 상품 만족도라는 두 개의 요인으로 구성된다 할 수 있다.
from factor_analyzer import FactorAnalyzer
FA = FactorAnalyzer(method='principal', n_factors=2, rotation='varimax').fit(factors)
# method='principal'|'ml'(최대우도 요인추출법)

print('------------요인적재량------------')
display(pd.DataFrame(FA.loadings_, index=factors.columns))
print('--------------공통성--------------')
display(pd.DataFrame(FA.get_communalities(), index=factors.columns))
ev, _ = FA.get_eigenvalues()                 # 고유값과 공통요인 고유값을 반환
print('--------------고유값--------------')
display(pd.DataFrame(ev))
print('-------------요인점수-------------') 
display(FA.transform(factors.dropna()))      # 결측치가 있을 경우 오류가 발생해 dropna 해줘야 함

-----요인적재량-----


Unnamed: 0,0,1
상품_품질,0.449335,0.519757
상품_다양성,0.32042,0.615774
가격_적절성,0.225079,0.709959
상품_진열_위치,0.261779,0.734248
상품_설명_표시,0.072552,0.75467
매장_청결성,0.661093,0.236649
공간_편의성,0.609502,0.399518
시야_확보성,0.664336,0.212471
음향_적절성,0.636674,0.244599
안내_표지판_설명,0.790881,0.085513


------공통성------


Unnamed: 0,0
상품_품질,0.472049
상품_다양성,0.481846
가격_적절성,0.554703
상품_진열_위치,0.607648
상품_설명_표시,0.574791
매장_청결성,0.493047
공간_편의성,0.531108
시야_확보성,0.486487
음향_적절성,0.465182
안내_표지판_설명,0.632805


------고유값------


Unnamed: 0,0
0,4.253033
1,1.046634
2,0.803469
3,0.748182
4,0.679501
5,0.596066
6,0.551448
7,0.501088
8,0.440777
9,0.379804


-----요인점수-----


array([[ 0.45482355,  1.31311697],
       [ 0.04384855, -0.02882105],
       [-0.54433042,  0.04835029],
       ...,
       [ 0.03251865,  0.9035014 ],
       [-2.41511577, -1.14112745],
       [ 0.83380422,  0.93841954]])

In [None]:
# 아래의 PCA, CFA는 요인을 추출하는 방법 중 하나이다.

### $\blacktriangleright$ PCA(주성분분석)
예측을 목적으로 수집된 자료들을 가능한 최소의 요인으로 축소하고자 할 경우 사용한다. 어떤 변수가 갖고 있는 공통변량과 고유변량을 모두 고려하여 총 변량(Total Variance)에 기초하여 요인을 추출하는 방법이다. 
- n개의 입력변수들이 가지는 총 분산을 n개의 주성분으로 추출하되 먼저 추출되는 주성분요인일수록 총분산을 많이 설명할 수 있도록 순차적으로 추출해 차원을 축소할 수 있게 한다.
- 총분산의 80%를 설명할 수 있을 경우로 보통 차원을 축소한다.

### $\blacktriangleright$ Common Factor Analysis(공통요인분석)
변수들 사이에 존재하는 차원이나 요인들을 발견하기 위한 분석 목적에 사용된다. 어떤 변수가 가지는 고유변량을 제외하고 공통변량에만 기초해 요인을 추출하는 방법이다. 입력변수들간의 공통분산을 많이 설명하는 소수의 변수들을 택한다.
