# Factor Analysis

observed variable : $X_1, X_2,\dots, X_n$<br>
$\leftrightarrow$ linearly realated $\leftrightarrow$<br>
unobserved variable : $F_1, F_2,\dots, F_k$

$\textbf{가정}$<br> 
1. 데이터에 이상치가 없다.
2. 샘플 사이즈는 요인(factor)의 개수보다 많다.
3. 완전한 다중공선성이 없어야 한다.
4. 변수 사이에 등분산성이 없어야 한다.

$\textbf{종류}$<br>
1. Exploratory Factor Analysis : 어떤 observed variable든지 요인과 직접적으로 관련있다고 가정함
2. Confirmatory Factor Analysis(CFA) : 각각의 요인들이 특정 observed variable들과만 관련있다고 가정한다.

$\textbf{동작}$<br>
observed variable의 수를 줄이고 unobserved variable를 찾아낸다. 이 unobserved variable들은 데이터의 의미를 재해석하는데 도움을 준다. 다음과 같은 과정으로 진행된다.<br>
1. Factor Extraction : PCA나 일반적인 Factor analysis 방법과 같은 변수 partitioning 방법을 이용해 요인의 개수나 접근법 등이 선택된다.
2. Factor Rotation : 전반적인 데이터 해석력을 높이기 위한 과정으로써 요인들을 uncorrelated factors 로 변환한다. Varimax rotation, Quartimax rotation, Promax rotation method 등이 있다.

$\textbf{factor}$<br>
observed variable들 간의 관계를 describe하는 잠재적인 변수이다. 각각의 요인들은 observed variable들의 어느정도씩 분산을 차지한다.

$\textbf{factor loading}$<br>
각각의 observed variable과 잠재변수(요인) 사이의 관계를 나타내는 행렬이다. observed variable과 요인 간 상관계수를 나타내며 observed variable들에 의해 설명되는 분산을 나타낸다.

$\textbf{Eigenvalues}$<br>
고유값은 전체 분산에서 각 요인을 설명하는 분산을 나타낸다.

$\textbf{Choosing the Number of Factors}$<br>
일반적으로 고유값이 1 미만인 것들을 버리는 방법(kaiser criterion)이 사용된다.<br>
scree plot으로 고유값을 그려 급격히 꺾이는 curve에서 요인의 수를 선택하는 방법을 사용할 수도 있다.

## PCA와의 차이점
- 주성분은 분산의 최대치를 설명하는 반면 요인분석은 데이터의 공분산을 설명한다.
- 주성분들은 서로 직교하는 반면 요인끼리는 그럴 필요가 없다.
- PCA는 실제 변수들(observed variables)간의 선형결합으로 주성분이 구성되는데 반해, FA는 요인들간의 선형결합으로 실제 변수가 구성된다.
- 주성분은 uninterpretable하지만 FA에서의 잠재요인은 labelable하고 interpretable하다.
- PCA는 차원축소의 한 종류이고, 요인분석은 latent variable method이다.
- PCA는 관찰이고 FA는 모델링 기법이다. PCA는 FA의 한 유형이다.

In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import FactorAnalysis
iris = load_iris()

[dataset](https://vincentarelbundock.github.io/Rdatasets/datasets.html)
 : 25 Personality items representing 5 factors

In [4]:
df = pd.read_csv('bfi.csv')
df = df.drop('Unnamed: 0',axis=1)
df.head()

Unnamed: 0,A1,A2,A3,A4,A5,C1,C2,C3,C4,C5,...,N4,N5,O1,O2,O3,O4,O5,gender,education,age
0,2.0,4.0,3.0,4.0,4.0,2.0,3.0,3.0,4.0,4.0,...,2.0,3.0,3.0,6,3.0,4.0,3.0,1,,16
1,2.0,4.0,5.0,2.0,5.0,5.0,4.0,4.0,3.0,4.0,...,5.0,5.0,4.0,2,4.0,3.0,3.0,2,,18
2,5.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,2.0,5.0,...,2.0,3.0,4.0,2,5.0,5.0,2.0,2,,17
3,4.0,4.0,6.0,5.0,5.0,4.0,4.0,3.0,5.0,5.0,...,4.0,1.0,3.0,3,4.0,3.0,5.0,2,,17
4,2.0,3.0,3.0,4.0,5.0,4.0,4.0,5.0,3.0,2.0,...,4.0,3.0,3.0,3,4.0,3.0,3.0,1,,17


In [5]:
print(df.shape)
print(df.columns)

(2800, 28)
Index(['A1', 'A2', 'A3', 'A4', 'A5', 'C1', 'C2', 'C3', 'C4', 'C5', 'E1', 'E2',
       'E3', 'E4', 'E5', 'N1', 'N2', 'N3', 'N4', 'N5', 'O1', 'O2', 'O3', 'O4',
       'O5', 'gender', 'education', 'age'],
      dtype='object')


In [6]:
# preprocessing
df = df.drop(['gender','education','age'], axis=1)
df = df.dropna()
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2436 entries, 0 to 2799
Data columns (total 25 columns):
A1    2436 non-null float64
A2    2436 non-null float64
A3    2436 non-null float64
A4    2436 non-null float64
A5    2436 non-null float64
C1    2436 non-null float64
C2    2436 non-null float64
C3    2436 non-null float64
C4    2436 non-null float64
C5    2436 non-null float64
E1    2436 non-null float64
E2    2436 non-null float64
E3    2436 non-null float64
E4    2436 non-null float64
E5    2436 non-null float64
N1    2436 non-null float64
N2    2436 non-null float64
N3    2436 non-null float64
N4    2436 non-null float64
N5    2436 non-null float64
O1    2436 non-null float64
O2    2436 non-null int64
O3    2436 non-null float64
O4    2436 non-null float64
O5    2436 non-null float64
dtypes: float64(24), int64(1)
memory usage: 494.8 KB


In [7]:
df.head()

Unnamed: 0,A1,A2,A3,A4,A5,C1,C2,C3,C4,C5,...,N1,N2,N3,N4,N5,O1,O2,O3,O4,O5
0,2.0,4.0,3.0,4.0,4.0,2.0,3.0,3.0,4.0,4.0,...,3.0,4.0,2.0,2.0,3.0,3.0,6,3.0,4.0,3.0
1,2.0,4.0,5.0,2.0,5.0,5.0,4.0,4.0,3.0,4.0,...,3.0,3.0,3.0,5.0,5.0,4.0,2,4.0,3.0,3.0
2,5.0,4.0,5.0,4.0,4.0,4.0,5.0,4.0,2.0,5.0,...,4.0,5.0,4.0,2.0,3.0,4.0,2,5.0,5.0,2.0
3,4.0,4.0,6.0,5.0,5.0,4.0,4.0,3.0,5.0,5.0,...,2.0,5.0,2.0,4.0,1.0,3.0,3,4.0,3.0,5.0
4,2.0,3.0,3.0,4.0,5.0,4.0,4.0,5.0,3.0,2.0,...,2.0,3.0,4.0,4.0,3.0,3.0,3,4.0,3.0,3.0


## Adequacy test
Factor analysis를 수행하기에 앞서 데이터의 factorablility를 점검해야한다. factorability는 dataset에서 factor를 찾아낼 수 있느냐 하는 성질이다. 다음과 같은 두가지 테스트를 보통 사용한다.
- Bartlett's Test : 몇 가지 그룹들 사이에서 분산이 일치하는지를 검정
    - $H_0$ : 그룹간 분산이 일치한다.
    - $H_1$ : 적어도 하나의 그룹은 나머지 그룹과 분산이 같지 않다.
    - factor_analyzer에서 제공하는 함수를 사용하면 
- Kaiser-Meyer-Olkin test


In [28]:
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
chi_square_value,p_value=calculate_bartlett_sphericity(df)
chi_square_value, p_value

(18170.96635086925, 0.0)