# 17 설문조사 요인분석

- [17.1 요인분석이란?](#17.1-요인분석이란?)
- [17.2 항공사 서비스 설문조사 요인분석](#17.2-항공사-서비스-설문조사-요인분석)
- [17.3 성격 측정 설문조사 요인분석](#17.3-성격-측정-설문조사-요인분석)
- [부록: 크론바흐 알파](부록:-크론바흐-알파)

**요인분석**(factor analysis)의 목표는 서로 관련된 변수들을 **요인**(factor)이라고 불리는 더 적은 수의 변수로 만들려는 것이다. 여러 변수들의 배후에 소수의 "**잠재적**(latent)" 요인이 존재한다는 아이디어에 기반하고 있다. 가령 설문조사 전체 문항(즉 변수)을 몇 개로 그룹핑하여 변수의 수를 줄이려는 경우 유용하다. 요인분석은 심리 측정, 성격 이론, 생물학, 마케팅, 제품 관리, 경영과학, 재무, 기계학습 등 다양한 분야에서 사용된다. 

## 17.1 요인분석이란?

### 개요

**요인분석**은 어떤 관측된 변수들, 그러면서 서로 관련성을 지닌 것으로 간주되는 변수들 간의 변동성을 **요인**이라고 하는 관측되지 않은, 그리고 숫자가 더 적은 변수로 설명하는 데 사용되는 통계적 방법이다.(Wikipedia) 예를 들어, 6개의 관측된 변수의 변동(variation)이 2개의 관측되지 않은 (배후의) 변수의 변동에 의해 잘 표현되는 상황이 여기에 해당한다. 

데이터 세트에 여러 관련 변수들이 체계적인(systematic) 상호의존성(inter-dependency)을 나타낼 때, 공통성(commonality)을 생성하는 잠재적 요인을 찾는 기법이다. 요인분석에서 관측된 변수는 잠재적 요인과 "오차" 항의 선형 조합으로 모델링된다. 어떤 변수의 **요인 부하량**(factor loading)은 해당 변수가 해당 요인과 어느 정도 관련되는지를 나타낸다.

### 요인분석 모델

$n$개의 개체(관측치)가 있고, 관측된 변수가 $p$개인 데이터 세트를 생각해보자. 요인분석은 ($p$개보다 작은) $k$개의 공통 요인($f_{i,j}$)을 사용하여 $p$개 관측변수를 설명하려고 한다. 각 개체는 $k$개의 고유한 공통 요인을 가지며, 이것들이 관측들과 연결된다. 그 관계를 나타낸 것이 요인 **부하량 행렬**($L\in \mathbb R^{p \times k}$)이다. 어떤 하나의 관측치($x_{i,m}$)를 다음과 같이 모형화한다. 

$$
x_{i,m}-\mu_{i} = l_{i,1}f_{1,m}+\cdots+l_{i,k}f_{k,m}+\varepsilon_{i,m}
$$

여기에서 $i=1,...,p$이고, $m=1,...,n$이며, 각 기호는 다음을 의미한다.
- $x_{i,m}$ : $m$번째 개체의 $i$번째 관측변수 값
- $ \mu_{i}$ : $i$번째 관측변수의 평균,
- $l_{i,j}$ : $j$번째 요인의 $i$번째 관측변수에 대한 부하량,
- $f_{j,m}$ : $m$번째 개체의 $j$번째 요인의 값,
- $\varepsilon_{i,m}$ : 평균이 0이고 분산이 유한한 $(i,m)$번째의 관측되지 않는 확률적 오차항.

### 예시

어떤 심리학자가 사람들에게는 "언어적 지능"과 "수학적 지능"의 두 가지 종류의 지능이 있으며 어느 쪽도 직접 관찰되지 않는다는 가설을 세운다. 이 상황에서 1,000명의 학생이 10개의 서로 다른 학문 분야에 대해 시험을 치렀고, 그 점수가 있다고 하자. 각 학생이 대규모 모집단에서 무작위로 선택되는 경우 각 학생의 10개 분야 점수는 확률변수이다. 

해당 심리학자는 "언어적 지능"과 "수학적 지능"의 두 가지 종류의 지능에 추가적으로 다음과 같은 가설을 세운다. 즉 10개 학문 분야 각각에 있어서 각 학생들의 예상(expected) 점수는 다음과 같이 결정된다는 것이다.

$$
{l_1 × \text{학생의 언어적 지능}} + {l_2 × \text{학생의 수학적 지능}}.
$$

즉 어떤 숫자($l_1$) 곱하기 언어적 지능 수준, 거기에다 또 다른 숫자($l_2$) 곱하기 수학적 지능 수준이다. 다시 말하면 언어적 지능과 수학적 지능이라는 두 개 "요인"의 선형 조합(linear combination)이라는 것이다. 어떤 과목에서 학생들의 예상 점수를 얻기 위해 두 종류의 지능에 곱해지는 숫자를 "요인 부하량"이라고 한다. 예를 들어 천문학 분야에서 학생들의 예상 성적은 가령 다음과 같다는 가설이다.


$$
{10 × \text{학생의 언어적 지능}} + {6 × \text{학생의 수학적 지능}}.
$$

여기에서 숫자 10과 6은 천문학과 관련된 요인 부하량이다. 다른 학문 과목은 다른 요인 부하량을 가질 수 있음은 물론이다. 어떤 두 학생의 언어 및 수학적 지능의 정도가 동일한 경우라도 천문학 분야의 개별 성적은 서로 다를 수 있다. 왜냐하면 위의 식은 예상 성적이고 실제의 성적은 다를 수밖에 없으며, 측정 오류도 있을 수 있기 때문이다. 이러한 차이를 총칭하여 "오류(error)"라고 부른다.  

위 사례에서 요인분석에 들어가는 관찰 가능한 데이터는 학생 1,000명 각각의 10개 과목 점수, 즉 총 10,000개의 숫자이다. 이 데이터를 통해 두 가지 지능의 요인 부하량을 추론하게 된다.

### 탐색적 vs 확인적 요인분석

**탐색적 요인분석**(EFA: exploratory factor analysis)은 측정된 변수 간의 기본 관계를 **찾아내는** 것이 가장 중요한 목표인 요인분석 기법이다. 가령 "스트레스 지수"와 같은 어떤 척도(scale)를 측정하는 데 사용되며, 측정된 변수의 배후에 있는 잠재적 구성요인(latent construct)를 식별하는 데 사용된다. 연구자가 측정변수(measured variable)의 요인이나 패턴에 대해 선험적 가설을 갖고 있지 않을 때 사용한다. 

**확인적 요인분석**(CFA: confirmatory factor analysis)은 요인분석의 한 형태로서 주로 구성요인(또는 요인)의 측정값이 해당 요인의 특성에 대한 연구자의 생각과 일치하는지 여부를 테스트하는 데, 즉 **확인하는** 데 사용된다. 데이터가 측정 모델에 대한 가설과 맞는지 여부를 테스트하는 것으로서, 이 가설은 이론이나 선행 연구를 기반으로 한다. CFA는 Jöreskog(1969)에 의해 처음 개발되었다.

탐색적 요인분석(EFA)과 확인적 요인분석(CFA)은 둘 다 잠재적 구성요인(또는 요인)에 기인하는 것으로 여겨지는 측정변수의 공유 분산(shared variance)을 이해하는 데 사용된다. 그러나 이러한 유사성에도 불구하고 EFA와 CFA는 개념적으로나 통계적으로 구별되는 분석이다. EFA의 목표는 데이터를 기반으로 요인을 식별하고 그것에 의해 설명되는 분산의 양을 최대화하는 것이다. 연구자는 얼마나 많은 요인이 나타날 것이며, 이러한 요인이 어떤 항목이나 변수를 구성할 것인지에 대한 특정 가설을 미리 갖고 있을 필요가 없다. 이에 반해, CFA는 선험적 가설을 평가하고, 주로 이론에 의해 주도된다. CFA 분석을 위해서는 연구자가 사전에 요인의 수, 이러한 요인의 상관관계 여부, 어떤 항목/측정값이 어떤 요인에 적재되고 반영되는지를 가정해야 한다. 따라서 모든 부하량이 자유롭게 결정되는 탐색적 요인분석과 달리 CFA는 특정 부하량을 0으로 명시적으로 제약하기도 한다. 

## 17.2 항공사 서비스 설문조사 요인분석


- 자료: [Factor Analysis Tutorial](https://towardsdatascience.com/factor-analysis-a-complete-tutorial-1b7621890e42)

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

### 데이터

여기에서 예시적으로 사용된 데이터는 어떤 **항공사 승객 만족도** 데이터 세트로, [Kaggle](https://www.kaggle.com/teejmahal20/airline-passenger-satisfaction)에서 다운로드 받을 수 있다. 게시돼 있는 [압축파일](https://www.kaggle.com/datasets/teejmahal20/airline-passenger-satisfaction/download?datasetVersionNumber=1)을 다운로드 받아 압축을 푼 다음, 2개의 파일 중 "train.csv" 파일을 사용하기로 한다.(파일명을 "airline.csv"으로 바꿈) 데이터 세트는 어떤 항공사의 승객 만족도 설문조사 결과이다. 103,904개의 관측값과 25개의 열이 있다. 

In [2]:
# 데이터 파일이 들어 있는 디렉토리를 적는 방법에 대해서는 
# 2.2.1절의 ISLR "College.csv"를 불러들이는 방법을 참조할 것
airline = pd.read_csv('../Data/airline.csv')
airline 

FileNotFoundError: [Errno 2] No such file or directory: '../Data/airline.csv'

In [None]:
airline = airline.iloc[:, 1:] # 불필요한 첫번째 열을 제거
pd.set_option('display.max_columns', None) # 모든 컬럼이 나오게 함
airline

In [None]:
airline.columns

### 데이터세트 변수


- `Gender`: 승객의 성별(Female, Male)

- `Customer Type`: 고객 유형(Loyal customer, disloyal customer)

- `Age`: 승객의 나이

- `Type of Travel`: 승객의 비행 목적(Personal Travel, Business Travel)

- `Class`: 승객의 비행기 여행 클래스(Business, Eco, Eco Plus)

- `Flight distance`: 해당 여행의 비행 거리

- `Inflight wifi service`: 기내 와이파이 서비스 만족도(0:해당 없음, 1-5)

- `Departure/Arrival time convenient`: 출발/도착 시간 만족도

- `Ease of Online booking`: 온라인 예약 만족도

- `Gate location`: 게이트 위치 만족도

- `Food and drink`: 식음료 만족도

- `Online boarding`: 온라인 탑승 만족도

- `Seat comfort`: 좌석 만족도

- `Inflight entertainment`: 기내 엔터테인먼트 만족도

- `On-board service`: 온보드 서비스 만족도

- `Leg room service`: 레그룸 서비스 만족도

- `Baggage handling`: 수하물 처리 만족도

- `Check-in service`: 체크인 서비스 만족도

- `Inflight service`: 기내 서비스 만족도

- `Cleanliness`: 청결도 만족도

- `Departure Delay in Minutes`: 출발 지연 시간(분)

- `Arrival Delay in Minutes`: 도착 지연 시간(분)

- `Satisfaction`: 항공사 만족도(만족, 중립, 불만족)

이 데이터 세트는 John D([US Airline passenger satisfaction survey](https://www.kaggle.com/johndddddd/customer-satisfaction))의 데이터 세트를 일부 수정한 것이다.

### 상관계수 행렬


요인분석의 첫 번째 단계는 모든 변수 간의 상관관계를 살펴보고, 어떤 변수가 다른 변수와 지나치게 높은 상관관계가 있는지 확인하는 것이다. 일부 변수, 특히 설문조사 답변과 관련된 변수는 매우 높은 상관관계가 있을 수 있다.

In [None]:
airline.corr()

#### 상관계수 행렬 히트맵

변수가 많기 때문에 히트맵을 통해 상관계수가 높은 변수를 시각적으로 파악한다. 

In [None]:
plt.figure(figsize=(20,10))
c= airline.corr()
sns.heatmap(c)

위 결과를 보면, `Departure Delay in Minutes`와 `Arrival Delay in Minutes` 사이의 매우 높은 상관성(0.98)이 발견된다. 왜 그런지 이해할 수 있을 것이다. 비행기가 일정보다 늦게 출발하면 도착 시간도 늦어질 것이기 때문이다.

### 요인분석 대상 14개 관측변수

총 24개 변수 중 14개는 비행편의 다양한 측면(기내 Wi-Fi 서비스, 음식 및 음료, 온라인 탑승, 좌석 편안함 등)에 대해 1점에서 5점까지의 리커트 척도로 고객의 응답을 기록한 것이다. 다음과 같은 14개 변수가 요인분석 대상이다. 

  - `Inflight wifi service`
  - `Departure/Arrival time convenient`
  - `Ease of Online booking`
  - `Gate location`
  - `Food and drink`
  - `Online boarding`
  - `Seat comfort`
  - `Inflight entertainment`
  - `On-board service`
  - `Leg room service`
  - `Baggage handling`
  - `Checkin service`
  - `Inflight service`
  - `Cleanliness`

### 요인분석 실행

어떻게 14개의 변수를 더 적은 수의 잠재변수(요인)로 만들 수 있을까? 먼저 필요한 패키지를 설치하고 가져와야 한다. 즉 요인분석에 필요한 [factor_analyzer package](https://factor-analyzer.readthedocs.io/en/latest/factor_analyzer.html)를 설치한다.(처음에 한 번 설치하면, 그 다음부터는 다시 설치할 필요 없다.)

In [None]:
# !pip install factor_analyzer  

In [None]:
from factor_analyzer import FactorAnalyzer

### Eigenvalue

우선 얼마나 많은 요인이 필요한지 알아내기 위해 고유값(eigenvalue)을 검토한다. 고유값은 어떤 요인이 관련 변수의 분산을 어느 정도 설명하는지를 측정한 것이다. 어떤 요인의 고유값이 1보다 크면 그 요인이 어떤 하나의 변수보다 더 많은 분산을 설명한다는 의미이다. 가령 어떤 요인의 고유값이 2.5이면, 해당 요인이 2.5개 변수의 분산을 설명할 수 있음을 의미한다.

`FactorAnalyzer` 함수에서 우리는 원하는 요인의 수와 회전(rotation) 유형을 지정한다. 여기에서 회전이란 더 간단하고 해석가능한 구조를 달성하기 위해 요인을 회전시키는 것을 의미한다. 많은 유형의 회전이 있는데, 아래에서는 `varimax` 회전을 사용한다. 이는 생성된 요인이 상관성이 없는지(orthogonality: 직교성) 확인하면서 부하량 제곱의 분산의 합을 최대화하는 방식이다. 

In [None]:
# 14개 관측변수에 대해 10개의 요인을 추출
x = airline[airline.columns[7:21]] 
fa = FactorAnalyzer(10, rotation='varimax')
fa.fit(x)

# 10개 요인의 고유값을 구해 그림으로 그림
ev, v = fa.get_eigenvalues()
print(ev)
plt.plot(range(1,x.shape[1]+1),ev)

### 요인의 개수 및 부하량

위 그림에서 보듯이 3번째 요인 이후부터 고유값이 크게 떨어지기 때문에 여기서는 3개의 요인만 사용하기로 한다. 이들 3개 요인의 고유값은 3.8, 2.3, 2.2로서 다 합치면 약 8.3으로서 8.3개 변수의 분산을 설명하는 것을 의미한다. 이렇게 했을 때, 어떤 요인이 만들어지는지 살펴보자.

In [None]:
fa = FactorAnalyzer(3, rotation='varimax')
fa.fit(x)
loads = fa.loadings_
loads = pd.DataFrame(loads)
loads.columns = ['Factor 1', 'Factor 2', 'Factor 3']
loads.index = [list(range(1,15)), x.columns]
loads

어떤 변수의 요인 부하량이 높을수록 해당 요인에서 해당 변수가 더 중요하다. 여기에서 보통 0.5의 부하량 컷오프가 사용된다. 이 컷오프는 어떤 변수가 어떤 요인에 속하는지 결정한다. 이 기준에 따르면, 위 표에서 첫 번째 요인에는 변수 5, 7, 8, 14(각각 0.75, 0.78, 0.74, 0.85의 부하량)가 포함된다.


다음은 생성된 세 가지 요인과 거기에 포함된 변수들이다. 세 가지 요인에 대한 가능한 해석(interpretability)으로서 "Comfort", "Service", "Convenience"로 명명했다.

  1. Comfort(편안함): Food and Drink, Seat comfort, Inflight entertainment, Cleanliness
  
  1. Service(서비스): Onboard service, Baggage Handling, Inflight Service
  
  1. Convenience(편의성): In flight Wifi, Departure/Arrival time convenience, Online Booking, Gate Location.

### Cronbach alpha

다음으로 크론바흐 알파는 요인의 변수들이 일관되고(coherent) 신뢰할 만한지를 측정하는 데 사용될 수 있다.(**부록** 참조) 우선 크론바흐 알파 계산에 필요한 [pingouin 패키지](https://pingouin-stats.org/)를 설치하고, 버전을 업데이트한다.

In [None]:
# !pip install pingouin
# !pip install --upgrade pingouin

In [None]:
import pingouin as pg

크론바흐 알파가 대략 0.6이나 0.7 이상이면 신뢰할만한 것으로 간주된다.(**부록** 주의점 참조) 다음은 `pingouin` 패키지의 `cronbach_alpha` 함수를 사용하여 크론바흐 알파를 계산하는 코드이다.

In [None]:
# 요인별 변수 지정
factor1 = airline[['Food and drink', 'Seat comfort', 'Inflight entertainment', 
                   'Cleanliness']]
factor2 = airline[['On-board service', 'Baggage handling', 'Inflight service']]
factor3 = airline[['Inflight wifi service', 'Departure/Arrival time convenient', 
                   'Ease of Online booking', 'Gate location']]

# 크론바흐 알파 계산
factor1_alpha = pg.cronbach_alpha(factor1)
factor2_alpha = pg.cronbach_alpha(factor2)
factor3_alpha = pg.cronbach_alpha(factor3)

factor1_alpha, factor2_alpha, factor3_alpha

3개 요인 각각에 대해 크론바흐 알파 값과 95% 신뢰구간이 나와 있다. 모두 0.7 이상으로서 각 요인들이 신뢰성 있는 변수에 의해 구성된 것을 알 수 있다. 

### 새로운 요인 변수 만들기

우리는 위에서 만든 3개의 새로운 요인을 다른 분석이나 예측을 위한 변수로 사용할 수 있다. 다음은 14개의 개별 변수에 의해 3개의 새로운 요인 변수를 만들어 그것을 데이터 프레임 형태로 만드는 코드이다.

In [None]:
new_variables = fa.fit_transform(x)
factors = pd.DataFrame(new_variables)
factors.columns = ['Comfort', 'Service', 'Convenience']
factors

`pd.concat()` 함수를 사용하여 원래의 데이터프레임(`airline`)에 새로 만든 3개의 요인들로 구성된 데이터프레임(`factors`)을 연결한다. 아래 결과를 보면 맨마지막 열에 3개의 요인들이 추가된 것을 알 수 있다.

In [None]:
airline1 = pd.concat([airline, factors], axis=1)
airline1

## 17.3 성격 측정 설문조사 요인분석

- 자료: [Introduction to Factor Analysis in Python](https://www.datacamp.com/community/tutorials/introduction-factor-analysis)

### 데이터 로딩

- 성격 평가 프로젝트 데이터 세트에 대한 요인분석을 수행해 보자. 다음 [링크](https://vincentarelbundock.github.io/Rdatasets/datasets.html)에서 해당 데이터 세트를 다운로드할 수 있다.

In [None]:
# Import required libraries
import pandas as pd
from sklearn.datasets import load_iris
from factor_analyzer import FactorAnalyzer
import matplotlib.pyplot as plt

In [None]:
psych = pd.read_csv('https://vincentarelbundock.github.io/Rdatasets/csv/psych/bfi.csv') 
psych

### 데이터 변수

- International Personality Item Pool(국제 성격평가 항목 풀)에서 가져온 25개의 자기 보고식 성격평가 항목에다 추가적으로 3개의 인구통계학적 변수(성별, 교육, 연령)가 포함되어 있다. 이에 따라 총 28개 변수에 대한 2,800개의 관측치가 있다.


- 처음 25개 성격평가 항목은 친화성(Agreeableness), 성실성(Conscientiousness), 외향성(Extraversion), 신경증(Neuroticism), 개방성(Opennness)의 5가지 요인으로 나누어 볼 수 있다.


- 항목 데이터는 6점 응답 척도를 사용하여 수집되었다. 1 매우 아니다, 2 보통 아니다, 3 약간 아니다, 4 약간 그렇다, 5 보통 그렇다, 6 매우 그렇다.

#### 변수
- A1: 다른 사람의 감정에 무관심하다.
- A2: 다른 사람의 안부를 물어본다.
- A3: 다른 사람을 위로하는 방법을 알고 있다.
- A4: 아이들을 사랑한다.
- A5: 사람들이 편안함을 느끼도록 한다.
- C1: 일을 엄격하게 한다. 
- C2: 모든 것이 완벽해질 때까지 한다. 
- C3: 계획에 따라 일을 한다. 
- C4: 중간 정도로 일을 한다. 
- C5: 시간을 낭비한다. 
- E1: 말을 많이 하지 않는다.
- E2: 다른 사람에게 다가가기가 어렵다. 
- E3: 사람들을 사로잡는 방법을 알고 있다. 
- E4: 쉽게 친구를 사귈 수 있다. 
- E5: 책임을 진다. 
- N1: 쉽게 화를 낸다.
- N2: 쉽게 짜증을 낸다.
- N3: 기분 변화가 자주 있다. 
- N4: 종종 우울함을 느낀다. 
- N5: 쉽게 당황한다. 
- O1: 아이디어가 넘친다. 
- O2: 읽기 어려운 내용은 피한다.
- O3: 대화를 더 높은 수준으로 이끈다. 
- O4: 일들에 대해 반성하는 시간을 가진다. 
- O5: 어떤 주제에 대해 깊이 탐구하지 않는다.
- gender: 남성 = 1, 여성 = 2
- education: 1 = 고등학교, 2 = 고등학교 졸업, 3 = 대학, 4 = 대학 졸업 5 = 대학원 학위
- age: 나이

#### 25개 성격 문항만 추출

In [None]:
# Dropping unnecessary columns
psych.drop(['gender', 'education', 'age'], axis=1, inplace=True)

In [None]:
# Dropping missing values rows
psych.dropna(inplace=True)

In [None]:
psych.info()

In [None]:
psych = psych.iloc[:,1:]
psych

### 요인 가능성 테스트

- 요인분석을 수행하기 전에 데이터 세트의 "요인 가능성(factorability)"을 평가한다. 요인 가능성은 "데이터 세트에서 요인을 찾을 수 있는지"를 점검하는 것이다. 요인 가능성을 확인하는 두 가지 방법이 있다.

  - 바틀렛 검정(Bartlett’s Test)
  - 카이저-마이어-올킨 검정(Kaiser-Meyer-Olkin Test)


- Bartlett의 구형도(sphericity) 검정은 단위행렬(identity matrix)에 대해 관측된 상관행렬(correlation matrix)을 사용하여 관측된 변수가 상호 상관되는지(intercorrelate) 여부를 확인하는 것이다. 검정이 통계적으로 유의하지 않으면 요인분석을 사용해서는 안 된다.

In [None]:
from factor_analyzer.factor_analyzer import calculate_bartlett_sphericity
chi_square_value, p_value = calculate_bartlett_sphericity(psych)
chi_square_value, p_value

- 이 Bartlett 검정에서 $p$값은 0.0이다. 따라서 검정은 통계적으로 유의하여 관측된 상관행렬이 단위행렬이 아님을 나타낸다.

- 다음으로 Kaiser-Meyer-Olkin(KMO) 검정은 관측된 모든 변수 간의 분산 비율을 추정하며, 이 비율이 낮을수록 요인분석에 더 적합하다. KMO 값의 범위는 0에서 1 사이로서, KMO 값이 0.6 미만이면 부적절한 것으로 간주된다.

In [None]:
from factor_analyzer.factor_analyzer import calculate_kmo
kmo_all, kmo_model = calculate_kmo(psych)
kmo_model

- 데이터의 전체 KMO는 0.84로서 우수한 편이다. 따라서 요인분석을 진행할 수 있다.

### 요인 개수 선택

- 요인 개수를 선택하기 위해 카이저 기준(Kaiser criterion)과 스크리 플롯(scree plot)을 사용할 수 있다. 둘 다 고유값을 기반으로 한다.


- Kaiser 기준은 요인에 의해 설명되는 분산이 얼마나 크게 늘어나는지를 기반으로 하는 분석적 접근 방식이다. 고유값은 요인의 수를 결정하는 좋은 기준이다. 일반적으로 1보다 큰 고유값은 변수에 대한 선택 기준으로 간주된다.


- 그래픽 접근 방식은 요인 고유값의 시각적 표현인 스크리 플롯을 기반으로 한다. 이 스크리 플롯은 곡선이 엘보우 형태가 되는 부근의 요인 개수를 선택한다. 

In [None]:
# Create factor analysis object and perform factor analysis
fa = FactorAnalyzer()
fa.fit(psych)
# Check Eigenvalues
ev, v = fa.get_eigenvalues()
ev

In [None]:
# Create scree plot using matplotlib
plt.scatter(range(1,psych.shape[1]+1),ev)
plt.plot(range(1,psych.shape[1]+1),ev)
plt.title('Scree Plot')
plt.xlabel('Factors')
plt.ylabel('Eigenvalue')
plt.grid()
plt.show()

- 여기에서 6개 요인에 대해서만 고유값이 1보다 큰 것을 볼 수 있다. 따라서 일단 6개 요인을 선택하기로 한다.

### 요인분석 수행

In [None]:
# Create factor analysis object and perform factor analysis
fa = FactorAnalyzer(6, rotation='varimax')
fa.fit(psych)
loads = pd.DataFrame(fa.loadings_)
loads.index = psych.columns
loads.columns = ["Factor 1", "Factor 2", "Factor 3", "Factor 4", "Factor 5", "Factor 6"]
loads

- 요인 1는 N1, N2, N3, N4, N5(신경증)에 대해 높은 요인 부하량을 갖는다.


- 요인 2는 E1, E2, E3, E4, E5(외향성)에 대해 높은 요인 부하량을 갖는다.


- 요인 3은 C1, C2, C3, C4, C5(성실성)에 대해 높은 요인 부하량을 갖는다.


- 요인 4는 A1, A2, A3, A4, A5(친화성)에 대해 높은 요인 부하량을 갖는다.


- 요인 5는 O1, O2, O3, O4, O5(개방성)에 대해 높은 요인 부하량을 갖는다.


- 요인 6은 모든 변수에 대해 높은 부하량이 없으며 쉽게 해석할 수 없다. 


- 따라서 5개 요인만 취하기로 하고, 다시 한 번 요인분석을 해보자.

In [None]:
# Create factor analysis object and perform factor analysis
fa = FactorAnalyzer(5, rotation='varimax')
fa.fit(psych)
loads = pd.DataFrame(fa.loadings_)
loads.index = psych.columns
loads.columns = ["Factor 1", "Factor 2", "Factor 3", "Factor 4", "Factor 5"]
loads

In [None]:
# Get variance of each factors
fa.get_factor_variance()

- `get_factor_variance()`는 각 요인에 대한 분산, 분산 비율(proportional variance), 누적 분산 비율을 제공한다.


- 세번째 행의 누적 분산 비율을 보면, 총 42%의 분산이 5개 요인으로 설명되는 것을 알 수 있다.

### 요인분석의 장단점

- 요인분석은 대규모 데이터 세트를 탐색하고 상호 연결된 연관성을 찾는 데 도움을 준다. 관측된 변수를 몇 개의 관측되지 않은 변수로 축소하거나 상호 관련된 변수 그룹을 식별하여, 가령 시장을 연구하는 경우 시장 상황을 압축하고 소비자 취향, 선호도, 문화적 영향 간의 숨겨진 관계를 찾는 데 도움이 된다. 또한 설문조사에서 설문지를 개선하는 데 도움이 되기도 한다.


- 그러나 요인분석의 결과는 논란의 여지가 있다. 동일한 데이터 요소에 대해 둘 이상의 해석이 이루어질 수 있기 때문에 그 해석은 논쟁의 여지가 있을 수 있다. 

### 참고: 요인분석 대 주성분 분석

- 주성분 분석(principal component analysis, PCA)은 변수 간의 상관관계가 있는 다차원의 데이터를 효율적으로 저차원의 데이터로 요약하는 방법 중 하나이다. 


- PCA 성분은 분산(variance)의 최대량을 설명하는 반면, FA는 데이터의 공분산(covariance)을 설명한다.


- PCA 성분은 서로 완전히 직교(orthogonal)하지만, FA에서는 요인이 직교할 필요가 없다.


- PCA 성분은 관측된 변수의 선형 조합(linear combination)이고, FA에서 관측된 변수는 관측되지 않은 변수 또는 요인의 선형 조합이다.


- PCA 성분은 해석할 수 없다. FA에서는 기본 요인에 레이블을 지정하고 해석할 수 있다.


- PCA는 일종의 차원 축소 방법인 반면, 요인분석은 잠재변수 방법이다.


- PCA는 요인분석의 한 유형이다. PCA는 관측적인 반면, FA는 모델링 기법이다.

## 부록: 크론바흐 알파

### 직관적 이해

In [None]:
# 신뢰도가 높은 응답 
data = [{'Q1': 3, 'Q2': 3},
        {'Q1': 3, 'Q2': 2},
        {'Q1': 2, 'Q2': 1},
        {'Q1': 4, 'Q2': 4}]
df = pd.DataFrame(data)
print(df)
print("\nCronbach's alpha =", round(pg.cronbach_alpha(df)[0],4))
print("\nCorrelation coefficient =", round(df['Q1'].corr(df['Q2']),4))

In [None]:
# 신뢰도가 낮은 응답 
data = [{'Q1': 3, 'Q2': 3},
        {'Q1': 5, 'Q2': 1},
        {'Q1': 4, 'Q2': 1},
        {'Q1': 4, 'Q2': 4}]
df = pd.DataFrame(data)
print(df)
print("\nCronbach's alpha =", round(pg.cronbach_alpha(df)[0],4))
print("\nCorrelation coefficient =", round(df['Q1'].corr(df['Q2']),4))

In [None]:
# 신뢰도가 최고인 응답???
data = [{'Q1': 1, 'Q2': 4},
        {'Q1': 2, 'Q2': 5},
        {'Q1': 1, 'Q2': 4},
        {'Q1': 2, 'Q2': 5}]
df = pd.DataFrame(data)
print(df)
print("\nCronbach's alpha =", round(pg.cronbach_alpha(df)[0],4))
print("\nCorrelation coefficient =", round(df['Q1'].corr(df['Q2']),4))

In [None]:
# 신뢰도가 낮은 응답??? 
data = [{'Q1': 1, 'Q2': 5},
        {'Q1': 2, 'Q2': 4},
        {'Q1': 1, 'Q2': 5},
        {'Q1': 1, 'Q2': 4}]
df = pd.DataFrame(data)
print("Cronbach's alpha =", round(pg.cronbach_alpha(df)[0],4))
print("Correlation coefficient =", round(df['Q1'].corr(df['Q2']),4))
df

### 부록 2. Cronbach alpha 주의점
출처: Wikipedia

- 크론바흐(1951)의 알파(Cronbach's alpha)는 단일 실행에서의 신뢰도(즉, 고정된 시간에서 여러 항목에 대한 응답자의 신뢰도) 계수이다. 단일 실행 신뢰도 계수들 중에서 가장 유명하고 흔히 사용되지만, 최근 연구들은 이 계수가 부주의하게 사용됨으로써 쉽게 오류를 범하는 사례를 들어 이 계수를 주의해서 조건에 맞도록 사용할것을 권고한다. 이것의 대안으로 흔히 언급되는 것은 구조방정식 기반 신뢰도 계수(예: 동류신뢰도)이다.

  - 통계학 및 심리측정에서 신뢰도(reliability)는 측정의 전반적인 일관성(consistency)이다. 측정값이 일관된 조건에서 유사한 결과를 생성하면 신뢰도가 높다고 한다.
  
  
- 크론바흐 알파에 대한 흔한 오해 중의 하나는 0과 1 사이의 값을 갖는다는 오해이다. 정의에 의해, 신뢰도는 0보다 작을 수 없고, 1보다 클 수 없다. 많은 교과서들은 크론바흐 알파를 신뢰도와 동일시하며, 그 범위에 대해 부정확한 설명을 한다. 


- 음의 크론바흐 알파는 음의 변별력, 혹은 역항목 처리 실수 등의 이유로 발생할 수 있다. 크론바흐 알파와 달리, 구조방정식 기반 신뢰도 계수들은 항상 0보다 같거나 크다.


- 높은 크론바흐 알파 값은 자료의 내적 일관성(internal consistency)을 보여준다는 오해이다. 내적 일관성이라는 용어는 신뢰도 문헌에서 흔히 사용되지만, 그 의미는 명확하게 정의되어 있지 않다. 이 용어는 때로는 특정한 종류의 신뢰도를 지칭하기 위해 사용되기도 하지만(예: 내적 일관성 신뢰도), 크론바흐 알파 외에 정확히 어떤 신뢰도 계수가 여기에 포함되는지는 불명확하다. 크론바흐(1951)는 내적 일관성이라는 용어를 명시적 정의를 내리지 않고 여러 맥락에서 사용하였다.


- 신뢰도 계수가 얼마 이상이어야 하는지에 대해 가장 자주 인용되는 원천은 너낼리(Nunnally, 1967 등)의 책이다. 그러나 그의 권고 수준은 그의 의도와는 다르게 사용되고 있다. 그의 의도는 연구의 목적이나 단계에 따라 다른 신뢰도 기준을 적용하자는 것이었다. 그러나 초기 연구, 기초 연구, 응용 연구, 척도개발 연구 등 연구의 성격에 관계없이 0.7의 신뢰도 기준이 사용되고 있다. 0.7이라는 수치는 너낼리가 연구의 초기 단계에 대해서 언급한 수치로서, 학술지에 게재된 대부분의 연구는 여기에 해당하지 않는다. 0.7보다는 너낼리가 응용연구에 대해 언급한 0.8이라는 기준이 대부분의 실증연구에 더 적합하다.


- 높은 신뢰도의 비용: 많은 교과서들은 신뢰도 값이 클수록 바람직하다고 설명한다. 높은 신뢰도의 잠재적 부작용에 대해서는 거의 논의하지 않는다. 그러나 하나를 얻기 위해서는 다른 무언가를 희생해야 한다는 원칙은 신뢰도에도 적용된다.