# 7장 구조방정식모형(by Python)

* 자료 출처: [Structural Equation Modeling](https://towardsdatascience.com/structural-equation-modeling-dca298798f4d)

- [1 구조방정식 모델](#1-구조방정식-모델)

- [2 구조방정식 모델링 사례](#2-구조방정식-모델링-사례)

- [3 데이터 피팅](#3-데이터-피팅)

## 1 구조방정식 모델

구조방정식 모델(SEM: Structural Equation Models)은 **측정변수(measured variable)와 잠재변수(latent variable)의 관계**, 그리고 **잠재변수 간의 관계**를 설명하는 모델이다. 잠재 변수는, 인간이 어떤 개념으로 이해하는, 직접 측정할 수는 없는 변수이다.


직접 측정할 수 없는 잠재변수의 좋은 예는 "지능(Intelligence)"이다. 우리는 지능과 같은 개념을 측정하기 위해 학교 시험, IQ 테스트, 심리 테스트를 많이 가지고 있는데, 항상 다음과 같은 방식을 거친다.

- 여러 영역에 대해 테스트를 한 다음 점수 측정
- 그 점수를 지능 추정치로 변환


이때 측정된 변수(테스트 점수)를 잠재변수인 지능으로 변환하는 모델이 필요하다. 구조방정식 모델링은 이러한 관계를 가장 잘 추정할 수 있는 훌륭한 도구이다.

### 구조방정식 모델링 내용

첫째, 구조방정식 모델링을 사용하려면 주어진 사례에 측정변수와 잠재변수의 개념이 있어야 한다. 구조방정식 모델링의 목표는 측정변수와 잠재변수 간의 관계 또는 여러 잠재변수 간의 관계를 모델링하는 것이다. 


둘째, 구조방정식 모델링은 주로 확인 및 테스트 방법으로 사용된다. 이 분석의 뒷부분에서 볼 수 있듯이 어떤 염두에 두고 있는 관계에 대해 가설을 설정하는 것부터 시작하게 된다. 예를 들어, 지능에 대한 모델을 만드는 경우 지능에 영향을 미칠 수 있다고 생각되는 다양한 측정변수 및 잠재변수를 식별하는 것부터 시작한다.


셋째, 따라서 구조방정식 모델링은 순수한 탐색적 도구로는 적합하지 않다. 사례 주변의 관계가 어떻게 연결될 수 있는지 아직 모른다면 다른 기법을 사용하는 것이 좋다. 탐색적 요인분석(Exploratory Factor Analysis)은 그런 경우에 훌륭한 대안이다.


넷째, 구조방정식 모델은 예측보다는 분석에 적합하다. 잠재적 현상에 영향을 미치는 다양한 개념에 대해 많은 것을 배울 수 있도록 도와준다. 그러나 구조방정식 모델은 예측 면에서는 항상 성능이 좋은 것은 아니다. 이해와 해석이 아닌 예측 성능만을 찾고 있다면 구조방정식 모델링이 잘못된 선택일 수 있다.


다섯째, 구조방정식 모델은 가정된 변수 간의 관계를 기반으로 계수 추정치를 제공하며, 지정한 관계 이외의 다른 관계는 찾을 수 없다. 구조방정식 모델을 사용하는 가장 좋은 방법은 여러 개의 가설적 모델을 설정하고, 각각을 추정한 다음, 더 나은 모델을 만들기 위해 둘 사이의 차이점을 분석하는 것이다.

### 구조방정식 모델링의 유형

구조방정식 모델링에는 아주 다양한 유형이 있다. 대표적인 모델은 다음과 같다.

- 확인적 요인분석(Confirmatory Factor Analysis)
- 확인적 복합 분석(Confirmatory Composite Analysis)
- 경로분석(Path Analysis)
- 부분최소제곱 경로 모델(Partial Least Squares Path Modeling)
- 잠재성장 모델(Latent Growth modeling)

## 2 구조방정식 모델링 사례

직장에서의 성과에 대한 구조방정식 모델링의 예이다. 이 프로젝트의 가장 중요한 변수는 Job Performance(직무성과)이다. 직무성과는 직접 측정하는 것이 불가능한 잠재변수이다. 단, 일부 기업은 매우 명확한 KPI(Key Performance Indicator, 핵심성과지표)를 사용하여 직무성과를 정의하는 경우도 있기 때문에 잠재적인 변수가 아닐 수도 있다. 하지만 이 예에서는 이를 잠재변수로 간주한다.

다음 세 가지 측정변수에 의해 Job Performance가 추정되는 사무직을 생각해 보자.

- `ClientSat` : 주 고객의 만족도 1~100점
- `SuperSat` : 상사가 1에서 100 사이로 작업성과 평가
- `ProjCompl` : 프로젝트 성공적 수행 비율


Job Performance가 직원의 Social Skills(사회적 기술), Intellectual Skills(지적 기술), Motivation(동기부여)라는 세 가지 다른 잠재변수에 의해 크게 영향을 받는다는 가정에서 시작하자. 우리는 이러한 잠재변수 각각을 직접 측정할 수 없다. 따라서 각 잠재변수에 대한 측정변수를 다음과 같이 정의해 보자.

잠재변수 Social Skills는 다음 두 가지 측정변수를 기반으로 한다.

- `PsychTest1` : 심리검사1(1–100 사이의 점수)
- `PsychTest2` : 심리검사2(1–100 사이의 점수)

잠재변수 Intellectual Skills는 다음 두 가지 측정변수를 기반으로 한다.

- `YrsEdu` : 고등교육을 받은 연수(number of years)
- `IQ` : IQ 테스트 점수

잠재변수 Motivation는 다음 두 가지 측정변수를 기반으로 한다.

- `HrsTrain` : 트레이닝 시간
- `HrsWrk` : 주당 평균 근무 시간

### 구조방정식 모델 다이어그램

구조방정식 모델은 다이어그램을 통해 복잡한 상황을 정리한다. 구조방정식 모델은 여러 방향으로 많은 계수가 개입되므로 매우 복잡하며, 따라서 다이어그램은 구조방정식 모델이 수행하는 작업을 이해하는 좋은 방법이다.


구조방정식 모델은 다음의 일반적인 관행을 따른다.

- **잠재변수**는 **원**으로 표시
- **측정변수**는 **사각형**으로 표시
- **관계**(Relationship)는 **화살표**로 표시
- **분산**(Variance) 및 **잔차**(residual)는 변수 내 자체에서 화살표로 표시

다음은 Job Performance 모델에 대한 다이어그램이다.

<img src=" https://miro.medium.com/max/1050/1*5sCoEAYxrI-jjuSUcFFORg.png " width="600" />

- 변수 및 관계가 많기 때문에 색상을 추가해보자. 일반적으로 구조방정식 모델링 다이어그램에는 색상이 없지만, 이해를 돕기 위한 것이다.
<img src=" https://miro.medium.com/max/1050/1*igAj-hVOC7fjUf8ez65n7g.png " width="600" />

이 다이어그램의 의미를 설명하면 다음과 같다.

- 종속적인 잠재변수로서 Job Performance, 그리고 그것의 영향을 받는 3가지 측정변수가 오른쪽에 있음.
- `JobPerf` 왼쪽에 3가지 독립적인 잠재변수 Social Skills, Intellectual Skills, Motivation이 있음.
- 3가지 독립적인 잠재변수에서 Job Performance로 가는 화살표는 이 세 가지 잠재변수가 Job Performance에 영향을 미칠 것으로 예상된다는 것을 나타냄.
- 왼쪽에 있는 6개의 측정변수는 각각 잠재 독립변수 중 하나에 영향을 미친다는 것을 의미하며, 화살표들은 잠재변수 중 어떤 것이 각 측정변수에 의해 영향을 받는지 보여줌.
 

이제 구조방정식 모델링 기법의 목표는 다이어그램의 각 화살표에 대한 계수를 추정하는 것이다. 이때 표준오차도 추정된다. 이러한 추정을 통해 측정변수와 잠재변수 간의 복잡한 관계를 수량화할 수 있다.

### 구조방정식 모델 추정 소프트웨어

구조방정식 모형을 피팅하려면 상당히 많은 수의 계수(다이어그램의 각 화살표에 대해 하나씩)를 추정해야 한다. 구조방정식 모델을 추정하기 위한 다양한 소프트웨어 제품 및 기법이 있다.

- LISREL
- Amos
- MPlus
- Stata 또는 SPSS의 구조방정식 모형 구현
- R 패키지: `sem`, `lavaan`, `OpenMx`, `LISREL`, `EQS`, `Mplus`
- 파이썬 패키지: `semopy`

구조방정식 모델링은 어떤 알고리즘을 사용해야 하는지에 대한 절대적인 정의가 없고, 소프트웨어 패키지에 따라 다른 결과가 나올 수 있기 때문에 까다롭다. 구조방정식 모델을 보고할 때는 항상 사용한 소프트웨어를 보고하는 것이 좋다.

아래에서는 Python을 사용하여 Job Performance 모델의 계수를 추정해 보자.

## 3 데이터 피팅

### 데이터 로딩

In [1]:
import pandas as pd

data = pd.read_csv('https://articledatas3.s3.eu-central-1.amazonaws.com/StructuralEquationModelingData.csv')
data

Unnamed: 0,PsychTest1,PsychTest2,YrsEdu,IQ,HrsTrn,HrsWrk,ClientSat,SuperSat,ProjCompl
0,62,78,5,97,6,33,84,59,34
1,46,27,2,93,7,54,55,38,56
2,68,75,2,96,5,47,70,68,38
3,55,56,4,103,7,80,63,81,78
4,51,32,4,98,5,53,55,39,56
...,...,...,...,...,...,...,...,...,...
995,55,38,5,103,9,56,70,56,60
996,53,43,5,99,7,44,68,47,49
997,41,49,3,94,3,36,39,41,38
998,52,54,2,102,8,70,58,69,64


데이터를 로딩한 다음 다음과 같이 `semopy` 패키지를 설치하고 가져온다.

In [2]:
# !pip install semopy

In [3]:
import semopy

다음 단계는 우리가 피팅하려는 모델을 규정(specification)하는 것이다. 앞의 다이어그램 정보를 입력하는 것이다. 지정할 수 있는 관계에는 세 가지 유형이 있다.


잠재변수를 정의할 때는 다음과 같이 `=~` 기호를 사용한다.

- `a_latent_variable =~ measured_var_1 + measured_var_2`


어떤 잠재변수를 하나 또는 여러 개의 다른 잠재변수에 대해 회귀시킬 때에는 다음과 같이 `~` 기호를 사용한다.

- `latent_variable_1 ~ latent_variable_2 + latent_variable_3`


측정변수 중 일부에 상관관계가 있고 그것이 잠재변수와 관련이 없는 경우, 다음과 같이 `~~` 기호를 사용한다.

- `measured_var_1 ~~ measured_var_2`

위와 같이 모델 규정이 끝나면, 모델을 인스턴스화하고, 피팅하고, `inspect` 메서드를 사용하여 결과를 제시하게 한다.

In [4]:
# Specify the model relations using the same syntax given before
model_spec = """
  # measurement model
    JobPerf =~ ClientSat + SuperSat + ProjCompl
    Social =~ PsychTest1 + PsychTest2
    Intellect =~ YrsEdu + IQ
    Motivation =~ HrsTrn + HrsWrk
  # regressions
    JobPerf ~ Social + Intellect + Motivation
"""

# Instantiate the model
model = semopy.Model(model_spec)

# Fit the model using the data
model.fit(data)

# Show the results using the inspect method
pd.options.display.float_format = '{:,.3f}'.format
model.inspect()

Unnamed: 0,lval,op,rval,Estimate,Std. Err,z-value,p-value
0,JobPerf,~,Social,0.52,0.048,10.870,0.000
1,JobPerf,~,Intellect,1.03,0.116,8.898,0.000
2,JobPerf,~,Motivation,2.959,0.255,11.606,0.000
3,ClientSat,~,JobPerf,1.0,-,-,-
4,SuperSat,~,JobPerf,2.514,0.210,11.996,0.000
5,ProjCompl,~,JobPerf,2.578,0.220,11.701,0.000
6,PsychTest1,~,Social,1.0,-,-,-
7,PsychTest2,~,Social,2.34,0.095,24.719,0.000
8,YrsEdu,~,Intellect,1.0,-,-,-
9,IQ,~,Intellect,4.673,0.497,9.406,0.000


### 구조방정식 모델의 회귀 계수 해석

세 가지 잠재 변수인 `Social`, `Intellect`, `Motivation`이 Job Performance(직무성과)에 미치는 영향을 알아보자. 결과가 0-2행에 나와 있다.


가장 먼저 살펴볼 것은 독립 잠재변수의 $p$-값이다. 독립 잠재변수의 $p$-값이 0.05보다 낮으면, 이 잠재변수가 종속 잠재변수(Job Performance)에 영향을 미친다고 할 수 있다. 즉 5% 수준에서 통계적으로 유의하다. 

여기서 3개의 독립 잠재변수 모두 0.05 미만의 $p$-값을 가지며, 이는 각각의 독립 잠재변수가 Job Performance에 영향을 미치는 것으로 나타났음을 의미한다. 


이제 각각의 독립 잠재변수가 Job Performance에 얼마나 영향을 미치는지 계수 추정치를 살펴보자. `Estimate` 열에 계수 추정치가 나와 있다.

  - `Motivation`의 계수가 가장 높으며(2.964), 이는 Motivation의 변화가 Job Performance에 가장 큰 영향을 미친다는 것을 의미한다.

  - `Intellect`는 두 번째로 높은 계수(1.031)를 가지며 이는 Intellectual Skills가 Job Performance에 두 번째로 높은 영향을 미친다는 것을 의미한다. 

  - `Social`은 0.521의 계수로 마지막이다. Social Skills는 여전히 Job Performance에 영향을 미치지만, 그 크기가 Motivation 및 Intellectual Skills보다 작다. 


R을 이용한 추정 결과와 비교하면, 추정치는 약간 다르지만 R 및 Python의 구현은 동일한 결론을 제공한다. 추정치가 약간 다는 것은 문제가 아니며, 많은 고급 모델링 기법에서 발생하는 일이다. 사용한 소프트웨어를 제대로 보고하기만 하면 된다.

### 실증분석 사례 요약

- 9개의 측정변수를 기반으로 직무성과가 잠재변수인 사회적 기술, 지적 기술,  동기부여로 설명될 수 있다는 가설을 세웠다. 


- 데이터 분석 결과, 가설로 설정된 모델이 적합하며 동기부여가 직무성과에 가장 중요하고, 지적 기술 및 사회적 기술이 그 뒤를 잇는 것으로 나타났다.