### **코드 설명**

- **문항 매개변수 저장**
  - `item_parameters` 데이터프레임을 생성하여 문항 번호, 변별도(α), 난이도(β)를 저장합니다.
  - `to_csv` 함수를 사용하여 `문항_매개변수.csv` 파일로 저장합니다.
  - `encoding='utf-8-sig'` 옵션을 사용하여 한글이 깨지지 않도록 합니다.

- **수험생 능력 추정치 저장**
  - 개인정보 보호를 위해 필요한 정보만 포함합니다. 여기서는 `이름`과 `능력 추정치`만 저장합니다.
  - 만약 수험생을 식별할 수 있는 민감한 정보(예: 주민등록번호 등)가 있다면 제외하거나 익명화해야 합니다.
  - `examinee_parameters` 데이터프레임을 생성하여 저장합니다.
  - `to_csv` 함수를 사용하여 `수험생_능력_추정치.csv` 파일로 저장합니다.

### **추가 사항**

- **개인정보 보호**
  - 데이터를 저장하거나 공유할 때는 개인정보 보호법 및 관련 규정을 준수해야 합니다.
  - 민감한 개인 식별 정보를 저장하거나 공유할 때는 반드시 적절한 동의를 받아야 하며, 필요에 따라 익명화 또는 비식별화 처리를 해야 합니다.

- **저장된 결과 활용**
  - 저장된 CSV 파일을 불러와서 분석하거나 보고서를 작성할 때 활용할 수 있습니다.
  - 예를 들어, Excel에서 파일을 열어 결과를 확인하거나, 다른 분석 프로그램에서 데이터를 불러올 수 있습니다.

### **CSV 파일 예시**

**문항_매개변수.csv**

| 문항 번호 | 변별도 (alpha) | 난이도 (beta) |
|-----------|----------------|---------------|
| 1         | 1.2345         | -0.5678       |
| 2         | 0.9876         | 0.1234        |
| ...       | ...            | ...           |

**수험생_능력_추정치.csv**

| 이름     | 능력 추정치 (theta) |
|----------|---------------------|
| 홍길동   | 0.4567              |
| 이영희   | -0.1234             |
| ...      | ...                 |

### **참고사항**

- **파일 경로 설정**
  - `to_csv` 함수에서 파일 경로를 지정하지 않으면 현재 작업 디렉토리에 파일이 저장됩니다.
  - 특정 폴더에 저장하고 싶다면 경로를 지정해 주세요. 예: `to_csv('results/문항_매개변수.csv', ...)`

- **다른 형식으로 저장**
  - 필요에 따라 Excel 파일(`.xlsx`)로 저장하거나, 데이터베이스에 저장할 수도 있습니다.
  - Excel로 저장하려면 `pandas`의 `to_excel` 함수를 사용할 수 있습니다.

    ```python
    item_parameters.to_excel('문항_매개변수.xlsx', index=False)
    examinee_parameters.to_excel('수험생_능력_추정치.xlsx', index=False)
    ```

- **추가 분석**
  - 저장된 결과를 활용하여 문항 분석, 수험생 능력 분포 분석 등 추가적인 분석을 수행할 수 있습니다.

### **요약**

- 추정된 문항 매개변수와 수험생의 능력 추정치를 CSV 파일로 저장하였습니다.
- 개인정보 보호를 위해 민감한 정보는 제외하고, 필요한 정보만 포함하였습니다.
- 저장된 결과는 추후 분석이나 보고서 작성 등에 활용할 수 있습니다.

---

In [6]:
import pandas as pd
import numpy as np
import pymc as pm

# Read the CSV file with the correct encoding
# df = pd.read_csv('응답_데이터.csv', encoding='utf-8')
df = pd.read_csv('응답_데이터_구술.csv', encoding='utf-8')

# Function to convert OX strings to binary responses
def ox_to_binary(ox_string):
    return [1 if char == 'O' else 0 for char in ox_string]

# Apply the function to the 'OX리스트' column
df['responses'] = df['OX리스트'].apply(ox_to_binary)

# Create a DataFrame of responses
response_data = pd.DataFrame(df['responses'].tolist())

# Convert response_data to a NumPy array
data = response_data.values

# Number of examinees and items
n_examinees, n_items = data.shape

# Build the IRT model using PyMC 4
with pm.Model() as irt_model:
    # Ability parameters for each examinee
    theta = pm.Normal('theta', mu=0, sigma=1, shape=n_examinees)
    
    # Difficulty parameters for each item
    beta = pm.Normal('beta', mu=0, sigma=1, shape=n_items)
    
    # Discrimination parameters for each item (2PL model)
    alpha = pm.HalfNormal('alpha', sigma=1, shape=n_items)
    
    # Expected probability of correct response
    p = pm.math.sigmoid(alpha * (theta[:, None] - beta))
    
    # Likelihood (observed data)
    observed = pm.Bernoulli('observed', p=p, observed=data)
    
    # Sample from the posterior distribution
    trace = pm.sample(1000, tune=1000, cores=2, random_seed=42, return_inferencedata=True)
    
# Extract estimated item parameters
alpha_est = trace.posterior['alpha'].mean(dim=['chain', 'draw']).values
beta_est = trace.posterior['beta'].mean(dim=['chain', 'draw']).values

# Extract estimated person abilities
theta_est = trace.posterior['theta'].mean(dim=['chain', 'draw']).values

# Output the results
print('Estimated Item Discrimination Parameters (alpha):')
print(alpha_est)

print('\nEstimated Item Difficulty Parameters (beta):')
print(beta_est)

print('\nEstimated Person Ability Parameters (theta):')
print(theta_est)

# IRT 분석 결과 저장

# 1. 문항 매개변수(alpha_est, beta_est)를 데이터프레임으로 저장
item_parameters = pd.DataFrame({
    '문항 번호': np.arange(1, n_items+1),
    '변별도 (alpha)': alpha_est,
    '난이도 (beta)': beta_est
})

# CSV 파일로 저장
# item_parameters.to_csv('문항_매개변수.csv', index=False, encoding='utf-8-sig')
item_parameters.to_csv('문항_매개변수_구술.csv', index=False, encoding='utf-8-sig')

# 2. 수험생 능력 추정치(theta_est)를 데이터프레임으로 저장
# 개인정보 보호를 위해 필요한 정보만 포함하도록 합니다.
examinee_parameters = df[['이름','외국인 등록번호']].copy()
examinee_parameters['능력 추정치 (theta)'] = theta_est

# CSV 파일로 저장
# examinee_parameters.to_csv('수험생_능력_추정치.csv', index=False, encoding='utf-8-sig')
examinee_parameters.to_csv('수험생_능력_추정치_구술.csv', index=False, encoding='utf-8-sig')


# trace를 NetCDF 파일로 저장
# trace.to_netcdf('irt_trace.nc')
trace.to_netcdf('irt_trace_구술.nc')


Auto-assigning NUTS sampler...
Initializing NUTS using jitter+adapt_diag...
Multiprocess sampling (2 chains in 2 jobs)
NUTS: [theta, beta, alpha]


Sampling 2 chains for 1_000 tune and 1_000 draw iterations (2_000 + 2_000 draws total) took 3 seconds.
We recommend running at least 4 chains for robust computation of convergence diagnostics
The rhat statistic is larger than 1.01 for some parameters. This indicates problems during sampling. See https://arxiv.org/abs/1903.08008 for details


Estimated Item Discrimination Parameters (alpha):
[0.60705357 0.89790678 0.9953505  0.99645905 0.98356133]

Estimated Item Difficulty Parameters (beta):
[0.20114289 0.99137704 0.96606575 0.49439718 0.65305695]

Estimated Person Ability Parameters (theta):
[ 0.15989455 -0.03414579 -0.34315852 -0.02077336  1.4072673   0.63186263
  0.39177192  1.41428996 -0.55207855 -0.3667996  -0.89024439  0.42962864
 -0.02787146  0.1905039  -0.55559016 -0.8883725  -0.90129708 -0.91397159
 -0.30856227 -0.34289532 -0.55558661 -0.87025554 -0.55630687  0.41295543
  0.91719627  0.15233116 -0.8844253  -0.37218443 -0.38980408  0.1929723 ]


'irt_trace_구술.nc'