### **Code : 미생물 본설문 - 전처리 및 OLS**
##### Writer : Donghyeon Kim
##### Update : 2023.10.18.

---

#### **0. Prior Settings**

In [1]:
# 1. Library
from pathlib import Path
from statsmodels.formula.api import ols
import os
import pandas as pd
import numpy as np
import openpyxl

In [2]:
# 2. 파일의 상위-상위 경로 설정
os_root = Path(os.path.join(os.getcwd(), '4. 미생물 본설문_전처리 및 OLS.ipynb'))
root = os_root.parent.parent
print(root)

c:\Users\mazy4\Dropbox\6. C&S Lab\6. 2023 Project\2. 생물 경제가치_한생연\5. 분석\2. Analysis


##### Data 1 : 미생물 본설문 응답

In [3]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Data가 존재하는 폴더
folder_root = os.path.join(root, '3. 본설문 분석', '2. 미생물', 'SPSS_Conjoint')

# csv file
csv_name = folder_root + '\\' + '미생물_CARDREP.csv'

# Data 호출
file_data_raw = pd.read_csv(csv_name)

In [4]:
file_data_raw.head(20)

Unnamed: 0,REP,CARD1,CARD2,CARD3,CARD4,CARD5,CARD6,CARD7,CARD8,CARD9,...,CARD13,CARD14,CARD15,CARD16,CARD17,CARD18,CARD19,CARD20,CARD21,CARD22
0,1,7,7,5,8,8,4,8,5,7,...,4,3,3,6,8,8,4,8,4,8
1,2,4,7,4,4,4,4,3,3,4,...,5,5,5,5,5,5,6,6,5,5
2,5,8,7,6,7,6,7,7,6,7,...,8,8,3,4,3,2,4,3,3,3
3,11,2,3,2,3,3,3,3,3,6,...,5,5,6,3,3,3,3,3,4,5
4,16,7,7,1,7,7,1,7,7,0,...,7,7,1,7,7,1,7,7,1,7
5,17,7,9,5,8,3,7,3,6,7,...,5,5,6,6,6,7,5,7,7,5
6,18,0,3,0,0,0,0,0,3,0,...,0,0,0,0,0,0,3,0,0,0
7,24,2,2,0,0,0,0,3,4,3,...,2,4,1,3,2,0,4,2,3,0
8,25,9,9,6,6,6,3,9,6,6,...,7,6,7,5,6,5,5,6,6,8
9,26,5,10,7,8,5,5,7,7,5,...,8,7,7,8,8,5,7,8,7,5


In [5]:
# CARD1 ~ CARD18 추출
file_data = file_data_raw.iloc[:, :19]

In [6]:
file_data.head(20)

Unnamed: 0,REP,CARD1,CARD2,CARD3,CARD4,CARD5,CARD6,CARD7,CARD8,CARD9,CARD10,CARD11,CARD12,CARD13,CARD14,CARD15,CARD16,CARD17,CARD18
0,1,7,7,5,8,8,4,8,5,7,7,5,6,4,3,3,6,8,8
1,2,4,7,4,4,4,4,3,3,4,5,5,5,5,5,5,5,5,5
2,5,8,7,6,7,6,7,7,6,7,7,7,6,8,8,3,4,3,2
3,11,2,3,2,3,3,3,3,3,6,2,7,5,5,5,6,3,3,3
4,16,7,7,1,7,7,1,7,7,0,7,7,1,7,7,1,7,7,1
5,17,7,9,5,8,3,7,3,6,7,5,7,5,5,5,6,6,6,7
6,18,0,3,0,0,0,0,0,3,0,4,0,0,0,0,0,0,0,0
7,24,2,2,0,0,0,0,3,4,3,2,4,2,2,4,1,3,2,0
8,25,9,9,6,6,6,3,9,6,6,4,7,5,7,6,7,5,6,5
9,26,5,10,7,8,5,5,7,7,5,7,7,7,8,7,7,8,8,5


In [7]:
file_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 204 entries, 0 to 203
Data columns (total 19 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   REP     204 non-null    int64
 1   CARD1   204 non-null    int64
 2   CARD2   204 non-null    int64
 3   CARD3   204 non-null    int64
 4   CARD4   204 non-null    int64
 5   CARD5   204 non-null    int64
 6   CARD6   204 non-null    int64
 7   CARD7   204 non-null    int64
 8   CARD8   204 non-null    int64
 9   CARD9   204 non-null    int64
 10  CARD10  204 non-null    int64
 11  CARD11  204 non-null    int64
 12  CARD12  204 non-null    int64
 13  CARD13  204 non-null    int64
 14  CARD14  204 non-null    int64
 15  CARD15  204 non-null    int64
 16  CARD16  204 non-null    int64
 17  CARD17  204 non-null    int64
 18  CARD18  204 non-null    int64
dtypes: int64(19)
memory usage: 30.4 KB


##### Data 2 : 직교설계 카드

In [8]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Data가 존재하는 폴더
folder_root = os.path.join(root, '1. 직교설계', '3. 미생물_본설문')

# csv file
xlsx_name = folder_root + '\\' + '미생물 본설문 직교설계.xlsx'

# Data 호출
card_data_raw = pd.read_excel(xlsx_name, sheet_name='레이블')

In [9]:
card_data_raw.head(50)

Unnamed: 0,원산지,분리원,분류학적 신규성,이용범위,신물질/신기능 개발 가능 여부,정보 제공 여부,가격,STATUS,CARD
0,국외(허가 불필요),일반 환경,미 동정 미생물,분양자에게 이용 독점권 없음,가능성 낮음,문헌 미공개 데이터 제공함,150000,계획,1
1,국외(허가 불필요),일반 환경,표준 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,문헌에 공개된 데이터 제공함,200000,계획,2
2,국외(허가 필요),일반 환경,동정된 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,제공하지 않음,150000,계획,3
3,국외(허가 필요),특수 환경,표준 미생물,분양자에게 이용 독점권 부여,가능성 낮음,제공하지 않음,200000,계획,4
4,국외(허가 불필요),특수 환경,미 동정 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 높음,제공하지 않음,100000,계획,5
5,국내,특수 환경,미 동정 미생물,분양자에게 이용 독점권 없음,가능성 낮음,문헌에 공개된 데이터 제공함,200000,계획,6
6,국내,일반 환경,표준 미생물,분양자에게 이용 독점권 없음,가능성 낮음,제공하지 않음,100000,계획,7
7,국외(허가 불필요),특수 환경,동정된 미생물,분양자에게 이용 독점권 부여,가능성 낮음,문헌에 공개된 데이터 제공함,150000,계획,8
8,국외(허가 필요),일반 환경,미 동정 미생물,분양자에게 이용 독점권 부여,가능성 높음,문헌에 공개된 데이터 제공함,100000,계획,9
9,국내,일반 환경,동정된 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,문헌에 공개된 데이터 제공함,100000,계획,10


In [10]:
# 계획 CARD 추출
card_data = card_data_raw[card_data_raw['STATUS'] == '계획']

In [11]:
card_data.head(50)

Unnamed: 0,원산지,분리원,분류학적 신규성,이용범위,신물질/신기능 개발 가능 여부,정보 제공 여부,가격,STATUS,CARD
0,국외(허가 불필요),일반 환경,미 동정 미생물,분양자에게 이용 독점권 없음,가능성 낮음,문헌 미공개 데이터 제공함,150000,계획,1
1,국외(허가 불필요),일반 환경,표준 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,문헌에 공개된 데이터 제공함,200000,계획,2
2,국외(허가 필요),일반 환경,동정된 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,제공하지 않음,150000,계획,3
3,국외(허가 필요),특수 환경,표준 미생물,분양자에게 이용 독점권 부여,가능성 낮음,제공하지 않음,200000,계획,4
4,국외(허가 불필요),특수 환경,미 동정 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 높음,제공하지 않음,100000,계획,5
5,국내,특수 환경,미 동정 미생물,분양자에게 이용 독점권 없음,가능성 낮음,문헌에 공개된 데이터 제공함,200000,계획,6
6,국내,일반 환경,표준 미생물,분양자에게 이용 독점권 없음,가능성 낮음,제공하지 않음,100000,계획,7
7,국외(허가 불필요),특수 환경,동정된 미생물,분양자에게 이용 독점권 부여,가능성 낮음,문헌에 공개된 데이터 제공함,150000,계획,8
8,국외(허가 필요),일반 환경,미 동정 미생물,분양자에게 이용 독점권 부여,가능성 높음,문헌에 공개된 데이터 제공함,100000,계획,9
9,국내,일반 환경,동정된 미생물,분양자의 이용 독점권 범위 일부 제한,가능성 낮음,문헌에 공개된 데이터 제공함,100000,계획,10


In [12]:
card_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   원산지               18 non-null     object
 1   분리원               18 non-null     object
 2   분류학적 신규성          18 non-null     object
 3   이용범위              18 non-null     object
 4   신물질/신기능 개발 가능 여부  18 non-null     object
 5   정보 제공 여부          18 non-null     object
 6   가격                18 non-null     int64 
 7   STATUS            18 non-null     object
 8   CARD              18 non-null     int64 
dtypes: int64(2), object(7)
memory usage: 1.4+ KB


---

#### **1. 직교설계 카드 Data Preprocessing**

##### (1) 더미 변수 부여

In [13]:
# Dictionary
ols_data_dict = {}

# 변수 1 : 원산지
ols_data_dict['ORI1'] = [] # 국내
ols_data_dict['ORI2'] = [] # 국외(허가 불필요)
ols_data_dict['ORI3'] = [] # 국외(허가 필요)

# 변수 2 : 분리원
ols_data_dict['ENV1'] = [] # 일반 환경
ols_data_dict['ENV2'] = [] # 특수 환경

# 변수 3 : 분류학적 신규성
ols_data_dict['CLA1'] = [] # 표준 미생물
ols_data_dict['CLA2'] = [] # 동정된 미생물
ols_data_dict['CLA3'] = [] # 미 동정 미생물

# 변수 4 : 이용범위
ols_data_dict['EXC1'] = [] # 분양자에게 이용 독점권 없음
ols_data_dict['EXC2'] = [] # 분양자의 이용 독점권 범위 일부 제한
ols_data_dict['EXC3'] = [] # 분양자에게 이용 독점권 부여

# 변수 5 : 신물질/신기능 개발 가능 여부
ols_data_dict['NEW1'] = [] # 가능성 낮음
ols_data_dict['NEW2'] = [] # 가능성 높음

# 변수 6 : 정보(게놈, 분류 정보, 기능성물질 생산 등 미생물 자원 활용에 유용한 정보 등) 제공 여부
ols_data_dict['INF1'] = [] # 제공하지 않음
ols_data_dict['INF2'] = [] # 문헌에 공개된 데이터 제공함
ols_data_dict['INF3'] = [] # 문헌에 미공개 데이터 제공함

# 변수 7 : 가격(1vial당 기준)
ols_data_dict['PRICE'] = [] # 100,000원 # 150,000원 # 200,000원

In [14]:
for i in range(len(card_data)) :
    
    # 변수 1 : 원산지
    if card_data['원산지'][i] == '국내':
        ols_data_dict['ORI1'].append(1)
        ols_data_dict['ORI2'].append(0)
        ols_data_dict['ORI3'].append(0)
    elif card_data['원산지'][i] == '국외(허가 불필요)':
        ols_data_dict['ORI1'].append(0)
        ols_data_dict['ORI2'].append(1)
        ols_data_dict['ORI3'].append(0)
    else:
        ols_data_dict['ORI1'].append(0)
        ols_data_dict['ORI2'].append(0)
        ols_data_dict['ORI3'].append(1)
    
    # 변수 2 : 분리원
    if card_data['분리원'][i] == '일반 환경':
        ols_data_dict['ENV1'].append(1)
        ols_data_dict['ENV2'].append(0)
    else:
        ols_data_dict['ENV1'].append(0)
        ols_data_dict['ENV2'].append(1)
    
    # 변수 3 : 분류학적 신규성
    if card_data['분류학적 신규성'][i] == '표준 미생물':
        ols_data_dict['CLA1'].append(1)
        ols_data_dict['CLA2'].append(0)
        ols_data_dict['CLA3'].append(0)
    elif card_data['분류학적 신규성'][i] == '동정된 미생물':
        ols_data_dict['CLA1'].append(0)
        ols_data_dict['CLA2'].append(1)
        ols_data_dict['CLA3'].append(0)
    else:
        ols_data_dict['CLA1'].append(0)
        ols_data_dict['CLA2'].append(0)
        ols_data_dict['CLA3'].append(1)
    
    # 변수 4 : 이용범위
    if card_data['이용범위'][i] == '분양자에게 이용 독점권 없음':
        ols_data_dict['EXC1'].append(1)
        ols_data_dict['EXC2'].append(0)
        ols_data_dict['EXC3'].append(0)
    elif card_data['이용범위'][i] == '분양자의 이용 독점권 범위 일부 제한':
        ols_data_dict['EXC1'].append(0)
        ols_data_dict['EXC2'].append(1)
        ols_data_dict['EXC3'].append(0)
    else:
        ols_data_dict['EXC1'].append(0)
        ols_data_dict['EXC2'].append(0)
        ols_data_dict['EXC3'].append(1)
    
    # 변수 5 : 신물질/신기능 개발 가능 여부
    if card_data['신물질/신기능 개발 가능 여부'][i] == '가능성 낮음':
        ols_data_dict['NEW1'].append(1)
        ols_data_dict['NEW2'].append(0)
    else:
        ols_data_dict['NEW1'].append(0)
        ols_data_dict['NEW2'].append(1)
    
    # 변수 6 : 정보(게놈, 분류 정보, 기능성물질 생산 등 미생물 자원 활용에 유용한 정보 등) 제공 여부
    if card_data['정보 제공 여부'][i] == '제공하지 않음':
        ols_data_dict['INF1'].append(1)
        ols_data_dict['INF2'].append(0)
        ols_data_dict['INF3'].append(0)
    elif card_data['정보 제공 여부'][i] == '문헌에 공개된 데이터 제공함':
        ols_data_dict['INF1'].append(0)
        ols_data_dict['INF2'].append(1)
        ols_data_dict['INF3'].append(0)
    else:
        ols_data_dict['INF1'].append(0)
        ols_data_dict['INF2'].append(0)
        ols_data_dict['INF3'].append(1)
    
    # 변수 7 : 가격(1vial당 기준)
    if card_data['가격'][i] == 100000:
        ols_data_dict['PRICE'].append(100000)
    elif card_data['가격'][i] == 150000:
        ols_data_dict['PRICE'].append(150000)
    else:
        ols_data_dict['PRICE'].append(200000)

# Dictionary -> Data Frame
ols_data_df = pd.DataFrame(ols_data_dict)

In [15]:
ols_data_df

Unnamed: 0,ORI1,ORI2,ORI3,ENV1,ENV2,CLA1,CLA2,CLA3,EXC1,EXC2,EXC3,NEW1,NEW2,INF1,INF2,INF3,PRICE
0,0,1,0,1,0,0,0,1,1,0,0,1,0,0,0,1,150000
1,0,1,0,1,0,1,0,0,0,1,0,1,0,0,1,0,200000
2,0,0,1,1,0,0,1,0,0,1,0,1,0,1,0,0,150000
3,0,0,1,0,1,1,0,0,0,0,1,1,0,1,0,0,200000
4,0,1,0,0,1,0,0,1,0,1,0,0,1,1,0,0,100000
5,1,0,0,0,1,0,0,1,1,0,0,1,0,0,1,0,200000
6,1,0,0,1,0,1,0,0,1,0,0,1,0,1,0,0,100000
7,0,1,0,0,1,0,1,0,0,0,1,1,0,0,1,0,150000
8,0,0,1,1,0,0,0,1,0,0,1,0,1,0,1,0,100000
9,1,0,0,1,0,0,1,0,0,1,0,1,0,0,1,0,100000


---

#### **2. 미생물 예비설문 응답 Data Preprocessing**

##### (1) Conjoint Analysis(CA)를 통한 응답자 필터링
- Step 1 : 동일한 Rank 값 제외
- Step 2 : 검증용 켄달타우 < 0 & 검증용 켄달타우 < 0.4 & '.' 제외
- Step 3 : 추정용(18개 CARD) 피어슨 < 0.6147 or 켄달타우 < 0.4 제외
- Program : SPSS

##### (2) 각 카드에 대한 구매 가능성 응답 부여

In [16]:
# List
ols_data = []

# 응답자 번호
card_index = file_data['REP'].to_list()

for i in range(len(card_index)):
    temp = ols_data_df.copy() # Data Frame 복사
    temp['Y'] = file_data.iloc[i, 1:].copy().to_numpy() # 구매 가능성(0~10)
    temp['INDEX'] = [card_index[i] for _ in range(18)] # 응답자 번호
    temp['CARD'] = [j+1 for j in range(18)] # 직교설계 카드 번호
    ols_data.append(temp.copy())

# Result
ols_data = pd.concat(ols_data)

# Data Frame Column 위치 변경
col1 = ols_data.columns[-2:].to_list()
col2 = ols_data.columns[:-2].to_list()
new_col_name = col1 + col2
ols_data = ols_data[new_col_name]

In [17]:
ols_data

Unnamed: 0,INDEX,CARD,ORI1,ORI2,ORI3,ENV1,ENV2,CLA1,CLA2,CLA3,EXC1,EXC2,EXC3,NEW1,NEW2,INF1,INF2,INF3,PRICE,Y
0,1,1,0,1,0,1,0,0,0,1,1,0,0,1,0,0,0,1,150000,7
1,1,2,0,1,0,1,0,1,0,0,0,1,0,1,0,0,1,0,200000,7
2,1,3,0,0,1,1,0,0,1,0,0,1,0,1,0,1,0,0,150000,5
3,1,4,0,0,1,0,1,1,0,0,0,0,1,1,0,1,0,0,200000,8
4,1,5,0,1,0,0,1,0,0,1,0,1,0,0,1,1,0,0,100000,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13,485,14,1,0,0,1,0,0,0,1,0,0,1,1,0,1,0,0,150000,5
14,485,15,0,1,0,1,0,0,1,0,1,0,0,0,1,1,0,0,200000,1
15,485,16,0,1,0,1,0,1,0,0,0,0,1,1,0,0,0,1,100000,2
16,485,17,1,0,0,0,1,1,0,0,0,1,0,0,1,0,0,1,150000,8


##### (3) csv file 제작

In [18]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '2. 미생물', 'Data')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
result_csv_name = folder_root + '\\' + '미생물_본설문_OLS_Data.csv'
ols_data.to_csv(result_csv_name, mode='w', index=False)

---

#### **3. 미생물 예비설문 응답 OLS**

##### (1) 모든 더미 변수(dummy variable) 대입한 OLS

In [19]:
# Independent variable : ORIGIN1 ~ PRICE(속성 및 수준)
ols_data.columns.to_list()[2:-1]

['ORI1',
 'ORI2',
 'ORI3',
 'ENV1',
 'ENV2',
 'CLA1',
 'CLA2',
 'CLA3',
 'EXC1',
 'EXC2',
 'EXC3',
 'NEW1',
 'NEW2',
 'INF1',
 'INF2',
 'INF3',
 'PRICE']

In [20]:
# OLS
# Dependent variable : Y
# Independent variable : ORIGIN1 ~ PRICE(속성 및 수준)
micro_ols = ols('Y ~ ' + ' + '.join(ols_data.columns.to_list()[2:-1]), data=ols_data).fit()
micro_ols.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.114
Method:,Least Squares,F-statistic:,44.08
Date:,"Wed, 18 Oct 2023",Prob (F-statistic):,7.819999999999999e-91
Time:,05:05:04,Log-Likelihood:,-8764.6
No. Observations:,3672,AIC:,17550.0
Df Residuals:,3660,BIC:,17630.0
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.6039,0.050,31.991,0.000,1.506,1.702
ORI1,0.7356,0.064,11.536,0.000,0.611,0.861
ORI2,0.5208,0.064,8.166,0.000,0.396,0.646
ORI3,0.3475,0.064,5.450,0.000,0.223,0.473
ENV1,0.8246,0.050,16.344,0.000,0.726,0.924
ENV2,0.7793,0.055,14.296,0.000,0.672,0.886
CLA1,1.0036,0.064,15.738,0.000,0.879,1.129
CLA2,0.7520,0.064,11.792,0.000,0.627,0.877
CLA3,-0.1516,0.064,-2.378,0.017,-0.277,-0.027

0,1,2,3
Omnibus:,176.267,Durbin-Watson:,1.479
Prob(Omnibus):,0.0,Jarque-Bera (JB):,71.376
Skew:,-0.017,Prob(JB):,3.17e-16
Kurtosis:,2.318,Cond. No.,5.91e+20


##### (2) 각 더미 변수(dummy variable)에서 1개씩 제외한 모든 경우의 수의 OLS

In [21]:
X_case = []
for ORI in ['ORI1','ORI2', 'ORI3']:
    for ENV in ['ENV1','ENV2']:
        for CLA in ['CLA1','CLA2', 'CLA3']:
            for EXC in ['EXC1','EXC2', 'EXC3']:
                for NEW in ['NEW1','NEW2']:
                    for INF in ['INF1','INF2', 'INF3']:
                        X_case.append(f'Y ~ {ORI} + {ENV} + {CLA} + {EXC} + {NEW} + {INF} + PRICE')

# 앞 부분만 확인
X_case[:5]

['Y ~ ORI1 + ENV1 + CLA1 + EXC1 + NEW1 + INF1 + PRICE',
 'Y ~ ORI1 + ENV1 + CLA1 + EXC1 + NEW1 + INF2 + PRICE',
 'Y ~ ORI1 + ENV1 + CLA1 + EXC1 + NEW1 + INF3 + PRICE',
 'Y ~ ORI1 + ENV1 + CLA1 + EXC1 + NEW2 + INF1 + PRICE',
 'Y ~ ORI1 + ENV1 + CLA1 + EXC1 + NEW2 + INF2 + PRICE']

In [22]:
# List 생성
# 1번째 내용 : 모든 더미 변수(dummy variable)를 대입한 OLS
micro_ols_all_case = [micro_ols.params.iloc[1:]]

for model in X_case:
    ols_fit = ols(model, data=ols_data).fit() # Fitting OLS
    micro_ols_all_case.append(ols_fit.params.iloc[1:].copy())

micro_ols_all_case = pd.concat(micro_ols_all_case, axis=1).T
micro_ols_all_case[micro_ols_all_case.isna()] = 0.0

In [23]:
micro_ols_all_case

Unnamed: 0,ORI1,ORI2,ORI3,ENV1,ENV2,CLA1,CLA2,CLA3,EXC1,EXC2,EXC3,NEW1,NEW2,INF1,INF2,INF3,PRICE
0,0.735621,0.520752,0.347549,0.824632,0.779289,1.003595,0.751961,-0.151634,0.217647,0.470098,0.916176,0.097917,1.506005,0.077941,0.894935,0.631046,-0.000002
1,0.301471,0.000000,0.000000,0.045343,0.000000,0.703431,0.000000,0.000000,-0.475490,0.000000,0.000000,-1.408088,0.000000,-0.685049,0.000000,0.000000,-0.000002
2,0.301471,0.000000,0.000000,0.045343,0.000000,0.703431,0.000000,0.000000,-0.475490,0.000000,0.000000,-1.408088,0.000000,0.000000,0.540441,0.000000,-0.000002
3,0.301471,0.000000,0.000000,0.045343,0.000000,0.703431,0.000000,0.000000,-0.475490,0.000000,0.000000,-1.408088,0.000000,0.000000,0.000000,0.144608,-0.000002
4,0.301471,0.000000,0.000000,0.045343,0.000000,0.703431,0.000000,0.000000,-0.475490,0.000000,0.000000,0.000000,1.408088,-0.685049,0.000000,0.000000,-0.000002
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
320,0.000000,0.000000,-0.280637,0.000000,-0.045343,0.000000,0.000000,-1.029412,0.000000,0.000000,0.572304,-1.408088,0.000000,0.000000,0.540441,0.000000,-0.000002
321,0.000000,0.000000,-0.280637,0.000000,-0.045343,0.000000,0.000000,-1.029412,0.000000,0.000000,0.572304,-1.408088,0.000000,0.000000,0.000000,0.144608,-0.000002
322,0.000000,0.000000,-0.280637,0.000000,-0.045343,0.000000,0.000000,-1.029412,0.000000,0.000000,0.572304,0.000000,1.408088,-0.685049,0.000000,0.000000,-0.000002
323,0.000000,0.000000,-0.280637,0.000000,-0.045343,0.000000,0.000000,-1.029412,0.000000,0.000000,0.572304,0.000000,1.408088,0.000000,0.540441,0.000000,-0.000002


##### csv file 제작

In [24]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '2. 미생물', 'Result')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
all_result_csv_name = folder_root + '\\' + '미생물_본설문_OLS_All Cases.csv'
micro_ols_all_case.to_csv(all_result_csv_name, mode='w', index=False)

---

#### **4. SPSS OLS 결과와 비교 : '계수' 및 '유틸리티 추정'**
- 전반적인 과정은 위와 동일함.
- 변경점
    - 변수 : 가격(PRICE)
    - 기존 : 실수(float) -> 100,000 / 150,000 / 200,000
    - 변경 : 범주(category) -> 100,000 = 1 / 150,000 = 2 / 200,000 = 3

##### (1) 직교설계 카드

In [25]:
# Dictionary
spss_ols_data_dict = {}

# 변수 1 : 원산지
spss_ols_data_dict['ORI1'] = [] # 국내
spss_ols_data_dict['ORI2'] = [] # 국외(허가 불필요)
spss_ols_data_dict['ORI3'] = [] # 국외(허가 필요)

# 변수 2 : 분리원
spss_ols_data_dict['ENV1'] = [] # 일반 환경
spss_ols_data_dict['ENV2'] = [] # 특수 환경

# 변수 3 : 분류학적 신규성
spss_ols_data_dict['CLA1'] = [] # 표준 미생물
spss_ols_data_dict['CLA2'] = [] # 동정된 미생물
spss_ols_data_dict['CLA3'] = [] # 미 동정 미생물

# 변수 4 : 이용범위
spss_ols_data_dict['EXC1'] = [] # 분양자에게 이용 독점권 없음
spss_ols_data_dict['EXC2'] = [] # 분양자의 이용 독점권 범위 일부 제한
spss_ols_data_dict['EXC3'] = [] # 분양자에게 이용 독점권 부여

# 변수 5 : 신물질/신기능 개발 가능 여부
spss_ols_data_dict['NEW1'] = [] # 가능성 낮음
spss_ols_data_dict['NEW2'] = [] # 가능성 높음

# 변수 6 : 정보(게놈, 분류 정보, 기능성물질 생산 등 미생물 자원 활용에 유용한 정보 등) 제공 여부
spss_ols_data_dict['INF1'] = [] # 제공하지 않음
spss_ols_data_dict['INF2'] = [] # 문헌에 공개된 데이터 제공함
spss_ols_data_dict['INF3'] = [] # 문헌에 미공개 데이터 제공함

# 변수 7 : 가격(1vial당 기준)
spss_ols_data_dict['PRICE'] = [] # 100,000원 # 150,000원 # 200,000원

In [26]:
for i in range(len(card_data)) :
    
    # 변수 1 : 원산지
    if card_data['원산지'][i] == '국내':
        spss_ols_data_dict['ORI1'].append(1)
        spss_ols_data_dict['ORI2'].append(0)
        spss_ols_data_dict['ORI3'].append(0)
    elif card_data['원산지'][i] == '국외(허가 불필요)':
        spss_ols_data_dict['ORI1'].append(0)
        spss_ols_data_dict['ORI2'].append(1)
        spss_ols_data_dict['ORI3'].append(0)
    else:
        spss_ols_data_dict['ORI1'].append(0)
        spss_ols_data_dict['ORI2'].append(0)
        spss_ols_data_dict['ORI3'].append(1)
    
    # 변수 2 : 분리원
    if card_data['분리원'][i] == '일반 환경':
        spss_ols_data_dict['ENV1'].append(1)
        spss_ols_data_dict['ENV2'].append(0)
    else:
        spss_ols_data_dict['ENV1'].append(0)
        spss_ols_data_dict['ENV2'].append(1)
    
    # 변수 3 : 분류학적 신규성
    if card_data['분류학적 신규성'][i] == '표준 미생물':
        spss_ols_data_dict['CLA1'].append(1)
        spss_ols_data_dict['CLA2'].append(0)
        spss_ols_data_dict['CLA3'].append(0)
    elif card_data['분류학적 신규성'][i] == '동정된 미생물':
        spss_ols_data_dict['CLA1'].append(0)
        spss_ols_data_dict['CLA2'].append(1)
        spss_ols_data_dict['CLA3'].append(0)
    else:
        spss_ols_data_dict['CLA1'].append(0)
        spss_ols_data_dict['CLA2'].append(0)
        spss_ols_data_dict['CLA3'].append(1)
    
    # 변수 4 : 이용범위
    if card_data['이용범위'][i] == '분양자에게 이용 독점권 없음':
        spss_ols_data_dict['EXC1'].append(1)
        spss_ols_data_dict['EXC2'].append(0)
        spss_ols_data_dict['EXC3'].append(0)
    elif card_data['이용범위'][i] == '분양자의 이용 독점권 범위 일부 제한':
        spss_ols_data_dict['EXC1'].append(0)
        spss_ols_data_dict['EXC2'].append(1)
        spss_ols_data_dict['EXC3'].append(0)
    else:
        spss_ols_data_dict['EXC1'].append(0)
        spss_ols_data_dict['EXC2'].append(0)
        spss_ols_data_dict['EXC3'].append(1)
    
    # 변수 5 : 신물질/신기능 개발 가능 여부
    if card_data['신물질/신기능 개발 가능 여부'][i] == '가능성 낮음':
        spss_ols_data_dict['NEW1'].append(1)
        spss_ols_data_dict['NEW2'].append(0)
    else:
        spss_ols_data_dict['NEW1'].append(0)
        spss_ols_data_dict['NEW2'].append(1)
    
    # 변수 6 : 정보(게놈, 분류 정보, 기능성물질 생산 등 미생물 자원 활용에 유용한 정보 등) 제공 여부
    if card_data['정보 제공 여부'][i] == '제공하지 않음':
        spss_ols_data_dict['INF1'].append(1)
        spss_ols_data_dict['INF2'].append(0)
        spss_ols_data_dict['INF3'].append(0)
    elif card_data['정보 제공 여부'][i] == '문헌에 공개된 데이터 제공함':
        spss_ols_data_dict['INF1'].append(0)
        spss_ols_data_dict['INF2'].append(1)
        spss_ols_data_dict['INF3'].append(0)
    else:
        spss_ols_data_dict['INF1'].append(0)
        spss_ols_data_dict['INF2'].append(0)
        spss_ols_data_dict['INF3'].append(1)
    
    # 변수 7 : 가격(1vial당 기준)
    if card_data['가격'][i] == 100000:
        spss_ols_data_dict['PRICE'].append(1)
    elif card_data['가격'][i] == 150000:
        spss_ols_data_dict['PRICE'].append(2)
    else:
        spss_ols_data_dict['PRICE'].append(3)

# Dictionary -> Data Frame
spss_ols_data_df = pd.DataFrame(spss_ols_data_dict)

In [27]:
spss_ols_data_df

Unnamed: 0,ORI1,ORI2,ORI3,ENV1,ENV2,CLA1,CLA2,CLA3,EXC1,EXC2,EXC3,NEW1,NEW2,INF1,INF2,INF3,PRICE
0,0,1,0,1,0,0,0,1,1,0,0,1,0,0,0,1,2
1,0,1,0,1,0,1,0,0,0,1,0,1,0,0,1,0,3
2,0,0,1,1,0,0,1,0,0,1,0,1,0,1,0,0,2
3,0,0,1,0,1,1,0,0,0,0,1,1,0,1,0,0,3
4,0,1,0,0,1,0,0,1,0,1,0,0,1,1,0,0,1
5,1,0,0,0,1,0,0,1,1,0,0,1,0,0,1,0,3
6,1,0,0,1,0,1,0,0,1,0,0,1,0,1,0,0,1
7,0,1,0,0,1,0,1,0,0,0,1,1,0,0,1,0,2
8,0,0,1,1,0,0,0,1,0,0,1,0,1,0,1,0,1
9,1,0,0,1,0,0,1,0,0,1,0,1,0,0,1,0,1


##### (2) 각 카드에 대한 구매 가능성 응답 부여

In [28]:
# List
spss_ols_data = []

# 응답자 번호
card_index = file_data['REP'].to_list()

for i in range(len(card_index)):
    temp = spss_ols_data_df.copy() # Data Frame 복사
    temp['Y'] = file_data.iloc[i, 1:].copy().to_numpy() # 구매 가능성(0~10)
    temp['INDEX'] = [card_index[i] for _ in range(18)] # 응답자 번호
    temp['CARD'] = [j+1 for j in range(18)] # 직교설계 카드 번호
    spss_ols_data.append(temp.copy())

# Result
spss_ols_data = pd.concat(spss_ols_data)

# Data Frame Column 위치 변경
col1 = spss_ols_data.columns[-2:].to_list()
col2 = spss_ols_data.columns[:-2].to_list()
new_col_name = col1 + col2
spss_ols_data = spss_ols_data[new_col_name]

In [29]:
# PRICE가 category = 1, 2, 3으로 변경된 것을 확인할 수 있음.
spss_ols_data

Unnamed: 0,INDEX,CARD,ORI1,ORI2,ORI3,ENV1,ENV2,CLA1,CLA2,CLA3,EXC1,EXC2,EXC3,NEW1,NEW2,INF1,INF2,INF3,PRICE,Y
0,1,1,0,1,0,1,0,0,0,1,1,0,0,1,0,0,0,1,2,7
1,1,2,0,1,0,1,0,1,0,0,0,1,0,1,0,0,1,0,3,7
2,1,3,0,0,1,1,0,0,1,0,0,1,0,1,0,1,0,0,2,5
3,1,4,0,0,1,0,1,1,0,0,0,0,1,1,0,1,0,0,3,8
4,1,5,0,1,0,0,1,0,0,1,0,1,0,0,1,1,0,0,1,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13,485,14,1,0,0,1,0,0,0,1,0,0,1,1,0,1,0,0,2,5
14,485,15,0,1,0,1,0,0,1,0,1,0,0,0,1,1,0,0,3,1
15,485,16,0,1,0,1,0,1,0,0,0,0,1,1,0,0,0,1,1,2
16,485,17,1,0,0,0,1,1,0,0,0,1,0,0,1,0,0,1,2,8


##### (3) OLS

In [30]:
# Independent variable
dummy_x = ['ORI1', 'ORI3',    # 기준변수 : ORI2
           'ENV2',            # 기준변수 : ENV1
           'CLA2', 'CLA3',    # 기준변수 : CLA1
           'EXC2', 'EXC3',    # 기준변수 : EXC1
           'NEW2',            # 기준변수 : NEW1
           'INF2', 'INF3',    # 기준변수 : INF1
           'PRICE']

In [31]:
# OLS
# Dependent variable : Y
# Independent variable : dummy_x
spss_micro_ols = ols('Y ~ ' + ' + '.join(dummy_x), data=spss_ols_data).fit()
spss_micro_ols.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.117
Model:,OLS,Adj. R-squared:,0.114
Method:,Least Squares,F-statistic:,44.08
Date:,"Wed, 18 Oct 2023",Prob (F-statistic):,7.819999999999999e-91
Time:,05:13:02,Log-Likelihood:,-8764.6
No. Observations:,3672,AIC:,17550.0
Df Residuals:,3660,BIC:,17630.0
Df Model:,11,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,4.2467,0.174,24.398,0.000,3.905,4.588
ORI1,0.2149,0.107,2.016,0.044,0.006,0.424
ORI3,-0.1732,0.107,-1.625,0.104,-0.382,0.036
ENV2,-0.0453,0.092,-0.491,0.623,-0.226,0.136
CLA2,-0.2516,0.107,-2.361,0.018,-0.461,-0.043
CLA3,-1.1552,0.107,-10.838,0.000,-1.364,-0.946
EXC2,0.2525,0.107,2.368,0.018,0.043,0.461
EXC3,0.6985,0.107,6.554,0.000,0.490,0.908
NEW2,1.4081,0.092,15.254,0.000,1.227,1.589

0,1,2,3
Omnibus:,176.267,Durbin-Watson:,1.479
Prob(Omnibus):,0.0,Jarque-Bera (JB):,71.376
Skew:,-0.017,Prob(JB):,3.17e-16
Kurtosis:,2.318,Cond. No.,12.1


##### (4) 개별 응답자에 대한 OLS

In [32]:
# List 생성
response_ols_all_case = []

for idx in card_index:
    response_ols_fit = ols('Y ~ ' + ' + '.join(dummy_x), data=spss_ols_data.loc[spss_ols_data['INDEX'] == idx]).fit() # Fitting OLS
    response_ols_all_case.append(response_ols_fit.params.copy())

response_ols_all_case = pd.concat(response_ols_all_case, axis=1).T

In [33]:
# Index 열 추가
response_ols_all_case['INDEX'] = card_index

In [34]:
# Data Frame Column 위치 변경
col1 = ['INDEX']
col2 = response_ols_all_case.columns[:-1].to_list()
new_col_name = col1 + col2
response_ols_all_case = response_ols_all_case[new_col_name]

In [35]:
# Result
response_ols_all_case

Unnamed: 0,INDEX,Intercept,ORI1,ORI3,ENV2,CLA2,CLA3,EXC2,EXC3,NEW2,INF2,INF3,PRICE
0,1,6.888889,-1.666667e-01,3.333333e-01,6.666667e-01,-1.666667e+00,-6.666667e-01,1.833333,3.333333e-01,-0.333333,-1.666667e-01,8.333333e-01,-0.583333
1,2,3.805556,-1.666667e-01,-1.666667e-01,-5.833333e-01,-3.333333e-01,-5.000000e-01,0.666667,7.369902e-16,0.166667,5.000000e-01,6.666667e-01,0.333333
2,5,7.138889,8.333333e-01,3.333333e-01,-3.333333e-01,-1.666667e-01,3.333333e-01,-1.333333,-2.159388e-15,-0.583333,8.333333e-01,-1.166667e+00,-0.333333
3,11,2.222222,5.000000e-01,6.666667e-01,-5.833333e-01,8.333333e-01,3.333333e-01,-1.333333,5.000000e-01,1.916667,1.191063e-16,1.666667e-01,0.250000
4,16,8.027778,3.108624e-15,-3.166667e+00,8.333333e-02,-3.000000e+00,-3.166667e+00,1.000000,1.833333e+00,-0.166667,-1.666667e-01,8.881784e-16,-0.416667
...,...,...,...,...,...,...,...,...,...,...,...,...,...
199,481,2.527778,5.000000e-01,-6.666667e-01,-9.166667e-01,1.554312e-15,-1.666667e-01,-0.833333,-3.333333e-01,-0.166667,6.333333e+00,6.000000e+00,-0.166667
200,482,2.027778,6.666667e-01,1.666667e+00,-1.666667e-01,3.333333e-01,7.771561e-16,-0.333333,-3.333333e-01,0.083333,6.666667e-01,6.666667e-01,0.166667
201,483,3.388889,1.666667e-01,-2.220446e-16,-8.333333e-02,1.666667e-01,3.608225e-16,0.166667,1.155215e-15,1.416667,-1.666667e-01,3.333333e-01,-0.083333
202,484,6.083333,5.000000e-01,-5.000000e-01,-7.500000e-01,1.666667e-01,8.333333e-01,-0.666667,-8.333333e-01,2.000000,3.333333e-01,1.166667e+00,-0.250000


##### csv file 제작

In [36]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '2. 미생물', 'Result')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
response_ols_result_csv_name = folder_root + '\\' + '미생물_본설문_개별응답자_OLS.csv'
response_ols_all_case.to_csv(response_ols_result_csv_name, mode='w', index=False)

##### (5) SPSS 유틸리티 추정과 비교
##### **Utility 산출 과정**

- 참고 : 변수명은 다르지만, Process는 동일함.
<br>

- **(1) 속성 변환**
     - (1-i) DISCRETE 자료 -> 각 속성별로 변수 배정
          - ex. POTENTIAL, DATA -> POTENTIAL1, POTENTIAL2, DATA1, DATA2, DATA3  
       
     <br>
     
     - (1-ii) LESS 자료 -> 각 속성별로 정수 값 배정
          - ex. PRICE의 40k, 100k, 300k -> 1, 2, 3  
<br>

- **(2) DISCRETE 자료 속성의 변수 중 한개씩 제외 후 OLS수행**
     - (2-i) 이후 OLS에서 제외된 변수들에게는 beta(회귀계수)값으로 0 배정
          - 변환된 데이터에서 [POTENTIAL2, TYPE2, INFODB2, DATA2, DATA3, SERVICE2, PRICE]를 독립변수로 OLS
          
          <br>  
          
          |CONSTANT|POTENTIAL1|POTENTIAL2|TYPE1|TYPE2|INFODB1|INFODB2|DATA1|DATA2|DATA3|SERVICE1|SERVICE2|PRICE|
          |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
          |B0|0|B1|0|B2|0|B3|0|B4|B5|0|B6|B7|
  
<br>

- **(3) DISCRETE 자료들 중에서 속성별 beta의 합이 0이 되지 않는다면, 그 평균으로 보정값 산출**
     |POTENTIAL|TYPE|INFODB|DATA|SERVICE|
     |:---:|:---:|:---:|:---:|:---:|
     |[0+B1≠0] (0+B1)/2 = C1|[0+B2≠0] (0+B2)/2 = C2|[0+B3≠0] (0+B3)/2 = C3|[0+B4+B5≠0] (0+B4+B5)/3 = C4|[0+B6≠0] (0+B6)/2 = C5|
<br>

- **(4) 모든 속성의 보정값은 CONSTANT(상수)의 beta와 합산하고, 속성별로 각자의 보정값을 뺄셈**
     |CONSTANT|POTENTIAL1|POTENTIAL2|TYPE1|TYPE2|INFODB1|INFODB2|DATA1|DATA2|DATA3|SERVICE1|SERVICE2|PRICE|
     |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
     |B0|0|B1|0|B2|0|B3|0|B4|B5|0|B6|B7|
     |+C1+C2+C3+C4+C5|-C1|-C1|-C2|-C2|-C3|-C3|-C4 |-C4|-C4|-C5|-C5|| 