### **Code : 천연물 본설문 - 전처리 및 OLS**
##### Writer : Donghyeon Kim
##### Update : 2023.10.17.

---

#### **0. Prior Settings**

In [1]:
# 1. Library
from pathlib import Path
from statsmodels.formula.api import ols
import os
import pandas as pd
import numpy as np
import openpyxl

In [2]:
# 2. 파일의 상위-상위 경로 설정
os_root = Path(os.path.join(os.getcwd(), '3. 천연물 본설문_전처리 및 OLS.ipynb'))
root = os_root.parent.parent
print(root)

c:\Users\mazy4\Dropbox\6. C&S Lab\6. 2023 Project\2. 생물 경제가치_한생연\5. 분석\2. Analysis


##### Data 1 : 천연물 본설문 응답

In [3]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Data가 존재하는 폴더
folder_root = os.path.join(root, '3. 본설문 분석', '1. 천연물', 'SPSS_Conjoint')

# csv file
csv_name = folder_root + '\\' + '천연물_CARDREP.csv'

# Data 호출
file_data_raw = pd.read_csv(csv_name)

In [4]:
file_data_raw.head(20)

Unnamed: 0,REP,CARD1,CARD2,CARD3,CARD4,CARD5,CARD6,CARD7,CARD8,CARD9,...,CARD13,CARD14,CARD15,CARD16,CARD17,CARD18,CARD19,CARD20,CARD21,CARD22
0,1,5,5,4,7,4,7,6,5,7,...,4,5,7,7,7,6,4,6,5,3
1,2,0,10,1,10,1,0,10,0,0,...,0,0,3,3,10,1,10,1,3,1
2,3,0,8,5,0,5,1,5,5,3,...,5,5,3,3,9,5,7,7,5,5
3,5,0,10,0,10,0,2,10,4,0,...,0,0,3,3,2,0,2,2,0,3
4,6,5,2,7,7,5,5,7,7,6,...,5,6,4,4,5,6,6,5,7,6
5,7,0,7,5,2,2,2,2,2,0,...,0,0,2,2,7,0,3,2,3,0
6,8,0,10,5,0,0,0,0,0,0,...,0,0,0,5,0,0,10,5,0,0
7,10,0,6,7,1,3,0,5,2,1,...,1,1,3,3,9,2,7,4,5,3
8,12,0,5,6,2,1,0,2,1,3,...,0,2,0,0,3,1,0,4,0,0
9,13,4,7,3,2,3,3,5,3,2,...,3,3,3,3,3,2,5,5,3,3


In [5]:
# CARD1 ~ CARD18 추출
file_data = file_data_raw.iloc[:, :19]

In [6]:
file_data.head(20)

Unnamed: 0,REP,CARD1,CARD2,CARD3,CARD4,CARD5,CARD6,CARD7,CARD8,CARD9,CARD10,CARD11,CARD12,CARD13,CARD14,CARD15,CARD16,CARD17,CARD18
0,1,5,5,4,7,4,7,6,5,7,7,7,6,4,5,7,7,7,6
1,2,0,10,1,10,1,0,10,0,0,0,0,10,0,0,3,3,10,1
2,3,0,8,5,0,5,1,5,5,3,5,7,5,5,5,3,3,9,5
3,5,0,10,0,10,0,2,10,4,0,0,3,3,0,0,3,3,2,0
4,6,5,2,7,7,5,5,7,7,6,4,3,5,5,6,4,4,5,6
5,7,0,7,5,2,2,2,2,2,0,0,3,2,0,0,2,2,7,0
6,8,0,10,5,0,0,0,0,0,0,0,10,0,0,0,0,5,0,0
7,10,0,6,7,1,3,0,5,2,1,0,10,7,1,1,3,3,9,2
8,12,0,5,6,2,1,0,2,1,3,3,5,0,0,2,0,0,3,1
9,13,4,7,3,2,3,3,5,3,2,2,9,4,3,3,3,3,3,2


In [7]:
file_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 253 entries, 0 to 252
Data columns (total 19 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   REP     253 non-null    int64
 1   CARD1   253 non-null    int64
 2   CARD2   253 non-null    int64
 3   CARD3   253 non-null    int64
 4   CARD4   253 non-null    int64
 5   CARD5   253 non-null    int64
 6   CARD6   253 non-null    int64
 7   CARD7   253 non-null    int64
 8   CARD8   253 non-null    int64
 9   CARD9   253 non-null    int64
 10  CARD10  253 non-null    int64
 11  CARD11  253 non-null    int64
 12  CARD12  253 non-null    int64
 13  CARD13  253 non-null    int64
 14  CARD14  253 non-null    int64
 15  CARD15  253 non-null    int64
 16  CARD16  253 non-null    int64
 17  CARD17  253 non-null    int64
 18  CARD18  253 non-null    int64
dtypes: int64(19)
memory usage: 37.7 KB


##### Data 2 : 직교설계 카드

In [8]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Data가 존재하는 폴더
folder_root = os.path.join(root, '1. 직교설계', '1. 천연물_예비설문 및 본설문')

# csv file
xlsx_name = folder_root + '\\' + '천연물 직교설계.xlsx'

# Data 호출
card_data_raw = pd.read_excel(xlsx_name, sheet_name='레이블')

In [9]:
card_data_raw.head(50)

Unnamed: 0,천연물 실물소재의 기원 및 유용성 정보,추출물 제조유형,추출물 분석 정보 제공 여부,성분 화합물 구조 정보DB 제공 여부,실험효능 제공 여부,가상효능 제공 여부,가격,STATUS,CARD
0,제공 안함,비표준화,문헌에 공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,문헌에 공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,2000000,계획,1
1,일부 제공,표준화,문헌에 미공개된 추출물 분석 정보 제공,문헌에 미공개된 성분구조 정보 제공,제공 안함,문헌에 공개된 가상효능 정보 제공,30000,계획,2
2,일부 제공,표준화,문헌에 공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,문헌에 미공개된 실험효능 정보 제공,제공 안함,300000,계획,3
3,제공 안함,비표준화,제공 안함,제공 안함,제공 안함,제공 안함,30000,계획,4
4,모두 제공,비표준화,문헌에 미공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,제공 안함,문헌에 공개된 가상효능 정보 제공,300000,계획,5
5,모두 제공,비표준화,제공 안함,제공 안함,문헌에 미공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,300000,계획,6
6,일부 제공,비표준화,문헌에 공개된 추출물 분석 정보 제공,제공 안함,문헌에 공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,30000,계획,7
7,일부 제공,비표준화,제공 안함,문헌에 미공개된 성분구조 정보 제공,문헌에 공개된 실험효능 정보 제공,문헌에 미공개된 가상효능 정보 제공,300000,계획,8
8,모두 제공,표준화,문헌에 공개된 추출물 분석 정보 제공,제공 안함,제공 안함,문헌에 미공개된 가상효능 정보 제공,2000000,계획,9
9,일부 제공,비표준화,문헌에 미공개된 추출물 분석 정보 제공,제공 안함,문헌에 미공개된 실험효능 정보 제공,문헌에 미공개된 가상효능 정보 제공,2000000,계획,10


In [10]:
# 계획 CARD 추출
card_data = card_data_raw[card_data_raw['STATUS'] == '계획']

In [11]:
card_data.head(50)

Unnamed: 0,천연물 실물소재의 기원 및 유용성 정보,추출물 제조유형,추출물 분석 정보 제공 여부,성분 화합물 구조 정보DB 제공 여부,실험효능 제공 여부,가상효능 제공 여부,가격,STATUS,CARD
0,제공 안함,비표준화,문헌에 공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,문헌에 공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,2000000,계획,1
1,일부 제공,표준화,문헌에 미공개된 추출물 분석 정보 제공,문헌에 미공개된 성분구조 정보 제공,제공 안함,문헌에 공개된 가상효능 정보 제공,30000,계획,2
2,일부 제공,표준화,문헌에 공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,문헌에 미공개된 실험효능 정보 제공,제공 안함,300000,계획,3
3,제공 안함,비표준화,제공 안함,제공 안함,제공 안함,제공 안함,30000,계획,4
4,모두 제공,비표준화,문헌에 미공개된 추출물 분석 정보 제공,문헌에 공개된 성분구조 정보 제공,제공 안함,문헌에 공개된 가상효능 정보 제공,300000,계획,5
5,모두 제공,비표준화,제공 안함,제공 안함,문헌에 미공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,300000,계획,6
6,일부 제공,비표준화,문헌에 공개된 추출물 분석 정보 제공,제공 안함,문헌에 공개된 실험효능 정보 제공,문헌에 공개된 가상효능 정보 제공,30000,계획,7
7,일부 제공,비표준화,제공 안함,문헌에 미공개된 성분구조 정보 제공,문헌에 공개된 실험효능 정보 제공,문헌에 미공개된 가상효능 정보 제공,300000,계획,8
8,모두 제공,표준화,문헌에 공개된 추출물 분석 정보 제공,제공 안함,제공 안함,문헌에 미공개된 가상효능 정보 제공,2000000,계획,9
9,일부 제공,비표준화,문헌에 미공개된 추출물 분석 정보 제공,제공 안함,문헌에 미공개된 실험효능 정보 제공,문헌에 미공개된 가상효능 정보 제공,2000000,계획,10


In [12]:
card_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18 entries, 0 to 17
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   천연물 실물소재의 기원 및 유용성 정보  18 non-null     object
 1   추출물 제조유형               18 non-null     object
 2   추출물 분석 정보 제공 여부        18 non-null     object
 3   성분 화합물 구조 정보DB 제공 여부   18 non-null     object
 4   실험효능 제공 여부             18 non-null     object
 5   가상효능 제공 여부             18 non-null     object
 6   가격                     18 non-null     int64 
 7   STATUS                 18 non-null     object
 8   CARD                   18 non-null     int64 
dtypes: int64(2), object(7)
memory usage: 1.4+ KB


---

#### **1. 직교설계 카드 Data Preprocessing**

##### (1) 더미 변수 부여

In [13]:
# Dictionary
ols_data_dict = {}

# 변수 1 : 천연물 실물소재의 기원 및 유용성 정보
ols_data_dict['OAU1'] = [] # 제공 안함
ols_data_dict['OAU2'] = [] # 일부 제공
ols_data_dict['OAU3'] = [] # 모두 제공

# 변수 2 : 추출물 제조유형
ols_data_dict['MTY1'] = [] # 비표준화
ols_data_dict['MTY2'] = [] # 표준화

# 변수 3 : 추출물 분석 정보 제공 여부
ols_data_dict['EIN1'] = [] # 제공 안함
ols_data_dict['EIN2'] = [] # 문헌에 공개된 추출물 분석 정보 제공
ols_data_dict['EIN3'] = [] # 문헌에 미공개된 추출물 분석 정보 제공

# 변수 4 : 성분 화합물 구조 정보DB 제공 여부
ols_data_dict['SIN1'] = [] # 제공 안함
ols_data_dict['SIN2'] = [] # 문헌에 공개된 성분구조 정보 제공
ols_data_dict['SIN3'] = [] # 문헌에 미공개된 성분구조 정보 제공

# 변수 5 : 실험효능 제공 여부
ols_data_dict['EFI1'] = [] # 제공 안함
ols_data_dict['EFI2'] = [] # 문헌에 공개된 실험효능 정보 제공
ols_data_dict['EFI3'] = [] # 문헌에 미공개된 실험효능 정보 제공

# 변수 6 : 가상효능 제공 여부
ols_data_dict['AFI1'] = [] # 제공 안함
ols_data_dict['AFI2'] = [] # 문헌에 공개된 가상효능 정보 제공
ols_data_dict['AFI3'] = [] # 문헌에 미공개된 실험효능 정보 제공

# 변수 7 : 가격
ols_data_dict['PRICE'] = [] # 30,000원 # 300,000원 # 2,000,000원

In [14]:
for i in range(len(card_data)) :
    
    # 변수 1 : 천연물 실물소재의 기원 및 유용성 정보
    if card_data['천연물 실물소재의 기원 및 유용성 정보'][i] == '제공 안함':
        ols_data_dict['OAU1'].append(1)
        ols_data_dict['OAU2'].append(0)
        ols_data_dict['OAU3'].append(0)
    elif card_data['천연물 실물소재의 기원 및 유용성 정보'][i] == '일부 제공':
        ols_data_dict['OAU1'].append(0)
        ols_data_dict['OAU2'].append(1)
        ols_data_dict['OAU3'].append(0)
    else:
        ols_data_dict['OAU1'].append(0)
        ols_data_dict['OAU2'].append(0)
        ols_data_dict['OAU3'].append(1)
    
    # 변수 2 : 추출물 제조유형
    if card_data['추출물 제조유형'][i] == '비표준화':
        ols_data_dict['MTY1'].append(1)
        ols_data_dict['MTY2'].append(0)
    else:
        ols_data_dict['MTY1'].append(0)
        ols_data_dict['MTY2'].append(1)
    
    # 변수 3 : 추출물 분석 정보 제공 여부
    if card_data['추출물 분석 정보 제공 여부'][i] == '제공 안함':
        ols_data_dict['EIN1'].append(1)
        ols_data_dict['EIN2'].append(0)
        ols_data_dict['EIN3'].append(0)
    elif card_data['추출물 분석 정보 제공 여부'][i] == '문헌에 공개된 추출물 분석 정보 제공':
        ols_data_dict['EIN1'].append(0)
        ols_data_dict['EIN2'].append(1)
        ols_data_dict['EIN3'].append(0)
    else:
        ols_data_dict['EIN1'].append(0)
        ols_data_dict['EIN2'].append(0)
        ols_data_dict['EIN3'].append(1)
    
    # 변수 4 : 성분 화합물 구조 정보DB 제공 여부
    if card_data['성분 화합물 구조 정보DB 제공 여부'][i] == '제공 안함':
        ols_data_dict['SIN1'].append(1)
        ols_data_dict['SIN2'].append(0)
        ols_data_dict['SIN3'].append(0)
    elif card_data['성분 화합물 구조 정보DB 제공 여부'][i] == '문헌에 공개된 성분구조 정보 제공':
        ols_data_dict['SIN1'].append(0)
        ols_data_dict['SIN2'].append(1)
        ols_data_dict['SIN3'].append(0)
    else:
        ols_data_dict['SIN1'].append(0)
        ols_data_dict['SIN2'].append(0)
        ols_data_dict['SIN3'].append(1)
    
    # 변수 5 : 실험효능 제공 여부
    if card_data['실험효능 제공 여부'][i] == '제공 안함':
        ols_data_dict['EFI1'].append(1)
        ols_data_dict['EFI2'].append(0)
        ols_data_dict['EFI3'].append(0)
    elif card_data['실험효능 제공 여부'][i] == '문헌에 공개된 실험효능 정보 제공':
        ols_data_dict['EFI1'].append(0)
        ols_data_dict['EFI2'].append(1)
        ols_data_dict['EFI3'].append(0)
    else:
        ols_data_dict['EFI1'].append(0)
        ols_data_dict['EFI2'].append(0)
        ols_data_dict['EFI3'].append(1)
    
    # 변수 6 : 가상효능 제공 여부
    if card_data['가상효능 제공 여부'][i] == '제공 안함':
        ols_data_dict['AFI1'].append(1)
        ols_data_dict['AFI2'].append(0)
        ols_data_dict['AFI3'].append(0)
    elif card_data['가상효능 제공 여부'][i] == '문헌에 공개된 가상효능 정보 제공':
        ols_data_dict['AFI1'].append(0)
        ols_data_dict['AFI2'].append(1)
        ols_data_dict['AFI3'].append(0)
    else:
        ols_data_dict['AFI1'].append(0)
        ols_data_dict['AFI2'].append(0)
        ols_data_dict['AFI3'].append(1)
    
    # 변수 7 : 가격
    if card_data['가격'][i] == 30000:
        ols_data_dict['PRICE'].append(30000)
    elif card_data['가격'][i] == 300000:
        ols_data_dict['PRICE'].append(300000)
    else:
        ols_data_dict['PRICE'].append(2000000)

# Dictionary -> Data Frame
ols_data_df = pd.DataFrame(ols_data_dict)

In [15]:
ols_data_df

Unnamed: 0,OAU1,OAU2,OAU3,MTY1,MTY2,EIN1,EIN2,EIN3,SIN1,SIN2,SIN3,EFI1,EFI2,EFI3,AFI1,AFI2,AFI3,PRICE
0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,2000000
1,0,1,0,0,1,0,0,1,0,0,1,1,0,0,0,1,0,30000
2,0,1,0,0,1,0,1,0,0,1,0,0,0,1,1,0,0,300000
3,1,0,0,1,0,1,0,0,1,0,0,1,0,0,1,0,0,30000
4,0,0,1,1,0,0,0,1,0,1,0,1,0,0,0,1,0,300000
5,0,0,1,1,0,1,0,0,1,0,0,0,0,1,0,1,0,300000
6,0,1,0,1,0,0,1,0,1,0,0,0,1,0,0,1,0,30000
7,0,1,0,1,0,1,0,0,0,0,1,0,1,0,0,0,1,300000
8,0,0,1,0,1,0,1,0,1,0,0,1,0,0,0,0,1,2000000
9,0,1,0,1,0,0,0,1,1,0,0,0,0,1,0,0,1,2000000


---

#### **2. 천연물 본설문 응답 Data Preprocessing**

##### (1) Conjoint Analysis(CA)를 통한 응답자 필터링
- Step 1 : 동일한 Rank 값 제외
- Step 2 : 검증용 켄달타우 < 0 & 검증용 켄달타우 < 0.4 & '.' 제외
- Step 3 : 추정용(18개 CARD) 피어슨 < 0.6147 or 켄달타우 < 0.4 제외
- Program : SPSS

##### (2) 각 카드에 대한 구매 가능성 응답 부여

In [16]:
# List
ols_data = []

# 응답자 번호
card_index = file_data['REP'].to_list()

for i in range(len(card_index)):
    temp = ols_data_df.copy() # Data Frame 복사
    temp['Y'] = file_data.iloc[i, 1:].copy().to_numpy() # 구매 가능성(0~10)
    temp['INDEX'] = [card_index[i] for _ in range(18)] # 응답자 번호
    temp['CARD'] = [j+1 for j in range(18)] # 직교설계 카드 번호
    ols_data.append(temp.copy())

# Result
ols_data = pd.concat(ols_data)

# Data Frame Column 위치 변경
col1 = ols_data.columns[-2:].to_list()
col2 = ols_data.columns[:-2].to_list()
new_col_name = col1 + col2
ols_data = ols_data[new_col_name]

In [17]:
ols_data

Unnamed: 0,INDEX,CARD,OAU1,OAU2,OAU3,MTY1,MTY2,EIN1,EIN2,EIN3,...,SIN2,SIN3,EFI1,EFI2,EFI3,AFI1,AFI2,AFI3,PRICE,Y
0,1,1,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,1,0,2000000,5
1,1,2,0,1,0,0,1,0,0,1,...,0,1,1,0,0,0,1,0,30000,5
2,1,3,0,1,0,0,1,0,1,0,...,1,0,0,0,1,1,0,0,300000,4
3,1,4,1,0,0,1,0,1,0,0,...,0,0,1,0,0,1,0,0,30000,7
4,1,5,0,0,1,1,0,0,0,1,...,1,0,1,0,0,0,1,0,300000,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13,499,14,0,0,1,1,0,0,0,1,...,0,1,0,1,0,1,0,0,2000000,8
14,499,15,1,0,0,1,0,0,1,0,...,0,1,1,0,0,0,0,1,300000,3
15,499,16,1,0,0,0,1,0,0,1,...,0,0,0,1,0,1,0,0,300000,4
16,499,17,0,0,1,1,0,0,1,0,...,0,1,0,0,1,1,0,0,30000,9


##### (3) csv file 제작

In [18]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '1. 천연물', 'Data')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
result_csv_name = folder_root + '\\' + '천연물_본설문_OLS_Data.csv'
ols_data.to_csv(result_csv_name, mode='w', index=False)

---

#### **3. 천연물 본설문 응답 OLS**

##### (1) 모든 더미 변수(dummy variable) 대입한 OLS

In [19]:
# Independent variable : ORIGIN1 ~ PRICE(속성 및 수준)
ols_data.columns.to_list()[2:-1]

['OAU1',
 'OAU2',
 'OAU3',
 'MTY1',
 'MTY2',
 'EIN1',
 'EIN2',
 'EIN3',
 'SIN1',
 'SIN2',
 'SIN3',
 'EFI1',
 'EFI2',
 'EFI3',
 'AFI1',
 'AFI2',
 'AFI3',
 'PRICE']

In [20]:
# OLS
# Dependent variable : Y
# Independent variable : ORIGIN1 ~ PRICE(속성 및 수준)
natural_ols = ols('Y ~ ' + ' + '.join(ols_data.columns.to_list()[2:-1]), data=ols_data).fit()
natural_ols.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.201
Model:,OLS,Adj. R-squared:,0.199
Method:,Least Squares,F-statistic:,95.08
Date:,"Tue, 17 Oct 2023",Prob (F-statistic):,1.6e-210
Time:,13:09:58,Log-Likelihood:,-10923.0
No. Observations:,4554,AIC:,21870.0
Df Residuals:,4541,BIC:,21950.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.6158,0.017,93.483,0.000,1.582,1.650
OAU1,-0.0894,0.056,-1.591,0.112,-0.200,0.021
OAU2,0.7933,0.056,14.120,0.000,0.683,0.903
OAU3,0.9119,0.056,16.230,0.000,0.802,1.022
MTY1,0.0052,0.041,0.129,0.898,-0.074,0.085
MTY2,1.6106,0.045,35.865,0.000,1.523,1.699
EIN1,0.2881,0.056,5.127,0.000,0.178,0.398
EIN2,0.5931,0.056,10.556,0.000,0.483,0.703
EIN3,0.7347,0.056,13.076,0.000,0.625,0.845

0,1,2,3
Omnibus:,206.89,Durbin-Watson:,1.42
Prob(Omnibus):,0.0,Jarque-Bera (JB):,114.62
Skew:,0.229,Prob(JB):,1.29e-25
Kurtosis:,2.372,Cond. No.,1.86e+21


##### (2) 각 더미 변수(dummy variable)에서 1개씩 제외한 모든 경우의 수의 OLS

In [21]:
X_case = []
for OAU in ['OAU1','OAU2', 'OAU3']:
    for MTY in ['MTY1','MTY2']:
        for EIN in ['EIN1','EIN2', 'EIN3']:
            for SIN in ['SIN1','SIN2', 'SIN3']:
                for EFI in ['EFI1','EFI2', 'EFI3']:
                    for AFI in ['AFI1','AFI2', 'AFI3']:
                        X_case.append(f'Y ~ {OAU} + {MTY} + {EIN} + {SIN} + {EFI} + {AFI} + PRICE')

# 앞 부분만 확인
X_case[:5]

['Y ~ OAU1 + MTY1 + EIN1 + SIN1 + EFI1 + AFI1 + PRICE',
 'Y ~ OAU1 + MTY1 + EIN1 + SIN1 + EFI1 + AFI2 + PRICE',
 'Y ~ OAU1 + MTY1 + EIN1 + SIN1 + EFI1 + AFI3 + PRICE',
 'Y ~ OAU1 + MTY1 + EIN1 + SIN1 + EFI2 + AFI1 + PRICE',
 'Y ~ OAU1 + MTY1 + EIN1 + SIN1 + EFI2 + AFI2 + PRICE']

In [22]:
# List 생성
# 1번째 내용 : 모든 더미 변수(dummy variable)를 대입한 OLS
natural_ols_all_case = [natural_ols.params.iloc[1:]]

for model in X_case:
    ols_fit = ols(model, data=ols_data).fit() # Fitting OLS
    natural_ols_all_case.append(ols_fit.params.iloc[1:].copy())

# Result
natural_ols_all_case = pd.concat(natural_ols_all_case, axis=1).T
natural_ols_all_case[natural_ols_all_case.isna()] = 0.0

In [23]:
natural_ols_all_case

Unnamed: 0,OAU1,OAU2,OAU3,MTY1,MTY2,EIN1,EIN2,EIN3,SIN1,SIN2,SIN3,EFI1,EFI2,EFI3,AFI1,AFI2,AFI3,PRICE
0,-0.089405,0.793335,0.911912,0.005220,1.610622,0.288065,0.593072,0.734705,0.110199,0.782136,0.723506,0.344719,0.582531,0.688592,0.398737,0.527854,0.689251,-0.000001
1,-0.942029,0.000000,0.000000,-1.605402,0.000000,-0.375823,0.000000,0.000000,-0.642622,0.000000,0.000000,-0.290843,0.000000,0.000000,-0.209816,0.000000,0.000000,-0.000001
2,-0.942029,0.000000,0.000000,-1.605402,0.000000,-0.375823,0.000000,0.000000,-0.642622,0.000000,0.000000,-0.290843,0.000000,0.000000,0.000000,-0.016140,0.000000,-0.000001
3,-0.942029,0.000000,0.000000,-1.605402,0.000000,-0.375823,0.000000,0.000000,-0.642622,0.000000,0.000000,-0.290843,0.000000,0.000000,0.000000,0.000000,0.225955,-0.000001
4,-0.942029,0.000000,0.000000,-1.605402,0.000000,-0.375823,0.000000,0.000000,-0.642622,0.000000,0.000000,0.000000,0.065876,0.000000,-0.209816,0.000000,0.000000,-0.000001
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
482,0.000000,0.000000,0.559947,0.000000,1.605402,0.000000,0.000000,0.294137,0.000000,0.000000,0.277339,0.000000,0.065876,0.000000,0.000000,-0.016140,0.000000,-0.000001
483,0.000000,0.000000,0.559947,0.000000,1.605402,0.000000,0.000000,0.294137,0.000000,0.000000,0.277339,0.000000,0.065876,0.000000,0.000000,0.000000,0.225955,-0.000001
484,0.000000,0.000000,0.559947,0.000000,1.605402,0.000000,0.000000,0.294137,0.000000,0.000000,0.277339,0.000000,0.000000,0.224967,-0.209816,0.000000,0.000000,-0.000001
485,0.000000,0.000000,0.559947,0.000000,1.605402,0.000000,0.000000,0.294137,0.000000,0.000000,0.277339,0.000000,0.000000,0.224967,0.000000,-0.016140,0.000000,-0.000001


##### csv file 제작

In [24]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '1. 천연물', 'Result')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
all_result_csv_name = folder_root + '\\' + '천연물_본설문_OLS_All Cases.csv'
natural_ols_all_case.to_csv(all_result_csv_name, mode='w', index=False)

---

#### **4. SPSS OLS 결과와 비교 : '계수' 및 '유틸리티 추정'**
- 전반적인 과정은 위와 동일함.
- 변경점
    - 변수 : 가격(PRICE)
    - 기존 : 실수(float) -> 30,000 / 300,000 / 2,000,000
    - 변경 : 범주(category) -> 30,000 = 1 / 300,000 = 2 / 2,000,000 = 3

##### (1) 직교설계 카드

In [30]:
# Dictionary
spss_ols_data_dict = {}

# 변수 1 : 천연물 실물소재의 기원 및 유용성 정보
spss_ols_data_dict['OAU1'] = [] # 제공 안함
spss_ols_data_dict['OAU2'] = [] # 일부 제공
spss_ols_data_dict['OAU3'] = [] # 모두 제공

# 변수 2 : 추출물 제조유형
spss_ols_data_dict['MTY1'] = [] # 비표준화
spss_ols_data_dict['MTY2'] = [] # 표준화

# 변수 3 : 추출물 분석 정보 제공 여부
spss_ols_data_dict['EIN1'] = [] # 제공 안함
spss_ols_data_dict['EIN2'] = [] # 문헌에 공개된 추출물 분석 정보 제공
spss_ols_data_dict['EIN3'] = [] # 문헌에 미공개된 추출물 분석 정보 제공

# 변수 4 : 성분 화합물 구조 정보DB 제공 여부
spss_ols_data_dict['SIN1'] = [] # 제공 안함
spss_ols_data_dict['SIN2'] = [] # 문헌에 공개된 성분구조 정보 제공
spss_ols_data_dict['SIN3'] = [] # 문헌에 미공개된 성분구조 정보 제공

# 변수 5 : 실험효능 제공 여부
spss_ols_data_dict['EFI1'] = [] # 제공 안함
spss_ols_data_dict['EFI2'] = [] # 문헌에 공개된 실험효능 정보 제공
spss_ols_data_dict['EFI3'] = [] # 문헌에 미공개된 실험효능 정보 제공

# 변수 6 : 가상효능 제공 여부
spss_ols_data_dict['AFI1'] = [] # 제공 안함
spss_ols_data_dict['AFI2'] = [] # 문헌에 공개된 가상효능 정보 제공
spss_ols_data_dict['AFI3'] = [] # 문헌에 미공개된 실험효능 정보 제공

# 변수 7 : 가격
spss_ols_data_dict['PRICE'] = [] # 30,000원 # 300,000원 # 2,000,000원

In [31]:
for i in range(len(card_data)) :
    
    # 변수 1 : 천연물 실물소재의 기원 및 유용성 정보
    if card_data['천연물 실물소재의 기원 및 유용성 정보'][i] == '제공 안함':
        spss_ols_data_dict['OAU1'].append(1)
        spss_ols_data_dict['OAU2'].append(0)
        spss_ols_data_dict['OAU3'].append(0)
    elif card_data['천연물 실물소재의 기원 및 유용성 정보'][i] == '일부 제공':
        spss_ols_data_dict['OAU1'].append(0)
        spss_ols_data_dict['OAU2'].append(1)
        spss_ols_data_dict['OAU3'].append(0)
    else:
        spss_ols_data_dict['OAU1'].append(0)
        spss_ols_data_dict['OAU2'].append(0)
        spss_ols_data_dict['OAU3'].append(1)
    
    # 변수 2 : 추출물 제조유형
    if card_data['추출물 제조유형'][i] == '비표준화':
        spss_ols_data_dict['MTY1'].append(1)
        spss_ols_data_dict['MTY2'].append(0)
    else:
        spss_ols_data_dict['MTY1'].append(0)
        spss_ols_data_dict['MTY2'].append(1)
    
    # 변수 3 : 추출물 분석 정보 제공 여부
    if card_data['추출물 분석 정보 제공 여부'][i] == '제공 안함':
        spss_ols_data_dict['EIN1'].append(1)
        spss_ols_data_dict['EIN2'].append(0)
        spss_ols_data_dict['EIN3'].append(0)
    elif card_data['추출물 분석 정보 제공 여부'][i] == '문헌에 공개된 추출물 분석 정보 제공':
        spss_ols_data_dict['EIN1'].append(0)
        spss_ols_data_dict['EIN2'].append(1)
        spss_ols_data_dict['EIN3'].append(0)
    else:
        spss_ols_data_dict['EIN1'].append(0)
        spss_ols_data_dict['EIN2'].append(0)
        spss_ols_data_dict['EIN3'].append(1)
    
    # 변수 4 : 성분 화합물 구조 정보DB 제공 여부
    if card_data['성분 화합물 구조 정보DB 제공 여부'][i] == '제공 안함':
        spss_ols_data_dict['SIN1'].append(1)
        spss_ols_data_dict['SIN2'].append(0)
        spss_ols_data_dict['SIN3'].append(0)
    elif card_data['성분 화합물 구조 정보DB 제공 여부'][i] == '문헌에 공개된 성분구조 정보 제공':
        spss_ols_data_dict['SIN1'].append(0)
        spss_ols_data_dict['SIN2'].append(1)
        spss_ols_data_dict['SIN3'].append(0)
    else:
        spss_ols_data_dict['SIN1'].append(0)
        spss_ols_data_dict['SIN2'].append(0)
        spss_ols_data_dict['SIN3'].append(1)
    
    # 변수 5 : 실험효능 제공 여부
    if card_data['실험효능 제공 여부'][i] == '제공 안함':
        spss_ols_data_dict['EFI1'].append(1)
        spss_ols_data_dict['EFI2'].append(0)
        spss_ols_data_dict['EFI3'].append(0)
    elif card_data['실험효능 제공 여부'][i] == '문헌에 공개된 실험효능 정보 제공':
        spss_ols_data_dict['EFI1'].append(0)
        spss_ols_data_dict['EFI2'].append(1)
        spss_ols_data_dict['EFI3'].append(0)
    else:
        spss_ols_data_dict['EFI1'].append(0)
        spss_ols_data_dict['EFI2'].append(0)
        spss_ols_data_dict['EFI3'].append(1)
    
    # 변수 6 : 가상효능 제공 여부
    if card_data['가상효능 제공 여부'][i] == '제공 안함':
        spss_ols_data_dict['AFI1'].append(1)
        spss_ols_data_dict['AFI2'].append(0)
        spss_ols_data_dict['AFI3'].append(0)
    elif card_data['가상효능 제공 여부'][i] == '문헌에 공개된 가상효능 정보 제공':
        spss_ols_data_dict['AFI1'].append(0)
        spss_ols_data_dict['AFI2'].append(1)
        spss_ols_data_dict['AFI3'].append(0)
    else:
        spss_ols_data_dict['AFI1'].append(0)
        spss_ols_data_dict['AFI2'].append(0)
        spss_ols_data_dict['AFI3'].append(1)
    
    # 변수 7 : 가격
    if card_data['가격'][i] == 30000:
        spss_ols_data_dict['PRICE'].append(1)
    elif card_data['가격'][i] == 300000:
        spss_ols_data_dict['PRICE'].append(2)
    else:
        spss_ols_data_dict['PRICE'].append(3)

# Dictionary -> Data Frame
spss_ols_data_df = pd.DataFrame(spss_ols_data_dict)

In [32]:
spss_ols_data_df

Unnamed: 0,OAU1,OAU2,OAU3,MTY1,MTY2,EIN1,EIN2,EIN3,SIN1,SIN2,SIN3,EFI1,EFI2,EFI3,AFI1,AFI2,AFI3,PRICE
0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,0,1,0,3
1,0,1,0,0,1,0,0,1,0,0,1,1,0,0,0,1,0,1
2,0,1,0,0,1,0,1,0,0,1,0,0,0,1,1,0,0,2
3,1,0,0,1,0,1,0,0,1,0,0,1,0,0,1,0,0,1
4,0,0,1,1,0,0,0,1,0,1,0,1,0,0,0,1,0,2
5,0,0,1,1,0,1,0,0,1,0,0,0,0,1,0,1,0,2
6,0,1,0,1,0,0,1,0,1,0,0,0,1,0,0,1,0,1
7,0,1,0,1,0,1,0,0,0,0,1,0,1,0,0,0,1,2
8,0,0,1,0,1,0,1,0,1,0,0,1,0,0,0,0,1,3
9,0,1,0,1,0,0,0,1,1,0,0,0,0,1,0,0,1,3


##### (2) 각 카드에 대한 구매 가능성 응답 부여

In [33]:
# List
spss_ols_data = []

# 응답자 번호
card_index = file_data['REP'].to_list()

for i in range(len(card_index)):
    temp = spss_ols_data_df.copy() # Data Frame 복사
    temp['Y'] = file_data.iloc[i, 1:].copy().to_numpy() # 구매 가능성(0~10)
    temp['INDEX'] = [card_index[i] for _ in range(18)] # 응답자 번호
    temp['CARD'] = [j+1 for j in range(18)] # 직교설계 카드 번호
    spss_ols_data.append(temp.copy())

# Result
spss_ols_data = pd.concat(spss_ols_data)

# Data Frame Column 위치 변경
col1 = spss_ols_data.columns[-2:].to_list()
col2 = spss_ols_data.columns[:-2].to_list()
new_col_name = col1 + col2
spss_ols_data = spss_ols_data[new_col_name]

In [34]:
# PRICE가 category = 1, 2, 3으로 변경된 것을 확인할 수 있음.
spss_ols_data

Unnamed: 0,INDEX,CARD,OAU1,OAU2,OAU3,MTY1,MTY2,EIN1,EIN2,EIN3,...,SIN2,SIN3,EFI1,EFI2,EFI3,AFI1,AFI2,AFI3,PRICE,Y
0,1,1,1,0,0,1,0,0,1,0,...,1,0,0,1,0,0,1,0,3,5
1,1,2,0,1,0,0,1,0,0,1,...,0,1,1,0,0,0,1,0,1,5
2,1,3,0,1,0,0,1,0,1,0,...,1,0,0,0,1,1,0,0,2,4
3,1,4,1,0,0,1,0,1,0,0,...,0,0,1,0,0,1,0,0,1,7
4,1,5,0,0,1,1,0,0,0,1,...,1,0,1,0,0,0,1,0,2,4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13,499,14,0,0,1,1,0,0,0,1,...,0,1,0,1,0,1,0,0,3,8
14,499,15,1,0,0,1,0,0,1,0,...,0,1,1,0,0,0,0,1,2,3
15,499,16,1,0,0,0,1,0,0,1,...,0,0,0,1,0,1,0,0,2,4
16,499,17,0,0,1,1,0,0,1,0,...,0,1,0,0,1,1,0,0,1,9


##### (3) OLS

In [35]:
# Independent variable
dummy_x = ['OAU2', 'OAU3',     # 기준변수 : OAU1
           'MTY2',             # 기준변수 : MTY1
           'EIN1', 'EIN3',     # 기준변수 : EIN2
           'SIN2', 'SIN3',     # 기준변수 : SIN1
           'EFI1', 'EFI3',     # 기준변수 : EFI2
           'AFI1', 'AFI3',     # 기준변수 : AFI2
           'PRICE']

In [36]:
# OLS
# Dependent variable : Y
# Independent variable : dummy_x
spss_natural_ols = ols('Y ~ ' + ' + '.join(dummy_x), data=spss_ols_data).fit()
spss_natural_ols.summary()

0,1,2,3
Dep. Variable:,Y,R-squared:,0.218
Model:,OLS,Adj. R-squared:,0.216
Method:,Least Squares,F-statistic:,105.4
Date:,"Tue, 17 Oct 2023",Prob (F-statistic):,1.45e-231
Time:,13:17:07,Log-Likelihood:,-10874.0
No. Observations:,4554,AIC:,21770.0
Df Residuals:,4541,BIC:,21860.0
Df Model:,12,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,4.9732,0.164,30.407,0.000,4.653,5.294
OAU2,0.8827,0.096,9.217,0.000,0.695,1.070
OAU3,1.0013,0.096,10.456,0.000,0.814,1.189
MTY2,1.6054,0.083,19.357,0.000,1.443,1.768
EIN1,-0.3050,0.096,-3.185,0.001,-0.493,-0.117
EIN3,0.1416,0.096,1.479,0.139,-0.046,0.329
SIN2,0.6719,0.096,7.016,0.000,0.484,0.860
SIN3,0.6133,0.096,6.404,0.000,0.426,0.801
EFI1,-0.2378,0.096,-2.483,0.013,-0.426,-0.050

0,1,2,3
Omnibus:,215.434,Durbin-Watson:,1.399
Prob(Omnibus):,0.0,Jarque-Bera (JB):,107.754
Skew:,0.189,Prob(JB):,4e-24
Kurtosis:,2.349,Cond. No.,12.7


##### (4) 개별 응답자에 대한 OLS

In [37]:
# List 생성
response_ols_all_case = []

for idx in card_index:
    response_ols_fit = ols('Y ~ ' + ' + '.join(dummy_x), data=spss_ols_data.loc[spss_ols_data['INDEX'] == idx]).fit() # Fitting OLS
    response_ols_all_case.append(response_ols_fit.params.copy())

response_ols_all_case = pd.concat(response_ols_all_case, axis=1).T

In [38]:
# Index 열 추가
response_ols_all_case['INDEX'] = card_index

In [39]:
# Data Frame Column 위치 변경
col1 = ['INDEX']
col2 = response_ols_all_case.columns[:-1].to_list()
new_col_name = col1 + col2
response_ols_all_case = response_ols_all_case[new_col_name]

In [40]:
# Result
response_ols_all_case

Unnamed: 0,INDEX,Intercept,OAU2,OAU3,MTY2,EIN1,EIN3,SIN2,SIN3,EFI1,EFI3,AFI1,AFI3,PRICE
0,1,7.055556,-0.500000,1.666667e-01,-0.333333,1.165734e-15,-3.333333e-01,-1.500000,-1.333333e+00,0.166667,8.881784e-16,0.833333,1.333333e+00,-0.333333
1,2,13.361111,-0.666667,-2.500000e+00,-1.416667,-2.166667e+00,-1.776357e-15,-1.666667,2.664535e-15,2.000000,1.333333e+00,0.666667,-1.333333e+00,-4.083333
2,3,1.722222,2.833333,2.333333e+00,1.166667,-3.333333e-01,1.000000e+00,1.666667,3.000000e+00,-0.166667,8.333333e-01,0.500000,6.666667e-01,-0.916667
3,5,12.111111,0.833333,-2.000000e+00,-0.166667,6.666667e-01,1.666667e-01,-3.166667,-1.000000e+00,0.500000,-2.166667e+00,-1.166667,-1.500000e+00,-3.166667
4,6,5.500000,0.500000,9.992007e-16,-1.000000,-1.666667e-01,-1.333333e+00,-0.333333,-6.666667e-01,-0.333333,-1.666667e-01,1.000000,-1.117599e-16,0.250000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
248,492,8.277778,1.666667,3.666667e+00,-0.166667,-8.333333e-01,-1.333333e+00,-0.500000,8.333333e-01,-2.166667,2.500000e+00,-2.000000,1.333333e+00,-2.083333
249,493,6.833333,3.500000,2.000000e+00,2.000000,-2.000000e+00,-5.000000e-01,2.000000,1.500000e+00,-0.166667,-3.333333e-01,-1.833333,-1.666667e-01,-2.250000
250,495,4.583333,1.333333,1.166667e+00,0.250000,-1.500000e+00,-4.440892e-16,0.333333,1.666667e+00,-0.333333,1.333333e+00,-1.166667,1.666667e-01,-0.250000
251,498,3.583333,0.333333,-3.333333e-01,0.250000,-2.166667e+00,1.666667e-01,0.333333,6.666667e-01,0.333333,1.166667e+00,0.333333,1.666667e-01,-0.750000


##### csv file 제작

In [41]:
# Windows : Directory '\\'
# Mac : Directory '/'

# Directory
folder_root = os.path.join(root, '3. 본설문 분석', '1. 천연물', 'Result')
if not os.path.isdir(folder_root):
    os.makedirs(folder_root)

# Data Frame -> csv file
response_ols_result_csv_name = folder_root + '\\' + '천연물_본설문_개별응답자_OLS.csv'
response_ols_all_case.to_csv(response_ols_result_csv_name, mode='w', index=False)

##### (5) SPSS 유틸리티 추정과 비교
##### **Utility 산출 과정**

- 참고 : 변수명은 다르지만, Process는 동일함.
<br>

- **(1) 속성 변환**
     - (1-i) DISCRETE 자료 -> 각 속성별로 변수 배정
          - ex. POTENTIAL, DATA -> POTENTIAL1, POTENTIAL2, DATA1, DATA2, DATA3  
       
     <br>
     
     - (1-ii) LESS 자료 -> 각 속성별로 정수 값 배정
          - ex. PRICE의 40k, 100k, 300k -> 1, 2, 3  
<br>

- **(2) DISCRETE 자료 속성의 변수 중 한개씩 제외 후 OLS수행**
     - (2-i) 이후 OLS에서 제외된 변수들에게는 beta(회귀계수)값으로 0 배정
          - 변환된 데이터에서 [POTENTIAL2, TYPE2, INFODB2, DATA2, DATA3, SERVICE2, PRICE]를 독립변수로 OLS
          - 기준변수 : [POTENTIAL1, TYPE1, INFODB1, DATA1, SERVICE1]
          
          <br>  
          
          |CONSTANT|POTENTIAL1|POTENTIAL2|TYPE1|TYPE2|INFODB1|INFODB2|DATA1|DATA2|DATA3|SERVICE1|SERVICE2|PRICE|
          |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
          |B0|0|B1|0|B2|0|B3|0|B4|B5|0|B6|B7|
  
<br>

- **(3) DISCRETE 자료들 중에서 속성별 beta의 합이 0이 되지 않는다면, 그 평균으로 보정값 산출**
     |POTENTIAL|TYPE|INFODB|DATA|SERVICE|
     |:---:|:---:|:---:|:---:|:---:|
     |[0+B1≠0] (0+B1)/2 = C1|[0+B2≠0] (0+B2)/2 = C2|[0+B3≠0] (0+B3)/2 = C3|[0+B4+B5≠0] (0+B4+B5)/3 = C4|[0+B6≠0] (0+B6)/2 = C5|
<br>

- **(4) 모든 속성의 보정값은 CONSTANT(상수)의 beta와 합산하고, 속성별로 각자의 보정값을 뺄셈**
     |CONSTANT|POTENTIAL1|POTENTIAL2|TYPE1|TYPE2|INFODB1|INFODB2|DATA1|DATA2|DATA3|SERVICE1|SERVICE2|PRICE|
     |:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
     |B0|0|B1|0|B2|0|B3|0|B4|B5|0|B6|B7|
     |+C1+C2+C3+C4+C5|-C1|-C1|-C2|-C2|-C3|-C3|-C4 |-C4|-C4|-C5|-C5|| 