# **Jupyter Notebook for GCR Education with MQL data**
</br>

### LG MQL solution

- MQL (Marketing Qualified Lead) solution은 가망고객 (Lead)의 정보 (profile과 behavior)로부터 고객 (Customer)으로 전환될 가능성을 예측해 내고, 가망고객의 어떤 정보가 고객 전환 가능성에 얼마나 기여하는지 설명해주는 solution입니다.

- LG의 MQL solution은 Graph ML (Machine Learning)에 기반한 feature engineering 기술인 GFE (Graph Feature Engineering)을 통해 가망고객의 정보를 요약/처리함으로써 고객 전환 가능성 예측에 있어서 높은 정확도를 제공합니다.

---

### GFE technology

- DX를 통한 MQL 발견의 시작은 가망고객들의 정보가 담긴 데이터입니다. 하지만, 주로 home page를 방문한 가망고객들의 설문에 대한 자발적인 답변에 기반한 이러한 데이터는, 다음과 같은 제약들로 인해 고객전환 가능성을 찾아내기가 쉽지 않습니다.
 - 결측치
 - 범주형 데이터 항목
 - 제한적 정보
- GFE 기술은 주어진 가망고객 데이터에 보편적인 맥락을 더해 graph로 구성함으로써 제한된 데이터에서 최대한의 정보를 도출하며, graph 특성 상 결측치와 범주형 데이터에 의한 문제를 극복함으로써 궁극적으로 고객전환 가능성 예측 정확도를 개선합니다.
 - 보편적인 맥락의 예: 같은 Budget 액수라도 대상 Region에 따라 계약이 성사될 가능성이 달라질 것임. 따라서, Budget은 Region이라는 맥락으로 보정해 받아들여야 MQL 예측이 정확해질 것.
 
 ---

### GCR 2.1.0 AI Solution을 이용한 MQL AI Solution 개발을 위한 환경 설정

#### 주요 기능 소개
- GCR은 거대 그래프 학습을 목적으로 FaceBook에서 개발한 pytorch-BigGraph를 기반으로 만들었습니다.
- Graph Partitioning을 활용하여 적은 리소스로도 그래프 학습이 가능합니다.
- GCR은 결측치에 강인하여 별도의 전처리 없이 model 학습이 가능합니다.
- Optuna HPO를 활용하여 높은 성능을 확보할 수 있는 parameter들을 찾습니다.
- Inductive graph embedding의 적용을 통해 graph embedding 기반이면서도 일반적인 machine learning model과 동일하게 inference 시 classification/regression 모델의 재학습이 필요 없습니다.

상세한 설명은 [documentation](http://collab.lge.com/main/pages/viewpage.action?pageId=2338397990)을 참고해주세요. 

#### Quick Install Guide

+ ***먼저 ALO를 설치합니다.***    
<br />

이 때, 사용할 GCR version에 맞는 ALO version 설치가 필요합니다.   
GCR 2.1.0을 사용하기 위해서는 ALO version 2.3.2를 설치합니다.   
<br />

작업 directory를 준비합니다 (여기에서는 예를 들어 aisolution_gcr_2.1.0이라는 directory를 생성합니다).   
<br />
   
> mkdir aisolution_gcr_2.1.0   
> cd aisolution_gcr_2.1.0   
<br />

AI solution name (예를 들어 gcr_solution)으로 ALO를 설치합니다.   
이러면 gcr_solution이라는 directory가 생기고 그 안에 GCR을 설치하게 됩니다 (GCR 기반 AI solution 작업도 그곳에서 진행합니다).
<br />

> git clone http://mod.lge.com/hub/dxadvtech/aicontents-framework/alo.git -b release-2.3.2 gcr_solution   
> cd gcr_solution   
<br />

AI solution 개발을 위한 가상환경을 만들어 줍니다 (예를 들어 gcr_solution을 가상환경 이름으로 사용).   
이미 어떤 가상환경에 진입한 상태라면, conda deactivate를 수행해 해당 환경에서 빠져나간 뒤 수행해 주십시오.   
<br />

> conda create -n gcr_solution python=3.10  => 3.10 필수   
> conda init bash   
> source ~/.bashrc => 이 명령은 아래 conda activate gcr_solution을 바로 수행했을 때 동작하지 않는 경우에만 수행해 주십시오.   
> conda activate gcr_solution   
> pip install -r requirements.txt   
<br />

만일 conda 환경을 사용할 수 없는 경우를 위해, pyenv 가상환경을 만드는 법을 설명합니다.   

- pyenv 설치

> pyenv 설치 script 받기   
> git clone http://mod.lge.com/hub/wonjun.sung/alo-pratice.git

- 원본 bashrc 저장
> cp ~/.bashrc ~/.bashrc.org   
> bash alo-practice/install_pyenv.sh   
> source ~/.bashrc

- pyenv를 통해 python 3.10 설치

> pyenv install 3.10   

- pyenv 실행

> pyenv global 3.10

- pipenv 설치

> python3 -m pip install --user pipenv

- pipenv 실행

> mkdir gcr_solution <- mkdir {virtual_env_dir} -> 이미 gcr_solution 내 이므로 생략   
> cd gcr_solution <- cd {virtual_env_dir} -> 이미 gcr_solution 내 이므로 생략   
> pipenv --python 3.10   
> pipenv shell   

- (참고) 가상환경 삭제 방법

> pipenv shell 이후라면
> {virtual_env_dir} 가상환경 실행된 폴더에서 진행

> pipenv --rm
> exit
> rm -rf {virtual_env_dir}


+ ***ALO 설치가 완료되었으면, GCR 2.1.0을 설치합니다.***   
<br />

> git clone -b release-2.1.0_edu --single-branch http://mod.lge.com/hub/dxadvtech/aicontents/gcr.git solution   
<br />

Default로 제공되는 sample data 대신 다른 data를 이용하려면 아래와 같이 experimental_plan.yaml을 수정합니다.   
<br />

> vi aisolution_gcr_2.1.0/gcr_solution/solution/experimental_plan.yaml   
<br />

external_path의 load_train_data_path에 아래와 같이 사용할 데이터의 경로(디렉토리)를 입력합니다.   
<br />

>```   
>external_path:   
>    - load_train_data_path: /nas001/gcr_test_data/sample/   
>    - load_inference_data_path:   
>    - save_train_artifacts_path:   
>    - save_inference_artifacts_path:   
>```   
<br />

또한 GCR의 동작 설정 변경을 원할 경우에도 experimental_plan.yaml 내의 필수 변경 parameter를 변경합니다. 나머지 parameter는 컨텐츠 yaml에 제공된 default 값을 사용해도 괜찮습니다.   
<br />

+ ***Sample Jupyter notebook인 'mql_handson_lecture.ipynb'을 수행하기 위해, ipykernel을 설치해 줍니다.***   
<br />

> pip install ipykernel   
> python -m ipykernel install --user --name gcr_solution   
<br />


#### Quick Run Guide

이상과 같이 설치한 ALO와 GCR AI content를 main.py를 이용해 batch running합니다.   
여기서 주어진 문제를 위해 input과 output asset들이 customized되어 있다면 이것이 곧 GCR 기반의 AI solution입니다.     
<br />

> cd aisolution_gcr_2.1.0/gcr_solution   
> python main.py                    -> train/inference pipeline 일괄 수행   
> python main.py --mode train       -> train pipeline 수행    
> python main.py --mode inference   -> inference pipeline 수행   
<br />


***NOTE!***
만일 python main.py 결과, pip의 wheel 문제로 아래와 같은 에러가 발생한다면, \rm -rf ~/.cache/pip 를 수행해 cached된 wheel 정보를 지우고 다시 python main.py를 수행하면 되니 참고 부탁 드립니다.

```
Collecting nvidia-cusolver-cu11==11.4.0.1 (from torch==2.0.0)
  Using cached nvidia_cusolver_cu11-11.4.0.1-2-py3-none-manylinux1_x86_64.whl (102.6 MB)
ERROR: THESE PACKAGES DO NOT MATCH THE HASHES FROM THE REQUIREMENTS FILE. If you have updated the package versions, pleaseupdate the hashes. Otherwise, examine the package contents carefully; someone may have tampered with them.
    nvidia-cusolver-cu11==11.4.0.1 from https://files.pythonhosted.org/packages/3e/77/66149e3153b19312fb782ea367f3f950123b93916a45538b573fe373570a/nvidia_cusolver_cu11-11.4.0.1-2-py3-none-manylinux1_x86_64.whl (from torch==2.0.0):
        Expected sha256 72fa7261d755ed55c0074960df5904b65e2326f7adce364cbe4945063c1be412
             Got        4488c7e6c8b220045a92e1ca98441adf84bfa8bc7a8a2d38e0498700a94a4a70
```
<br />


- GCR 구동을 위해서는 분석 데이터에 대한 정보 및 사용할 GCR 기능이 기록된 yaml파일이 필요합니다.  
- GCR default yaml파일인 `experimental_plan.yaml`의 argument를 변경하여 분석하고 싶은 데이터에 GCR을 적용할 수 있습니다.
- Graph 구조 변경, 학습 param 설정 및 GCR asset의 다양한 기능을 사용하고 싶으신 경우 [GCR parameters](http://collab.lge.com/main/display/LGEPROD/GCR+Parameters)를 참고하여 yaml파일을 수정하시면 됩니다. 


#### 관련 Collab
[Graph-powered Classification/Regression (GCR)](http://collab.lge.com/main/pages/viewpage.action?pageId=2338397990)

#### 요청 및 문의
담당자: 공성우 선임 (seongwoo.kong@lge.com), 김정원 연구원 (jw0220.kim@lge.com), 김수경 책임 (sookyoung.kim@lge.com)

신규 AI Contents나 추가 기능 요청을 등록하시면 검토 후 반영합니다  
[Request CLM](http://clm.lge.com/issue/projects/DXADVTECH/)

# MQL 데이터를 이용한 GCR 2.1.0 사용법 학습

### 1. Module import 및 환경 변수 설정

In [1]:
## Import modules
import pandas as pd
import numpy as np

import os
import sys
import re
import datetime
from datetime import timedelta

In [2]:
## Input data 경로설정
curr_dir = os.getcwd()
print(curr_dir)
os.chdir("./sample_data/mql_data")
input_path = os.getcwd()
print(input_path)
os.chdir(curr_dir)

## Input file 명 설정
train_input_file = '230807_train.csv'
test_input_file = '230807_test.csv'

print(os.path.join(input_path, train_input_file))
print(os.path.join(input_path, test_input_file))

/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution/sample_data/mql_data
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution/sample_data/mql_data/230807_train.csv
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution/sample_data/mql_data/230807_test.csv


### 2. Graph 생성을 위한 입력 data 전처리

- sample_data/mql_data/ 에서 한 벌의 train set 및 test set을 선택해 전처리 후, yaml에 지정된 load_train_data_path와 load_inference_data_path에 위치시키는 작업입니다.

#### MQL data 컬럼 설명

In [3]:
list_use = [
    #----'Budget_indexing', 'Title_indexing', 'Needs_indexing', 'Timeline_indexing' 각각 값이 있을 경우 1씩 부여 그리고 다 합한 뒤 /4
    'bant_submit',
    #----가망고객의 지불 가능 금액 범위.
    'Budget_indexing',  
    #----BS본부의 사업부
    'Business_Unit',
    #----선호 vertical 관련 "사업부 x 지역 x Vertical" 조합의 win rate
    'com_reg_ver_win_rate',
    #----df['customer_history'] = np.where(df['history_match_score'] >= 0.7, 'Existing', 'New'
    'customer_history',
    #----가망고객이 end user인지 아닌지.
    'customer_type',
    'Customer_Type',
    #----df['enterprise'] = np.where(df['enterprise_match_score'] >= 0.6, 'Enterprise', 'SMB'
    'enterprise',
    # 가망고객 이력.
    'historical_existing_cnt',  
    #----현업 pick list 기반 전략에 해당되는 Vertical lv.1 에(1) 부여 / 미전략 Vertical lv.1 에 (0) 부여 등.. 설명참조 -> 항상 1.0
    'idit_strategic_ver',
    #----현업 pick list 기반 전략에 해당되는 Vertical lv.1 에 (1) 부여 / 미전략 Vertical lv.1 에 (0) 부여 등.. 설명참조 -> 항상 1.0
    'id_strategic_ver',
    #----현업 pick list 기반 전략에 해당되는 Vertical lv.1 에 (1) 부여 / 미전략 Vertical lv.1 에 (0) 부여 등.. 설명참조 -> 항상 1.0
    'it_strategic_ver',
    #----가망고객의 직무.
    #----Job Function의 encoded values
    'Job_indexing',  
    #----Label.
    'label',  
    #----접촉해 온 채널 명.
    'Lead_Channel_Type_indexing',
    #----고객이 입력한 요구 사항 기술.
    #----Lead Description의 encoded values. 1 ~ 1000. 1 if <= 10, 2 if <= 100, 3 if <= 500, 4 if > 500. Int
    'lead_desc_length',
    #----가망고객 번호. Y임.
    'Lead_No', 
    #----가망고객의 needs category.
    'Needs_indexing',
    'Processed_Needs',
    #----사업부별 / vertical lv.1 별 / opp.amount(usd) 의 sum 금액 ÷ count 수 비율 
    'prefer_ver_count',
    #----사업부별 / vertical lv.1 별 / opp.amount(usd) 의 count 수비율
    'prefer_ver_mean',
    #----지역 (국가) 명
    'Region',  
    #----가망고객 직급.
    'Seniority',
    #----자사 지점 명
    'Subsidiary',  
    #----가망고객의 필요 시점.
    'Timeline_indexing',  
    #----가망고객 직책.
    'Title_indexing',
    #----customer_type을 'End-User' / 'Others'로 분류 후, 전략에 해당하는 Vertical Level 1  & End-User 일 경우 1
    'ver_cus',  
    #----vertical+product index에 따른 0,1 (설명 참조)
    'ver_pro',  
    #----업종
    'Vertical_Level_1',  
    #----oppty 데이터 내 각 vertical 의 수 ÷ 전체 데이터 내 각 vertical 의 수 (in 각 사업부 별)
    'ver_win_rate_mean_upper',  
    #----oppty 데이터 내 각 vertical 의 비율 × 전체 데이터 내 각 vertical 의 비율
    'ver_win_rate_x',  
    #----oppty 데이터 내 각 vertical 의 수 ÷ 전체 데이터 내 각 vertical 의 수 (in 각 사업부 별)
    'ver_win_ratio_per_bu',  
]

list_int = [
    'lead_desc_length',  # 1 ~ 1000. 1 if <= 10, 2 if <= 100, 3 if <= 500, 4 if > 500. Int
    'ver_cus',  # Int
]

list_float = [
    'com_reg_ver_win_rate',  # Float
    'historical_existing_cnt',  # Float
    'prefer_ver_count',  # Float
    'prefer_ver_mean',  # Float
    'ver_win_rate_mean_upper',  # Float
    'ver_win_rate_x',  # Float
    'ver_win_ratio_per_bu',  # Float
]

#### MQL data 읽고 컬럼과 shape 확인

In [6]:
print("In {}: Begin at {}".format(sys._getframe(0).f_code.co_name, datetime.datetime.now()))

## Raw data file 읽어 오기

df_train = pd.read_csv(os.path.join(input_path, train_input_file), usecols=list_use)
df_train.reset_index(inplace=True)
df_train.drop(['index'], axis=1, inplace=True)  # index column 제거
#df_train.to_csv('df_train.csv', index=False)

df_test = pd.read_csv(os.path.join(input_path, test_input_file), usecols=list_use)
df_test.reset_index(inplace=True)
df_test.drop(['index'], axis=1, inplace=True)  # index column 제거
#df_test.to_csv('df_test.csv', index=False)

print(df_train.columns.to_list())
print(df_train.shape)
print(df_test.columns.to_list())
print(df_test.shape)

In <module>: Begin at 2024-05-09 03:40:39.752958
['bant_submit', 'Budget_indexing', 'Business_Unit', 'com_reg_ver_win_rate', 'customer_history', 'customer_type', 'Customer_Type', 'enterprise', 'historical_existing_cnt', 'idit_strategic_ver', 'id_strategic_ver', 'it_strategic_ver', 'Job_indexing', 'label', 'Lead_Channel_Type_indexing', 'lead_desc_length', 'Lead_No', 'Needs_indexing', 'prefer_ver_count', 'prefer_ver_mean', 'Processed_Needs', 'Region', 'Seniority', 'Subsidiary', 'Timeline_indexing', 'Title_indexing', 'ver_cus', 'ver_pro', 'Vertical_Level_1', 'ver_win_rate_mean_upper', 'ver_win_rate_x', 'ver_win_ratio_per_bu']
(58543, 32)
['bant_submit', 'Budget_indexing', 'Business_Unit', 'com_reg_ver_win_rate', 'customer_history', 'customer_type', 'Customer_Type', 'enterprise', 'historical_existing_cnt', 'idit_strategic_ver', 'id_strategic_ver', 'it_strategic_ver', 'Job_indexing', 'Lead_Channel_Type_indexing', 'lead_desc_length', 'Lead_No', 'Needs_indexing', 'prefer_ver_count', 'prefer_v

  df_train = pd.read_csv(os.path.join(input_path, train_input_file), usecols=list_use)


#### GCR의 유일한 데이터 요구 조건인 label에 결측치 여부 확인

In [7]:
# label에 결측치 제거

idx_nan = df_train[df_train['label'] == '""'].index
df_train.drop(idx_nan, inplace=True)
df_train.reset_index(inplace=True, drop=True)

idx_nan = df_test[df_test['label'] == '""'].index
df_test.drop(idx_nan, inplace=True)
df_test.reset_index(inplace=True, drop=True)

# shape 변동 사항 (결측치 있었는지) 재확인
print(df_train.columns.to_list())
print(df_train.shape)
print(df_test.columns.to_list())
print(df_test.shape)

['bant_submit', 'Budget_indexing', 'Business_Unit', 'com_reg_ver_win_rate', 'customer_history', 'customer_type', 'Customer_Type', 'enterprise', 'historical_existing_cnt', 'idit_strategic_ver', 'id_strategic_ver', 'it_strategic_ver', 'Job_indexing', 'label', 'Lead_Channel_Type_indexing', 'lead_desc_length', 'Lead_No', 'Needs_indexing', 'prefer_ver_count', 'prefer_ver_mean', 'Processed_Needs', 'Region', 'Seniority', 'Subsidiary', 'Timeline_indexing', 'Title_indexing', 'ver_cus', 'ver_pro', 'Vertical_Level_1', 'ver_win_rate_mean_upper', 'ver_win_rate_x', 'ver_win_ratio_per_bu']
(58543, 32)
['bant_submit', 'Budget_indexing', 'Business_Unit', 'com_reg_ver_win_rate', 'customer_history', 'customer_type', 'Customer_Type', 'enterprise', 'historical_existing_cnt', 'idit_strategic_ver', 'id_strategic_ver', 'it_strategic_ver', 'Job_indexing', 'Lead_Channel_Type_indexing', 'lead_desc_length', 'Lead_No', 'Needs_indexing', 'prefer_ver_count', 'prefer_ver_mean', 'Processed_Needs', 'Region', 'Seniority

#### Train set의 각 column의 unique 값 수 확인

- 이는, custom connection 적용 시, rhs는 partiton 수 보다 큰 unique 값을 가져야 하기 때문에 확인이 필요함

In [8]:
ll = df_train.columns.tolist()
for c in ll:
    print(c, df_train[c].nunique())

bant_submit 5
Budget_indexing 8
Business_Unit 4
com_reg_ver_win_rate 111
customer_history 1
customer_type 2
Customer_Type 2
enterprise 2
historical_existing_cnt 1
idit_strategic_ver 1
id_strategic_ver 1
it_strategic_ver 1
Job_indexing 30
label 2
Lead_Channel_Type_indexing 18
lead_desc_length 8
Lead_No 58543
Needs_indexing 7
prefer_ver_count 25
prefer_ver_mean 32
Processed_Needs 55
Region 8
Seniority 97
Subsidiary 54
Timeline_indexing 7
Title_indexing 13
ver_cus 2
ver_pro 2
Vertical_Level_1 12
ver_win_rate_mean_upper 2
ver_win_rate_x 12
ver_win_ratio_per_bu 25


#### yaml에 지정된 load_train_data_path와 load_inference_data_path에 위치시킴

In [10]:
# Preprocessed된 csv 저장
df_train.to_csv('mql_org_train_preprocessed.csv', index=False)
df_test.to_csv('mql_org_test_preprocessed.csv', index=False)

os.system('cp mql_org_train_preprocessed.csv sample_data/train')
os.system('cp mql_org_test_preprocessed.csv sample_data/test')

0

### 3. 설정을 바꿔가며 GCR 수행

- solution/experimental_plan.yaml을 수정
- solution 상위 directory에서 python main.py를 통해 GCR solution 수행

------------------------------

#### 3.1. Yaml default setting으로 수행

- readiness asset arguments
```
              x_columns:                   # (list of str) [''] (default) | list of column names   
              drop_columns:                # (list of str) [''] (default) | list of column names   
              y_column: label              # (str) a column name
```
- graph asset arguments
```
              dimension: 32                # (int), 32(default), dimension > 1 & even
              num_epochs: 10               # (int), 10(default)
              num_partitions: 1            # (int), 1(default)
              use_gpu: False               # (bool), False(default) | True
```
- train asset arguments
```
              task: classification         # (str), classification(default) | regression
              eval_metric: f1_score        # (str), accuracy | precision | recall | f1_score (default) | fbeta_score | rmse (regression)
              fbeta: 0.5                   # (float), 0 < fbeta < inf, 0.5 (default)
              target_label:                # (str, int, float), A value of any type or Empty for all labels
              num_hpo: 20                  # (int), 20(default)
```
- inference asset arguments
```
              global_xai: True             # (bool), True | False (default)
              local_xai: False             # (bool), True | False (default)
```

------------------------------

#### 3.2. Loca XAI 산출해 보기

Loca XAI는 inference set의 각 sample에 대한 reasons를 feature importances 순서대로 5개 보여줍니다.   
그 결과는 output.csv의 해당 sample 행에 concat되어집니다.   

Local XAI를 enable하기 위해서는 아래와 같이 experimental_plan.yaml을 수정합니다.    


- inference asset arguments
```
              local_xai: True              # (bool), True | False (default)
```


Train을 다시 수행할 필요가 없으므로, python main.py --mode inference를 수행합니다.  

------------------------------

#### 3.3. X 컬럼 선택해 학습해 보기

x_columns를 비워 두면, label 컬럼을 제외한 모든 컬럼들이 graph embedding되고 학습됩니다.    
x_columns에 [x1, x2, ...] 와 같이 list로 컬럼을 지정하면, 지정된 컬럼들만 이용됩니다.   

drop_columns를 비워 두면, x_columns 중에서 아무 것도 제외하지 않습니다.   
drop_columns를 [x1, x2, ...]와 같이 list로 컬럼을 지정하면, 지정된 컬럼들은 x_columns 중에서 제외됩니다.  


**전체 X 컬럼 중에서 Lead_No를 제외해 봅시다.**   


- readiness asset arguments
```
              x_columns:                   # (list of str) [''] (default) | list of column names   
              drop_columns: Lead_No        # (list of str) [''] (default) | list of column names   
              y_column: label              # (str) a column name
```

수정을 마친 뒤, python main.py를 수행합니다.  


**전체 X 컬럼 중에서 Lead_No를 제외하는 다른 방법입니다.**  

Lead_No 컬럼을 제외한 X 컬럼들을 x_columns에 지정하는 것입니다.


- readiness asset arguments
```
              x_columns: [bant_submit, Budget_indexing, Business_Unit, com_reg_ver_win_rate, customer_history, customer_type, Customer_Type, enterprise, historical_existing_cnt, idit_strategic_ver, id_strategic_ver, it_strategic_ver, Job_indexing, Lead_Channel_Type_indexing, lead_desc_length, Needs_indexing, prefer_ver_count, prefer_ver_mean, Processed_Needs, Region, Seniority, Subsidiary, Timeline_indexing, Title_indexing, ver_cus, ver_pro, Vertical_Level_1, ver_win_rate_mean_upper, ver_win_rate_x, ver_win_ratio_per_bu]                   # (list of str) [''] (default) | list of column names   
              drop_columns:                # (list of str) [''] (default) | list of column names   
              y_column: label              # (str) a column name
```

수정을 마친 뒤, python main.py를 수행합니다. 

------------------------------

#### 3.4. 그래프에 custom connection 추가해 topology 바꿔보기

x_columns와 drop_columns 조합의 결과로 남은 X 컬럼들 사이에 추가로 관계를 부여해 그래프의 토폴로지를 바꿀 수 있습니다.   
만일 컬럼 X2가 X1에 의해 해석이 달라져야 하는 컬럼이라는 domain knowledge가 있다면, 더 개선된 예측 성능을 노리기 위해 아래와 같이 X1에서 X2로 향하는 관계를 추가로 설정해 줄 수 있습니다.   


**사업 분야 (Vertical_Level_1)가 해당 지역 (Region)에 따라 예측에 미치는 영향도가 달라진다고 가정하고, Region -> Vertical_Level_1으로 관계를 추가해 봅시다**   

- graph asset arguments
```
              dimension: 32                # (int), 32(default), dimension > 1 & even
              num_epochs: 10               # (int), 10(default)
              num_partitions: 1            # (int), 1(default)
              use_gpu: False               # (bool), False(default) | True
              custom_connection_lhs: [Region]
              custom_connection_rhs: [Vertical_Level_1]
```

수정을 마친 뒤, python main.py를 수행합니다.  

여러 custom connection을 추가하려면, 아래와 같이 설정합니다.   
X1 -> X2, X3 -> X4 의 관계들을 추가한 것입니다.   

```
              custom_connection_lhs: [X1, X3]
              custom_connection_rhs: [X2, X4]
```

**주의! rhs로 지정되는 컬럼의 unique value 수가 아래에 설명할 partition을 제한합니다. 즉, unique value 수가 partition 수 이상이라야 합니다.**

------------------------------

#### 3.5. 그래프 임베딩 시 메모리 부족 해결하기

그래프 임베딩은 입력 train set 전체를 memory에 올려야 embedding이 가능하기 때문에 메모리 부족이 발생할 수 있습니다.   
GCR은 이를 회피하기 위해 dimension과 num_partitions의 두 가지 방안을 제공하고 있습니다.  

직접적인 효과는 dimension을 줄이는 것입니다. 하지만, dimension이 줄어들 수록 예측 정확도가 저하되기 때문에, dimension과 병행하여 num_partitions를 1 -> 2 -> 4 -> 8 -> 16 ... 식으로 늘이는 방법을 사용합니다.  
이는, 동일한 vector space 상에서 node들의 위치를 비교할 수 있게 하면서도, 입력 데이터를 partition 수 만큼 쪼개서 차례로 embedding을 실시하는 방법입니다.   
이론적으로 num_partitions의 상한은 없으나 128 이하가 현실적입니다.   
단, num_partitions를 늘이면 peak memory는 줄어들지만, 총 embedding 수행 시간은 길어진다는 점 양지 부탁 드립니다.   


**dimension을 16으로, num_partions를 2로 설정해 peak memory 요구량을 줄여봅니다.**   

- graph asset arguments
```
              dimension: 16                # (int), 32(default), dimension > 1 & even
              num_epochs: 10               # (int), 10(default)
              num_partitions: 2            # (int), 1(default)
              use_gpu: False               # (bool), False(default) | True
              custom_connection_lhs: [Region]
              custom_connection_rhs: [Vertical_Level_1]
```

수정을 마친 뒤, python main.py를 수행합니다.  

Console에 나타나는 아래 log로 얼마나 줄어들었는지 파악합니다.   

```
Memory: Total 64023 MB, Available 54596 MB, Used 9427 MB
```

------------------------------

#### 3.6. Evaluation metric을 바꿔가며 downstream task model 학습하기


GCR v2.1.0은 classification/regression 용 downstream task model로 XGBoost를 사용합니다.   
XGBoost 학습 시, 3-Folds cross validation이 수행되며 Optuna로 이 과정을 반복하면서 HPO를 진행합니다.   
이 때, Optuna의 각 trial 마다 성능을 평가할 지표가 필요하며, GCR은 accuracy, precision, recall, f1_score, fbeta_score, rmse를 제공합니다.   
또한, 모든 label들을 망라하는 accuracy 외에는 각 label 별 지표를 지정해 줄 수 있습니다. 이 때, 지정할 label은 string이라도 integer라도 float라도 괜찮습니다.     



**Default metric인 f1_score 대신 label 1에 대한 fbeta_score를 지정해 학습을 진행해 봅시다.**   

- train asset arguments
```
              task: classification         # (str), classification(default) | regression
              eval_metric: fbeta_score     # (str), accuracy | precision | recall | f1_score (default) | fbeta_score | rmse (regression)
              fbeta: 0.5                   # (float), 0 < fbeta < inf, 0.5 (default)
              target_label: 1              # (str, int, float), A value of any type or Empty for all labels
              num_hpo: 20                  # (int), 20(default)
```


수정을 마친 뒤, python main.py를 수행합니다.  

### 4. 결과 확인

In [15]:
## Import modules
import pandas as pd
import numpy as np

import os
import sys
import re
import datetime
from datetime import timedelta
from sklearn.metrics import mean_squared_error
from sklearn.metrics import classification_report, fbeta_score, accuracy_score, f1_score, precision_score, recall_score
from sklearn import metrics

#### 예측 성능 확인

In [13]:
## Input data 경로설정
curr_dir = os.getcwd()
print(curr_dir)
os.chdir("sample_data/test/")
test_path = os.getcwd()
print(test_path)
os.chdir(curr_dir)
os.chdir("../inference_artifacts/output")
pred_path = os.getcwd()
print(pred_path)
os.chdir(curr_dir)

## Input file 명 설정
#pred_file = 'inference_result.csv'
pred_file = 'output.csv'
test_file = 'mql_org_test_preprocessed.csv'

print(os.path.join(pred_path, pred_file))
print(os.path.join(test_path, test_file))

/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution/sample_data/test
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/inference_artifacts/output
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/inference_artifacts/output/output.csv
/home/jovyan/projects/ai_contents/gcr/240509_aisolution_gcr_2.1.0_alo_2.3.2_edu/gcr_solution/solution/sample_data/test/mql_org_test_preprocessed.csv


In [14]:
df_test = pd.read_csv(os.path.join(test_path, test_file))
df_test.reset_index(inplace=True)
df_test.drop(['index'], axis=1, inplace=True)

df_pred = pd.read_csv(os.path.join(pred_path, pred_file))
df_pred.reset_index(inplace=True)
df_pred.drop(['index'], axis=1, inplace=True)

y_true = df_test['label'].to_list()
y_pred = df_pred['prediction'].to_list()

print(classification_report(y_true, y_pred))

confusion_matrix = metrics.confusion_matrix(y_true, y_pred)
print(confusion_matrix)

print("\nfbeta_score = {}".format(fbeta_score(y_true, y_pred, average="macro", zero_division=np.nan, beta=0.5)))

print("\nFor label 1:")
#print("fbeta_score = {}".format(fbeta_score(y_true, y_pred, average=None, zero_division=np.nan, beta=0.5)))
print("fbeta_score = {}".format(fbeta_score(y_true, y_pred, labels=[1], average=None, zero_division=np.nan, beta=0.5)[0]))
print("f1_score = {}".format(f1_score(y_true, y_pred, labels=[1], average=None, zero_division=np.nan)[0]))
print("accuracy_score = {}".format(accuracy_score(y_true, y_pred)))
print("recall_score = {}".format(recall_score(y_true, y_pred, labels=[1], average=None, zero_division=np.nan)[0]))
print("precision_score = {}".format(precision_score(y_true, y_pred, labels=[1], average=None, zero_division=np.nan)[0]))

              precision    recall  f1-score   support

           0       0.88      0.89      0.88      2749
           1       0.46      0.44      0.45       598

    accuracy                           0.81      3347
   macro avg       0.67      0.66      0.67      3347
weighted avg       0.81      0.81      0.81      3347

[[2442  307]
 [ 334  264]]

fbeta_score = 0.6697063991981234

For label 1:
fbeta_score = 0.4580152671755725
f1_score = 0.4516680923866553
accuracy_score = 0.8084852106363908
recall_score = 0.4414715719063545
precision_score = 0.46234676007005254


#### Train artifacts 확인

- Train artifacts의 항목들은 다음과 같습니다

```
.:
log  models  output  report  score

./log:
process.log

./models:
graph  input  readiness  train

./models/graph:
graph  init_path

./models/graph/graph: ==> Inference pipeline으로 전달할 graph embedding configuration과 embedding된 nodes의 vector들
config.json  graph_embedding.pickle

./models/graph/init_path: ==> node 별 embedding 결과
embeddings_COL_0_0.h5   embeddings_COL_16_0.h5  embeddings_COL_23_0.h5  embeddings_COL_31_0.h5
embeddings_COL_10_0.h5  embeddings_COL_17_0.h5  embeddings_COL_24_0.h5  embeddings_COL_4_0.h5
embeddings_COL_1_0.h5   embeddings_COL_18_0.h5  embeddings_COL_25_0.h5  embeddings_COL_5_0.h5
embeddings_COL_11_0.h5  embeddings_COL_19_0.h5  embeddings_COL_27_0.h5  embeddings_COL_6_0.h5
embeddings_COL_12_0.h5  embeddings_COL_20_0.h5  embeddings_COL_28_0.h5  embeddings_COL_7_0.h5
embeddings_COL_13_0.h5  embeddings_COL_2_0.h5   embeddings_COL_29_0.h5  embeddings_COL_8_0.h5
embeddings_COL_14_0.h5  embeddings_COL_21_0.h5  embeddings_COL_30_0.h5  embeddings_COL_9_0.h5
embeddings_COL_15_0.h5  embeddings_COL_22_0.h5  embeddings_COL_3_0.h5   embeddings_G_ID_COL_PBG_0.h5

./models/input:
input_config.json

./models/readiness:
train_config.pickle

./models/train: ==> Train set으로 계산된 global XAI 결과, graph/graph의 graph embedding vectors, XGboost hyper parameter 설정, 임의 data type인 label을 encoding해서 처리한 내역 (inference pipeline과 일치 위해), XAI 모델, XGboost 모델
global_feature_importance.csv  graph_embedding.pickle  hparams.json  label_encoder.pkl  lime_explainer.pk  model.json

./output:

./report:

./score:
```

- process.log 확인해 보기

```
vi train_artifacts/log/process.log
```

- Global XAI 결과 확인해 보기

```
vi train_artifacts/models/train/global_feature_importance.csv
```

```
Col,Contribution
Vertical_Level_1,0.12988369118147142
Lead_Channel_Type_indexing,0.09852515017000536
Subsidiary,0.07915861156928676
com_reg_ver_win_rate,0.06470511930709408
ver_win_ratio_per_bu,0.06461463531869821
prefer_ver_mean,0.060751472354291014
prefer_ver_count,0.06042694673579874
Region,0.05816220271461873
Processed_Needs,0.05469138471128019
Seniority,0.05074688948645706
lead_desc_length,0.0475480974136626
Job_indexing,0.037527738137485646
Title_indexing,0.03329644303187537
Budget_indexing,0.03173493987697269
Business_Unit,0.026482825109658284
ver_win_rate_mean_upper,0.025050447309737777
Needs_indexing,0.024628990212822954
Timeline_indexing,0.01938465572733703
bant_submit,0.015605900151142238
ver_win_rate_x,0.012486953329390304
enterprise,0.0020261920348575465
ver_pro,0.0011127182709691854
customer_history,0.001037380775888833
customer_type,0.0003053608532150976
id_strategic_ver,0.00010525421598286491
```

#### Inference artifacts 확인

- Inference artifacts의 항목들은 다음과 같습니다

```
.:
log  output  score

./log:
experimental_history.json  pipeline.log  process.log

./output: ==> 예측 결과물. local_xai를 True로 설정 시, 샘플 별 local XAI 결과가 여기에 merged됨
output.csv

./score: ==> 모델 재 학습 지표 확인
inference_summary.yaml
```

- 예측 결과 및 local XAI 결과 확인해 보기

```
vi inference_artifacts/output/output.csv
```

Local XAI를 disabled한 결과   

```
bant_submit,Budget_indexing,Business_Unit,com_reg_ver_win_rate,customer_history,customer_type,Customer_Type,enterprise,historical_existing_cnt,idit_strategic_ver,id_strategic_ver,it_strategic_ver,Job_indexing,Lead_Channel_Type_indexing,lead_desc_length,Lead_No,Needs_indexing,prefer_ver_count,prefer_ver_mean,Processed_Needs,Region,Seniority,Subsidiary,Timeline_indexing,Title_indexing,ver_cus,ver_pro,Vertical_Level_1,ver_win_rate_mean_upper,ver_win_rate_x,ver_win_ratio_per_bu,label,prediction,Score_0,Score_1

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_21,LeadChannel_6,5,HK2308000589,needs_0,,,quotationorpurchaseconsultation,asia,Associate/Analyst,LGEHK,Timeline_1,title_6,0,0,,,,,1,1,0.19179863,0.8082014

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_25,LeadChannel_2,6,HK2211002711,needs_0,,,quotationorpurchaseconsultation,asia,Manager,LGEHK,Timeline_2,title_5,0,0,,,,,0,0,0.53526735,0.46473262

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_16,LeadChannel_2,4,HK2307000583,needs_1,,,technicalconsultation,asia,Director,LGEHK,Timeline_1,title_4,0,0,,,,,1,1,0.4312243,0.5687757

0.75,budget_1,ID,,,Others,Others,Enterprise,1,,,,Job_function_26,LeadChannel_4,2,IL2308011455,needs_3,,,customersuggestions,india,NONE,LGEIL,Timeline_2,NONE,0,0,,,,,0,0,0.9987117,0.0012883241

1.0,budget_1,ID,,,Others,Others,Enterprise,1,,,,Job_function_15,LeadChannel_0,1,IL2307009790,needs_0,,,quotationorpurchaseconsultation,india,Manager,LGEIL,Timeline_1,title_5,0,0,,,,,0,0,0.90857446,0.09142552
```

Local XAI를 enabled한 결과   

```
bant_submit,Budget_indexing,Business_Unit,com_reg_ver_win_rate,customer_history,customer_type,Customer_Type,enterprise,historical_existing_cnt,idit_strategic_ver,id_strategic_ver,it_strategic_ver,Job_indexing,Lead_Channel_Type_indexing,lead_desc_length,Lead_No,Needs_indexing,prefer_ver_count,prefer_ver_mean,Processed_Needs,Region,Seniority,Subsidiary,Timeline_indexing,Title_indexing,ver_cus,ver_pro,Vertical_Level_1,ver_win_rate_mean_upper,ver_win_rate_x,ver_win_ratio_per_bu,label,prediction,Score_0,Score_1,reason1,reason2,reason3,reason4,reason5

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_21,LeadChannel_6,5,HK2308000589,needs_0,,,quotationorpurchaseconsultation,asia,Associate/Analyst,LGEHK,Timeline_1,title_6,0,0,,,,,1,1,0.19179863,0.8082014,lead_desc_length=5,enterprise=SMB,bant_submit=1.0,ver_win_rate_x=nan,Timeline_indexing=Timeline_1

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_25,LeadChannel_2,6,HK2211002711,needs_0,,,quotationorpurchaseconsultation,asia,Manager,LGEHK,Timeline_2,title_5,0,0,,,,,0,0,0.53526735,0.46473262,Processed_Needs=quotationorpurchaseconsultation,customer_history=nan,ver_cus=0,Customer_Type=Others,prefer_ver_count=nan

1.0,budget_1,ID,,,Others,Others,SMB,1,,,,Job_function_16,LeadChannel_2,4,HK2307000583,needs_1,,,technicalconsultation,asia,Director,LGEHK,Timeline_1,title_4,0,0,,,,,1,1,0.4312243,0.5687757,Needs_indexing=needs_1,Lead_Channel_Type_indexing=LeadChannel_2,enterprise=SMB,Job_indexing=Job_function_16,Seniority=Director

0.75,budget_1,ID,,,Others,Others,Enterprise,1,,,,Job_function_26,LeadChannel_4,2,IL2308011455,needs_3,,,customersuggestions,india,NONE,LGEIL,Timeline_2,NONE,0,0,,,,,0,0,0.9987117,0.0012883241,Processed_Needs=customersuggestions,ver_cus=0,Customer_Type=Others,enterprise=Enterprise,customer_history=nan

1.0,budget_1,ID,,,Others,Others,Enterprise,1,,,,Job_function_15,LeadChannel_0,1,IL2307009790,needs_0,,,quotationorpurchaseconsultation,india,Manager,LGEIL,Timeline_1,title_5,0,0,,,,,0,0,0.90857446,0.09142552,Processed_Needs=quotationorpurchaseconsultation,ver_cus=0,Customer_Type=Others,enterprise=Enterprise,lead_desc_length=1
```

- 모델 재 학습 지표 확인해 보기

```
vi inference_artifacts/score/inference_summary.yaml
```

```
date: '2024-04-26 03:39:58'
file_path: ''
note: default output
probability: {}
result: ''
score: 0.91
version: ''
```