# Multi Hot Encoder
data
*   data/frequency_based_encoding_X.csv
*   data/frequency_based_encoding_X_test.csv

model
*   variant_dict.pkl

# Import library

In [16]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder

# Load Data

In [2]:
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")

# Data Preprocessing

In [3]:
# SUBCLASS 가 범주형이기 때문에 LabelEncoder 사용
le_subclass = LabelEncoder()
train['SUBCLASS'] = le_subclass.fit_transform(train['SUBCLASS'])

# 변환된 레이블 확인
for i, label in enumerate(le_subclass.classes_):
    print(f"원래 레이블: {label}, 변환된 숫자: {i}")

원래 레이블: ACC, 변환된 숫자: 0
원래 레이블: BLCA, 변환된 숫자: 1
원래 레이블: BRCA, 변환된 숫자: 2
원래 레이블: CESC, 변환된 숫자: 3
원래 레이블: COAD, 변환된 숫자: 4
원래 레이블: DLBC, 변환된 숫자: 5
원래 레이블: GBMLGG, 변환된 숫자: 6
원래 레이블: HNSC, 변환된 숫자: 7
원래 레이블: KIPAN, 변환된 숫자: 8
원래 레이블: KIRC, 변환된 숫자: 9
원래 레이블: LAML, 변환된 숫자: 10
원래 레이블: LGG, 변환된 숫자: 11
원래 레이블: LIHC, 변환된 숫자: 12
원래 레이블: LUAD, 변환된 숫자: 13
원래 레이블: LUSC, 변환된 숫자: 14
원래 레이블: OV, 변환된 숫자: 15
원래 레이블: PAAD, 변환된 숫자: 16
원래 레이블: PCPG, 변환된 숫자: 17
원래 레이블: PRAD, 변환된 숫자: 18
원래 레이블: SARC, 변환된 숫자: 19
원래 레이블: SKCM, 변환된 숫자: 20
원래 레이블: STES, 변환된 숫자: 21
원래 레이블: TGCT, 변환된 숫자: 22
원래 레이블: THCA, 변환된 숫자: 23
원래 레이블: THYM, 변환된 숫자: 24
원래 레이블: UCEC, 변환된 숫자: 25


In [4]:
## x 의 경우도 범주형으로 구성되어 있어, 알맞은 인코딩 필요
X = train.drop(columns=['SUBCLASS', 'ID'])
y_subclass = train['SUBCLASS']

In [5]:
X_test = test.drop(["ID"], axis = 1)

이 코드는 다음과 같이 작동합니다:
1. create_variant_dict 함수는 각 유전자(열)의 모든 가능한 변이를 포함하는 사전을 생성합니다.
2. encode_sample 함수는 각 샘플(행)을 이진 벡터로 인코딩합니다.
3. 전체 데이터셋에 대해 인코딩을 수행하고, 결과를 새로운 DataFrame으로 변환합니다.
4. SUBCLASS를 숫자로 인코딩합니다.
5. 최종 데이터셋을 생성합니다. 이 데이터셋은 샘플 ID, 인코딩된 변이 데이터, 인코딩된 SUBCLASS를 포함합니다.
6. 변이 사전을 파일로 저장합니다 (테스트 데이터 인코딩에 사용하기 위함).

이 방법의 장점은 다음과 같습니다:
1. 모든 가능한 변이를 명시적으로 표현할 수 있습니다.
2. 각 변이의 존재 여부를 명확하게 나타냅니다.
3. 머신러닝 모델이 각 변이의 영향을 개별적으로 학습할 수 있습니다.

단점은 다음과 같습니다:
1. 희귀 변이가 많은 경우 벡터가 매우 희소해질 수 있습니다.
2. 차원이 매우 높아질 수 있어 계산 비용이 증가할 수 있습니다.
3. 테스트 데이터에 이 인코딩을 적용할 때는 다음과 같이 할 수 있습니다:

In [6]:
# 변이 사전 생성 함수
def create_variant_dict(X):
    variant_dict = {}
    for column in X.columns:  # ID와 SUBCLASS를 제외한 열
        unique_variants = X[column].unique()
        variant_dict[column] = {variant: i for i, variant in enumerate(unique_variants)}
    return variant_dict

In [7]:
def encode_sample(row, variant_dict):
    encoded = []
    for column, value in row.items():
        if column not in variant_dict:
            continue  # 알려지지 않은 열은 건너뜁니다
        gene_encoding = [0] * len(variant_dict[column])
        if value in variant_dict[column]:
            gene_encoding[variant_dict[column][value]] = 1
        else:
            # 알려지지 않은 변이는 모두 0으로 처리하거나, 
            # 또는 새로운 카테고리를 추가할 수 있습니다
            pass  # 또는 여기에 알려지지 않은 변이 처리 로직을 추가
        encoded.extend(gene_encoding)
    return encoded

In [8]:
# 변이 사전 생성
variant_dict = create_variant_dict(X)

In [9]:
# 데이터 인코딩
encoded_data = X.apply(lambda row: encode_sample(row, variant_dict), axis=1)

In [10]:
# 인코딩된 데이터를 DataFrame으로 변환
column_names = [f"{gene}_{variant}" for gene, variants in variant_dict.items() for variant in variants]
encoded_X = pd.DataFrame(encoded_data.tolist(), columns=column_names)

In [11]:
# 변이 사전 저장 (테스트 데이터 인코딩을 위해)
import pickle
with open('variant_dict.pkl', 'wb') as f:
    pickle.dump(variant_dict, f)

In [12]:
# 변이 사전 로드
with open('variant_dict.pkl', 'rb') as f:
    variant_dict = pickle.load(f)

In [13]:
# 테스트 데이터 인코딩
test_encoded = X_test.apply(lambda row: encode_sample(row, variant_dict), axis=1)

# 인코딩된 테스트 데이터를 DataFrame으로 변환
column_names = [f"{gene}_{variant}" for gene, variants in variant_dict.items() for variant in variants]
test_encoded_df = pd.DataFrame(test_encoded.tolist(), columns=column_names)

# Save in data

In [14]:
encoded_X.to_csv(f'../data/multi_hot_encoding_X.csv', encoding='UTF-8-sig', index=False)

In [15]:
test_encoded_df.to_csv(f'../data/multi_hot_encoding_X_test.csv', encoding='UTF-8-sig', index=False)