# Frequnecy 기반 encoder
data
*   data/frequency_based_encoding_X.csv
*   data/frequency_based_encoding_X_test.csv

# Import library

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from collections import defaultdict

# Load Data

In [2]:
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")

# Data Preprocessing

In [3]:
# SUBCLASS 가 범주형이기 때문에 LabelEncoder 사용
le_subclass = LabelEncoder()
train['SUBCLASS'] = le_subclass.fit_transform(train['SUBCLASS'])

# 변환된 레이블 확인
for i, label in enumerate(le_subclass.classes_):
    print(f"원래 레이블: {label}, 변환된 숫자: {i}")

원래 레이블: ACC, 변환된 숫자: 0
원래 레이블: BLCA, 변환된 숫자: 1
원래 레이블: BRCA, 변환된 숫자: 2
원래 레이블: CESC, 변환된 숫자: 3
원래 레이블: COAD, 변환된 숫자: 4
원래 레이블: DLBC, 변환된 숫자: 5
원래 레이블: GBMLGG, 변환된 숫자: 6
원래 레이블: HNSC, 변환된 숫자: 7
원래 레이블: KIPAN, 변환된 숫자: 8
원래 레이블: KIRC, 변환된 숫자: 9
원래 레이블: LAML, 변환된 숫자: 10
원래 레이블: LGG, 변환된 숫자: 11
원래 레이블: LIHC, 변환된 숫자: 12
원래 레이블: LUAD, 변환된 숫자: 13
원래 레이블: LUSC, 변환된 숫자: 14
원래 레이블: OV, 변환된 숫자: 15
원래 레이블: PAAD, 변환된 숫자: 16
원래 레이블: PCPG, 변환된 숫자: 17
원래 레이블: PRAD, 변환된 숫자: 18
원래 레이블: SARC, 변환된 숫자: 19
원래 레이블: SKCM, 변환된 숫자: 20
원래 레이블: STES, 변환된 숫자: 21
원래 레이블: TGCT, 변환된 숫자: 22
원래 레이블: THCA, 변환된 숫자: 23
원래 레이블: THYM, 변환된 숫자: 24
원래 레이블: UCEC, 변환된 숫자: 25


In [4]:
## x 의 경우도 범주형으로 구성되어 있어, 알맞은 인코딩 필요
X = train.drop(columns=['SUBCLASS', 'ID'])
y_subclass = train['SUBCLASS']

* 이 코드는 다음과 같이 작동합니다:
1. 데이터를 로드합니다.
2. 샘플의 변이 데이터를 전처리하여 "유전자_변이" 형식의 문자열 리스트로 변환합니다.
3. Word2Vec 모델을 사용하여 변이 임베딩을 학습합니다. 여기서는 10차원 벡터를 사용했지만, 이는 조정 가능합니다.
4. 각 변이에 대한 임베딩을 가져오는 함수와 각 샘플의 임베딩을 계산하는 함수를 정의합니다. 샘플 임베딩은 해당 샘플의 모든 변이 임베딩의 평균으로 계산됩니다.
5. 모든 샘플에 대한 임베딩을 생성합니다.
6. SUBCLASS를 숫자로 인코딩합니다.
7. 최종 데이터셋을 생성합니다. 이 데이터셋은 샘플 ID, 임베딩 벡터, 인코딩된 SUBCLASS를 포함합니다.
8. 이 방법의 장점은 다음과 같습니다:
9. 변이 간의 의미적 관계를 포착할 수 있습니다.
10. 고차원 데이터를 저차원으로 축소할 수 있습니다.
11. 새로운 또는 희귀한 변이에 대해서도 의미 있는 표현을 제공할 수 있습니다.
* 단점은 다음과 같습니다:
충분한 데이터가 없으면 임베딩의 품질이 떨어질 수 있습니다.
하이퍼파라미터 튜닝(예: vector_size, window 등)이 필요할 수 있습니다.
이 인코딩 방법을 사용한 후, 결과 데이터셋을 머신러닝 모델의 입력으로 사용할 수 있습니다.

In [5]:
# 변이 빈도 계산 함수
def calculate_mutation_frequencies(df):
    total_samples = len(df)
    freq_dict = defaultdict(lambda: defaultdict(int))
    
    for column in df.columns[2:]:  # ID와 SUBCLASS를 제외한 열
        value_counts = df[column].value_counts()
        for mutation, count in value_counts.items():
            freq_dict[column][mutation] = count / total_samples
    
    return freq_dict

In [6]:
# 샘플 인코딩 함수
def encode_sample(row, freq_dict):
    encoded = []
    for column, value in row.items():
        encoded.append(freq_dict[column][value])
    return encoded

In [7]:
# 변이 빈도 계산
mutation_frequencies = calculate_mutation_frequencies(X)

In [9]:
# 데이터 인코딩
encoded_data = X.apply(lambda row: encode_sample(row, mutation_frequencies), axis=1)

In [13]:
# 인코딩된 데이터를 DataFrame으로 변환
encoded_X = pd.DataFrame(encoded_data.tolist(), columns=[f'gene_{i}' for i in range(len(X.columns))])

In [14]:
encoded_X

Unnamed: 0,gene_0,gene_1,gene_2,gene_3,gene_4,gene_5,gene_6,gene_7,gene_8,gene_9,...,gene_4374,gene_4375,gene_4376,gene_4377,gene_4378,gene_4379,gene_4380,gene_4381,gene_4382,gene_4383
0,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
1,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
2,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
3,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
4,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6196,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
6197,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227
6198,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.000161,0.993227
6199,0,0,0.995968,1.0,0.992259,0.974843,0.980326,0.978713,0.967425,0.981777,...,0.971617,0.988711,0.99484,0.995646,0.978068,0.990002,0.990647,0.990485,0.994356,0.993227


In [15]:
X_test = test.drop(["ID"], axis = 1)

In [17]:
# 테스트 데이터 인코딩
test_encoded = X_test.apply(lambda row: encode_sample(row, mutation_frequencies), axis=1)
test_encoded_df = pd.DataFrame(test_encoded.tolist(), columns=[f'gene_{i}' for i in range(len(X_test.columns))])

# Save in data

In [18]:
encoded_X.to_csv(f'../data/frequency_based_encoding_X.csv', encoding='UTF-8-sig', index=False)

In [19]:
test_encoded_df.to_csv(f'../data/frequency_based_encoding_X_test.csv', encoding='UTF-8-sig', index=False)