---

# **2/3 малышей**

1) Носова Ирина Вадимовна (4 курс МФТИ, ФБМФ)

2) Терещук Вера Юрьевна (4 курс МФТИ, ФБМФ)

3) Болев Михаил Алексеевич (4 курс МФТИ, ФБМФ)

4) Макаров Владислав Денисович (4 курс МФТИ, ФБМФ)

---

# Описание задачи

**Цель:** Проверить пары иммунных репертуаров на наличие ответа на заданный патоген. Для этого необходимо сопоставить последовательности CDR3-региона Т-клеточного рецептора с известными последовательностями из базы данных. При этом следует учитывать, что само наличие последовательности в репертуаре не гарантирует наличие ответа.

## Входные данные
- **База данных:** vdjdb.
- **Таблицы:** Данные о клонотипах.

## Ожидаемые результаты
Участникам требуется:
1. Разработать подход, позволяющий:
   - Определить наличие ответа на патоген.
   - Оценить степень уверенности в том, что найденный ответ не случаен.
2. Продемонстрировать работу метода на предоставленных таблицах с неизвестным статусом.

**Критерии оценки:**
- Успешное определение статусов таблиц.
- Подробный отчет о методах.
- Качественная интерпретация результатов.

---

Импорт необходимых библиотек:

In [None]:
# Базовые библиотеки
import numpy as np
import pandas as pd
from tqdm import tqdm

# PyTorch и модель ESM
import torch
from transformers import EsmTokenizer, AutoModel

# Модели и метрики из scikit-learn
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# CatBoost
from catboost import CatBoostClassifier

### **Использование эмбеддингов и классификации для анализа CDR3-последовательностей**

### **Этап 1. Инициализация модели и токенизатора**

Взяли довольно популярную модель предобученную на большом количестве данных аминокислотных последовательностей. Предобучалась на задаче MLM

In [None]:
tokenizer = EsmTokenizer.from_pretrained("facebook/esm2_t6_8M_UR50D")
model = AutoModel.from_pretrained("facebook/esm2_t6_8M_UR50D")

In [None]:
model

---

**Комментарий:**

Мы используем предобученную модель ESM2 от Facebook, которая предназначена для анализа последовательностей белков. Токенизатор преобразует аминокислотные последовательности в числовой вид, а модель извлекает эмбеддинги.

---

### **Этап 2. Упрощение модели**

Уберем верхний слой, т.к. он отвечает за классификацию

In [None]:
model.contact_head = None
model

In [None]:
model.pooler = None
model

Перенос на GPU

In [None]:
model.cuda()

### **Этап 3. Функция для получения эмбеддингов**

In [None]:
def get_embeddings(sequence):
    # Токенизация и перенос на GPU
    inputs = tokenizer(sequence, return_tensors="pt", add_special_tokens=True, padding=True)
    with torch.no_grad():
        inputs.to('cuda') # Перенос входных данных на GPU
        outputs = model(**inputs) # Прогон через модель
        embeddings = outputs.last_hidden_state.mean(dim=1) # Среднее значение по всем токенам
    return embeddings.squeeze().cpu().numpy() # Возвращаем эмбеддинги в формате numpy

### **Этап 4. Пример извлечения эмбеддингов**

In [None]:
# Пример последовательностей
sequences = ["MKTFFVAGLFVMLAALSG", "VLGFLVLTLTGAAGQVLG"]  
embeddings = np.array([get_embeddings(seq) for seq in sequences])
print("Размер эмбеддингов:", embeddings.shape)

### **Этап 5. Загрузка данных из базы vdjdb**

In [None]:
df = pd.read_csv("vdjdb.slim.txt", sep='\t')
df_homo = df[df['species'] == 'HomoSapiens'][['cdr3', 'antigen.species']]
df_homo.head()

### **Этап 6. Извлечение эмбеддингов для всех последовательностей**

In [None]:
labels = df_homo['antigen.species']
data = df_homo.drop('antigen.species', axis=1)

X_data = []
for i in tqdm(range(75)):
    X_data.append(get_embeddings(data['cdr3'].tolist()[i*1000:(i+1)*1000]))

X_data = np.concatenate(X_data, axis=0)
X_data.shape

### **Этап 7. Предобработка данных для обучения**

In [None]:
# Замена редких классов на категорию "others"
class_counts = labels.value_counts()
classes_to_replace = class_counts[class_counts < 200].index
labels_new = labels.where(labels.isin(classes_to_replace) == False, 'others')

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X_data, labels_new, test_size=0.1, random_state=42)

In [None]:
le = LabelEncoder()

y_train = le.fit_transform(y_train)
y_test = le.transform(y_test)

### **Этап 8. Обучение модели CatBoost**

In [None]:
catboost = CatBoostClassifier(task_type="GPU", iterations=2000, loss_function="MultiClass")
catboost.fit(X_train, y_train)

### **Этап 9. Оценка качества модели**

In [None]:
preds_proba= catboost.predict_proba(X_test)
preds = catboost.predict(X_test)

roc_auc = roc_auc_score(y_true=y_test, y_score=preds_proba, multi_class='ovr')
print(f"ROC-AUC: {roc_auc:.3f}")

### **Этап 10. Альтернативные модели**

In [None]:
# Обучение Logistic Regression
logreg = LogisticRegression(multi_class="ovr", max_iter=2000, random_state=42)
logreg.fit(X_train, y_train)

# Обучение Random Forest
random_forest = RandomForestClassifier(n_estimators=100, random_state=42)
random_forest.fit(X_train, y_train)

In [None]:
# Предсказания вероятностей для Logistic Regression
preds_proba_logreg = logreg.predict_proba(X_test)
preds_logreg = logreg.predict(X_test)

# Расчет ROC-AUC для Logistic Regression
roc_auc_logreg = roc_auc_score(y_true=y_test, y_score=preds_proba_logreg, multi_class='ovr')
print(f"ROC-AUC (Logistic Regression): {roc_auc_logreg:.3f}")

# Предсказания вероятностей для Random Forest
preds_proba_rf = random_forest.predict_proba(X_test)
preds_rf = random_forest.predict(X_test)

# Расчет ROC-AUC для Random Forest
roc_auc_rf = roc_auc_score(y_true=y_test, y_score=preds_proba_rf, multi_class='ovr')
print(f"ROC-AUC (Random Forest): {roc_auc_rf:.3f}")

**Вывод:** Метрики хуже

In [None]:
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=42)

### **Этап 10. Тюнинг гиперпараметров**

Используем optuna для подбора гиперпараметров

In [None]:
import optuna

def objective(trial):
    params = {
        "iterations": 2000,
        "learning_rate": trial.suggest_float("learning_rate", 1e-3, 0.1, log=True),
        "depth": trial.suggest_int("depth", 1, 10),
        "l2_leaf_reg": trial.suggest_float("l2_leaf_reg", 1, 500, log=True),
    }

    model = CatBoostClassifier(task_type="GPU", loss_function="MultiClass", silent=True, **params)
    model.fit(X_train, y_train)
    predictions = model.predict_proba(X_val)
    roc_auc = roc_auc_score(y_true=y_val, y_score=predictions, multi_class='ovr')
    return roc_auc

In [None]:
study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=30)

In [None]:
study.best_params

### **Этап 12. Обучаем модель с лучшими гиперпараметрами**

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_data, labels_new, test_size=0.1, random_state=42)

In [None]:
best_params = {'learning_rate': 0.03899128323378634,
 'depth': 10,
 'l2_leaf_reg': 2.4095622667503007}
catboost = CatBoostClassifier(task_type="GPU", iterations=2000, loss_function="MultiClass", **best_params)
catboost.fit(X_train, y_train)

Посчитаем ROC-AUC:

In [None]:
preds_proba= catboost.predict_proba(X_test)
preds = catboost.predict(X_test)
roc_auc_score(y_true=y_test, y_score=preds_proba, multi_class='ovr')

### **Этап 13. Прогноз на образцах**

In [None]:
!unzip for_task.zip

Прочитаем датафреймы

In [None]:
def read_tsv_files_from_folder(folder_path):
    
    dataframes = []
    file_names = []
    
    # Проходимся по всем файлам в папке
    for file_name in os.listdir(folder_path):
        if file_name.endswith('.tsv'):  # Проверяем, что файл имеет расширение .tsv
            file_path = os.path.join(folder_path, file_name)
            try:
                # Читаем файл и добавляем в список
                df = pd.read_csv(file_path, sep='\t')
                dataframes.append(df)
            except Exception as e:
                print(f"Не удалось прочитать файл {file_name}: {e}")
        file_names.append(file_name)
    
    return dataframes, file_names

In [None]:
folder_path = "for_task"
dataframes, file_names = read_tsv_files_from_folder(folder_path)

print(f"Количество датафреймов: {len(dataframes)}")

Оставим столбец только с аминокислотными последовательностями

In [None]:
dataframes_new = []
for df in dataframes:
    list_columns = list(df.columns)
    X_columns=[]
    for column in list_columns:
        if 'cdr3aa' in column.lower() or 'cdr3.amino' in column.lower():
            X_columns.append(column)
    df_new = df[X_columns]
    dataframes_new.append(df_new)

Получим эмбеддинги для модели

In [None]:
X_all = []
for dataframe in tqdm(dataframes_new):
    X_data = []
    list_column = list(dataframe.columns)
    for i in range(0, len(dataframe), 20000):
        X_data.append(get_embeddings(dataframe[str(*list_column)].tolist()[i:i+20000]))
    X_data = np.concatenate(X_data, axis=0)
    X_all.append(X_data)

Получим прогнозы на всех образцах

In [None]:
preds_all = []
for X in tqdm(X_all):
    preds = catboost.predict(X)
    preds_all.append(preds)

In [None]:
answers = []
for i, pred in enumerate(preds_all):
    answers.append(pred.flatten())

Построим итоговую таблицу

In [None]:
d = {}

for i, answer in enumerate(answers):

    unique_answer, num_unique = np.unique(answer, return_counts=True)
    
    d[file_names[i]] = {"answers": unique_answer,
                       "unique": num_unique}

In [None]:
data_for_df = []

for sample_name, values in d.items():
    
    answers = values["answers"]
    unique_values = values["unique"]
     
    sorted_indices = unique_values.argsort()[::-1]  
    sorted_answers = answers[sorted_indices]     
     
    row = {"Sample": sample_name}
    row.update({f"Answer_{i+1}": answer for i, answer in enumerate(sorted_answers)})
    data_for_df.append(row)

df_final = pd.DataFrame(data_for_df)

df_final = df_final.fillna(value=pd.NA)

cols = ["Sample"] + [col for col in df_final.columns if col != "Sample"]
df_final = df_final[cols]

df_final

**Объяснение:** В таблице представлены все патогены найденные в образцах. Они отсортированы в порядке встречаемости в образце, то есть Answer_1 самый часто встречающийся патоген в образце. Как мы видим, почти у всех есть антитела к CMV, InfluenzaA, SARS-CoV-2, поэтому можно сделать фильтрацию(убрать первые три ответа)

In [None]:
df_final.to_csv('answers.csv')

Делаем фильтрацию

In [None]:
answers = []
for i, pred in enumerate(preds_all):
    answers.append(pred.flatten())

In [None]:
d = {}

for i, answer in enumerate(answers):

    unique_answer, num_unique = np.unique(answer, return_counts=True)
    indices_of_top = np.argsort(num_unique)[:-3]
    
    d[file_names[i]] = {"answers": unique_answer[indices_of_top],
                       "unique": num_unique[indices_of_top]}

In [None]:
data_for_df = []

for sample_name, values in d.items():

    answers = values["answers"]
    unique_values = values["unique"]
    
    sorted_indices = unique_values.argsort()[::-1]  
    sorted_answers = answers[sorted_indices]        
    
    
    row = {"Sample": sample_name}
    row.update({f"Answer_{i+1}": answer for i, answer in enumerate(sorted_answers)})
    data_for_df.append(row)


df_final = pd.DataFrame(data_for_df)

df_final = df_final.fillna(value=pd.NA)

cols = ["Sample"] + [col for col in df_final.columns if col != "Sample"]
df_final = df_final[cols]

df_final

Здесь представлена отфильтрованная таблица

In [None]:
df_final.to_csv('filtered_answers.csv')