In [3]:
import pandas as pd

# Пути к файлам
expression_path = r"../../../depmap_datasets/prepared_datasets/protein_coding_gene_expression.csv"
cancer_types_path = r"C:../../../depmap_datasets/prepared_datasets/cancer_cell_lines_merged_data.csv"
output_path = r"./mean_expression_by_cancer_type_data.csv"

# Список нужных генов
genes_of_interest = [
    "ABL1", "ABL2", "AXL", "BMX", "BTK", "CAMK1D", "CAMK2G", "CAV1", "CSK", "EGFR",
    "EPHB4", "FER", "FES", "FGR", "FRK", "FYN", "HCK", "LCK", "LYN", "MAP4K2", "MAP4K5",
    "MINK1", "PTK2", "PTK2B", "SIK1", "SIK2", "SIK3", "SRC", "STK10", "STK24", "STK4", "SYK",
    "TBK1", "TEC", "TNK2", "YES1"
]

# Загрузка данных
expression = pd.read_csv(expression_path)
cancer_types = pd.read_csv(cancer_types_path)

# Оставим только нужные гены + DepMap_ID
columns_to_keep = ['ModelID'] + [gene for gene in genes_of_interest if gene in expression.columns]
expression_filtered = expression[columns_to_keep]

# Объединение таблиц по идентификатору модели
merged = expression_filtered.merge(cancer_types, left_on='ModelID', right_on='ModelID')

# Фильтрация типов рака с 8 и более линиями
cancer_counts = merged['primary_disease_renamed'].value_counts()
valid_cancer_types = cancer_counts[cancer_counts >= 8].index

# Фильтрация по валидным типам рака
filtered = merged[merged['primary_disease_renamed'].isin(valid_cancer_types)]

# Группировка и расчёт средних значений
grouped = filtered.groupby('primary_disease_renamed')[genes_of_interest].mean()

# Сохранение результата
grouped.to_csv(output_path)

print("Готово! Файл сохранён как:", output_path)


Готово! Файл сохранён как: ./mean_expression_by_cancer_type_data.csv
