In [1]:
import pandas as pd
import glob
import os
import matplotlib.pyplot as plt

In [3]:
def load_asd_data_with_pandas(data_path: str = "/content/drive/MyDrive/Antibody_Chekalin_Denis/asd") -> pd.DataFrame:
    """
    Загружает все parquet файлы из папки asd в один pandas DataFrame
    """
    # Получаем все parquet файлы из папки
    parquet_files = glob.glob(os.path.join(data_path, "part-*.parquet"))

    if not parquet_files:
        raise ValueError(f"Не найдено parquet файлов в папке {data_path}")

    print(f"Найдено {len(parquet_files)} parquet файлов")

    # Загружаем все файлы в список DataFrame'ов
    dataframes = []
    for file_path in parquet_files:
        # print(f"Загружаем файл: {os.path.basename(file_path)}")
        df = pd.read_parquet(file_path)
        dataframes.append(df)

    # Объединяем все DataFrame'ы в один
    combined_df = pd.concat(dataframes, ignore_index=True)

    print(f"Общий размер данных: {combined_df.shape}")
    print(f"Колонки: {list(combined_df.columns)}")

    return combined_df

# Загружаем данные
agab_df = load_asd_data_with_pandas('../asd')

Найдено 20 parquet файлов
Общий размер данных: (1227083, 11)
Колонки: ['dataset', 'heavy_sequence', 'light_sequence', 'scfv', 'affinity_type', 'affinity', 'antigen_sequence', 'confidence', 'nanobody', 'metadata', 'processed_measurement']


In [6]:
agab_filtered_df = pd.read_parquet("../agab_filtered.parquet")

In [4]:
agab_df.groupby('dataset')['antigen_sequence'].agg([
    ('total_count', 'count'),
    ('unique_antigens', 'nunique')
]).sort_values('unique_antigens', ascending=False)

Unnamed: 0_level_0,total_count,unique_antigens
dataset,Unnamed: 1_level_1,Unnamed: 2_level_1
patents,217463,6082
structures-antibodies,2711,1083
hiv,48008,940
literature,5636,884
biomap,2725,594
structures-nanobodies,1258,390
genbank,2989,347
covid-19,54625,32
skempiv2,434,21
abdesign,672,13


In [5]:
agab_df.groupby('affinity_type')['antigen_sequence'].agg([
    ('total_count', 'count'),
    ('unique_antigens', 'nunique')
]).sort_values('unique_antigens', ascending=False)

Unnamed: 0_level_0,total_count,unique_antigens
affinity_type,Unnamed: 1_level_1,Unnamed: 2_level_1
bool,336761,9197
delta_g,2725,594
ddg,670,22
elisa_mut_to_wt_ratio,658,13
kd,7007,11
ic_50,360,10
-log KD,152401,5
alphaseq,198703,3
log_enrichment,3452,2
fuzzy,524346,1


In [7]:
agab_filtered_df.groupby('affinity_type')['antigen_sequence'].agg([
    ('total_count', 'count'),
    ('unique_antigens', 'nunique')
]).sort_values('unique_antigens', ascending=False)

Unnamed: 0_level_0,total_count,unique_antigens
affinity_type,Unnamed: 1_level_1,Unnamed: 2_level_1
elisa_mut_to_wt_ratio,168,12
ic_50,349,10
kd,6743,8
-log KD,83075,5
alphaseq,54111,2
fuzzy,172149,1
log_enrichment,1016,1
