In [11]:
# Data loading
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.metrics import roc_auc_score, f1_score
from IPython.display import clear_output

from joblib import load
from tqdm import trange
from tqdm.notebook import tqdm


# Graph dataset
from torch_geometric.loader import DataLoader
from torch_geometric.data import Dataset, Data

from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import StratifiedKFold


# GNN Model
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch_geometric.nn import GCNConv, GraphConv, GATConv, GATv2Conv, SAGEConv


# Sparse vector
from Sparse_vector.sparse_vector import SparseVector

# Data loading

In [12]:
chrom_names = [f'chr{i}' for i in list(range(1, 23)) + ['X', 'Y','M']]

features = [i[:-4] for i in os.listdir('z_dna/hg38_features/sparse/') if i.endswith('.pkl')]
groups = ['DNase-seq', 'Histone', 'RNA polymerase', 'TFs and others']
feature_names = [i for i in features]

In [13]:
def chrom_reader(chrom):
    files = sorted([i for i in os.listdir(f'z_dna/hg38_dna/') if f"{chrom}_" in i])
    return ''.join([load(f"z_dna/hg38_dna/{file}") for file in files])

In [21]:
%%time
DNA = {chrom:chrom_reader(chrom) for chrom in tqdm(chrom_names)}
#ZDNA = load('z_dna/hg38_zdna/sparse/ZDNA_shin.pkl')
#ZDNA = load('z_dna/hg38_zdna/sparse/ZDNA_cousine.pkl')
#ZDNA = load('z_dna/hg38_zdna/sparse/Kouzine_hg38.pkl')

ZDNA = load('z_dna/hg38_zdna/sparse/EndoQuad_hg19.pkl')

DNA_features = {feature: load(f'z_dna/hg38_features/sparse/{feature}.pkl')
                for feature in tqdm(feature_names)}

  0%|          | 0/25 [00:00<?, ?it/s]

  0%|          | 0/1946 [00:00<?, ?it/s]

CPU times: user 2min 54s, sys: 3.71 s, total: 2min 57s
Wall time: 2min 57s


In [22]:
np.random.seed(10)
width = 100
ints_in = []
ints_out = []

for chrm in chrom_names:
    for st in trange(0, ZDNA[chrm].shape - width, width):
        interval = [st, min(st + width, ZDNA[chrm].shape)]
        if ZDNA[chrm][interval[0]: interval[1]].any():
            ints_in.append([chrm, interval[0], interval[1]])
        else:
            ints_out.append([chrm, interval[0], interval[1]])

ints_in = np.array(ints_in)
ints_out = np.array(ints_out)[np.random.choice(range(len(ints_out)), size=len(ints_in) * 2, replace=False)]

100%|██████████████████████████████████████████████████████████████████████| 2489564/2489564 [01:05<00:00, 38080.43it/s]
100%|██████████████████████████████████████████████████████████████████████| 2421935/2421935 [01:07<00:00, 35991.43it/s]
100%|██████████████████████████████████████████████████████████████████████| 1982955/1982955 [01:00<00:00, 32805.90it/s]
100%|██████████████████████████████████████████████████████████████████████| 1902145/1902145 [00:55<00:00, 34350.23it/s]
100%|██████████████████████████████████████████████████████████████████████| 1815382/1815382 [00:49<00:00, 36839.95it/s]
100%|██████████████████████████████████████████████████████████████████████| 1708059/1708059 [00:40<00:00, 42644.15it/s]
100%|██████████████████████████████████████████████████████████████████████| 1593459/1593459 [00:32<00:00, 49292.21it/s]
100%|██████████████████████████████████████████████████████████████████████| 1451386/1451386 [00:27<00:00, 53745.02it/s]
100%|███████████████████████████

In [19]:
len(ints_in)

45201

In [23]:
len(ints_in)

134686

In [16]:
!nvidia-smi

Sat Sep 14 00:15:12 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 545.29.06              Driver Version: 545.29.06    CUDA Version: 12.3     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|   0  NVIDIA GeForce GTX 1080 Ti     Off | 00000000:05:00.0 Off |                  N/A |
| 71%   86C    P2             301W / 250W |   8237MiB / 11264MiB |     88%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA GeForce GTX 1080 Ti     Off | 00000000:06:00.0 Off |  

# Подсчет статистики по интервалам

In [5]:
def find_intervals(vector):
    intervals = []
    start = None

    for i, val in enumerate(vector):
        if val == 1 and start is None:
            start = i
        elif val == 0 and start is not None:
            intervals.append(i - start)
            start = None

    if start is not None:
        intervals.append(len(vector) - start)

    return intervals

# Shin

In [11]:
width_in = 5000
all_intervals = []
for chrm in chrom_names:
    for st in trange(0, ZDNA[chrm].shape - width_in, width_in):
        interval = [st, min(st + width_in, ZDNA[chrm].shape)]
        if ZDNA[chrm][interval[0]: interval[1]].any():
            all_intervals.extend(find_intervals(ZDNA[chrm][interval[0]: interval[1]]))

100%|██████████████████████████████████████████████████████████████████████████| 49791/49791 [00:01<00:00, 43806.39it/s]
100%|██████████████████████████████████████████████████████████████████████████| 48438/48438 [00:01<00:00, 47437.30it/s]
100%|██████████████████████████████████████████████████████████████████████████| 39659/39659 [00:00<00:00, 46277.17it/s]
100%|██████████████████████████████████████████████████████████████████████████| 38042/38042 [00:00<00:00, 47828.63it/s]
100%|██████████████████████████████████████████████████████████████████████████| 36307/36307 [00:00<00:00, 46745.38it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34161/34161 [00:00<00:00, 46110.62it/s]
100%|██████████████████████████████████████████████████████████████████████████| 31869/31869 [00:00<00:00, 46391.14it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29027/29027 [00:00<00:00, 47028.69it/s]
100%|███████████████████████████

In [12]:
if all_intervals:
    average_length = np.mean(all_intervals)
    min_length = np.min(all_intervals)
    max_length = np.max(all_intervals)
    median_length = np.median(all_intervals)

    print(f'Средний размер интервала: {average_length}')
    print(f'Минимальный размер интервала: {min_length}')
    print(f'Максимальный размер интервала: {max_length}')
    print(f'Медианный размер интервала: {median_length}')
    print(f'Количество интервалов: {len(all_intervals)}')
else:
    print('Интервалы не найдены')

Средний размер интервала: 353.6348039215686
Минимальный размер интервала: 3
Максимальный размер интервала: 551
Медианный размер интервала: 385.0
Количество интервалов: 408


# Кузин

In [82]:
width_in = 5000
all_intervals = []
for chrm in chrom_names:
    for st in trange(0, ZDNA[chrm].shape - width_in, width_in):
        interval = [st, min(st + width_in, ZDNA[chrm].shape)]
        if ZDNA[chrm][interval[0]: interval[1]].any():
            all_intervals.extend(find_intervals(ZDNA[chrm][interval[0]: interval[1]]))

100%|██████████████████████████████████████████████████████████████████████████| 49791/49791 [00:02<00:00, 20709.90it/s]
100%|██████████████████████████████████████████████████████████████████████████| 48438/48438 [00:02<00:00, 23384.04it/s]
100%|██████████████████████████████████████████████████████████████████████████| 39659/39659 [00:01<00:00, 27192.41it/s]
100%|██████████████████████████████████████████████████████████████████████████| 38042/38042 [00:01<00:00, 25663.99it/s]
100%|██████████████████████████████████████████████████████████████████████████| 36307/36307 [00:01<00:00, 24387.37it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34161/34161 [00:01<00:00, 23620.43it/s]
100%|██████████████████████████████████████████████████████████████████████████| 31869/31869 [00:01<00:00, 19674.78it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29027/29027 [00:01<00:00, 21675.12it/s]
100%|███████████████████████████

In [83]:
if all_intervals:
    average_length = np.mean(all_intervals)
    min_length = np.min(all_intervals)
    max_length = np.max(all_intervals)
    median_length = np.median(all_intervals)

    print(f'Средний размер интервала: {average_length}')
    print(f'Минимальный размер интервала: {min_length}')
    print(f'Максимальный размер интервала: {max_length}')
    print(f'Медианный размер интервала: {median_length}')
    print(f'Количество интервалов: {len(all_intervals)}')
else:
    print('Интервалы не найдены')

Средний размер интервала: 19.700840990856804
Минимальный размер интервала: 1
Максимальный размер интервала: 1745
Медианный размер интервала: 18.0
Количество интервалов: 43639


# EndoQuad_hg19

In [6]:
width_in = 5000
all_intervals = []
for chrm in chrom_names:
    for st in trange(0, ZDNA[chrm].shape - width_in, width_in):
        interval = [st, min(st + width_in, ZDNA[chrm].shape)]
        if ZDNA[chrm][interval[0]: interval[1]].any():
            all_intervals.extend(find_intervals(ZDNA[chrm][interval[0]: interval[1]]))

100%|██████████████████████████████████████████████████████████████████████████| 49791/49791 [00:04<00:00, 10926.93it/s]
100%|██████████████████████████████████████████████████████████████████████████| 48438/48438 [00:03<00:00, 14777.83it/s]
100%|██████████████████████████████████████████████████████████████████████████| 39659/39659 [00:02<00:00, 17037.92it/s]
100%|██████████████████████████████████████████████████████████████████████████| 38042/38042 [00:02<00:00, 17464.85it/s]
100%|██████████████████████████████████████████████████████████████████████████| 36307/36307 [00:02<00:00, 16629.96it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34161/34161 [00:02<00:00, 16605.20it/s]
100%|██████████████████████████████████████████████████████████████████████████| 31869/31869 [00:02<00:00, 13103.60it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29027/29027 [00:01<00:00, 16835.97it/s]
100%|███████████████████████████

In [7]:
if all_intervals:
    average_length = np.mean(all_intervals)
    min_length = np.min(all_intervals)
    max_length = np.max(all_intervals)
    median_length = np.median(all_intervals)

    print(f'Средний размер интервала: {average_length}')
    print(f'Минимальный размер интервала: {min_length}')
    print(f'Максимальный размер интервала: {max_length}')
    print(f'Медианный размер интервала: {median_length}')
    print(f'Количество интервалов: {len(all_intervals)}')
else:
    print('Интервалы не найдены')

Средний размер интервала: 34.31193593006106
Минимальный размер интервала: 1
Максимальный размер интервала: 134
Медианный размер интервала: 33.0
Количество интервалов: 130857


# Kouzine_hg38

In [9]:
width_in = 5000
all_intervals = []
for chrm in chrom_names:
    for st in trange(0, ZDNA[chrm].shape - width_in, width_in):
        interval = [st, min(st + width_in, ZDNA[chrm].shape)]
        if ZDNA[chrm][interval[0]: interval[1]].any():
            all_intervals.extend(find_intervals(ZDNA[chrm][interval[0]: interval[1]]))

100%|██████████████████████████████████████████████████████████████████████████| 49791/49791 [00:03<00:00, 13907.63it/s]
100%|██████████████████████████████████████████████████████████████████████████| 48438/48438 [00:03<00:00, 15950.25it/s]
100%|██████████████████████████████████████████████████████████████████████████| 39659/39659 [00:02<00:00, 19409.73it/s]
100%|██████████████████████████████████████████████████████████████████████████| 38042/38042 [00:02<00:00, 17050.86it/s]
100%|██████████████████████████████████████████████████████████████████████████| 36307/36307 [00:02<00:00, 16737.45it/s]
100%|██████████████████████████████████████████████████████████████████████████| 34161/34161 [00:01<00:00, 18613.04it/s]
100%|██████████████████████████████████████████████████████████████████████████| 31869/31869 [00:02<00:00, 14865.63it/s]
100%|██████████████████████████████████████████████████████████████████████████| 29027/29027 [00:01<00:00, 16409.51it/s]
100%|███████████████████████████

In [10]:
if all_intervals:
    average_length = np.mean(all_intervals)
    min_length = np.min(all_intervals)
    max_length = np.max(all_intervals)
    median_length = np.median(all_intervals)

    print(f'Средний размер интервала: {average_length}')
    print(f'Минимальный размер интервала: {min_length}')
    print(f'Максимальный размер интервала: {max_length}')
    print(f'Медианный размер интервала: {median_length}')
    print(f'Количество интервалов: {len(all_intervals)}')
else:
    print('Интервалы не найдены')

Средний размер интервала: 19.700840990856804
Минимальный размер интервала: 1
Максимальный размер интервала: 1745
Медианный размер интервала: 18.0
Количество интервалов: 43639
