In [17]:
import gzip

chr3_ids = set()
with gzip.open("gencode.v48.annotation.gtf.gz", "rt") as f:
    for line in f:
        if line.startswith("#"):
            continue
        cols = line.strip().split('\t')
        if len(cols) < 9:
            continue
        chrom, feature_type, attributes = cols[0], cols[2], cols[8]
        if chrom == "chr3" and feature_type == "gene":
            attrs = {kv.split(' ')[0]: kv.split(' ')[1].strip('"') 
                     for kv in attributes.strip(';').split('; ') if ' ' in kv}
            gene_id = attrs.get('gene_id')
            if gene_id:
                chr3_ids.add(gene_id)

print(f"Нашли {len(chr3_ids)} генов на хромосоме 3.")


Нашли 4158 генов на хромосоме 3.


TypeError: 'set' object is not subscriptable

In [None]:
import pandas as pd
from tqdm import tqdm

# Размер чанка подбирается по памяти — можно увеличить при необходимости
chunksize = 5000
results = []

with pd.read_csv("gene_tpm_non_lcm.gct", sep='\t', skiprows=2, chunksize=chunksize, low_memory=False) as reader:
    for chunk in tqdm(reader, desc="Фильтрация по хромосоме 3"):
        chunk['gene_id_clean'] = chunk['Name'].str.split('.').str[0]
        filtered_chunk = chunk[chunk['gene_id_clean'].isin(chr3_ids)]
        results.append(filtered_chunk)

# Объединяем все отфильтрованные чанки в один датафрейм
df_chr3 = pd.concat(results, ignore_index=True)

print(f"Финальный размер данных по хромосоме 3: {df_chr3.shape}")


In [20]:
df_chr3.to_csv("gene_tpm_chr3_filtered.csv", index=False)


In [1]:
import pandas as pd

# Путь к исходному файлу
input_file = 'Median_expressions.gct'

# Путь к выходному файлу
output_file = 'MedEx_filtered.gct'

# Список интересующих тканей
tissues_of_interest = [
    'Muscle - Skeletal',
    'Whole Blood',
    'Brain - Frontal Cortex (BA9)'
]

# Чтение файла, пропуская первые две строки
df = pd.read_csv(input_file, sep='\t', skiprows=2)

# Проверка наличия интересующих тканей в столбцах
available_tissues = [tissue for tissue in tissues_of_interest if tissue in df.columns]

# Выбор столбцов: 'Name', 'Description' и интересующие ткани
columns_to_keep = ['Name', 'Description'] + available_tissues
filtered_df = df[columns_to_keep]

# Сохранение отфильтрованных данных в новый файл
# Добавим первые две строки, как в оригинальном GCT-файле
with open(output_file, 'w') as f:
    # Первая строка: версия формата
    f.write('#1.2\n')
    # Вторая строка: количество строк и столбцов
    f.write(f'{filtered_df.shape[0]}\t{filtered_df.shape[1] - 2}\n')
    # Сохранение данных
    filtered_df.to_csv(f, sep='\t', index=False)


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [10]:
print(type(gene_coords))

<class 'dict'>


In [19]:
import csv

gene_coords = {}

with open("gencode.v48.annotation.gtf", "r") as gtf:
    for line in gtf:
        if line.startswith("#"):
            continue
        fields = line.strip().split("\t")
        if len(fields) < 9 or fields[2] != "gene":
            continue

        attr_field = fields[8]
        chrom = fields[0]
        start = fields[3]
        end = fields[4]

        # Извлекаем gene_id и gene_name из строки атрибутов
        attr_parts = attr_field.split(";")
        gene_id = None
        gene_name = None
        for part in attr_parts:
            part = part.strip()
            if part.startswith("gene_id"):
                gene_id = part.split('"')[1]
            if part.startswith("gene_name"):
                gene_name = part.split('"')[1]

        if gene_id:
            gene_coords[gene_id] = (chrom, start, end, gene_name)

# Проверка: выведем первые 5 записей
for i, (gid, info) in enumerate(gene_coords.items()):
    chrom, start, end, gene_name = info
    print(f"gene_id: {gid}, gene_name: {gene_name}, chrom: {chrom}, start: {start}, end: {end}")
    if i > 4:
        break


gene_id: ENSG00000290825.2, gene_name: DDX11L16, chrom: chr1, start: 11121, end: 24894
gene_id: ENSG00000223972.6, gene_name: DDX11L1, chrom: chr1, start: 12010, end: 13670
gene_id: ENSG00000310526.1, gene_name: WASH7P, chrom: chr1, start: 14356, end: 30744
gene_id: ENSG00000227232.6, gene_name: WASH7P, chrom: chr1, start: 14696, end: 24886
gene_id: ENSG00000278267.1, gene_name: MIR6859-1, chrom: chr1, start: 17369, end: 17436
gene_id: ENSG00000243485.6, gene_name: MIR1302-2HG, chrom: chr1, start: 28589, end: 31109


In [None]:
import csv

# Пути к файлам
gct_file = "MedEx_filtered.gct"
output_csv = "MedEx_with_coords.csv"

# Читаем GCT вручную
with open(gct_file, "r") as f:
    lines = f.readlines()

# Пропускаем первые две строки
data_lines = lines[2:]

# Заголовок
header = data_lines[0].strip().split("\t")[2:]  # Пропускаем Name и Description

# Данные
parsed_rows = []
for line in data_lines[1:]:
    parts = line.strip().split("\t")
    
    # Проверяем, что строка имеет правильное количество элементов
    if len(parts) >= 2:
        full_id = parts[0]
        base_id = full_id.split(".")[0]  # отрезаем версию
        gene_name = parts[1]
        expression_values = parts[2:]
        parsed_rows.append((full_id, base_id, gene_name, expression_values))
    else:
        print(f"❌ Ошибка в строке (неправильное количество колонок): {line.strip()}")

# Собираем финальные строки
final_header = ["gene_id", "gene_name", "chromosome", "start", "end"] + header
final_rows = []

for full_id, base_id, gene_name, expr_values in parsed_rows:
    chrom, start, end = gene_coords.get(base_id, ("NA", "NA", "NA"))
    final_rows.append([full_id, gene_name, chrom, start, end] + expr_values)

# Сохраняем в CSV
with open(output_csv, "w", newline="") as f:
    writer = csv.writer(f)
    writer.writerow(final_header)
    writer.writerows(final_rows)

print(f"✅ Сохранено: {output_csv}")


In [26]:
import csv

# 1. Упростим gene_name в gene_coords
simplified_coords = {}
for gene_id, (chrom, start, end, gene_name) in gene_coords.items():
    base_name = gene_name if gene_name else gene_name
    simplified_coords[base_name] = (chrom, start, end)


found = 0
not_found = 0
output_rows = []

with open("MedEx_with_coords.csv", "r", newline="") as infile:
    reader = csv.DictReader(infile, delimiter=";")
    
    # Стрипаем заголовки колонок
    reader.fieldnames = [name.strip() for name in reader.fieldnames]
    print("Имена колонок:", reader.fieldnames)  # DEBUG
    
    for row in reader:
        gene_name_raw = row.get("gene_name", "").strip()
        
        base_name = gene_name_raw
        if base_name in simplified_coords:
            chrom, start, end = simplified_coords[base_name]
            row["chromosome"] = chrom
            row["start"] = start
            row["end"] = end
            found += 1
        else:
            not_found += 1

        output_rows.append(row)

# 3. Сохраняем результат
with open("MedEx_with_coords_filled.csv", "w", newline="") as outfile:
    writer = csv.DictWriter(outfile, fieldnames=reader.fieldnames, delimiter=";")
    writer.writeheader()
    writer.writerows(output_rows)

# 4. Отчёт
print(f"✅ Найдено координат: {found}")
print(f"❌ Не найдено: {not_found}")
print(f"📁 Записано в файл: MedEx_with_coords_filled.csv")


Имена колонок: ['gene_id', 'gene_name', 'chromosome', 'start', 'end', 'Muscle - Skeletal', 'Whole Blood', 'Frontal Cortex']
✅ Найдено координат: 35858
❌ Не найдено: 20342
📁 Записано в файл: MedEx_with_coords_filled.csv


In [27]:
print("RP11-34P13.14" in [val[3] for val in gene_coords.values()])


False


In [29]:
import csv

input_file = "MedEx_with_coords_filled.csv"
output_file = "MedEx_cleaned.csv"

filtered_rows = []

with open(input_file, "r", newline='') as infile:
    reader = csv.DictReader(infile, delimiter=';')  # меняем на ',' если надо
    fieldnames = reader.fieldnames

    for row in reader:
        if row["chromosome"] != "NA" and row["start"] != "NA" and row["end"] != "NA":
            filtered_rows.append(row)

with open(output_file, "w", newline='') as outfile:
    writer = csv.DictWriter(outfile, fieldnames=fieldnames, delimiter=';')
    writer.writeheader()
    writer.writerows(filtered_rows)

print(f"Сохранено {len(filtered_rows)} строк без NA координат.")


Сохранено 35858 строк без NA координат.


In [30]:
import csv
import os
from collections import defaultdict

# Название очищенного файла
input_file = "MedEx_cleaned.csv"

# Ткани и соответствующие названия столбцов
tissues = {
    "Muscle_Skeletal": "Muscle - Skeletal",
    "Whole_Blood": "Whole Blood",
    "Frontal_Cortex": "Frontal Cortex"
}

# Создаем папки под каждый тип ткани
for tissue in tissues:
    os.makedirs(tissue, exist_ok=True)

# Словарь: {tissue: {chrom: [строки для bed]}}
bed_data = {tissue: defaultdict(list) for tissue in tissues}

# Читаем таблицу
with open(input_file, "r", newline="") as infile:
    reader = csv.DictReader(infile, delimiter=';')  # меняй на ',' если файл с запятыми
    for row in reader:
        chrom = row["chromosome"]
        start = row["start"]
        end = row["end"]

        if not chrom.startswith("chr"):
            chrom = "chr" + chrom

        for tissue, colname in tissues.items():
            expr = row[colname]
            # Без выражения - пропускаем
            if expr.strip() in {"", "NA"}:
                continue
            try:
                float(expr)  # проверка на число
            except ValueError:
                continue
            bed_data[tissue][chrom].append(f"{chrom}\t{start}\t{end}\t{expr}\t+\n")

# Записываем .bed файлы
for tissue, chrom_dict in bed_data.items():
    for chrom, lines in chrom_dict.items():
        bed_filename = os.path.join(tissue, f"{chrom}.bed")
        with open(bed_filename, "w") as bedfile:
            bedfile.writelines(lines)

print("Готово: все .bed-файлы созданы по папкам.")


Готово: все .bed-файлы созданы по папкам.


In [31]:
import os
import csv

input_file = "TADmap_geneset_hs.csv"
output_dir = "TAD_domains"
os.makedirs(output_dir, exist_ok=True)

# Словарь: хромосома → список доменов
chrom_to_domains = {}

total_length = 0
domain_count = 0

with open(input_file, "r", newline='', encoding="utf-8") as f:
    reader = csv.reader(f)
    next(reader)  # Пропускаем заголовок

    for row in reader:
        if not row or not row[0]:
            continue
        tad_info, *_ = row
        parts = tad_info.split(",")[0].split("|")
        if len(parts) < 4:
            continue
        tad_id, chrom, start, end = parts
        start, end = int(start), int(end)

        chrom = chrom if chrom.startswith("chr") else f"chr{chrom}"
        chrom_to_domains.setdefault(chrom, []).append((start, end))

        total_length += end - start
        domain_count += 1

# Запись .bed файлов
for chrom, domains in chrom_to_domains.items():
    with open(os.path.join(output_dir, f"{chrom}.bed"), "w") as f:
        for start, end in sorted(domains):
            f.write(f"{chrom}\t{start}\t{end}\n")

# Вывод средней длины домена
if domain_count > 0:
    avg_length = total_length / domain_count
    print(f"Средняя длина TAD-домена: {avg_length:.2f} bp (всего доменов: {domain_count})")
else:
    print("Доменов не найдено.")


Средняя длина TAD-домена: 874061.26 bp (всего доменов: 3036)


In [50]:
import matplotlib.pyplot as plt
import csv
import ipywidgets as widgets

# Чтение данных из файла
input_file = "TADmap_geneset_hs.csv"
chromosome = "chr1"

# Словарь для хранения доменов
domains = []

# Чтение таблицы и извлечение данных по хромосоме chr1
with open(input_file, "r", newline='', encoding="utf-8") as f:
    reader = csv.reader(f)
    next(reader)  # Пропускаем заголовок

    for row in reader:
        if not row or not row[0]:
            continue
        tad_info, *_ = row
        parts = tad_info.split(",")[0].split("|")
        if len(parts) < 4:
            continue
        tad_id, chrom, start, end = parts
        start, end = int(start), int(end)

        if chrom == chromosome:
            genes = row[1].split("|")  # Список генов из этого домена
            num_genes = len(genes)
            domains.append((start, end, num_genes))

# Длина хромосомы для человека (хромосома 1)
chrom_length = 249250621

# Находим максимальное количество генов среди доменов
max_genes = max([num_genes for _, _, num_genes in domains])

# Функция для построения графика с зумом
def plot_graph(x_min, x_max):
    fig, ax = plt.subplots(figsize=(12, 6))

    # Строим столбики для доменов в пределах выбранного диапазона
    for start, end, num_genes in domains:
        if start >= x_min and end <= x_max:
            # Нормируем высоту столбика
            height = num_genes / max_genes
            ax.barh(0, end - start, left=start, height=height, align='center')
            ax.text((start + end) / 2, height / 2, str(num_genes), ha='center', va='center', color='grey', fontsize=8)

    # Добавляем оси и подписи
    ax.set_xlim(x_min, x_max)
    ax.set_ylim(0, 1)
    ax.set_xlabel('Длина хромосомы (bp)')
    ax.set_title(f'Гены на хромосоме {chromosome} и их распределение по доменам')
    plt.grid(True)
    ax.yaxis.set_visible(False)

    # Масштабируем ось Y в зависимости от максимальной высоты столбиков
    ax.set_ylim(0, 1.2)

    plt.tight_layout()
    plt.show()

# Создание слайдера для интерактивного выбора диапазона
slider = widgets.FloatRangeSlider(
    value=[0, chrom_length],
    min=0,
    max=chrom_length,
    step=100000,
    description='Диапазон:',
    continuous_update=False
)

# Использование слайдера для отображения графика
widgets.interactive(plot_graph, x_min=slider.value[0], x_max=slider.value[1])


interactive(children=(FloatSlider(value=0.0, description='x_min', max=1.0), FloatSlider(value=249250621.0, des…

In [51]:
import csv

# Чтение данных из файла
input_file = "TADmap_geneset_hs.csv"

# Словарь для хранения доменов по хромосомам
chromosomes = {}

# Чтение таблицы и извлечение данных
with open(input_file, "r", newline='', encoding="utf-8") as f:
    reader = csv.reader(f)
    next(reader)  # Пропускаем заголовок

    for row in reader:
        if not row or not row[0]:
            continue
        tad_info, *_ = row
        parts = tad_info.split(",")[0].split("|")
        if len(parts) < 4:
            continue
        tad_id, chrom, start, end = parts
        start, end = int(start), int(end)

        # Собираем информацию по доменам для каждой хромосомы
        if chrom not in chromosomes:
            chromosomes[chrom] = {"domains": [], "total_length": 0}
        
        chromosomes[chrom]["domains"].append((start, end))
        chromosomes[chrom]["total_length"] = max(chromosomes[chrom]["total_length"], end)  # Учитываем длину хромосомы

# Функция для расчета покрытия хромосомы доменами
def calculate_coverage(chrom_data):
    total_covered_length = 0
    for start, end in chrom_data["domains"]:
        total_covered_length += end - start
    coverage_percentage = (total_covered_length / chrom_data["total_length"]) * 100
    return len(chrom_data["domains"]), coverage_percentage

# Вывод данных по хромосомам
for chrom, data in chromosomes.items():
    domain_count, coverage = calculate_coverage(data)
    print(f"Хромосома {chrom}:")
    print(f"  Количество доменов: {domain_count}")
    print(f"  Процент длины хромосомы, покрытый доменами: {coverage:.2f}%\n")


Хромосома chr1:
  Количество доменов: 260
  Процент длины хромосомы, покрытый доменами: 82.67%

Хромосома chr10:
  Количество доменов: 121
  Процент длины хромосомы, покрытый доменами: 89.65%

Хромосома chr11:
  Количество доменов: 164
  Процент длины хромосомы, покрытый доменами: 91.64%

Хромосома chr12:
  Количество доменов: 152
  Процент длины хромосомы, покрытый доменами: 92.54%

Хромосома chr13:
  Количество доменов: 88
  Процент длины хромосомы, покрытый доменами: 78.68%

Хромосома chr14:
  Количество доменов: 99
  Процент длины хромосомы, покрытый доменами: 80.15%

Хромосома chr15:
  Количество доменов: 106
  Процент длины хромосомы, покрытый доменами: 74.12%

Хромосома chr16:
  Количество доменов: 86
  Процент длины хромосомы, покрытый доменами: 82.91%

Хромосома chr17:
  Количество доменов: 115
  Процент длины хромосомы, покрытый доменами: 88.29%

Хромосома chr18:
  Количество доменов: 71
  Процент длины хромосомы, покрытый доменами: 89.73%

Хромосома chr19:
  Количество домен