In [259]:
from tqdm import tqdm
import os
import glob
from snp_extractor import extract_pgs_snps_to_dataset
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest, f_classif, mutual_info_classif
from sklearn.preprocessing import StandardScaler

In [73]:
all_train_plink = "./all_train"
validation_plink = "./validation"
pgs_folder = "./pgs_small"
output_dir = "./snp_extracted"

os.makedirs(output_dir, exist_ok=True)
pgs_files = glob.glob(os.path.join(pgs_folder, "*.txt"))
print(f"{len(pgs_files)} PGS в папке {pgs_folder}")

X_all_trains = []
y_all_trains = []
X_vals = []
y_vals = []
pgs_names = []  # Список PGS для отслеживания

for pgs_file in pgs_files:
    pgs_name = os.path.basename(pgs_file).replace('.txt', '')
    print(f"\n{'='*42}")
    print(f"Обработка {pgs_name}")
    pgs_output_dir = os.path.join(output_dir, pgs_name)
    os.makedirs(pgs_output_dir, exist_ok=True)
    
    print(f"\nОбработка {all_train_plink}")
    all_train_output = os.path.join(pgs_output_dir, "all_train")
    X_all_train, y_all_train = extract_pgs_snps_to_dataset(pgs_file, all_train_plink, all_train_output)
    
    print(f"\nОбработка {validation_plink}")
    validation_output = os.path.join(pgs_output_dir, "validation")
    X_val, y_val = extract_pgs_snps_to_dataset(pgs_file, validation_plink, validation_output)
    
    if X_all_train is not None and y_all_train is not None and X_val is not None and y_val is not None:
        all_train_cols = set(X_all_train.columns)
        val_cols = set(X_val.columns)
        common_cols = all_train_cols.intersection(val_cols)
        X_all_trains.append(X_all_train)
        y_all_trains.append(y_all_train)
        X_vals.append(X_val)
        y_vals.append(y_val)
        pgs_names.append(pgs_name)
        
        print(f"  all_train: X shape {X_all_train.shape}")
        print(f"  validation: X shape {X_val.shape}")
    else:
        print(f"Ошибка для {pgs_name}")

print(f"\n{'='*42}")
print("результаты-----")
print(f"{'='*42}")
print(f"Обработано PGS файлов: {len(pgs_files)}")
print(f"Успешно обработано PGS файлов: {len(pgs_names)}")

with open(os.path.join(output_dir, "pgs_order.txt"), "w") as f:
    for pgs_name in pgs_names:
        f.write(f"{pgs_name}\n")

print(f"Порядок PGS в списках сохранен в {os.path.join(output_dir, 'pgs_order.txt')}")


27 PGS в папке ./pgs_small

Обработка PGS002809

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./all_train
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(52249) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/all_train/all_train_PGS002809_extracted
Загружена матрица генотипов размером (1120, 54)


Python(52254) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002809/all_train/all_train_PGS002809_dataset.csv
X содержит 48 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./validation
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(52473) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/validation/validation_PGS002809_extracted
Загружена матрица генотипов размером (281, 54)
Датасет в ./snp_extracted/PGS002809/validation/validation_PGS002809_dataset.csv
X содержит 48 SNP и 281 образцов


Python(52476) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 48)
  validation: X shape (281, 48)

Обработка PGS000011

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./all_train
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(52644) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/all_train/all_train_PGS000011_extracted
Загружена матрица генотипов размером (1120, 28)
Датасет в ./snp_extracted/PGS000011/all_train/all_train_PGS000011_dataset.csv
X содержит 22 SNP и 1120 образцов


Python(52647) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./validation
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(52872) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/validation/validation_PGS000011_extracted
Загружена матрица генотипов размером (281, 28)
Датасет в ./snp_extracted/PGS000011/validation/validation_PGS000011_dataset.csv
X содержит 22 SNP и 281 образцов


Python(52874) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 22)
  validation: X shape (281, 22)

Обработка PGS000818

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./all_train
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(53046) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/all_train/all_train_PGS000818_extracted
Загружена матрица генотипов размером (1120, 48)
Датасет в ./snp_extracted/PGS000818/all_train/all_train_PGS000818_dataset.csv
X содержит 42 SNP и 1120 образцов


Python(53049) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./validation
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(53208) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/validation/validation_PGS000818_extracted
Загружена матрица генотипов размером (281, 48)
Датасет в ./snp_extracted/PGS000818/validation/validation_PGS000818_dataset.csv
X содержит 42 SNP и 281 образцов


Python(53210) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 42)
  validation: X shape (281, 42)

Обработка PGS000010

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./all_train
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(53465) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/all_train/all_train_PGS000010_extracted
Загружена матрица генотипов размером (1120, 20)
Датасет в ./snp_extracted/PGS000010/all_train/all_train_PGS000010_dataset.csv
X содержит 14 SNP и 1120 образцов


Python(53466) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./validation
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(53625) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/validation/validation_PGS000010_extracted
Загружена матрица генотипов размером (281, 20)
Датасет в ./snp_extracted/PGS000010/validation/validation_PGS000010_dataset.csv
X содержит 14 SNP и 281 образцов


Python(53627) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 14)
  validation: X shape (281, 14)

Обработка PGS004921

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./all_train
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(53847) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/all_train/all_train_PGS004921_extracted
Загружена матрица генотипов размером (1120, 36)
Датасет в ./snp_extracted/PGS004921/all_train/all_train_PGS004921_dataset.csv
X содержит 30 SNP и 1120 образцов


Python(53848) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./validation
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(54100) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/validation/validation_PGS004921_extracted
Загружена матрица генотипов размером (281, 36)
Датасет в ./snp_extracted/PGS004921/validation/validation_PGS004921_dataset.csv
X содержит 30 SNP и 281 образцов


Python(54102) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 30)
  validation: X shape (281, 30)

Обработка PGS004919

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./all_train
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(54265) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/all_train/all_train_PGS004919_extracted
Загружена матрица генотипов размером (1120, 28)
Датасет в ./snp_extracted/PGS004919/all_train/all_train_PGS004919_dataset.csv
X содержит 22 SNP и 1120 образцов


Python(54267) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./validation
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(54417) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/validation/validation_PGS004919_extracted
Загружена матрица генотипов размером (281, 28)
Датасет в ./snp_extracted/PGS004919/validation/validation_PGS004919_dataset.csv
X содержит 22 SNP и 281 образцов


Python(54419) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 22)
  validation: X shape (281, 22)

Обработка PGS004925

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./all_train
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(54658) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/all_train/all_train_PGS004925_extracted
Загружена матрица генотипов размером (1120, 52)


Python(54661) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004925/all_train/all_train_PGS004925_dataset.csv
X содержит 46 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./validation
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(54861) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/validation/validation_PGS004925_extracted
Загружена матрица генотипов размером (281, 52)
Датасет в ./snp_extracted/PGS004925/validation/validation_PGS004925_dataset.csv
X содержит 46 SNP и 281 образцов


Python(54863) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 46)
  validation: X shape (281, 46)

Обработка PGS000798

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./all_train
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(55104) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/all_train/all_train_PGS000798_extracted
Загружена матрица генотипов размером (1120, 35)
Датасет в ./snp_extracted/PGS000798/all_train/all_train_PGS000798_dataset.csv
X содержит 29 SNP и 1120 образцов


Python(55106) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./validation
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(55263) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/validation/validation_PGS000798_extracted
Загружена матрица генотипов размером (281, 35)
Датасет в ./snp_extracted/PGS000798/validation/validation_PGS000798_dataset.csv
X содержит 29 SNP и 281 образцов


Python(55264) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 29)
  validation: X shape (281, 29)

Обработка PGS004305

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./all_train
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(55499) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/all_train/all_train_PGS004305_extracted


Python(55504) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (1120, 1133)
Датасет в ./snp_extracted/PGS004305/all_train/all_train_PGS004305_dataset.csv
X содержит 1127 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./validation
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(55711) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/validation/validation_PGS004305_extracted


Python(55713) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (281, 1133)
Датасет в ./snp_extracted/PGS004305/validation/validation_PGS004305_dataset.csv
X содержит 1127 SNP и 281 образцов
  all_train: X shape (1120, 1127)
  validation: X shape (281, 1127)

Обработка PGS000349

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./all_train
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(55899) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/all_train/all_train_PGS000349_extracted
Загружена матрица генотипов размером (1120, 30)
Датасет в ./snp_extracted/PGS000349/all_train/all_train_PGS000349_dataset.csv
X содержит 24 SNP и 1120 образцов


Python(55900) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./validation
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(56152) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/validation/validation_PGS000349_extracted
Загружена матрица генотипов размером (281, 30)
Датасет в ./snp_extracted/PGS000349/validation/validation_PGS000349_dataset.csv
X содержит 24 SNP и 281 образцов


Python(56154) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 24)
  validation: X shape (281, 24)

Обработка PGS002775

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./all_train
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(56336) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/all_train/all_train_PGS002775_extracted
Загружена матрица генотипов размером (1120, 186)


Python(56338) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/all_train/all_train_PGS002775_dataset.csv
X содержит 180 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./validation
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(56569) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/validation/validation_PGS002775_extracted
Загружена матрица генотипов размером (281, 186)


Python(56570) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/validation/validation_PGS002775_dataset.csv
X содержит 180 SNP и 281 образцов
  all_train: X shape (1120, 180)
  validation: X shape (281, 180)

Обработка PGS000200

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./all_train
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(56727) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/all_train/all_train_PGS000200_extracted
Загружена матрица генотипов размером (1120, 21)
Датасет в ./snp_extracted/PGS000200/all_train/all_train_PGS000200_dataset.csv
X содержит 15 SNP и 1120 образцов


Python(56730) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./validation
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(56948) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/validation/validation_PGS000200_extracted
Загружена матрица генотипов размером (281, 21)
Датасет в ./snp_extracted/PGS000200/validation/validation_PGS000200_dataset.csv
X содержит 15 SNP и 281 образцов
  all_train: X shape (1120, 15)
  validation: X shape (281, 15)

Обработка PGS000059

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./all_train


Python(56951) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(57124) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/all_train/all_train_PGS000059_extracted
Загружена матрица генотипов размером (1120, 24)
Датасет в ./snp_extracted/PGS000059/all_train/all_train_PGS000059_dataset.csv
X содержит 18 SNP и 1120 образцов


Python(57127) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./validation
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(57272) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/validation/validation_PGS000059_extracted
Загружена матрица генотипов размером (281, 24)
Датасет в ./snp_extracted/PGS000059/validation/validation_PGS000059_dataset.csv
X содержит 18 SNP и 281 образцов


Python(57274) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 18)
  validation: X shape (281, 18)

Обработка PGS002262

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./all_train
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(57503) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/all_train/all_train_PGS002262_extracted
Загружена матрица генотипов размером (1120, 142)


Python(57505) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/all_train/all_train_PGS002262_dataset.csv
X содержит 136 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./validation
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(57637) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/validation/validation_PGS002262_extracted
Загружена матрица генотипов размером (281, 142)
Датасет в ./snp_extracted/PGS002262/validation/validation_PGS002262_dataset.csv
X содержит 136 SNP и 281 образцов


Python(57639) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 136)
  validation: X shape (281, 136)

Обработка PGS000058

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./all_train
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(57851) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/all_train/all_train_PGS000058_extracted
Загружена матрица генотипов размером (1120, 47)
Датасет в ./snp_extracted/PGS000058/all_train/all_train_PGS000058_dataset.csv
X содержит 41 SNP и 1120 образцов


Python(57853) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./validation
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(58116) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/validation/validation_PGS000058_extracted
Загружена матрица генотипов размером (281, 47)
Датасет в ./snp_extracted/PGS000058/validation/validation_PGS000058_dataset.csv
X содержит 41 SNP и 281 образцов


Python(58117) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 41)
  validation: X shape (281, 41)

Обработка PGS003438

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./all_train
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(58132) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/all_train/all_train_PGS003438_extracted
Загружена матрица генотипов размером (1120, 35)
Датасет в ./snp_extracted/PGS003438/all_train/all_train_PGS003438_dataset.csv
X содержит 29 SNP и 1120 образцов


Python(58135) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./validation
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(58251) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/validation/validation_PGS003438_extracted
Загружена матрица генотипов размером (281, 35)
Датасет в ./snp_extracted/PGS003438/validation/validation_PGS003438_dataset.csv
X содержит 29 SNP и 281 образцов


Python(58252) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 29)
  validation: X shape (281, 29)

Обработка PGS000899

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./all_train
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(58428) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/all_train/all_train_PGS000899_extracted
Загружена матрица генотипов размером (1120, 43)


Python(58430) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000899/all_train/all_train_PGS000899_dataset.csv
X содержит 37 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./validation
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(58651) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/validation/validation_PGS000899_extracted
Загружена матрица генотипов размером (281, 43)
Датасет в ./snp_extracted/PGS000899/validation/validation_PGS000899_dataset.csv
X содержит 37 SNP и 281 образцов


Python(58653) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 37)
  validation: X shape (281, 37)

Обработка PGS004595

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./all_train
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(58828) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/all_train/all_train_PGS004595_extracted
Загружена матрица генотипов размером (1120, 46)
Датасет в ./snp_extracted/PGS004595/all_train/all_train_PGS004595_dataset.csv
X содержит 40 SNP и 1120 образцов


Python(58830) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./validation
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(59009) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/validation/validation_PGS004595_extracted
Загружена матрица генотипов размером (281, 46)
Датасет в ./snp_extracted/PGS004595/validation/validation_PGS004595_dataset.csv
X содержит 40 SNP и 281 образцов


Python(59010) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 40)
  validation: X shape (281, 40)

Обработка PGS000057

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./all_train
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(59238) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/all_train/all_train_PGS000057_extracted
Загружена матрица генотипов размером (1120, 25)
Датасет в ./snp_extracted/PGS000057/all_train/all_train_PGS000057_dataset.csv
X содержит 19 SNP и 1120 образцов


Python(59240) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./validation
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(59391) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/validation/validation_PGS000057_extracted
Загружена матрица генотипов размером (281, 25)
Датасет в ./snp_extracted/PGS000057/validation/validation_PGS000057_dataset.csv
X содержит 19 SNP и 281 образцов


Python(59393) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 19)
  validation: X shape (281, 19)

Обработка PGS004596

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./all_train
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(59630) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/all_train/all_train_PGS004596_extracted
Загружена матрица генотипов размером (1120, 30)


Python(59631) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004596/all_train/all_train_PGS004596_dataset.csv
X содержит 24 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./validation
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(59808) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/validation/validation_PGS004596_extracted
Загружена матрица генотипов размером (281, 30)
Датасет в ./snp_extracted/PGS004596/validation/validation_PGS004596_dataset.csv
X содержит 24 SNP и 281 образцов


Python(59810) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 24)
  validation: X shape (281, 24)

Обработка PGS004309

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./all_train
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(59968) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/all_train/all_train_PGS004309_extracted


Python(59978) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (1120, 1180)
Датасет в ./snp_extracted/PGS004309/all_train/all_train_PGS004309_dataset.csv
X содержит 1174 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./validation
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(60231) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/validation/validation_PGS004309_extracted
Загружена матрица генотипов размером (281, 1180)


Python(60234) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004309/validation/validation_PGS004309_dataset.csv
X содержит 1174 SNP и 281 образцов
  all_train: X shape (1120, 1174)
  validation: X shape (281, 1174)

Обработка PGS004321

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./all_train
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(60389) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/all_train/all_train_PGS004321_extracted
Загружена матрица генотипов размером (1120, 20)
Датасет в ./snp_extracted/PGS004321/all_train/all_train_PGS004321_dataset.csv
X содержит 14 SNP и 1120 образцов


Python(60390) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./validation
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(60634) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/validation/validation_PGS004321_extracted
Загружена матрица генотипов размером (281, 20)
Датасет в ./snp_extracted/PGS004321/validation/validation_PGS004321_dataset.csv
X содержит 14 SNP и 281 образцов


Python(60636) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 14)
  validation: X shape (281, 14)

Обработка PGS004308

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./all_train
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(60815) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/all_train/all_train_PGS004308_extracted
Загружена матрица генотипов размером (1120, 590)


Python(60817) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004308/all_train/all_train_PGS004308_dataset.csv
X содержит 584 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./validation
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(60974) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/validation/validation_PGS004308_extracted
Загружена матрица генотипов размером (281, 590)


Python(60976) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004308/validation/validation_PGS004308_dataset.csv
X содержит 584 SNP и 281 образцов
  all_train: X shape (1120, 584)
  validation: X shape (281, 584)

Обработка PGS000019

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./all_train
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(61223) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/all_train/all_train_PGS000019_extracted
Загружена матрица генотипов размером (1120, 32)
Датасет в ./snp_extracted/PGS000019/all_train/all_train_PGS000019_dataset.csv
X содержит 26 SNP и 1120 образцов


Python(61225) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./validation
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./validation
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(61368) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/validation/validation_PGS000019_extracted
Загружена матрица генотипов размером (281, 32)
Датасет в ./snp_extracted/PGS000019/validation/validation_PGS000019_dataset.csv
X содержит 26 SNP и 281 образцов


Python(61369) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


  all_train: X shape (1120, 26)
  validation: X shape (281, 26)

Обработка PGS000746

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./all_train
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(61524) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/all_train/all_train_PGS000746_extracted
Загружена матрица генотипов размером (1120, 238)


Python(61525) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/all_train/all_train_PGS000746_dataset.csv
X содержит 232 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./validation
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(61751) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/validation/validation_PGS000746_extracted
Загружена матрица генотипов размером (281, 238)


Python(61753) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/validation/validation_PGS000746_dataset.csv
X содержит 232 SNP и 281 образцов
  all_train: X shape (1120, 232)
  validation: X shape (281, 232)

Обработка PGS004899

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./all_train
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./validation
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./validation
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./all_train
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./all_train
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(62322) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/all_train/all_train_PGS000962_extracted


Python(62324) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (1120, 450)
Датасет в ./snp_extracted/PGS000962/all_train/all_train_PGS000962_dataset.csv
X содержит 444 SNP и 1120 образцов

Обработка ./validation
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./validation
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(62678) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/validation/validation_PGS000962_extracted
Загружена матрица генотипов размером (281, 450)


Python(62680) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/validation/validation_PGS000962_dataset.csv
X содержит 444 SNP и 281 образцов
  all_train: X shape (1120, 444)
  validation: X shape (281, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26
Порядок PGS в списках сохранен в ./snp_extracted/pgs_order.txt


In [74]:
def combine_dataframes(dataframes_list):
    """
    Объединяет список pandas датасетов в один
    """
    
    if not dataframes_list:
        raise ValueError("Список датасетов пуст")
    if len(dataframes_list) == 1:
        return dataframes_list[0].copy()
    
    result = pd.DataFrame(index=dataframes_list[0].index)    
    added_columns = set()
    
    for i, df in enumerate(dataframes_list):
        new_columns = [col for col in df.columns if col not in added_columns]
        if new_columns:
            result = pd.concat([result, df[new_columns]], axis=1)
            added_columns.update(new_columns)
    
    print(f"Объединение завершено. {result.shape[0]} строк {result.shape[1]} колонок.")
    return result


In [260]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, roc_curve

X_all_train = combine_dataframes(X_all_trains).to_numpy()
X_val = combine_dataframes(X_vals).to_numpy()
y_all_train = y_all_trains[0]
y_val = y_vals[0]

mean_train = np.nanmean(X_all_train, axis=0)
mean_val = np.nanmean(X_val, axis=0)
inds_train = np.where(np.isnan(X_all_train))
inds_val = np.where(np.isnan(X_val))
X_all_train[inds_train] = np.take(mean_train, inds_train[1])
X_val[inds_val] = np.take(mean_train, inds_val[1])

ss = StandardScaler()
X_all_train = ss.fit_transform(X_all_train)
X_val = ss.transform(X_val)

model = LogisticRegression()
model.fit(X_all_train, y_all_train)
y_val_pred_probs = model.predict_proba(X_val)[:, 1]

roc_auc = roc_auc_score(y_val, y_val_pred_probs)
print(f"ROC-AUC: {roc_auc:.4f}")

Объединение завершено. 1120 строк 3213 колонок.
Объединение завершено. 281 строк 3213 колонок.
ROC-AUC: 0.5172


In [261]:
import warnings

warnings.filterwarnings("ignore")


In [267]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score, roc_curve

selected_trains = []
selected_vals = []
pgs_ids = []

for i in range(len(X_all_trains)):
    X_all_train = X_all_trains[i].to_numpy()
    X_val = X_vals[i].to_numpy()
    y_all_train = y_all_trains[i]
    y_val = y_vals[i]

    mean_train = np.nanmean(X_all_train, axis=0)
    mean_val = np.nanmean(X_val, axis=0)
    inds_train = np.where(np.isnan(X_all_train))
    inds_val = np.where(np.isnan(X_val))
    X_all_train[inds_train] = np.take(mean_train, inds_train[1])
    X_val[inds_val] = np.take(mean_train, inds_val[1])

    model = LogisticRegression()
    model.fit(X_all_train, y_all_train)
    y_val_pred_probs = model.predict_proba(X_val)[:, 1]

    roc_auc = roc_auc_score(y_val, y_val_pred_probs)
    print(f"ROC-AUC: {roc_auc:.4f}")
    if roc_auc > 0.60:
        selected_trains.append(X_all_trains[i])
        selected_vals.append(X_vals[i])
        pgs_ids.append(i)


ROC-AUC: 0.5596
ROC-AUC: 0.6102
ROC-AUC: 0.5991
ROC-AUC: 0.6089
ROC-AUC: 0.5981
ROC-AUC: 0.6102
ROC-AUC: 0.6416
ROC-AUC: 0.5885
ROC-AUC: 0.4898
ROC-AUC: 0.6299
ROC-AUC: 0.5012
ROC-AUC: 0.5944
ROC-AUC: 0.5242
ROC-AUC: 0.5376
ROC-AUC: 0.5581
ROC-AUC: 0.5665
ROC-AUC: 0.5779
ROC-AUC: 0.6127
ROC-AUC: 0.5994
ROC-AUC: 0.5998
ROC-AUC: 0.5221
ROC-AUC: 0.6089
ROC-AUC: 0.4570
ROC-AUC: 0.4499
ROC-AUC: 0.5564
ROC-AUC: 0.5395


In [272]:
X_small_train = combine_dataframes(selected_trains).to_numpy()
X_small_val = combine_dataframes(selected_vals).to_numpy()
y_all_train = y_all_trains[0]
y_val = y_vals[0]

mean_train = np.nanmean(X_small_train, axis=0)
mean_val = np.nanmean(X_small_val, axis=0)
inds_train = np.where(np.isnan(X_small_train))
inds_val = np.where(np.isnan(X_small_val))
X_small_train[inds_train] = np.take(mean_train, inds_train[1])
X_small_val[inds_val] = np.take(mean_train, inds_val[1])

ss = StandardScaler()
X_small_train = ss.fit_transform(X_small_train)
X_small_val = ss.transform(X_small_val)

model = LogisticRegression()
model.fit(X_small_train, y_all_train)
y_val_pred_probs = model.predict_proba(X_small_val)[:, 1]

roc_auc = roc_auc_score(y_val, y_val_pred_probs)
print(f"ROC-AUC: {roc_auc:.4f}")

Объединение завершено. 1120 строк 80 колонок.
Объединение завершено. 281 строк 80 колонок.
ROC-AUC: 0.6361


In [85]:
X_trainss = [[], [], [], [], []]
X_testss = [[], [], [], [], []]
y_trainss = [[], [], [], [], []]
y_testss = [[], [], [], [], []]

pgs_folder = "./pgs_small"
output_dir = "./snp_extracted"

for i in range(5):
    train_plink = f"./train_{i + 1}"
    test_plink = f"./test_{i + 1}"

    os.makedirs(output_dir, exist_ok=True)
    print(f"{len(pgs_files)} PGS в папке {pgs_folder}")

    X_trains = []
    y_trains = []
    X_tests = []
    y_tests = []
    pgs_names = []  # Список PGS для отслеживания

    for pgs_file in tqdm(pgs_files):
        pgs_name = os.path.basename(pgs_file).replace('.txt', '')
        print(f"\n{'='*42}")
        print(f"Обработка {pgs_name}")
        pgs_output_dir = os.path.join(output_dir, pgs_name)
        os.makedirs(pgs_output_dir, exist_ok=True)
        
        print(f"\nОбработка {train_plink}")
        train_output = os.path.join(pgs_output_dir, f"train_{i + 1}")
        X_train, y_train = extract_pgs_snps_to_dataset(pgs_file, train_plink, train_output)
        
        print(f"\nОбработка {test_plink}")
        test_output = os.path.join(pgs_output_dir, f"test_{i + 1}")
        X_test, y_test = extract_pgs_snps_to_dataset(pgs_file, test_plink, test_output)
        
        if X_train is not None and y_train is not None and X_test is not None and y_test is not None:
            train_cols = set(X_train.columns)
            test_cols = set(X_test.columns)
            common_cols = train_cols.intersection(test_cols)
            X_trains.append(X_train)
            y_trains.append(y_train)
            X_tests.append(X_test)
            y_tests.append(y_test)
            pgs_names.append(pgs_name)
            
            print(f"  train_{i+1}: X shape {X_train.shape}")
            print(f"  test_{i+1}: X shape {X_test.shape}")
        else:
            print(f"Ошибка для {pgs_name}")

    print(f"\n{'='*42}")
    print("результаты-----")
    print(f"{'='*42}")
    print(f"Обработано PGS файлов: {len(pgs_files)}")
    print(f"Успешно обработано PGS файлов: {len(pgs_names)}")

    X_trainss[i].append(X_trains)
    X_testss[i].append(X_tests)
    y_trainss[i].append(y_trains)
    y_testss[i].append(y_tests)


27 PGS в папке ./pgs_small


  0%|          | 0/27 [00:00<?, ?it/s]


Обработка PGS002809

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./train_1
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(91300) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/train_1/train_1_PGS002809_extracted
Загружена матрица генотипов размером (896, 54)


Python(91301) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002809/train_1/train_1_PGS002809_dataset.csv
X содержит 48 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./test_1
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(91327) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/test_1/test_1_PGS002809_extracted
Загружена матрица генотипов размером (224, 54)
Датасет в ./snp_extracted/PGS002809/test_1/test_1_PGS002809_dataset.csv
X содержит 48 SNP и 224 образцов


Python(91328) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  4%|▎         | 1/27 [01:15<32:50, 75.79s/it]

  train_1: X shape (896, 48)
  test_1: X shape (224, 48)

Обработка PGS000011

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./train_1
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(91340) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/train_1/train_1_PGS000011_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS000011/train_1/train_1_PGS000011_dataset.csv
X содержит 22 SNP и 896 образцов


Python(91341) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./test_1
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(91434) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/test_1/test_1_PGS000011_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS000011/test_1/test_1_PGS000011_dataset.csv
X содержит 22 SNP и 224 образцов


Python(91435) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  7%|▋         | 2/27 [02:25<30:12, 72.49s/it]

  train_1: X shape (896, 22)
  test_1: X shape (224, 22)

Обработка PGS000818

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./train_1
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(91457) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/train_1/train_1_PGS000818_extracted
Загружена матрица генотипов размером (896, 48)


Python(91458) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000818/train_1/train_1_PGS000818_dataset.csv
X содержит 42 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./test_1
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(91473) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/test_1/test_1_PGS000818_extracted
Загружена матрица генотипов размером (224, 48)
Датасет в ./snp_extracted/PGS000818/test_1/test_1_PGS000818_dataset.csv
X содержит 42 SNP и 224 образцов


Python(91474) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 11%|█         | 3/27 [03:58<32:34, 81.44s/it]

  train_1: X shape (896, 42)
  test_1: X shape (224, 42)

Обработка PGS000010

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./train_1
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(91572) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/train_1/train_1_PGS000010_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS000010/train_1/train_1_PGS000010_dataset.csv
X содержит 14 SNP и 896 образцов


Python(91573) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./test_1
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(91596) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(91597) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 15%|█▍        | 4/27 [05:10<29:49, 77.80s/it]

Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/test_1/test_1_PGS000010_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS000010/test_1/test_1_PGS000010_dataset.csv
X содержит 14 SNP и 224 образцов
  train_1: X shape (896, 14)
  test_1: X shape (224, 14)

Обработка PGS004921

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./train_1
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(91605) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/train_1/train_1_PGS004921_extracted
Загружена матрица генотипов размером (896, 36)
Датасет в ./snp_extracted/PGS004921/train_1/train_1_PGS004921_dataset.csv
X содержит 30 SNP и 896 образцов


Python(91606) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./test_1
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(91701) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/test_1/test_1_PGS004921_extracted
Загружена матрица генотипов размером (224, 36)
Датасет в ./snp_extracted/PGS004921/test_1/test_1_PGS004921_dataset.csv
X содержит 30 SNP и 224 образцов


Python(91702) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 19%|█▊        | 5/27 [06:26<28:19, 77.26s/it]

  train_1: X shape (896, 30)
  test_1: X shape (224, 30)

Обработка PGS004919

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./train_1
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(91713) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/train_1/train_1_PGS004919_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS004919/train_1/train_1_PGS004919_dataset.csv
X содержит 22 SNP и 896 образцов


Python(91714) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./test_1
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(91740) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/test_1/test_1_PGS004919_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS004919/test_1/test_1_PGS004919_dataset.csv
X содержит 22 SNP и 224 образцов


Python(91742) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 22%|██▏       | 6/27 [07:41<26:49, 76.62s/it]

  train_1: X shape (896, 22)
  test_1: X shape (224, 22)

Обработка PGS004925

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./train_1
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(91955) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/train_1/train_1_PGS004925_extracted
Загружена матрица генотипов размером (896, 52)


Python(91956) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004925/train_1/train_1_PGS004925_dataset.csv
X содержит 46 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./test_1
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(91982) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/test_1/test_1_PGS004925_extracted
Загружена матрица генотипов размером (224, 52)
Датасет в ./snp_extracted/PGS004925/test_1/test_1_PGS004925_dataset.csv
X содержит 46 SNP и 224 образцов


Python(91983) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 26%|██▌       | 7/27 [09:21<28:05, 84.27s/it]

  train_1: X shape (896, 46)
  test_1: X shape (224, 46)

Обработка PGS000798

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./train_1
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(91998) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/train_1/train_1_PGS000798_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS000798/train_1/train_1_PGS000798_dataset.csv
X содержит 29 SNP и 896 образцов


Python(91999) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./test_1
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(92094) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/test_1/test_1_PGS000798_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS000798/test_1/test_1_PGS000798_dataset.csv
X содержит 29 SNP и 224 образцов


Python(92095) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 30%|██▉       | 8/27 [10:53<27:23, 86.49s/it]

  train_1: X shape (896, 29)
  test_1: X shape (224, 29)

Обработка PGS004305

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./train_1
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(92123) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/train_1/train_1_PGS004305_extracted


Python(92124) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1133)
Датасет в ./snp_extracted/PGS004305/train_1/train_1_PGS004305_dataset.csv
X содержит 1127 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./test_1
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(92228) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/test_1/test_1_PGS004305_extracted
Загружена матрица генотипов размером (224, 1133)


Python(92229) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 33%|███▎      | 9/27 [12:29<26:54, 89.68s/it]

Датасет в ./snp_extracted/PGS004305/test_1/test_1_PGS004305_dataset.csv
X содержит 1127 SNP и 224 образцов
  train_1: X shape (896, 1127)
  test_1: X shape (224, 1127)

Обработка PGS000349

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./train_1
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(92255) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/train_1/train_1_PGS000349_extracted
Загружена матрица генотипов размером (896, 30)
Датасет в ./snp_extracted/PGS000349/train_1/train_1_PGS000349_dataset.csv
X содержит 24 SNP и 896 образцов


Python(92257) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./test_1
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(92284) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/test_1/test_1_PGS000349_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS000349/test_1/test_1_PGS000349_dataset.csv
X содержит 24 SNP и 224 образцов


Python(92285) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 37%|███▋      | 10/27 [14:04<25:49, 91.15s/it]

  train_1: X shape (896, 24)
  test_1: X shape (224, 24)

Обработка PGS002775

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./train_1
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(92387) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/train_1/train_1_PGS002775_extracted
Загружена матрица генотипов размером (896, 186)


Python(92389) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/train_1/train_1_PGS002775_dataset.csv
X содержит 180 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./test_1
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(92415) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/test_1/test_1_PGS002775_extracted
Загружена матрица генотипов размером (224, 186)


Python(92416) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 41%|████      | 11/27 [15:35<24:18, 91.15s/it]

Датасет в ./snp_extracted/PGS002775/test_1/test_1_PGS002775_dataset.csv
X содержит 180 SNP и 224 образцов
  train_1: X shape (896, 180)
  test_1: X shape (224, 180)

Обработка PGS000200

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./train_1
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(92508) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/train_1/train_1_PGS000200_extracted
Загружена матрица генотипов размером (896, 21)
Датасет в ./snp_extracted/PGS000200/train_1/train_1_PGS000200_dataset.csv
X содержит 15 SNP и 896 образцов


Python(92509) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./test_1
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(92531) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/test_1/test_1_PGS000200_extracted
Загружена матрица генотипов размером (224, 21)
Датасет в ./snp_extracted/PGS000200/test_1/test_1_PGS000200_dataset.csv
X содержит 15 SNP и 224 образцов


Python(92532) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 44%|████▍     | 12/27 [17:00<22:20, 89.35s/it]

  train_1: X shape (896, 15)
  test_1: X shape (224, 15)

Обработка PGS000059

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./train_1
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(92557) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/train_1/train_1_PGS000059_extracted
Загружена матрица генотипов размером (896, 24)
Датасет в ./snp_extracted/PGS000059/train_1/train_1_PGS000059_dataset.csv
X содержит 18 SNP и 896 образцов


Python(92558) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./test_1
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(92643) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/test_1/test_1_PGS000059_extracted
Загружена матрица генотипов размером (224, 24)
Датасет в ./snp_extracted/PGS000059/test_1/test_1_PGS000059_dataset.csv
X содержит 18 SNP и 224 образцов


Python(92644) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 48%|████▊     | 13/27 [18:23<20:21, 87.27s/it]

  train_1: X shape (896, 18)
  test_1: X shape (224, 18)

Обработка PGS002262

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./train_1
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(92681) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/train_1/train_1_PGS002262_extracted
Загружена матрица генотипов размером (896, 142)


Python(92682) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/train_1/train_1_PGS002262_dataset.csv
X содержит 136 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./test_1
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(92707) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/test_1/test_1_PGS002262_extracted
Загружена матрица генотипов размером (224, 142)
Датасет в ./snp_extracted/PGS002262/test_1/test_1_PGS002262_dataset.csv
X содержит 136 SNP и 224 образцов


Python(92708) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 52%|█████▏    | 14/27 [19:52<19:00, 87.77s/it]

  train_1: X shape (896, 136)
  test_1: X shape (224, 136)

Обработка PGS000058

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./train_1
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(92795) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/train_1/train_1_PGS000058_extracted
Загружена матрица генотипов размером (896, 47)
Датасет в ./snp_extracted/PGS000058/train_1/train_1_PGS000058_dataset.csv
X содержит 41 SNP и 896 образцов


Python(92796) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./test_1
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(92821) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/test_1/test_1_PGS000058_extracted
Загружена матрица генотипов размером (224, 47)
Датасет в ./snp_extracted/PGS000058/test_1/test_1_PGS000058_dataset.csv
X содержит 41 SNP и 224 образцов


Python(92822) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 56%|█████▌    | 15/27 [21:15<17:16, 86.40s/it]

  train_1: X shape (896, 41)
  test_1: X shape (224, 41)

Обработка PGS003438

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./train_1
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(92854) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/train_1/train_1_PGS003438_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS003438/train_1/train_1_PGS003438_dataset.csv
X содержит 29 SNP и 896 образцов


Python(92855) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./test_1
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(92941) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/test_1/test_1_PGS003438_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS003438/test_1/test_1_PGS003438_dataset.csv
X содержит 29 SNP и 224 образцов
  train_1: X shape (896, 29)
  test_1: X shape (224, 29)


Python(92942) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 59%|█████▉    | 16/27 [22:29<15:09, 82.72s/it]


Обработка PGS000899

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./train_1
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(92960) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/train_1/train_1_PGS000899_extracted
Загружена матрица генотипов размером (896, 43)
Датасет в ./snp_extracted/PGS000899/train_1/train_1_PGS000899_dataset.csv
X содержит 37 SNP и 896 образцов


Python(92961) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./test_1
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(92968) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/test_1/test_1_PGS000899_extracted
Загружена матрица генотипов размером (224, 43)
Датасет в ./snp_extracted/PGS000899/test_1/test_1_PGS000899_dataset.csv
X содержит 37 SNP и 224 образцов


Python(92969) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 63%|██████▎   | 17/27 [23:36<12:58, 77.85s/it]

  train_1: X shape (896, 37)
  test_1: X shape (224, 37)

Обработка PGS004595

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./train_1
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(92988) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/train_1/train_1_PGS004595_extracted
Загружена матрица генотипов размером (896, 46)
Датасет в ./snp_extracted/PGS004595/train_1/train_1_PGS004595_dataset.csv
X содержит 40 SNP и 896 образцов


Python(92989) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./test_1
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(93086) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/test_1/test_1_PGS004595_extracted
Загружена матрица генотипов размером (224, 46)
Датасет в ./snp_extracted/PGS004595/test_1/test_1_PGS004595_dataset.csv
X содержит 40 SNP и 224 образцов


Python(93087) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 67%|██████▋   | 18/27 [24:52<11:36, 77.39s/it]

  train_1: X shape (896, 40)
  test_1: X shape (224, 40)

Обработка PGS000057

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./train_1
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(93103) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/train_1/train_1_PGS000057_extracted
Загружена матрица генотипов размером (896, 25)
Датасет в ./snp_extracted/PGS000057/train_1/train_1_PGS000057_dataset.csv
X содержит 19 SNP и 896 образцов


Python(93104) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./test_1
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(93187) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/test_1/test_1_PGS000057_extracted
Загружена матрица генотипов размером (224, 25)
Датасет в ./snp_extracted/PGS000057/test_1/test_1_PGS000057_dataset.csv
X содержит 19 SNP и 224 образцов


Python(93188) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 70%|███████   | 19/27 [26:14<10:31, 78.89s/it]

  train_1: X shape (896, 19)
  test_1: X shape (224, 19)

Обработка PGS004596

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./train_1
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(93341) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/train_1/train_1_PGS004596_extracted
Загружена матрица генотипов размером (896, 30)


Python(93342) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004596/train_1/train_1_PGS004596_dataset.csv
X содержит 24 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./test_1
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(93353) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/test_1/test_1_PGS004596_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS004596/test_1/test_1_PGS004596_dataset.csv
X содержит 24 SNP и 224 образцов


Python(93354) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 74%|███████▍  | 20/27 [27:43<09:32, 81.74s/it]

  train_1: X shape (896, 24)
  test_1: X shape (224, 24)

Обработка PGS004309

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./train_1
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(93452) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/train_1/train_1_PGS004309_extracted


Python(93454) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1180)
Датасет в ./snp_extracted/PGS004309/train_1/train_1_PGS004309_dataset.csv
X содержит 1174 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./test_1
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(93476) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/test_1/test_1_PGS004309_extracted
Загружена матрица генотипов размером (224, 1180)


Python(93477) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 78%|███████▊  | 21/27 [29:14<08:27, 84.51s/it]

Датасет в ./snp_extracted/PGS004309/test_1/test_1_PGS004309_dataset.csv
X содержит 1174 SNP и 224 образцов
  train_1: X shape (896, 1174)
  test_1: X shape (224, 1174)

Обработка PGS004321

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./train_1
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(93501) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/train_1/train_1_PGS004321_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS004321/train_1/train_1_PGS004321_dataset.csv
X содержит 14 SNP и 896 образцов


Python(93502) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./test_1
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(93597) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/test_1/test_1_PGS004321_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS004321/test_1/test_1_PGS004321_dataset.csv
X содержит 14 SNP и 224 образцов


Python(93598) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 81%|████████▏ | 22/27 [30:36<06:58, 83.73s/it]

  train_1: X shape (896, 14)
  test_1: X shape (224, 14)

Обработка PGS004308

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./train_1
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(93616) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/train_1/train_1_PGS004308_extracted
Загружена матрица генотипов размером (896, 590)


Python(93617) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004308/train_1/train_1_PGS004308_dataset.csv
X содержит 584 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./test_1
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(93624) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/test_1/test_1_PGS004308_extracted
Загружена матрица генотипов размером (224, 590)


Python(93625) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 85%|████████▌ | 23/27 [31:49<05:22, 80.71s/it]

Датасет в ./snp_extracted/PGS004308/test_1/test_1_PGS004308_dataset.csv
X содержит 584 SNP и 224 образцов
  train_1: X shape (896, 584)
  test_1: X shape (224, 584)

Обработка PGS000019

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./train_1
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(93708) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/train_1/train_1_PGS000019_extracted
Загружена матрица генотипов размером (896, 32)
Датасет в ./snp_extracted/PGS000019/train_1/train_1_PGS000019_dataset.csv
X содержит 26 SNP и 896 образцов


Python(93709) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./test_1
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(93738) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(93739) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 89%|████████▉ | 24/27 [32:54<03:47, 75.88s/it]

Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/test_1/test_1_PGS000019_extracted
Загружена матрица генотипов размером (224, 32)
Датасет в ./snp_extracted/PGS000019/test_1/test_1_PGS000019_dataset.csv
X содержит 26 SNP и 224 образцов
  train_1: X shape (896, 26)
  test_1: X shape (224, 26)

Обработка PGS000746

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./train_1
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(93744) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/train_1/train_1_PGS000746_extracted
Загружена матрица генотипов размером (896, 238)


Python(93745) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/train_1/train_1_PGS000746_dataset.csv
X содержит 232 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./test_1
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(93762) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/test_1/test_1_PGS000746_extracted
Загружена матрица генотипов размером (224, 238)


Python(93763) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 93%|█████████▎| 25/27 [34:08<02:31, 75.52s/it]

Датасет в ./snp_extracted/PGS000746/test_1/test_1_PGS000746_dataset.csv
X содержит 232 SNP и 224 образцов
  train_1: X shape (896, 232)
  test_1: X shape (224, 232)

Обработка PGS004899

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./train_1
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./test_1
Загруже PGS с 7 SNP


 96%|█████████▋| 26/27 [35:37<01:19, 79.27s/it]

Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./train_1
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./train_1
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(93962) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/train_1/train_1_PGS000962_extracted
Загружена матрица генотипов размером (896, 450)


Python(93963) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/train_1/train_1_PGS000962_dataset.csv
X содержит 444 SNP и 896 образцов

Обработка ./test_1
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./test_1
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(93987) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/test_1/test_1_PGS000962_extracted
Загружена матрица генотипов размером (224, 450)


Python(93988) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
100%|██████████| 27/27 [37:13<00:00, 82.73s/it]


Датасет в ./snp_extracted/PGS000962/test_1/test_1_PGS000962_dataset.csv
X содержит 444 SNP и 224 образцов
  train_1: X shape (896, 444)
  test_1: X shape (224, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26
27 PGS в папке ./pgs_small


  0%|          | 0/27 [00:00<?, ?it/s]


Обработка PGS002809

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./train_2
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(94014) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/train_2/train_2_PGS002809_extracted
Загружена матрица генотипов размером (896, 54)


Python(94015) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002809/train_2/train_2_PGS002809_dataset.csv
X содержит 48 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./test_2
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(94115) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/test_2/test_2_PGS002809_extracted
Загружена матрица генотипов размером (224, 54)
Датасет в ./snp_extracted/PGS002809/test_2/test_2_PGS002809_dataset.csv
X содержит 48 SNP и 224 образцов


Python(94116) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  4%|▎         | 1/27 [01:21<35:31, 81.97s/it]

  train_2: X shape (896, 48)
  test_2: X shape (224, 48)

Обработка PGS000011

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./train_2
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(94143) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/train_2/train_2_PGS000011_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS000011/train_2/train_2_PGS000011_dataset.csv
X содержит 22 SNP и 896 образцов


Python(94144) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./test_2
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(94156) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/test_2/test_2_PGS000011_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS000011/test_2/test_2_PGS000011_dataset.csv
X содержит 22 SNP и 224 образцов


Python(94157) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  7%|▋         | 2/27 [02:47<35:06, 84.26s/it]

  train_2: X shape (896, 22)
  test_2: X shape (224, 22)

Обработка PGS000818

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./train_2
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(94256) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/train_2/train_2_PGS000818_extracted
Загружена матрица генотипов размером (896, 48)


Python(94257) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000818/train_2/train_2_PGS000818_dataset.csv
X содержит 42 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./test_2
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(94279) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/test_2/test_2_PGS000818_extracted
Загружена матрица генотипов размером (224, 48)
Датасет в ./snp_extracted/PGS000818/test_2/test_2_PGS000818_dataset.csv
X содержит 42 SNP и 224 образцов
  train_2: X shape (896, 42)
  test_2: X shape (224, 42)


Python(94280) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 11%|█         | 3/27 [04:15<34:24, 86.02s/it]


Обработка PGS000010

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./train_2
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(94287) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/train_2/train_2_PGS000010_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS000010/train_2/train_2_PGS000010_dataset.csv
X содержит 14 SNP и 896 образцов


Python(94288) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./test_2
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(94485) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(94486) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 15%|█▍        | 4/27 [05:20<29:44, 77.60s/it]

Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/test_2/test_2_PGS000010_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS000010/test_2/test_2_PGS000010_dataset.csv
X содержит 14 SNP и 224 образцов
  train_2: X shape (896, 14)
  test_2: X shape (224, 14)

Обработка PGS004921

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./train_2
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(94515) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/train_2/train_2_PGS004921_extracted
Загружена матрица генотипов размером (896, 36)
Датасет в ./snp_extracted/PGS004921/train_2/train_2_PGS004921_dataset.csv
X содержит 30 SNP и 896 образцов


Python(94516) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./test_2
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(94524) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/test_2/test_2_PGS004921_extracted
Загружена матрица генотипов размером (224, 36)
Датасет в ./snp_extracted/PGS004921/test_2/test_2_PGS004921_dataset.csv
X содержит 30 SNP и 224 образцов


Python(94525) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 19%|█▊        | 5/27 [06:37<28:24, 77.47s/it]

  train_2: X shape (896, 30)
  test_2: X shape (224, 30)

Обработка PGS004919

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./train_2
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(94621) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/train_2/train_2_PGS004919_extracted
Загружена матрица генотипов размером (896, 28)


Python(94622) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004919/train_2/train_2_PGS004919_dataset.csv
X содержит 22 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./test_2
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(94644) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/test_2/test_2_PGS004919_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS004919/test_2/test_2_PGS004919_dataset.csv
X содержит 22 SNP и 224 образцов


Python(94645) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 22%|██▏       | 6/27 [08:09<28:45, 82.16s/it]

  train_2: X shape (896, 22)
  test_2: X shape (224, 22)

Обработка PGS004925

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./train_2
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(94660) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/train_2/train_2_PGS004925_extracted
Загружена матрица генотипов размером (896, 52)


Python(94661) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004925/train_2/train_2_PGS004925_dataset.csv
X содержит 46 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./test_2
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(94757) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/test_2/test_2_PGS004925_extracted
Загружена матрица генотипов размером (224, 52)
Датасет в ./snp_extracted/PGS004925/test_2/test_2_PGS004925_dataset.csv
X содержит 46 SNP и 224 образцов


Python(94758) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 26%|██▌       | 7/27 [09:40<28:22, 85.15s/it]

  train_2: X shape (896, 46)
  test_2: X shape (224, 46)

Обработка PGS000798

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./train_2
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(94783) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/train_2/train_2_PGS000798_extracted
Загружена матрица генотипов размером (896, 35)


Python(94784) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000798/train_2/train_2_PGS000798_dataset.csv
X содержит 29 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./test_2
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(94880) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/test_2/test_2_PGS000798_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS000798/test_2/test_2_PGS000798_dataset.csv
X содержит 29 SNP и 224 образцов


Python(94881) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 30%|██▉       | 8/27 [11:16<28:02, 88.53s/it]

  train_2: X shape (896, 29)
  test_2: X shape (224, 29)

Обработка PGS004305

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./train_2
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(94894) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/train_2/train_2_PGS004305_extracted


Python(94895) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1133)
Датасет в ./snp_extracted/PGS004305/train_2/train_2_PGS004305_dataset.csv
X содержит 1127 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./test_2
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(94917) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/test_2/test_2_PGS004305_extracted
Загружена матрица генотипов размером (224, 1133)


Python(94918) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 33%|███▎      | 9/27 [12:45<26:40, 88.91s/it]

Датасет в ./snp_extracted/PGS004305/test_2/test_2_PGS004305_dataset.csv
X содержит 1127 SNP и 224 образцов
  train_2: X shape (896, 1127)
  test_2: X shape (224, 1127)

Обработка PGS000349

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./train_2
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(95015) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/train_2/train_2_PGS000349_extracted
Загружена матрица генотипов размером (896, 30)


Python(95016) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000349/train_2/train_2_PGS000349_dataset.csv
X содержит 24 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./test_2
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(95040) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/test_2/test_2_PGS000349_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS000349/test_2/test_2_PGS000349_dataset.csv
X содержит 24 SNP и 224 образцов


Python(95041) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 37%|███▋      | 10/27 [14:20<25:40, 90.60s/it]

  train_2: X shape (896, 24)
  test_2: X shape (224, 24)

Обработка PGS002775

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./train_2
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(95146) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/train_2/train_2_PGS002775_extracted
Загружена матрица генотипов размером (896, 186)


Python(95159) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/train_2/train_2_PGS002775_dataset.csv
X содержит 180 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./test_2
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(95179) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/test_2/test_2_PGS002775_extracted
Загружена матрица генотипов размером (224, 186)


Python(95181) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 41%|████      | 11/27 [15:44<23:35, 88.48s/it]

Датасет в ./snp_extracted/PGS002775/test_2/test_2_PGS002775_dataset.csv
X содержит 180 SNP и 224 образцов
  train_2: X shape (896, 180)
  test_2: X shape (224, 180)

Обработка PGS000200

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./train_2
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(95202) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/train_2/train_2_PGS000200_extracted
Загружена матрица генотипов размером (896, 21)
Датасет в ./snp_extracted/PGS000200/train_2/train_2_PGS000200_dataset.csv
X содержит 15 SNP и 896 образцов


Python(95204) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./test_2
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(95219) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/test_2/test_2_PGS000200_extracted
Загружена матрица генотипов размером (224, 21)
Датасет в ./snp_extracted/PGS000200/test_2/test_2_PGS000200_dataset.csv
X содержит 15 SNP и 224 образцов


Python(95220) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 44%|████▍     | 12/27 [16:55<20:48, 83.22s/it]

  train_2: X shape (896, 15)
  test_2: X shape (224, 15)

Обработка PGS000059

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./train_2
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(95319) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/train_2/train_2_PGS000059_extracted
Загружена матрица генотипов размером (896, 24)
Датасет в ./snp_extracted/PGS000059/train_2/train_2_PGS000059_dataset.csv
X содержит 18 SNP и 896 образцов


Python(95320) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./test_2
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(95327) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/test_2/test_2_PGS000059_extracted
Загружена матрица генотипов размером (224, 24)
Датасет в ./snp_extracted/PGS000059/test_2/test_2_PGS000059_dataset.csv
X содержит 18 SNP и 224 образцов


Python(95328) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 48%|████▊     | 13/27 [18:10<18:51, 80.82s/it]

  train_2: X shape (896, 18)
  test_2: X shape (224, 18)

Обработка PGS002262

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./train_2
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(95345) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/train_2/train_2_PGS002262_extracted
Загружена матрица генотипов размером (896, 142)


Python(95346) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/train_2/train_2_PGS002262_dataset.csv
X содержит 136 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./test_2
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(95438) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/test_2/test_2_PGS002262_extracted
Загружена матрица генотипов размером (224, 142)
Датасет в ./snp_extracted/PGS002262/test_2/test_2_PGS002262_dataset.csv
X содержит 136 SNP и 224 образцов


Python(95439) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 52%|█████▏    | 14/27 [19:22<16:57, 78.25s/it]

  train_2: X shape (896, 136)
  test_2: X shape (224, 136)

Обработка PGS000058

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./train_2
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(95444) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/train_2/train_2_PGS000058_extracted
Загружена матрица генотипов размером (896, 47)
Датасет в ./snp_extracted/PGS000058/train_2/train_2_PGS000058_dataset.csv
X содержит 41 SNP и 896 образцов


Python(95445) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./test_2
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(95499) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/test_2/test_2_PGS000058_extracted
Загружена матрица генотипов размером (224, 47)
Датасет в ./snp_extracted/PGS000058/test_2/test_2_PGS000058_dataset.csv
X содержит 41 SNP и 224 образцов
  train_2: X shape (896, 41)
  test_2: X shape (224, 41)


Python(95500) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 56%|█████▌    | 15/27 [20:35<15:19, 76.66s/it]


Обработка PGS003438

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./train_2
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(95598) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/train_2/train_2_PGS003438_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS003438/train_2/train_2_PGS003438_dataset.csv
X содержит 29 SNP и 896 образцов


Python(95599) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./test_2
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(95614) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/test_2/test_2_PGS003438_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS003438/test_2/test_2_PGS003438_dataset.csv
X содержит 29 SNP и 224 образцов


Python(95615) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 59%|█████▉    | 16/27 [22:13<15:11, 82.91s/it]

  train_2: X shape (896, 29)
  test_2: X shape (224, 29)

Обработка PGS000899

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./train_2
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(95701) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/train_2/train_2_PGS000899_extracted
Загружена матрица генотипов размером (896, 43)
Датасет в ./snp_extracted/PGS000899/train_2/train_2_PGS000899_dataset.csv
X содержит 37 SNP и 896 образцов


Python(95702) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./test_2
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(95740) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/test_2/test_2_PGS000899_extracted
Загружена матрица генотипов размером (224, 43)
Датасет в ./snp_extracted/PGS000899/test_2/test_2_PGS000899_dataset.csv
X содержит 37 SNP и 224 образцов


Python(95741) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 63%|██████▎   | 17/27 [23:43<14:11, 85.16s/it]

  train_2: X shape (896, 37)
  test_2: X shape (224, 37)

Обработка PGS004595

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./train_2
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(95765) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/train_2/train_2_PGS004595_extracted
Загружена матрица генотипов размером (896, 46)
Датасет в ./snp_extracted/PGS004595/train_2/train_2_PGS004595_dataset.csv
X содержит 40 SNP и 896 образцов


Python(95766) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./test_2
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(95959) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/test_2/test_2_PGS004595_extracted
Загружена матрица генотипов размером (224, 46)
Датасет в ./snp_extracted/PGS004595/test_2/test_2_PGS004595_dataset.csv
X содержит 40 SNP и 224 образцов


Python(95960) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 67%|██████▋   | 18/27 [25:12<12:57, 86.39s/it]

  train_2: X shape (896, 40)
  test_2: X shape (224, 40)

Обработка PGS000057

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./train_2
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(95987) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/train_2/train_2_PGS000057_extracted
Загружена матрица генотипов размером (896, 25)
Датасет в ./snp_extracted/PGS000057/train_2/train_2_PGS000057_dataset.csv
X содержит 19 SNP и 896 образцов


Python(95988) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./test_2
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(96015) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/test_2/test_2_PGS000057_extracted
Загружена матрица генотипов размером (224, 25)
Датасет в ./snp_extracted/PGS000057/test_2/test_2_PGS000057_dataset.csv
X содержит 19 SNP и 224 образцов


Python(96016) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 70%|███████   | 19/27 [26:44<11:42, 87.84s/it]

  train_2: X shape (896, 19)
  test_2: X shape (224, 19)

Обработка PGS004596

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./train_2
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(96102) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/train_2/train_2_PGS004596_extracted
Загружена матрица генотипов размером (896, 30)
Датасет в ./snp_extracted/PGS004596/train_2/train_2_PGS004596_dataset.csv
X содержит 24 SNP и 896 образцов


Python(96103) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./test_2
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(96130) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/test_2/test_2_PGS004596_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS004596/test_2/test_2_PGS004596_dataset.csv
X содержит 24 SNP и 224 образцов


Python(96131) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 74%|███████▍  | 20/27 [28:09<10:10, 87.15s/it]

  train_2: X shape (896, 24)
  test_2: X shape (224, 24)

Обработка PGS004309

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./train_2
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(96166) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/train_2/train_2_PGS004309_extracted


Python(96167) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1180)
Датасет в ./snp_extracted/PGS004309/train_2/train_2_PGS004309_dataset.csv
X содержит 1174 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./test_2
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(96254) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/test_2/test_2_PGS004309_extracted
Загружена матрица генотипов размером (224, 1180)


Python(96255) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 78%|███████▊  | 21/27 [29:29<08:29, 84.98s/it]

Датасет в ./snp_extracted/PGS004309/test_2/test_2_PGS004309_dataset.csv
X содержит 1174 SNP и 224 образцов
  train_2: X shape (896, 1174)
  test_2: X shape (224, 1174)

Обработка PGS004321

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./train_2
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(96600) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/train_2/train_2_PGS004321_extracted
Загружена матрица генотипов размером (896, 20)


Python(96622) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004321/train_2/train_2_PGS004321_dataset.csv
X содержит 14 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./test_2
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(96833) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/test_2/test_2_PGS004321_extracted
Загружена матрица генотипов размером (224, 20)


Python(96835) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 81%|████████▏ | 22/27 [56:43<45:49, 549.82s/it]

Датасет в ./snp_extracted/PGS004321/test_2/test_2_PGS004321_dataset.csv
X содержит 14 SNP и 224 образцов
  train_2: X shape (896, 14)
  test_2: X shape (224, 14)

Обработка PGS004308

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./train_2
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(97041) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/train_2/train_2_PGS004308_extracted


Python(97045) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 590)
Датасет в ./snp_extracted/PGS004308/train_2/train_2_PGS004308_dataset.csv
X содержит 584 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./test_2
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(97666) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/test_2/test_2_PGS004308_extracted
Загружена матрица генотипов размером (224, 590)


Python(97667) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 85%|████████▌ | 23/27 [1:22:12<56:15, 843.80s/it]

Датасет в ./snp_extracted/PGS004308/test_2/test_2_PGS004308_dataset.csv
X содержит 584 SNP и 224 образцов
  train_2: X shape (896, 584)
  test_2: X shape (224, 584)

Обработка PGS000019

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./train_2
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(97695) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/train_2/train_2_PGS000019_extracted
Загружена матрица генотипов размером (896, 32)
Датасет в ./snp_extracted/PGS000019/train_2/train_2_PGS000019_dataset.csv
X содержит 26 SNP и 896 образцов


Python(97696) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./test_2
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(97771) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/test_2/test_2_PGS000019_extracted
Загружена матрица генотипов размером (224, 32)
Датасет в ./snp_extracted/PGS000019/test_2/test_2_PGS000019_dataset.csv
X содержит 26 SNP и 224 образцов


Python(97772) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 89%|████████▉ | 24/27 [1:23:33<30:44, 614.88s/it]

  train_2: X shape (896, 26)
  test_2: X shape (224, 26)

Обработка PGS000746

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./train_2
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(97810) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/train_2/train_2_PGS000746_extracted
Загружена матрица генотипов размером (896, 238)


Python(97811) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/train_2/train_2_PGS000746_dataset.csv
X содержит 232 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./test_2
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(97841) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/test_2/test_2_PGS000746_extracted
Загружена матрица генотипов размером (224, 238)


Python(97842) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 93%|█████████▎| 25/27 [1:24:53<15:08, 454.38s/it]

Датасет в ./snp_extracted/PGS000746/test_2/test_2_PGS000746_dataset.csv
X содержит 232 SNP и 224 образцов
  train_2: X shape (896, 232)
  test_2: X shape (224, 232)

Обработка PGS004899

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./train_2
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./test_2
Загруже PGS с 7 SNP


 96%|█████████▋| 26/27 [1:26:20<05:44, 344.19s/it]

Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./train_2
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./train_2
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(97964) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/train_2/train_2_PGS000962_extracted
Загружена матрица генотипов размером (896, 450)


Python(97965) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/train_2/train_2_PGS000962_dataset.csv
X содержит 444 SNP и 896 образцов

Обработка ./test_2
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./test_2
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(98054) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/test_2/test_2_PGS000962_extracted
Загружена матрица генотипов размером (224, 450)


Python(98055) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
100%|██████████| 27/27 [1:27:42<00:00, 194.90s/it]


Датасет в ./snp_extracted/PGS000962/test_2/test_2_PGS000962_dataset.csv
X содержит 444 SNP и 224 образцов
  train_2: X shape (896, 444)
  test_2: X shape (224, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26
27 PGS в папке ./pgs_small


  0%|          | 0/27 [00:00<?, ?it/s]


Обработка PGS002809

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./train_3
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(98080) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/train_3/train_3_PGS002809_extracted
Загружена матрица генотипов размером (896, 54)


Python(98081) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002809/train_3/train_3_PGS002809_dataset.csv
X содержит 48 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./test_3
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(98225) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/test_3/test_3_PGS002809_extracted
Загружена матрица генотипов размером (224, 54)
Датасет в ./snp_extracted/PGS002809/test_3/test_3_PGS002809_dataset.csv
X содержит 48 SNP и 224 образцов


Python(98226) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  4%|▎         | 1/27 [01:27<37:50, 87.34s/it]

  train_3: X shape (896, 48)
  test_3: X shape (224, 48)

Обработка PGS000011

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./train_3
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(98323) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/train_3/train_3_PGS000011_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS000011/train_3/train_3_PGS000011_dataset.csv
X содержит 22 SNP и 896 образцов


Python(98324) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./test_3
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(98337) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/test_3/test_3_PGS000011_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS000011/test_3/test_3_PGS000011_dataset.csv
X содержит 22 SNP и 224 образцов


Python(98338) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  7%|▋         | 2/27 [02:50<35:16, 84.68s/it]

  train_3: X shape (896, 22)
  test_3: X shape (224, 22)

Обработка PGS000818

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./train_3
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(98363) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/train_3/train_3_PGS000818_extracted
Загружена матрица генотипов размером (896, 48)
Датасет в ./snp_extracted/PGS000818/train_3/train_3_PGS000818_dataset.csv
X содержит 42 SNP и 896 образцов


Python(98365) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./test_3
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(98465) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/test_3/test_3_PGS000818_extracted
Загружена матрица генотипов размером (224, 48)
Датасет в ./snp_extracted/PGS000818/test_3/test_3_PGS000818_dataset.csv
X содержит 42 SNP и 224 образцов


Python(98466) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 11%|█         | 3/27 [04:14<33:43, 84.32s/it]

  train_3: X shape (896, 42)
  test_3: X shape (224, 42)

Обработка PGS000010

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./train_3
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(98476) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/train_3/train_3_PGS000010_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS000010/train_3/train_3_PGS000010_dataset.csv
X содержит 14 SNP и 896 образцов


Python(98477) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./test_3
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(98501) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(98502) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 15%|█▍        | 4/27 [05:37<32:10, 83.94s/it]

Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/test_3/test_3_PGS000010_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS000010/test_3/test_3_PGS000010_dataset.csv
X содержит 14 SNP и 224 образцов
  train_3: X shape (896, 14)
  test_3: X shape (224, 14)

Обработка PGS004921

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./train_3
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(98591) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/train_3/train_3_PGS004921_extracted
Загружена матрица генотипов размером (896, 36)
Датасет в ./snp_extracted/PGS004921/train_3/train_3_PGS004921_dataset.csv
X содержит 30 SNP и 896 образцов


Python(98592) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./test_3
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(98616) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(98617) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 19%|█▊        | 5/27 [06:43<28:22, 77.40s/it]

Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/test_3/test_3_PGS004921_extracted
Загружена матрица генотипов размером (224, 36)
Датасет в ./snp_extracted/PGS004921/test_3/test_3_PGS004921_dataset.csv
X содержит 30 SNP и 224 образцов
  train_3: X shape (896, 30)
  test_3: X shape (224, 30)

Обработка PGS004919

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./train_3
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(98970) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/train_3/train_3_PGS004919_extracted
Загружена матрица генотипов размером (896, 28)


Python(98971) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004919/train_3/train_3_PGS004919_dataset.csv
X содержит 22 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./test_3
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(99222) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/test_3/test_3_PGS004919_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS004919/test_3/test_3_PGS004919_dataset.csv
X содержит 22 SNP и 224 образцов


Python(99223) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 22%|██▏       | 6/27 [40:34<4:19:34, 741.66s/it]

  train_3: X shape (896, 22)
  test_3: X shape (224, 22)

Обработка PGS004925

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./train_3
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(99426) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/train_3/train_3_PGS004925_extracted
Загружена матрица генотипов размером (896, 52)


Python(99427) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004925/train_3/train_3_PGS004925_dataset.csv
X содержит 46 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./test_3
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(99637) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/test_3/test_3_PGS004925_extracted
Загружена матрица генотипов размером (224, 52)


Python(99638) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 26%|██▌       | 7/27 [1:00:58<4:59:45, 899.27s/it]

Датасет в ./snp_extracted/PGS004925/test_3/test_3_PGS004925_dataset.csv
X содержит 46 SNP и 224 образцов
  train_3: X shape (896, 46)
  test_3: X shape (224, 46)

Обработка PGS000798

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./train_3
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(185) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/train_3/train_3_PGS000798_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS000798/train_3/train_3_PGS000798_dataset.csv
X содержит 29 SNP и 896 образцов


Python(186) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./test_3
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(440) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/test_3/test_3_PGS000798_extracted
Загружена матрица генотипов размером (224, 35)


Python(442) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 30%|██▉       | 8/27 [1:27:29<5:54:33, 1119.65s/it]

Датасет в ./snp_extracted/PGS000798/test_3/test_3_PGS000798_dataset.csv
X содержит 29 SNP и 224 образцов
  train_3: X shape (896, 29)
  test_3: X shape (224, 29)

Обработка PGS004305

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./train_3
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(680) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/train_3/train_3_PGS004305_extracted


Python(684) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1133)
Датасет в ./snp_extracted/PGS004305/train_3/train_3_PGS004305_dataset.csv
X содержит 1127 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./test_3
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(1080) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/test_3/test_3_PGS004305_extracted
Загружена матрица генотипов размером (224, 1133)


Python(1081) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 33%|███▎      | 9/27 [1:54:48<6:24:33, 1281.86s/it]

Датасет в ./snp_extracted/PGS004305/test_3/test_3_PGS004305_dataset.csv
X содержит 1127 SNP и 224 образцов
  train_3: X shape (896, 1127)
  test_3: X shape (224, 1127)

Обработка PGS000349

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./train_3
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(1280) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/train_3/train_3_PGS000349_extracted
Загружена матрица генотипов размером (896, 30)


Python(1281) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000349/train_3/train_3_PGS000349_dataset.csv
X содержит 24 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./test_3
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(1622) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/test_3/test_3_PGS000349_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS000349/test_3/test_3_PGS000349_dataset.csv
X содержит 24 SNP и 224 образцов


Python(1623) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 37%|███▋      | 10/27 [2:22:31<6:36:35, 1399.71s/it]

  train_3: X shape (896, 24)
  test_3: X shape (224, 24)

Обработка PGS002775

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./train_3
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(1899) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/train_3/train_3_PGS002775_extracted


Python(1902) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 186)
Датасет в ./snp_extracted/PGS002775/train_3/train_3_PGS002775_dataset.csv
X содержит 180 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./test_3
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(2127) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/test_3/test_3_PGS002775_extracted


Python(2130) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (224, 186)


 41%|████      | 11/27 [2:37:13<5:30:58, 1241.18s/it]

Датасет в ./snp_extracted/PGS002775/test_3/test_3_PGS002775_dataset.csv
X содержит 180 SNP и 224 образцов
  train_3: X shape (896, 180)
  test_3: X shape (224, 180)

Обработка PGS000200

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./train_3
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(2335) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/train_3/train_3_PGS000200_extracted
Загружена матрица генотипов размером (896, 21)


Python(2336) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000200/train_3/train_3_PGS000200_dataset.csv
X содержит 15 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./test_3
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(2604) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/test_3/test_3_PGS000200_extracted
Загружена матрица генотипов размером (224, 21)


Python(2605) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 44%|████▍     | 12/27 [2:45:55<4:15:35, 1022.38s/it]

Датасет в ./snp_extracted/PGS000200/test_3/test_3_PGS000200_dataset.csv
X содержит 15 SNP и 224 образцов
  train_3: X shape (896, 15)
  test_3: X shape (224, 15)

Обработка PGS000059

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./train_3
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(2817) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/train_3/train_3_PGS000059_extracted
Загружена матрица генотипов размером (896, 24)


Python(2820) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000059/train_3/train_3_PGS000059_dataset.csv
X содержит 18 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./test_3
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(3176) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/test_3/test_3_PGS000059_extracted
Загружена матрица генотипов размером (224, 24)
Датасет в ./snp_extracted/PGS000059/test_3/test_3_PGS000059_dataset.csv
X содержит 18 SNP и 224 образцов


Python(3177) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 48%|████▊     | 13/27 [3:06:55<4:15:22, 1094.48s/it]

  train_3: X shape (896, 18)
  test_3: X shape (224, 18)

Обработка PGS002262

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./train_3
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(3287) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/train_3/train_3_PGS002262_extracted
Загружена матрица генотипов размером (896, 142)


Python(3288) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/train_3/train_3_PGS002262_dataset.csv
X содержит 136 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./test_3
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(3505) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/test_3/test_3_PGS002262_extracted


Python(3506) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (224, 142)
Датасет в ./snp_extracted/PGS002262/test_3/test_3_PGS002262_dataset.csv
X содержит 136 SNP и 224 образцов


 52%|█████▏    | 14/27 [3:27:39<4:06:54, 1139.56s/it]

  train_3: X shape (896, 136)
  test_3: X shape (224, 136)

Обработка PGS000058

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./train_3
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(3728) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/train_3/train_3_PGS000058_extracted
Загружена матрица генотипов размером (896, 47)


Python(3730) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000058/train_3/train_3_PGS000058_dataset.csv
X содержит 41 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./test_3
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(3942) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/test_3/test_3_PGS000058_extracted
Загружена матрица генотипов размером (224, 47)


Python(3944) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 56%|█████▌    | 15/27 [3:36:29<3:11:09, 955.80s/it] 

Датасет в ./snp_extracted/PGS000058/test_3/test_3_PGS000058_dataset.csv
X содержит 41 SNP и 224 образцов
  train_3: X shape (896, 41)
  test_3: X shape (224, 41)

Обработка PGS003438

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./train_3
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(4259) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/train_3/train_3_PGS003438_extracted
Загружена матрица генотипов размером (896, 35)


Python(4260) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS003438/train_3/train_3_PGS003438_dataset.csv
X содержит 29 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./test_3
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(4467) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/test_3/test_3_PGS003438_extracted
Загружена матрица генотипов размером (224, 35)


Python(4468) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 59%|█████▉    | 16/27 [3:49:47<2:46:29, 908.18s/it]

Датасет в ./snp_extracted/PGS003438/test_3/test_3_PGS003438_dataset.csv
X содержит 29 SNP и 224 образцов
  train_3: X shape (896, 29)
  test_3: X shape (224, 29)

Обработка PGS000899

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./train_3
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(4735) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/train_3/train_3_PGS000899_extracted
Загружена матрица генотипов размером (896, 43)
Датасет в ./snp_extracted/PGS000899/train_3/train_3_PGS000899_dataset.csv
X содержит 37 SNP и 896 образцов


Python(4736) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./test_3
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(4938) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/test_3/test_3_PGS000899_extracted
Загружена матрица генотипов размером (224, 43)


Python(4939) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 63%|██████▎   | 17/27 [4:19:18<3:14:38, 1167.86s/it]

Датасет в ./snp_extracted/PGS000899/test_3/test_3_PGS000899_dataset.csv
X содержит 37 SNP и 224 образцов
  train_3: X shape (896, 37)
  test_3: X shape (224, 37)

Обработка PGS004595

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./train_3
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(5173) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/train_3/train_3_PGS004595_extracted
Загружена матрица генотипов размером (896, 46)


Python(5175) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004595/train_3/train_3_PGS004595_dataset.csv
X содержит 40 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./test_3
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(5463) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/test_3/test_3_PGS004595_extracted
Загружена матрица генотипов размером (224, 46)


Python(5467) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 67%|██████▋   | 18/27 [4:34:28<2:43:32, 1090.29s/it]

Датасет в ./snp_extracted/PGS004595/test_3/test_3_PGS004595_dataset.csv
X содержит 40 SNP и 224 образцов
  train_3: X shape (896, 40)
  test_3: X shape (224, 40)

Обработка PGS000057

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./train_3
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(5674) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/train_3/train_3_PGS000057_extracted
Загружена матрица генотипов размером (896, 25)


Python(5676) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000057/train_3/train_3_PGS000057_dataset.csv
X содержит 19 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./test_3
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(5982) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/test_3/test_3_PGS000057_extracted
Загружена матрица генотипов размером (224, 25)
Датасет в ./snp_extracted/PGS000057/test_3/test_3_PGS000057_dataset.csv
X содержит 19 SNP и 224 образцов


Python(5983) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 70%|███████   | 19/27 [5:03:59<2:52:37, 1294.63s/it]

  train_3: X shape (896, 19)
  test_3: X shape (224, 19)

Обработка PGS004596

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./train_3
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(6181) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/train_3/train_3_PGS004596_extracted
Загружена матрица генотипов размером (896, 30)


Python(6183) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004596/train_3/train_3_PGS004596_dataset.csv
X содержит 24 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./test_3
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(6391) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/test_3/test_3_PGS004596_extracted
Загружена матрица генотипов размером (224, 30)


Python(6394) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004596/test_3/test_3_PGS004596_dataset.csv
X содержит 24 SNP и 224 образцов


 74%|███████▍  | 20/27 [5:19:59<2:19:20, 1194.38s/it]

  train_3: X shape (896, 24)
  test_3: X shape (224, 24)

Обработка PGS004309

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./train_3
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(6710) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/train_3/train_3_PGS004309_extracted


Python(6713) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1180)
Датасет в ./snp_extracted/PGS004309/train_3/train_3_PGS004309_dataset.csv
X содержит 1174 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./test_3
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(6991) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/test_3/test_3_PGS004309_extracted


Python(6993) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (224, 1180)


 78%|███████▊  | 21/27 [5:38:47<1:57:25, 1174.30s/it]

Датасет в ./snp_extracted/PGS004309/test_3/test_3_PGS004309_dataset.csv
X содержит 1174 SNP и 224 образцов
  train_3: X shape (896, 1174)
  test_3: X shape (224, 1174)

Обработка PGS004321

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./train_3
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(7254) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/train_3/train_3_PGS004321_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS004321/train_3/train_3_PGS004321_dataset.csv
X содержит 14 SNP и 896 образцов


Python(7255) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./test_3
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(7512) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(7513) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 81%|████████▏ | 22/27 [6:04:58<1:47:47, 1293.51s/it]

Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/test_3/test_3_PGS004321_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS004321/test_3/test_3_PGS004321_dataset.csv
X содержит 14 SNP и 224 образцов
  train_3: X shape (896, 14)
  test_3: X shape (224, 14)

Обработка PGS004308

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./train_3
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(7720) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/train_3/train_3_PGS004308_extracted


Python(7722) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 590)
Датасет в ./snp_extracted/PGS004308/train_3/train_3_PGS004308_dataset.csv
X содержит 584 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./test_3
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(7977) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/test_3/test_3_PGS004308_extracted
Загружена матрица генотипов размером (224, 590)


Python(8043) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 85%|████████▌ | 23/27 [6:28:31<1:28:36, 1329.15s/it]

Датасет в ./snp_extracted/PGS004308/test_3/test_3_PGS004308_dataset.csv
X содержит 584 SNP и 224 образцов
  train_3: X shape (896, 584)
  test_3: X shape (224, 584)

Обработка PGS000019

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./train_3
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(8263) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/train_3/train_3_PGS000019_extracted
Загружена матрица генотипов размером (896, 32)


Python(8264) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000019/train_3/train_3_PGS000019_dataset.csv
X содержит 26 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./test_3
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(8526) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/test_3/test_3_PGS000019_extracted
Загружена матрица генотипов размером (224, 32)


Python(8529) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 89%|████████▉ | 24/27 [6:48:42<1:04:41, 1293.70s/it]

Датасет в ./snp_extracted/PGS000019/test_3/test_3_PGS000019_dataset.csv
X содержит 26 SNP и 224 образцов
  train_3: X shape (896, 26)
  test_3: X shape (224, 26)

Обработка PGS000746

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./train_3
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(8843) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/train_3/train_3_PGS000746_extracted
Загружена матрица генотипов размером (896, 238)


Python(8844) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/train_3/train_3_PGS000746_dataset.csv
X содержит 232 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./test_3
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(9043) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/test_3/test_3_PGS000746_extracted


Python(9046) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (224, 238)


 93%|█████████▎| 25/27 [7:12:10<44:16, 1328.17s/it]  

Датасет в ./snp_extracted/PGS000746/test_3/test_3_PGS000746_dataset.csv
X содержит 232 SNP и 224 образцов
  train_3: X shape (896, 232)
  test_3: X shape (224, 232)

Обработка PGS004899

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./train_3
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./test_3
Загруже PGS с 7 SNP


 96%|█████████▋| 26/27 [7:25:42<19:33, 1173.18s/it]

Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./train_3
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./train_3
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(9655) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/train_3/train_3_PGS000962_extracted
Загружена матрица генотипов размером (896, 450)


Python(9656) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/train_3/train_3_PGS000962_dataset.csv
X содержит 444 SNP и 896 образцов

Обработка ./test_3
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./test_3
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(9870) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/test_3/test_3_PGS000962_extracted


Python(9872) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (224, 450)


100%|██████████| 27/27 [7:40:18<00:00, 1022.89s/it]


Датасет в ./snp_extracted/PGS000962/test_3/test_3_PGS000962_dataset.csv
X содержит 444 SNP и 224 образцов
  train_3: X shape (896, 444)
  test_3: X shape (224, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26
27 PGS в папке ./pgs_small


  0%|          | 0/27 [00:00<?, ?it/s]


Обработка PGS002809

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./train_4
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(10089) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/train_4/train_4_PGS002809_extracted
Загружена матрица генотипов размером (896, 54)


Python(10091) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002809/train_4/train_4_PGS002809_dataset.csv
X содержит 48 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./test_4
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(10369) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/test_4/test_4_PGS002809_extracted
Загружена матрица генотипов размером (224, 54)


Python(10371) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  4%|▎         | 1/27 [08:50<3:49:53, 530.54s/it]

Датасет в ./snp_extracted/PGS002809/test_4/test_4_PGS002809_dataset.csv
X содержит 48 SNP и 224 образцов
  train_4: X shape (896, 48)
  test_4: X shape (224, 48)

Обработка PGS000011

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./train_4
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(10608) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/train_4/train_4_PGS000011_extracted
Загружена матрица генотипов размером (896, 28)


Python(10609) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000011/train_4/train_4_PGS000011_dataset.csv
X содержит 22 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./test_4
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(10867) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/test_4/test_4_PGS000011_extracted
Загружена матрица генотипов размером (224, 28)


Python(10868) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  7%|▋         | 2/27 [21:08<4:31:56, 652.67s/it]

Датасет в ./snp_extracted/PGS000011/test_4/test_4_PGS000011_dataset.csv
X содержит 22 SNP и 224 образцов
  train_4: X shape (896, 22)
  test_4: X shape (224, 22)

Обработка PGS000818

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./train_4
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(11072) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/train_4/train_4_PGS000818_extracted
Загружена матрица генотипов размером (896, 48)


Python(11076) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000818/train_4/train_4_PGS000818_dataset.csv
X содержит 42 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./test_4
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(11188) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/test_4/test_4_PGS000818_extracted
Загружена матрица генотипов размером (224, 48)
Датасет в ./snp_extracted/PGS000818/test_4/test_4_PGS000818_dataset.csv
X содержит 42 SNP и 224 образцов


Python(11189) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 11%|█         | 3/27 [27:01<3:26:19, 515.79s/it]

  train_4: X shape (896, 42)
  test_4: X shape (224, 42)

Обработка PGS000010

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./train_4
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(11200) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/train_4/train_4_PGS000010_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS000010/train_4/train_4_PGS000010_dataset.csv
X содержит 14 SNP и 896 образцов


Python(11201) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./test_4
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(11209) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(11210) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 15%|█▍        | 4/27 [28:05<2:09:19, 337.37s/it]

Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/test_4/test_4_PGS000010_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS000010/test_4/test_4_PGS000010_dataset.csv
X содержит 14 SNP и 224 образцов
  train_4: X shape (896, 14)
  test_4: X shape (224, 14)

Обработка PGS004921

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./train_4
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(11215) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/train_4/train_4_PGS004921_extracted
Загружена матрица генотипов размером (896, 36)
Датасет в ./snp_extracted/PGS004921/train_4/train_4_PGS004921_dataset.csv
X содержит 30 SNP и 896 образцов


Python(11216) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./test_4
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(11299) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/test_4/test_4_PGS004921_extracted
Загружена матрица генотипов размером (224, 36)
Датасет в ./snp_extracted/PGS004921/test_4/test_4_PGS004921_dataset.csv
X содержит 30 SNP и 224 образцов
  train_4: X shape (896, 30)
  test_4: X shape (224, 30)


Python(11300) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 19%|█▊        | 5/27 [29:09<1:27:32, 238.77s/it]


Обработка PGS004919

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./train_4
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(11307) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/train_4/train_4_PGS004919_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS004919/train_4/train_4_PGS004919_dataset.csv
X содержит 22 SNP и 896 образцов


Python(11308) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./test_4
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(11316) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/test_4/test_4_PGS004919_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS004919/test_4/test_4_PGS004919_dataset.csv
X содержит 22 SNP и 224 образцов
  train_4: X shape (896, 22)
  test_4: X shape (224, 22)


Python(11317) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 22%|██▏       | 6/27 [30:12<1:02:42, 179.18s/it]


Обработка PGS004925

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./train_4
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(11324) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/train_4/train_4_PGS004925_extracted
Загружена матрица генотипов размером (896, 52)
Датасет в ./snp_extracted/PGS004925/train_4/train_4_PGS004925_dataset.csv
X содержит 46 SNP и 896 образцов


Python(11325) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./test_4
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(11404) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/test_4/test_4_PGS004925_extracted
Загружена матрица генотипов размером (224, 52)
Датасет в ./snp_extracted/PGS004925/test_4/test_4_PGS004925_dataset.csv
X содержит 46 SNP и 224 образцов


Python(11405) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 26%|██▌       | 7/27 [31:17<47:13, 141.69s/it]  

  train_4: X shape (896, 46)
  test_4: X shape (224, 46)

Обработка PGS000798

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./train_4
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(11413) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/train_4/train_4_PGS000798_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS000798/train_4/train_4_PGS000798_dataset.csv
X содержит 29 SNP и 896 образцов


Python(11414) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./test_4
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(11428) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/test_4/test_4_PGS000798_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS000798/test_4/test_4_PGS000798_dataset.csv
X содержит 29 SNP и 224 образцов
  train_4: X shape (896, 29)
  test_4: X shape (224, 29)


Python(11429) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 30%|██▉       | 8/27 [32:21<37:02, 116.96s/it]


Обработка PGS004305

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./train_4
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(11497) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/train_4/train_4_PGS004305_extracted


Python(11498) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1133)
Датасет в ./snp_extracted/PGS004305/train_4/train_4_PGS004305_dataset.csv
X содержит 1127 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./test_4
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(11531) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/test_4/test_4_PGS004305_extracted
Загружена матрица генотипов размером (224, 1133)


Python(11532) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 33%|███▎      | 9/27 [33:28<30:23, 101.32s/it]

Датасет в ./snp_extracted/PGS004305/test_4/test_4_PGS004305_dataset.csv
X содержит 1127 SNP и 224 образцов
  train_4: X shape (896, 1127)
  test_4: X shape (224, 1127)

Обработка PGS000349

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./train_4
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(11544) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/train_4/train_4_PGS000349_extracted
Загружена матрица генотипов размером (896, 30)
Датасет в ./snp_extracted/PGS000349/train_4/train_4_PGS000349_dataset.csv
X содержит 24 SNP и 896 образцов


Python(11545) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./test_4
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(11549) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/test_4/test_4_PGS000349_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS000349/test_4/test_4_PGS000349_dataset.csv
X содержит 24 SNP и 224 образцов


Python(11550) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 37%|███▋      | 10/27 [34:33<25:31, 90.07s/it]

  train_4: X shape (896, 24)
  test_4: X shape (224, 24)

Обработка PGS002775

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./train_4
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(11673) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/train_4/train_4_PGS002775_extracted
Загружена матрица генотипов размером (896, 186)


Python(11674) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/train_4/train_4_PGS002775_dataset.csv
X содержит 180 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./test_4
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(11678) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/test_4/test_4_PGS002775_extracted
Загружена матрица генотипов размером (224, 186)
Датасет в ./snp_extracted/PGS002775/test_4/test_4_PGS002775_dataset.csv
X содержит 180 SNP и 224 образцов


Python(11679) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 41%|████      | 11/27 [35:38<21:59, 82.48s/it]

  train_4: X shape (896, 180)
  test_4: X shape (224, 180)

Обработка PGS000200

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./train_4
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(11727) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/train_4/train_4_PGS000200_extracted
Загружена матрица генотипов размером (896, 21)
Датасет в ./snp_extracted/PGS000200/train_4/train_4_PGS000200_dataset.csv
X содержит 15 SNP и 896 образцов


Python(11728) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./test_4
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(11734) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(11735) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 44%|████▍     | 12/27 [36:43<19:15, 77.02s/it]

Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/test_4/test_4_PGS000200_extracted
Загружена матрица генотипов размером (224, 21)
Датасет в ./snp_extracted/PGS000200/test_4/test_4_PGS000200_dataset.csv
X содержит 15 SNP и 224 образцов
  train_4: X shape (896, 15)
  test_4: X shape (224, 15)

Обработка PGS000059

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./train_4
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(11815) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/train_4/train_4_PGS000059_extracted
Загружена матрица генотипов размером (896, 24)
Датасет в ./snp_extracted/PGS000059/train_4/train_4_PGS000059_dataset.csv
X содержит 18 SNP и 896 образцов


Python(11816) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./test_4
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(11839) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/test_4/test_4_PGS000059_extracted
Загружена матрица генотипов размером (224, 24)
Датасет в ./snp_extracted/PGS000059/test_4/test_4_PGS000059_dataset.csv
X содержит 18 SNP и 224 образцов
  train_4: X shape (896, 18)
  test_4: X shape (224, 18)


Python(11840) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 48%|████▊     | 13/27 [37:47<17:06, 73.32s/it]


Обработка PGS002262

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./train_4
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(11849) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/train_4/train_4_PGS002262_extracted
Загружена матрица генотипов размером (896, 142)


Python(11850) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/train_4/train_4_PGS002262_dataset.csv
X содержит 136 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./test_4
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(11920) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/test_4/test_4_PGS002262_extracted
Загружена матрица генотипов размером (224, 142)
Датасет в ./snp_extracted/PGS002262/test_4/test_4_PGS002262_dataset.csv
X содержит 136 SNP и 224 образцов


Python(11921) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 52%|█████▏    | 14/27 [38:53<15:22, 70.93s/it]

  train_4: X shape (896, 136)
  test_4: X shape (224, 136)

Обработка PGS000058

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./train_4
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(11940) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/train_4/train_4_PGS000058_extracted
Загружена матрица генотипов размером (896, 47)
Датасет в ./snp_extracted/PGS000058/train_4/train_4_PGS000058_dataset.csv
X содержит 41 SNP и 896 образцов


Python(11941) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./test_4
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(11953) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/test_4/test_4_PGS000058_extracted
Загружена матрица генотипов размером (224, 47)
Датасет в ./snp_extracted/PGS000058/test_4/test_4_PGS000058_dataset.csv
X содержит 41 SNP и 224 образцов


Python(11954) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 56%|█████▌    | 15/27 [39:57<13:48, 69.02s/it]

  train_4: X shape (896, 41)
  test_4: X shape (224, 41)

Обработка PGS003438

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./train_4
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(11959) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/train_4/train_4_PGS003438_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS003438/train_4/train_4_PGS003438_dataset.csv
X содержит 29 SNP и 896 образцов


Python(11960) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./test_4
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(12043) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(12044) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 59%|█████▉    | 16/27 [41:03<12:26, 67.89s/it]

Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/test_4/test_4_PGS003438_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS003438/test_4/test_4_PGS003438_dataset.csv
X содержит 29 SNP и 224 образцов
  train_4: X shape (896, 29)
  test_4: X shape (224, 29)

Обработка PGS000899

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./train_4
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(12049) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/train_4/train_4_PGS000899_extracted
Загружена матрица генотипов размером (896, 43)
Датасет в ./snp_extracted/PGS000899/train_4/train_4_PGS000899_dataset.csv
X содержит 37 SNP и 896 образцов


Python(12050) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./test_4
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(12059) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/test_4/test_4_PGS000899_extracted
Загружена матрица генотипов размером (224, 43)
Датасет в ./snp_extracted/PGS000899/test_4/test_4_PGS000899_dataset.csv
X содержит 37 SNP и 224 образцов


Python(12060) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 63%|██████▎   | 17/27 [42:07<11:09, 66.94s/it]

  train_4: X shape (896, 37)
  test_4: X shape (224, 37)

Обработка PGS004595

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./train_4
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(12068) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/train_4/train_4_PGS004595_extracted
Загружена матрица генотипов размером (896, 46)
Датасет в ./snp_extracted/PGS004595/train_4/train_4_PGS004595_dataset.csv
X содержит 40 SNP и 896 образцов


Python(12069) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./test_4
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(12151) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/test_4/test_4_PGS004595_extracted
Загружена матрица генотипов размером (224, 46)
Датасет в ./snp_extracted/PGS004595/test_4/test_4_PGS004595_dataset.csv
X содержит 40 SNP и 224 образцов


Python(12152) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 67%|██████▋   | 18/27 [43:12<09:55, 66.16s/it]

  train_4: X shape (896, 40)
  test_4: X shape (224, 40)

Обработка PGS000057

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./train_4
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(12157) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/train_4/train_4_PGS000057_extracted
Загружена матрица генотипов размером (896, 25)
Датасет в ./snp_extracted/PGS000057/train_4/train_4_PGS000057_dataset.csv
X содержит 19 SNP и 896 образцов


Python(12158) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./test_4
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(12166) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/test_4/test_4_PGS000057_extracted
Загружена матрица генотипов размером (224, 25)
Датасет в ./snp_extracted/PGS000057/test_4/test_4_PGS000057_dataset.csv
X содержит 19 SNP и 224 образцов


Python(12167) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 70%|███████   | 19/27 [44:15<08:43, 65.43s/it]

  train_4: X shape (896, 19)
  test_4: X shape (224, 19)

Обработка PGS004596

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./train_4
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(12233) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/train_4/train_4_PGS004596_extracted
Загружена матрица генотипов размером (896, 30)
Датасет в ./snp_extracted/PGS004596/train_4/train_4_PGS004596_dataset.csv
X содержит 24 SNP и 896 образцов


Python(12234) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./test_4
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(12255) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/test_4/test_4_PGS004596_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS004596/test_4/test_4_PGS004596_dataset.csv
X содержит 24 SNP и 224 образцов


Python(12256) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 74%|███████▍  | 20/27 [45:19<07:34, 64.95s/it]

  train_4: X shape (896, 24)
  test_4: X shape (224, 24)

Обработка PGS004309

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./train_4
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(12260) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/train_4/train_4_PGS004309_extracted


Python(12261) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1180)
Датасет в ./snp_extracted/PGS004309/train_4/train_4_PGS004309_dataset.csv
X содержит 1174 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./test_4
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(12273) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/test_4/test_4_PGS004309_extracted
Загружена матрица генотипов размером (224, 1180)


Python(12274) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 78%|███████▊  | 21/27 [46:25<06:31, 65.30s/it]

Датасет в ./snp_extracted/PGS004309/test_4/test_4_PGS004309_dataset.csv
X содержит 1174 SNP и 224 образцов
  train_4: X shape (896, 1174)
  test_4: X shape (224, 1174)

Обработка PGS004321

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./train_4
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(12351) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/train_4/train_4_PGS004321_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS004321/train_4/train_4_PGS004321_dataset.csv
X содержит 14 SNP и 896 образцов


Python(12352) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./test_4
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(12403) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/test_4/test_4_PGS004321_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS004321/test_4/test_4_PGS004321_dataset.csv
X содержит 14 SNP и 224 образцов


Python(12430) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 81%|████████▏ | 22/27 [47:34<05:30, 66.17s/it]

  train_4: X shape (896, 14)
  test_4: X shape (224, 14)

Обработка PGS004308

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./train_4
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(12830) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/train_4/train_4_PGS004308_extracted
Загружена матрица генотипов размером (896, 590)


Python(12831) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004308/train_4/train_4_PGS004308_dataset.csv
X содержит 584 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./test_4
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(12904) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/test_4/test_4_PGS004308_extracted
Загружена матрица генотипов размером (224, 590)


Python(12905) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 85%|████████▌ | 23/27 [48:54<04:41, 70.35s/it]

Датасет в ./snp_extracted/PGS004308/test_4/test_4_PGS004308_dataset.csv
X содержит 584 SNP и 224 образцов
  train_4: X shape (896, 584)
  test_4: X shape (224, 584)

Обработка PGS000019

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./train_4
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(12937) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/train_4/train_4_PGS000019_extracted
Загружена матрица генотипов размером (896, 32)
Датасет в ./snp_extracted/PGS000019/train_4/train_4_PGS000019_dataset.csv
X содержит 26 SNP и 896 образцов


Python(12938) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./test_4
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(12943) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(12944) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 89%|████████▉ | 24/27 [49:58<03:25, 68.54s/it]

Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/test_4/test_4_PGS000019_extracted
Загружена матрица генотипов размером (224, 32)
Датасет в ./snp_extracted/PGS000019/test_4/test_4_PGS000019_dataset.csv
X содержит 26 SNP и 224 образцов
  train_4: X shape (896, 26)
  test_4: X shape (224, 26)

Обработка PGS000746

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./train_4
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(12963) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/train_4/train_4_PGS000746_extracted
Загружена матрица генотипов размером (896, 238)


Python(12964) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/train_4/train_4_PGS000746_dataset.csv
X содержит 232 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./test_4
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(13653) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/test_4/test_4_PGS000746_extracted
Загружена матрица генотипов размером (224, 238)
Датасет в ./snp_extracted/PGS000746/test_4/test_4_PGS000746_dataset.csv
X содержит 232 SNP и 224 образцов


Python(13654) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 93%|█████████▎| 25/27 [51:05<02:16, 68.10s/it]

  train_4: X shape (896, 232)
  test_4: X shape (224, 232)

Обработка PGS004899

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./train_4
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./test_4
Загруже PGS с 7 SNP


 96%|█████████▋| 26/27 [52:10<01:07, 67.17s/it]

Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./train_4
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./train_4
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(14107) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/train_4/train_4_PGS000962_extracted
Загружена матрица генотипов размером (896, 450)


Python(14108) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/train_4/train_4_PGS000962_dataset.csv
X содержит 444 SNP и 896 образцов

Обработка ./test_4
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./test_4
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(14201) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/test_4/test_4_PGS000962_extracted
Загружена матрица генотипов размером (224, 450)


Python(14202) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
100%|██████████| 27/27 [53:16<00:00, 118.39s/it]


Датасет в ./snp_extracted/PGS000962/test_4/test_4_PGS000962_dataset.csv
X содержит 444 SNP и 224 образцов
  train_4: X shape (896, 444)
  test_4: X shape (224, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26
27 PGS в папке ./pgs_small


  0%|          | 0/27 [00:00<?, ?it/s]


Обработка PGS002809

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./train_5
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(14209) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/train_5/train_5_PGS002809_extracted
Загружена матрица генотипов размером (896, 54)
Датасет в ./snp_extracted/PGS002809/train_5/train_5_PGS002809_dataset.csv
X содержит 48 SNP и 896 образцов


Python(14210) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS002809.txt
исходный PLINK: ./test_5
Загруже PGS с 205 SNP
Количество SNP в PGS: 205
Количество общих SNP: 48
Процент покрытия: 23.41%


Python(14230) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 48 SNP: ./snp_extracted/PGS002809/test_5/test_5_PGS002809_extracted
Загружена матрица генотипов размером (224, 54)
Датасет в ./snp_extracted/PGS002809/test_5/test_5_PGS002809_dataset.csv
X содержит 48 SNP и 224 образцов


Python(14231) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  4%|▎         | 1/27 [01:05<28:14, 65.18s/it]

  train_5: X shape (896, 48)
  test_5: X shape (224, 48)

Обработка PGS000011

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./train_5
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(14297) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/train_5/train_5_PGS000011_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS000011/train_5/train_5_PGS000011_dataset.csv
X содержит 22 SNP и 896 образцов


Python(14298) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000011.txt
исходный PLINK: ./test_5
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(14329) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS000011/test_5/test_5_PGS000011_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS000011/test_5/test_5_PGS000011_dataset.csv
X содержит 22 SNP и 224 образцов


Python(14330) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
  7%|▋         | 2/27 [02:10<27:08, 65.14s/it]

  train_5: X shape (896, 22)
  test_5: X shape (224, 22)

Обработка PGS000818

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./train_5
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(14340) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/train_5/train_5_PGS000818_extracted
Загружена матрица генотипов размером (896, 48)
Датасет в ./snp_extracted/PGS000818/train_5/train_5_PGS000818_dataset.csv
X содержит 42 SNP и 896 образцов


Python(14341) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000818.txt
исходный PLINK: ./test_5
Загруже PGS с 138 SNP
Количество SNP в PGS: 138
Количество общих SNP: 42
Процент покрытия: 30.43%


Python(14364) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 42 SNP: ./snp_extracted/PGS000818/test_5/test_5_PGS000818_extracted
Загружена матрица генотипов размером (224, 48)
Датасет в ./snp_extracted/PGS000818/test_5/test_5_PGS000818_dataset.csv
X содержит 42 SNP и 224 образцов


Python(14365) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 11%|█         | 3/27 [03:15<26:06, 65.28s/it]

  train_5: X shape (896, 42)
  test_5: X shape (224, 42)

Обработка PGS000010

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./train_5
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(14445) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/train_5/train_5_PGS000010_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS000010/train_5/train_5_PGS000010_dataset.csv
X содержит 14 SNP и 896 образцов


Python(14446) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000010.txt
исходный PLINK: ./test_5
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(14463) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS000010/test_5/test_5_PGS000010_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS000010/test_5/test_5_PGS000010_dataset.csv
X содержит 14 SNP и 224 образцов
  train_5: X shape (896, 14)
  test_5: X shape (224, 14)


Python(14464) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 15%|█▍        | 4/27 [04:20<25:00, 65.25s/it]


Обработка PGS004921

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./train_5
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(14469) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/train_5/train_5_PGS004921_extracted
Загружена матрица генотипов размером (896, 36)
Датасет в ./snp_extracted/PGS004921/train_5/train_5_PGS004921_dataset.csv
X содержит 30 SNP и 896 образцов


Python(14470) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004921.txt
исходный PLINK: ./test_5
Загруже PGS с 161 SNP
Количество SNP в PGS: 161
Количество общих SNP: 30
Процент покрытия: 18.63%


Python(14488) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(14489) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 19%|█▊        | 5/27 [05:25<23:52, 65.11s/it]

Создан новый PLINK файл с 30 SNP: ./snp_extracted/PGS004921/test_5/test_5_PGS004921_extracted
Загружена матрица генотипов размером (224, 36)
Датасет в ./snp_extracted/PGS004921/test_5/test_5_PGS004921_dataset.csv
X содержит 30 SNP и 224 образцов
  train_5: X shape (896, 30)
  test_5: X shape (224, 30)

Обработка PGS004919

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./train_5
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(14569) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/train_5/train_5_PGS004919_extracted
Загружена матрица генотипов размером (896, 28)
Датасет в ./snp_extracted/PGS004919/train_5/train_5_PGS004919_dataset.csv
X содержит 22 SNP и 896 образцов


Python(14570) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004919.txt
исходный PLINK: ./test_5
Загруже PGS с 50 SNP
Количество SNP в PGS: 50
Количество общих SNP: 22
Процент покрытия: 44.00%


Python(14586) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 22 SNP: ./snp_extracted/PGS004919/test_5/test_5_PGS004919_extracted
Загружена матрица генотипов размером (224, 28)
Датасет в ./snp_extracted/PGS004919/test_5/test_5_PGS004919_dataset.csv
X содержит 22 SNP и 224 образцов
  train_5: X shape (896, 22)
  test_5: X shape (224, 22)


Python(14587) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 22%|██▏       | 6/27 [06:30<22:44, 64.98s/it]


Обработка PGS004925

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./train_5
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(14595) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/train_5/train_5_PGS004925_extracted
Загружена матрица генотипов размером (896, 52)
Датасет в ./snp_extracted/PGS004925/train_5/train_5_PGS004925_dataset.csv
X содержит 46 SNP и 896 образцов


Python(14596) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004925.txt
исходный PLINK: ./test_5
Загруже PGS с 300 SNP
Количество SNP в PGS: 300
Количество общих SNP: 46
Процент покрытия: 15.33%


Python(14676) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 46 SNP: ./snp_extracted/PGS004925/test_5/test_5_PGS004925_extracted
Загружена матрица генотипов размером (224, 52)
Датасет в ./snp_extracted/PGS004925/test_5/test_5_PGS004925_dataset.csv
X содержит 46 SNP и 224 образцов


Python(14677) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 26%|██▌       | 7/27 [07:35<21:41, 65.10s/it]

  train_5: X shape (896, 46)
  test_5: X shape (224, 46)

Обработка PGS000798

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./train_5
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(14707) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/train_5/train_5_PGS000798_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS000798/train_5/train_5_PGS000798_dataset.csv
X содержит 29 SNP и 896 образцов


Python(14708) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000798.txt
исходный PLINK: ./test_5
Загруже PGS с 157 SNP
Количество SNP в PGS: 157
Количество общих SNP: 29
Процент покрытия: 18.47%


Python(14715) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
Python(14716) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 30%|██▉       | 8/27 [08:40<20:34, 64.95s/it]

Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS000798/test_5/test_5_PGS000798_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS000798/test_5/test_5_PGS000798_dataset.csv
X содержит 29 SNP и 224 образцов
  train_5: X shape (896, 29)
  test_5: X shape (224, 29)

Обработка PGS004305

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./train_5
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(14737) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/train_5/train_5_PGS004305_extracted


Python(14738) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1133)
Датасет в ./snp_extracted/PGS004305/train_5/train_5_PGS004305_dataset.csv
X содержит 1127 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004305.txt
исходный PLINK: ./test_5
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1127
Процент покрытия: 37.57%


Python(14817) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1127 SNP: ./snp_extracted/PGS004305/test_5/test_5_PGS004305_extracted
Загружена матрица генотипов размером (224, 1133)


Python(14818) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 33%|███▎      | 9/27 [09:47<19:41, 65.61s/it]

Датасет в ./snp_extracted/PGS004305/test_5/test_5_PGS004305_dataset.csv
X содержит 1127 SNP и 224 образцов
  train_5: X shape (896, 1127)
  test_5: X shape (224, 1127)

Обработка PGS000349

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./train_5
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(14842) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/train_5/train_5_PGS000349_extracted
Загружена матрица генотипов размером (896, 30)


Python(14843) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000349/train_5/train_5_PGS000349_dataset.csv
X содержит 24 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000349.txt
исходный PLINK: ./test_5
Загруже PGS с 70 SNP
Количество SNP в PGS: 70
Количество общих SNP: 24
Процент покрытия: 34.29%


Python(14868) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS000349/test_5/test_5_PGS000349_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS000349/test_5/test_5_PGS000349_dataset.csv
X содержит 24 SNP и 224 образцов


Python(14869) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 37%|███▋      | 10/27 [11:20<20:59, 74.08s/it]

  train_5: X shape (896, 24)
  test_5: X shape (224, 24)

Обработка PGS002775

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./train_5
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(14951) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/train_5/train_5_PGS002775_extracted
Загружена матрица генотипов размером (896, 186)


Python(14952) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002775/train_5/train_5_PGS002775_dataset.csv
X содержит 180 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS002775.txt
исходный PLINK: ./test_5
Загруже PGS с 1059 SNP
Количество SNP в PGS: 1054
Количество общих SNP: 180
Процент покрытия: 17.08%


Python(14980) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 180 SNP: ./snp_extracted/PGS002775/test_5/test_5_PGS002775_extracted
Загружена матрица генотипов размером (224, 186)


Python(14981) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 41%|████      | 11/27 [12:54<21:24, 80.28s/it]

Датасет в ./snp_extracted/PGS002775/test_5/test_5_PGS002775_dataset.csv
X содержит 180 SNP и 224 образцов
  train_5: X shape (896, 180)
  test_5: X shape (224, 180)

Обработка PGS000200

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./train_5
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(15078) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/train_5/train_5_PGS000200_extracted
Загружена матрица генотипов размером (896, 21)
Датасет в ./snp_extracted/PGS000200/train_5/train_5_PGS000200_dataset.csv
X содержит 15 SNP и 896 образцов


Python(15079) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000200.txt
исходный PLINK: ./test_5
Загруже PGS с 28 SNP
Количество SNP в PGS: 28
Количество общих SNP: 15
Процент покрытия: 53.57%


Python(15107) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 15 SNP: ./snp_extracted/PGS000200/test_5/test_5_PGS000200_extracted
Загружена матрица генотипов размером (224, 21)
Датасет в ./snp_extracted/PGS000200/test_5/test_5_PGS000200_dataset.csv
X содержит 15 SNP и 224 образцов


Python(15108) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 44%|████▍     | 12/27 [14:29<21:07, 84.49s/it]

  train_5: X shape (896, 15)
  test_5: X shape (224, 15)

Обработка PGS000059

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./train_5
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(15121) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/train_5/train_5_PGS000059_extracted
Загружена матрица генотипов размером (896, 24)
Датасет в ./snp_extracted/PGS000059/train_5/train_5_PGS000059_dataset.csv
X содержит 18 SNP и 896 образцов


Python(15122) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000059.txt
исходный PLINK: ./test_5
Загруже PGS с 46 SNP
Количество SNP в PGS: 46
Количество общих SNP: 18
Процент покрытия: 39.13%


Python(15220) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 18 SNP: ./snp_extracted/PGS000059/test_5/test_5_PGS000059_extracted
Загружена матрица генотипов размером (224, 24)
Датасет в ./snp_extracted/PGS000059/test_5/test_5_PGS000059_dataset.csv
X содержит 18 SNP и 224 образцов


Python(15221) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 48%|████▊     | 13/27 [16:03<20:24, 87.46s/it]

  train_5: X shape (896, 18)
  test_5: X shape (224, 18)

Обработка PGS002262

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./train_5
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(15246) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/train_5/train_5_PGS002262_extracted
Загружена матрица генотипов размером (896, 142)


Python(15247) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS002262/train_5/train_5_PGS002262_dataset.csv
X содержит 136 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS002262.txt
исходный PLINK: ./test_5
Загруже PGS с 540 SNP
Количество SNP в PGS: 540
Количество общих SNP: 136
Процент покрытия: 25.19%


Python(15437) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 136 SNP: ./snp_extracted/PGS002262/test_5/test_5_PGS002262_extracted
Загружена матрица генотипов размером (224, 142)
Датасет в ./snp_extracted/PGS002262/test_5/test_5_PGS002262_dataset.csv
X содержит 136 SNP и 224 образцов


Python(15438) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 52%|█████▏    | 14/27 [17:37<19:24, 89.56s/it]

  train_5: X shape (896, 136)
  test_5: X shape (224, 136)

Обработка PGS000058

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./train_5
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(15469) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/train_5/train_5_PGS000058_extracted
Загружена матрица генотипов размером (896, 47)


Python(15478) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000058/train_5/train_5_PGS000058_dataset.csv
X содержит 41 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000058.txt
исходный PLINK: ./test_5
Загруже PGS с 204 SNP
Количество SNP в PGS: 204
Количество общих SNP: 41
Процент покрытия: 20.10%


Python(15492) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 41 SNP: ./snp_extracted/PGS000058/test_5/test_5_PGS000058_extracted
Загружена матрица генотипов размером (224, 47)
Датасет в ./snp_extracted/PGS000058/test_5/test_5_PGS000058_dataset.csv
X содержит 41 SNP и 224 образцов


Python(15493) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 56%|█████▌    | 15/27 [19:11<18:11, 90.93s/it]

  train_5: X shape (896, 41)
  test_5: X shape (224, 41)

Обработка PGS003438

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./train_5
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(15590) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/train_5/train_5_PGS003438_extracted
Загружена матрица генотипов размером (896, 35)
Датасет в ./snp_extracted/PGS003438/train_5/train_5_PGS003438_dataset.csv
X содержит 29 SNP и 896 образцов


Python(15591) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS003438.txt
исходный PLINK: ./test_5
Загруже PGS с 241 SNP
Количество SNP в PGS: 241
Количество общих SNP: 29
Процент покрытия: 12.03%


Python(15631) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 29 SNP: ./snp_extracted/PGS003438/test_5/test_5_PGS003438_extracted
Загружена матрица генотипов размером (224, 35)
Датасет в ./snp_extracted/PGS003438/test_5/test_5_PGS003438_dataset.csv
X содержит 29 SNP и 224 образцов


Python(15632) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 59%|█████▉    | 16/27 [20:44<16:45, 91.45s/it]

  train_5: X shape (896, 29)
  test_5: X shape (224, 29)

Обработка PGS000899

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./train_5
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(15721) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/train_5/train_5_PGS000899_extracted
Загружена матрица генотипов размером (896, 43)
Датасет в ./snp_extracted/PGS000899/train_5/train_5_PGS000899_dataset.csv
X содержит 37 SNP и 896 образцов


Python(15722) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000899.txt
исходный PLINK: ./test_5
Загруже PGS с 176 SNP
Количество SNP в PGS: 176
Количество общих SNP: 37
Процент покрытия: 21.02%


Python(15748) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 37 SNP: ./snp_extracted/PGS000899/test_5/test_5_PGS000899_extracted
Загружена матрица генотипов размером (224, 43)
Датасет в ./snp_extracted/PGS000899/test_5/test_5_PGS000899_dataset.csv
X содержит 37 SNP и 224 образцов


Python(15749) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 63%|██████▎   | 17/27 [22:18<15:23, 92.30s/it]

  train_5: X shape (896, 37)
  test_5: X shape (224, 37)

Обработка PGS004595

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./train_5
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(15774) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/train_5/train_5_PGS004595_extracted
Загружена матрица генотипов размером (896, 46)
Датасет в ./snp_extracted/PGS004595/train_5/train_5_PGS004595_dataset.csv
X содержит 40 SNP и 896 образцов


Python(15775) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004595.txt
исходный PLINK: ./test_5
Загруже PGS с 164 SNP
Количество SNP в PGS: 164
Количество общих SNP: 40
Процент покрытия: 24.39%


Python(15871) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 40 SNP: ./snp_extracted/PGS004595/test_5/test_5_PGS004595_extracted
Загружена матрица генотипов размером (224, 46)
Датасет в ./snp_extracted/PGS004595/test_5/test_5_PGS004595_dataset.csv
X содержит 40 SNP и 224 образцов


Python(15872) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 67%|██████▋   | 18/27 [23:52<13:54, 92.71s/it]

  train_5: X shape (896, 40)
  test_5: X shape (224, 40)

Обработка PGS000057

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./train_5
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(15900) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/train_5/train_5_PGS000057_extracted
Загружена матрица генотипов размером (896, 25)
Датасет в ./snp_extracted/PGS000057/train_5/train_5_PGS000057_dataset.csv
X содержит 19 SNP и 896 образцов


Python(15901) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000057.txt
исходный PLINK: ./test_5
Загруже PGS с 57 SNP
Количество SNP в PGS: 57
Количество общих SNP: 19
Процент покрытия: 33.33%


Python(15914) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 19 SNP: ./snp_extracted/PGS000057/test_5/test_5_PGS000057_extracted
Загружена матрица генотипов размером (224, 25)
Датасет в ./snp_extracted/PGS000057/test_5/test_5_PGS000057_dataset.csv
X содержит 19 SNP и 224 образцов


Python(15915) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 70%|███████   | 19/27 [25:25<12:22, 92.78s/it]

  train_5: X shape (896, 19)
  test_5: X shape (224, 19)

Обработка PGS004596

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./train_5
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(16012) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/train_5/train_5_PGS004596_extracted
Загружена матрица генотипов размером (896, 30)
Датасет в ./snp_extracted/PGS004596/train_5/train_5_PGS004596_dataset.csv
X содержит 24 SNP и 896 образцов


Python(16013) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004596.txt
исходный PLINK: ./test_5
Загруже PGS с 64 SNP
Количество SNP в PGS: 64
Количество общих SNP: 24
Процент покрытия: 37.50%


Python(16039) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 24 SNP: ./snp_extracted/PGS004596/test_5/test_5_PGS004596_extracted
Загружена матрица генотипов размером (224, 30)
Датасет в ./snp_extracted/PGS004596/test_5/test_5_PGS004596_dataset.csv
X содержит 24 SNP и 224 образцов


Python(16040) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 74%|███████▍  | 20/27 [26:59<10:52, 93.18s/it]

  train_5: X shape (896, 24)
  test_5: X shape (224, 24)

Обработка PGS004309

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./train_5
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(16139) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/train_5/train_5_PGS004309_extracted


Python(16140) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Загружена матрица генотипов размером (896, 1180)
Датасет в ./snp_extracted/PGS004309/train_5/train_5_PGS004309_dataset.csv
X содержит 1174 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004309.txt
исходный PLINK: ./test_5
Загруже PGS с 3000 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 3000
Количество общих SNP: 1174
Процент покрытия: 39.13%


Python(16152) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 1174 SNP: ./snp_extracted/PGS004309/test_5/test_5_PGS004309_extracted
Загружена матрица генотипов размером (224, 1180)


Python(16153) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 78%|███████▊  | 21/27 [28:36<09:26, 94.39s/it]

Датасет в ./snp_extracted/PGS004309/test_5/test_5_PGS004309_dataset.csv
X содержит 1174 SNP и 224 образцов
  train_5: X shape (896, 1174)
  test_5: X shape (224, 1174)

Обработка PGS004321

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./train_5
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(16177) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/train_5/train_5_PGS004321_extracted
Загружена матрица генотипов размером (896, 20)
Датасет в ./snp_extracted/PGS004321/train_5/train_5_PGS004321_dataset.csv
X содержит 14 SNP и 896 образцов


Python(16178) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004321.txt
исходный PLINK: ./test_5
Загруже PGS с 27 SNP
Количество SNP в PGS: 27
Количество общих SNP: 14
Процент покрытия: 51.85%


Python(16275) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 14 SNP: ./snp_extracted/PGS004321/test_5/test_5_PGS004321_extracted
Загружена матрица генотипов размером (224, 20)
Датасет в ./snp_extracted/PGS004321/test_5/test_5_PGS004321_dataset.csv
X содержит 14 SNP и 224 образцов


Python(16276) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 81%|████████▏ | 22/27 [30:12<07:53, 94.72s/it]

  train_5: X shape (896, 14)
  test_5: X shape (224, 14)

Обработка PGS004308

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./train_5
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(16300) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/train_5/train_5_PGS004308_extracted
Загружена матрица генотипов размером (896, 590)


Python(16301) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS004308/train_5/train_5_PGS004308_dataset.csv
X содержит 584 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004308.txt
исходный PLINK: ./test_5
Загруже PGS с 1500 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1500
Количество общих SNP: 584
Процент покрытия: 38.93%


Python(16383) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 584 SNP: ./snp_extracted/PGS004308/test_5/test_5_PGS004308_extracted
Загружена матрица генотипов размером (224, 590)


Python(16384) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 85%|████████▌ | 23/27 [31:46<06:18, 94.58s/it]

Датасет в ./snp_extracted/PGS004308/test_5/test_5_PGS004308_dataset.csv
X содержит 584 SNP и 224 образцов
  train_5: X shape (896, 584)
  test_5: X shape (224, 584)

Обработка PGS000019

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./train_5
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(16514) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/train_5/train_5_PGS000019_extracted
Загружена матрица генотипов размером (896, 32)
Датасет в ./snp_extracted/PGS000019/train_5/train_5_PGS000019_dataset.csv
X содержит 26 SNP и 896 образцов


Python(16515) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.



Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000019.txt
исходный PLINK: ./test_5
Загруже PGS с 192 SNP
Количество SNP в PGS: 192
Количество общих SNP: 26
Процент покрытия: 13.54%


Python(16544) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 26 SNP: ./snp_extracted/PGS000019/test_5/test_5_PGS000019_extracted
Загружена матрица генотипов размером (224, 32)
Датасет в ./snp_extracted/PGS000019/test_5/test_5_PGS000019_dataset.csv
X содержит 26 SNP и 224 образцов


Python(16545) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 89%|████████▉ | 24/27 [33:21<04:43, 94.63s/it]

  train_5: X shape (896, 26)
  test_5: X shape (224, 26)

Обработка PGS000746

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./train_5
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(16640) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/train_5/train_5_PGS000746_extracted
Загружена матрица генотипов размером (896, 238)


Python(16641) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000746/train_5/train_5_PGS000746_dataset.csv
X содержит 232 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000746.txt
исходный PLINK: ./test_5
Загруже PGS с 1940 SNP
PGS файл содержит позиционную информацию. Преобразуем в rsID...
Количество SNP в PGS: 1940
Количество общих SNP: 232
Процент покрытия: 11.96%


Python(16655) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 232 SNP: ./snp_extracted/PGS000746/test_5/test_5_PGS000746_extracted
Загружена матрица генотипов размером (224, 238)


Python(16656) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
 93%|█████████▎| 25/27 [34:55<03:08, 94.47s/it]

Датасет в ./snp_extracted/PGS000746/test_5/test_5_PGS000746_dataset.csv
X содержит 232 SNP и 224 образцов
  train_5: X shape (896, 232)
  test_5: X shape (224, 232)

Обработка PGS004899

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./train_5
Загруже PGS с 7 SNP
Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS004899.txt
исходный PLINK: ./test_5
Загруже PGS с 7 SNP


 96%|█████████▋| 26/27 [36:26<01:33, 93.54s/it]

Количество SNP в PGS: 7
Количество общих SNP: 0
Процент покрытия: 0.00%
Ошибка name 'pgs_name' is not defined
Ошибка для PGS004899

Обработка PGS000962

Обработка ./train_5
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./train_5
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(16788) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/train_5/train_5_PGS000962_extracted
Загружена матрица генотипов размером (896, 450)


Python(16789) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Датасет в ./snp_extracted/PGS000962/train_5/train_5_PGS000962_dataset.csv
X содержит 444 SNP и 896 образцов

Обработка ./test_5
Обработка PGS: ./pgs_small/PGS000962.txt
исходный PLINK: ./test_5
Загруже PGS с 2168 SNP
Количество SNP в PGS: 2131
Количество общих SNP: 444
Процент покрытия: 20.84%


Python(16874) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.


Создан новый PLINK файл с 444 SNP: ./snp_extracted/PGS000962/test_5/test_5_PGS000962_extracted
Загружена матрица генотипов размером (224, 450)


Python(16875) MallocStackLogging: can't turn off malloc stack logging because it was not enabled.
100%|██████████| 27/27 [38:01<00:00, 84.51s/it]

Датасет в ./snp_extracted/PGS000962/test_5/test_5_PGS000962_dataset.csv
X содержит 444 SNP и 224 образцов
  train_5: X shape (896, 444)
  test_5: X shape (224, 444)

результаты-----
Обработано PGS файлов: 27
Успешно обработано PGS файлов: 26





In [274]:
aucs = []
for i in range(5):
    X_trains = X_trainss[i][0]
    y_trains = y_trainss[i][0]
    X_tests = X_testss[i][0]
    y_tests = y_testss[i][0]

    X_train = combine_dataframes(X_trains).to_numpy()
    X_test = combine_dataframes(X_tests).to_numpy()
    y_train = y_trains[0]
    y_test = y_tests[0]

    mean_train = np.nanmean(X_train, axis=0)
    mean_val = np.nanmean(X_test, axis=0)
    inds_train = np.where(np.isnan(X_train))
    inds_val = np.where(np.isnan(X_test))
    X_train[inds_train] = np.take(mean_train, inds_train[1])
    X_test[inds_val] = np.take(mean_train, inds_val[1])

    ss = StandardScaler()
    X_train = ss.fit_transform(X_train)
    X_test = ss.transform(X_test)

    model = LogisticRegression()
    model.fit(X_train, y_train)
    y_test_pred_probs = model.predict_proba(X_test)[:, 1]

    roc_auc = roc_auc_score(y_test, y_test_pred_probs)
    aucs.append(roc_auc)
print(f"ROC-AUC: {np.mean(aucs):.4f}")

Объединение завершено. 896 строк 3213 колонок.
Объединение завершено. 224 строк 3213 колонок.
Объединение завершено. 896 строк 3213 колонок.
Объединение завершено. 224 строк 3213 колонок.
Объединение завершено. 896 строк 3213 колонок.
Объединение завершено. 224 строк 3213 колонок.
Объединение завершено. 896 строк 3213 колонок.
Объединение завершено. 224 строк 3213 колонок.
Объединение завершено. 896 строк 3213 колонок.
Объединение завершено. 224 строк 3213 колонок.
ROC-AUC: 0.5525


In [275]:
X_trainss_selected = [[], [], [], [], []]
X_testss_selected = [[], [], [], [], []]

for i in range(5):
    for id in pgs_ids:
        X_trainss_selected[i].append(X_trainss[i][0][id])
        X_testss_selected[i].append(X_testss[i][0][id])

In [277]:
aucs = []
for i in range(5):
    X_trains = X_trainss_selected[i]
    y_trains = y_trainss[i][0]
    X_tests = X_testss_selected[i]
    y_tests = y_testss[i][0]

    X_train = combine_dataframes(X_trains).to_numpy()
    X_test = combine_dataframes(X_tests).to_numpy()
    y_train = y_trains[0]
    y_test = y_tests[0]

    mean_train = np.nanmean(X_train, axis=0)
    mean_val = np.nanmean(X_test, axis=0)
    inds_train = np.where(np.isnan(X_train))
    inds_val = np.where(np.isnan(X_test))
    X_train[inds_train] = np.take(mean_train, inds_train[1])
    X_test[inds_val] = np.take(mean_train, inds_val[1])

    ss = StandardScaler()
    X_train = ss.fit_transform(X_train)
    X_test = ss.transform(X_test)

    model = LogisticRegression()
    model.fit(X_train, y_train)
    y_test_pred_probs = model.predict_proba(X_test)[:, 1]

    roc_auc = roc_auc_score(y_test, y_test_pred_probs)
    aucs.append(roc_auc)
print(f"ROC-AUC: {np.mean(aucs):.4f}")

Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
ROC-AUC: 0.5719


In [90]:
for i in range(5):
    X_trains = X_trainss_selected[i]
    y_trains = y_trainss[i][0]
    X_tests = X_testss_selected[i]
    y_tests = y_testss[i][0]

    X_train = combine_dataframes(X_trains)
    X_train.columns = X_train.columns.map(lambda x: x[:-2])
    X_test = combine_dataframes(X_tests)
    X_test.columns = X_test.columns.map(lambda x: x[:-2])
    y_train = y_trains[0]
    y_test = y_tests[0]

    mean_train = X_train.mean()
    X_train = X_train.fillna(mean_train)
    X_test = X_test.fillna(mean_train)
    X_train["target"] = y_train
    X_test["target"] = y_test
    X_train.to_csv(f"train_{i + 1}_snp_selected.csv")
    X_test.to_csv(f"test_{i + 1}_snp_selected.csv")

Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.
Объединение завершено. 896 строк 80 колонок.
Объединение завершено. 224 строк 80 колонок.


In [278]:
X_small_train = combine_dataframes(selected_trains)
X_small_train.columns = X_small_train.columns.map(lambda x: x[:-2])
X_small_val = combine_dataframes(selected_vals)
X_small_val.columns = X_small_val.columns.map(lambda x: x[:-2])
y_all_train = y_all_trains[0]
y_val = y_vals[0]

mean_train = X_small_train.mean()
X_small_train = X_small_train.fillna(mean_train)
X_small_val = X_small_val.fillna(mean_train)
X_small_train["target"] = y_all_train
X_small_val["target"] = y_val

X_small_train.to_csv(f"all_train_snp_selected.csv")
X_small_val.to_csv(f"validation_snp_selected.csv")

Объединение завершено. 1120 строк 80 колонок.
Объединение завершено. 281 строк 80 колонок.
