# Debugging autoreload

In [None]:
%load_ext autoreload
%autoreload 2

# Load packages

In [None]:
from pytorch_tabular.utils import load_covertype_dataset
from rich.pretty import pprint
from sklearn.model_selection import BaseCrossValidator, ParameterGrid, ParameterSampler
import torch
import pickle
import shutil
import shap
from sklearn.model_selection import RepeatedStratifiedKFold
from glob import glob
import ast
import matplotlib.pyplot as plt
import seaborn as sns
import copy
from sklearn.model_selection import train_test_split
import numpy as np
from pytorch_tabular.utils import make_mixed_dataset, print_metrics
from pytorch_tabular import available_models
from pytorch_tabular import TabularModel
from pytorch_tabular.models import CategoryEmbeddingModelConfig, GANDALFConfig, TabNetModelConfig, FTTransformerConfig, DANetConfig
from pytorch_tabular.config import DataConfig, OptimizerConfig, TrainerConfig
from pytorch_tabular.models.common.heads import LinearHeadConfig
from pytorch_tabular.tabular_model_tuner import TabularModelTuner
from torchmetrics.functional.regression import mean_absolute_error, pearson_corrcoef
from pytorch_tabular import MODEL_SWEEP_PRESETS
import pandas as pd
from pytorch_tabular import model_sweep
from src.pt.model_sweep import model_sweep_custom
import warnings
from src.utils.configs import read_parse_config
from src.utils.hash import dict_hash
from src.pt.hyper_opt import train_hyper_opt
import pathlib
from tqdm import tqdm
import distinctipy
import matplotlib.patheffects as pe
import matplotlib.colors as mcolors
from statannotations.Annotator import Annotator
from scipy.stats import mannwhitneyu
from regression_bias_corrector import LinearBiasCorrector
import optuna
from sklearn.preprocessing import LabelEncoder
from plottable import ColumnDefinition, Table
from plottable.plots import bar
from plottable.cmap import normed_cmap, centered_cmap
import matplotlib.lines as mlines
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import scipy.stats
from functools import reduce


def make_rgb_transparent(rgb, bg_rgb, alpha):
    return [alpha * c1 + (1 - alpha) * c2 for (c1, c2) in zip(rgb, bg_rgb)]

# Check initial data files

In [None]:
path = 'E:/YandexDisk/Work/bbd/millennium'

data_anl = pd.read_excel(f"{path}/Результаты анализов/data.xlsx", index_col=0)
data_anl['Дата обследования'] = data_anl['Дата обследования'].dt.date
data_anl.insert(0, 'ID', data_anl['ФИО'].astype(str) + ' ' + data_anl['Дата обследования'].astype(str))
ids_counts_anl = data_anl['ФИО'].value_counts()
sorter_anl = ids_counts_anl.index.to_list()
data_anl.sort_values(by="ФИО", key=lambda column: column.map(lambda e: sorter_anl.index(e)), inplace=True)
feats_anl = pd.read_excel(f"{path}/Результаты анализов/feats_with_metrics.xlsx", index_col=0)

data_ecg = pd.read_excel(f"{path}/Результаты экг/data.xlsx", index_col=0)
data_ecg['Дата обследования'] = data_ecg['Дата и время обследования'].dt.date
data_ecg.insert(0, 'ID', data_ecg['ФИО'].astype(str) + ' ' + data_ecg['Дата обследования'].astype(str))
ids_counts_ecg = data_ecg['ФИО'].value_counts()
sorter_ecg = ids_counts_ecg.index.to_list()
data_ecg.sort_values(by="ФИО", key=lambda column: column.map(lambda e: sorter_ecg.index(e)), inplace=True)
feats_ecg = pd.read_excel(f"{path}/Результаты экг/feats_with_metrics.xlsx", index_col=0)

data_bcp = pd.read_excel(f"{path}/Результаты медасс/data.xlsx", index_col=0)
data_bcp['Дата обследования'] = data_bcp['Дата и время обследования'].dt.date
data_bcp.insert(0, 'ID', data_bcp['ФИО'].astype(str) + ' ' + data_bcp['Дата обследования'].astype(str))
ids_counts_bcp = data_bcp['ФИО'].value_counts()
sorter_bcp = ids_counts_bcp.index.to_list()
data_bcp.sort_values(by="ФИО", key=lambda column: column.map(lambda e: sorter_bcp.index(e)), inplace=True)
feats_bcp = pd.read_excel(f"{path}/Результаты медасс/feats_with_metrics.xlsx", index_col=0)

In [None]:
print(data_anl.index.is_unique)
print(data_ecg.index.is_unique)
print(data_bcp.index.is_unique)

In [None]:
print(len(set.intersection(set(data_anl['ФИО']), set(data_ecg['ФИО']))))
print(len(set.intersection(set(data_bcp['ФИО']), set(data_ecg['ФИО']))))
print(len(set.intersection(set(data_anl['ФИО']), set(data_bcp['ФИО']))))
print(len(set.intersection(set(data_anl['ФИО']), set(data_bcp['ФИО']), set(data_ecg['ФИО']))))

In [None]:
print(len(set.intersection(set(data_anl['ID']), set(data_ecg['ID']))))
print(len(set.intersection(set(data_bcp['ID']), set(data_ecg['ID']))))
print(len(set.intersection(set(data_anl['ID']), set(data_bcp['ID']))))
print(len(set.intersection(set(data_anl['ID']), set(data_bcp['ID']), set(data_ecg['ID']))))

In [None]:
data_anl_new = data_anl.set_index('ID')
data_anl_new.loc[data_anl_new.index.duplicated(keep=False), :]

In [None]:
data_ecg_new = data_ecg.set_index('ID')
data_ecg_new.loc[data_ecg_new.index.duplicated(keep=False), :]

In [None]:
data_bcp_new = data_bcp.set_index('ID')
data_bcp_new.loc[data_bcp_new.index.duplicated(keep=False), :]

# Load components

In [None]:
dir_root = f"E:/Git/MillenniumAge"

feat_trgt = 'Возраст'

components = {
    'Оценка состава тела, женщины': {
        'name': 'Оценка состава тела',
        'path': f"{dir_root}/data/Оценка состава тела/females",
        'bkg_count': 128,
        'likelihood': 0.5
    },
    'Оценка состава тела, мужчины': {
        'name': 'Оценка состава тела',
        'path': f"{dir_root}/data/Оценка состава тела/males",
        'bkg_count': 50,
        'likelihood': 0.8
    },
    
    'Электрокардиограмма, все': {
        'name': 'Электрокардиограмма',
        'path': f"{dir_root}/data/Электрокардиограмма/all",
        'bkg_count': 200,
        'likelihood': 0.8
    },
    'Электрокардиограмма, старше 15': {
        'name': 'Электрокардиограмма',
        'path': f"{dir_root}/data/Электрокардиограмма/over15",
        'bkg_count': 180,
        'likelihood': 0.66
    },
    'Электрокардиограмма, младше 15': {
        'name': 'Электрокардиограмма',
        'path': f"{dir_root}/data/Электрокардиограмма/under15",
        'bkg_count': 30,
        'likelihood': 0.66
    },
    
    'Гематологические исследования, все': {
        'name': 'Гематологические исследования',
        'path': f"{dir_root}/data/Гематологические исследования/all",
        'bkg_count': 600,
        'likelihood': 0.6
    },
    'Гематологические исследования, старше 15': {
        'name': 'Гематологические исследования',
        'path': f"{dir_root}/data/Гематологические исследования/over15",
        'bkg_count': 520,
        'likelihood': 0.4
    },
    'Гематологические исследования, младше 15': {
        'name': 'Гематологические исследования',
        'path': f"{dir_root}/data/Гематологические исследования/under15",
        'bkg_count': 80,
        'likelihood': 0.6
    },
    
    'Биохимические исследования 7, все': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/7/all",
        'bkg_count': 280,
        'likelihood': 0.77
    },
    'Биохимические исследования 7, старше 15': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/7/over15",
        'bkg_count': 250,
        'likelihood': 0.6
    },
    'Биохимические исследования 7, младше 15': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/7/under15",
        'bkg_count': 36,
        'likelihood': 0.9
    },
    'Биохимические исследования 9, все': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/9/all",
        'bkg_count': 250,
        'likelihood': 0.8
    },
    'Биохимические исследования 9, старше 15': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/9/over15",
        'bkg_count': 200,
        'likelihood': 0.62
    },
    'Биохимические исследования 9, младше 15': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/9/under15",
        'bkg_count': 32,
        'likelihood': 0.9
    },
    'Биохимические исследования 12': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/12",
        'bkg_count': 180,
        'likelihood': 0.65
    },
    'Биохимические исследования 23': {
        'name': 'Биохимические исследования',
        'path': f"{dir_root}/data/Биохимические исследования/23",
        'bkg_count': 144,
        'likelihood': 0.7
    },
    
    'Половые гормоны, женщины': {
        'name': 'Половые гормоны',
        'path': f"{dir_root}/data/Половые гормоны/females",
        'bkg_count': 62,
        'likelihood': 0.85
    },
    'Половые гормоны, мужчины': {
        'name': 'Половые гормоны',
        'path': f"{dir_root}/data/Половые гормоны/males",
        'bkg_count': 36,
        'likelihood': 0.55
    },
    
    'Гормоны 3, все': {
        'name': 'Гормоны',
        'path': f"{dir_root}/data/Гормоны/3/all",
        'bkg_count': 300,
        'likelihood': 0.4
    },
    'Гормоны 3, старше 18': {
        'name': 'Гормоны',
        'path': f"{dir_root}/data/Гормоны/3/over18",
        'bkg_count': 280,
        'likelihood': 0.17
    },
    'Гормоны 3, младше 18': {
        'name': 'Гормоны',
        'path': f"{dir_root}/data/Гормоны/3/under18",
        'bkg_count': 32,
        'likelihood': 0.5
    },
    'Гормоны 5': {
        'name': 'Гормоны',
        'path': f"{dir_root}/data/Гормоны/5",
        'bkg_count': 200,
        'likelihood': 0.37
    },
    'Гормоны 6': {
        'name': 'Гормоны',
        'path': f"{dir_root}/data/Гормоны/6",
        'bkg_count': 180,
        'likelihood': 0.35
    },
}

feats_all = []
for comp in components:
    components[comp]['data'] = pd.read_excel(f"{components[comp]['path']}/data.xlsx", index_col=0)
    if 'Дата обследования' in components[comp]['data'].columns:
        components[comp]['data']['Дата обследования'] = components[comp]['data']['Дата обследования'].dt.date
    if 'Дата и время обследования' in components[comp]['data'].columns:
        components[comp]['data']['Дата обследования'] = components[comp]['data']['Дата и время обследования'].dt.date
    components[comp]['data'].insert(0, 'ID', components[comp]['data']['ФИО'].astype(str) + ' ' + components[comp]['data']['Дата обследования'].astype(str))
    components[comp]['data'].insert(0, 'index', components[comp]['data'].index.astype(str))
    components[comp]['feats'] = pd.read_excel(f"{components[comp]['path']}/feats.xlsx", index_col=0)
    components[comp]['results'] = pd.read_excel(f"{components[comp]['path']}/model/df.xlsx", index_col=0)
    components[comp]['metrics'] = pd.read_excel(f"{components[comp]['path']}/model/metrics.xlsx", index_col=0)
    components[comp]['model'] = TabularModel.load_model(f"{components[comp]['path']}/model")
    components[comp]['corrector'] = LinearBiasCorrector()
    comp_results = components[comp]['results']
    components[comp]['corrector'].fit(comp_results.loc[comp_results['Group'] == 'Train', feat_trgt].values, comp_results.loc[comp_results['Group'] == 'Train', 'Prediction'].values)
    res_cols = ['Group', 'Prediction', 'Error', 'Prediction Unbiased', 'Error Unbiased']
    components[comp]['data'].loc[components[comp]['data'].index, res_cols] = comp_results.loc[components[comp]['data'].index, res_cols]
    components[comp]['data_shap'] = components[comp]['data'].copy()
    
    feats = components[comp]['feats'].index.values
    feats = feats[feats != feat_trgt]
    feats_all += list(feats)
    feats_all += [f"Предсказание {components[comp]['name']}", f"Возрастная Акселерация {components[comp]['name']}"]
    
    components[comp]['feats_corr'] = pd.DataFrame(index=feats, columns=['Correlation'])
    for f in feats:
        components[comp]['feats_corr'].at[f, 'Correlation'], _ = scipy.stats.pearsonr(components[comp]['data'].loc[:, f].values, components[comp]['data'].loc[:, feat_trgt].values)
        
feats_all = list(dict.fromkeys(feats_all))

In [None]:
for comp in components:
    print(f"{comp}: {components[comp]['data'].shape[0]}")

# Create united data file

In [None]:
trgt_components = [
    'Гематологические исследования, старше 15',
    # 'Биохимические исследования 7, старше 15',
    # 'Биохимические исследования 9, старше 15',
    # 'Биохимические исследования 12',
    'Биохимические исследования 23',
    'Половые гормоны, женщины',
    'Половые гормоны, мужчины',
    'Гормоны 6',
    
    'Оценка состава тела, женщины',
    'Оценка состава тела, мужчины',
    
    'Электрокардиограмма, старше 15',
]

dfs = {}
for comp in trgt_components:
    feats = ['Возраст', 'Пол'] + components[comp]['feats'].index.to_list()
    df = components[comp]['data'].set_index('ID').loc[:, feats]
    if not df.index.is_unique:
        print(f"{comp} {df.shape} index unique: {df.index.is_unique}, number of duplicates: {len(df.index[df.index.duplicated()])}")
        df = df[~df.index.duplicated(keep='first')]
    else:
        print(f"{comp} {df.shape} index unique: {df.index.is_unique}")
    dfs[comp] = df

index_cmn = reduce(pd.Index.union, [dfs[comp].index for comp in trgt_components]).to_list()
feats_cmn = ['Возраст', 'Пол'] + reduce(pd.Index.union, [components[comp]['feats'].index for comp in trgt_components]).to_list()

data = pd.DataFrame(index=index_cmn, columns=feats_cmn)
for comp in trgt_components:
    data = data.combine_first(dfs[comp])

print(data.shape)
data.to_excel(f"{dir_root}/data/data.xlsx")