In [1]:
import numpy as np
import pandas as pd

In [2]:
# Количество записей
num_records = 1000

In [3]:
# Генерация демографических данных
np.random.seed(42)
ages = np.random.randint(18, 100, size=num_records)
sex = np.random.choice([0, 1], size=num_records)

In [4]:
# Создание базовой таблицы
base_data = pd.DataFrame({
    "Age": ages,
    "Sex": sex
})

In [5]:
def generate_random_in_range(range_str):
    """Генерирует случайное значение в пределах диапазона."""
    lower, upper = map(float, range_str.split(':'))
    return round(np.random.uniform(lower, upper), 2)

In [6]:
def generate_fixed_values(fixed_norms):
    """Генерирует значения для параметров из фиксированных норм."""
    return {key: round(np.random.uniform(*value), 2) for key, value in fixed_norms.items()}

In [7]:
def generate_age_gender_values(age, gender):
    """Генерирует значения для параметров, зависящих от возраста и пола."""
    return {
        "HGB": generate_random_in_range(get_hgb_norm(age, gender)),
        "HCT": generate_random_in_range(get_hct_norm(age, gender)),
        "MCV": generate_random_in_range(get_mcv_norm(age, gender)),
        "MCH": generate_random_in_range(get_mch_norm(age, gender)),
        "MCHC": generate_random_in_range(get_mchc_norm(age, gender)),
        "RBC": generate_random_in_range(get_rbc_norm(age, gender)),
        "PLT": generate_random_in_range(get_plt_norm(age)),
        "WBC": generate_random_in_range(get_wbc_norm(age, gender)),
        "PCT": generate_random_in_range(get_pct_norm(age)),
        "LY_REL": generate_random_in_range(get_ly_rel_norm(age, gender)),
        "LY_ABS": generate_random_in_range(get_ly_abs_norm(age, gender)),
        "NE_REL": generate_random_in_range(get_ne_rel_norm(age, gender)),
        "NE_ABS": generate_random_in_range(get_ne_abs_norm(age, gender)),
        "MO_REL": generate_random_in_range(get_mo_rel_norm(age)),
        "NE_ABS": generate_random_in_range(get_ne_abs_norm(age, gender)),
        "ESR_Westergren": generate_random_in_range(get_esr_norm(age, gender)),
        "SEGM_NEUT": generate_random_in_range(get_segm_neut_norm(age)),
        
    }

In [8]:
# Генерация пропусков
def add_missing_values(df, columns, missing_prob):
    """Добавляет пропуски в указанные колонки с заданной вероятностью."""
    for col, prob in missing_prob.items():
        if col in df.columns:
            mask = np.random.rand(len(df)) < prob
            df.loc[mask, col] = np.nan
    return df

In [9]:
# Добавление пропусков
missing_probabilities = {
    "BAND_NEUT": 0.6,
    "BA_ABS": 0.6,
    "BA_LEICO": 0.6,
    "RDW_CV": 0.5,
    "RDW_SD": 0.5,
    "PDW": 0.5,
    "SEGM_NEUT": 0.6,
    "ESR_Westergren": 0.7,
    "MPV": 0.3,
    "PCT": 0.3,
    "LY_LEICO": 0.4,
    "MO_LEICO": 0.4,
}

In [10]:
fixed_norms = {
    "MPV": (7.8, 11.0),
    "RDW": (10, 18),
    "RDW_SD": (35, 60),
    "RDW_CV": (10, 18),
    "PDW": (9.0, 17.0),
    "EO_REL": (0.0, 5.0),
    "EO_ABS": (0.00, 0.40),
    "BA_REL": (0.0, 2.0),
    "BA_ABS": (0.00, 0.10),
    "MO_ABS": (0.10, 0.70),
    "BAND_NEUT": (1, 6),
    "LY_LEICO": (18, 44),
    "MO_LEICO": (2, 12),
    "EO_LEICO": (0, 5),
    "BA_LEICO": (0, 2),
}

In [11]:
def get_hgb_norm(age, gender):
    """Возвращает норму гемоглобина в зависимости от возраста и пола."""
    if age < 18:
        # Норма для детей
        if age == 0:  # Возраст < 1 месяца (младенцы)
            return "152:235"
        elif 1 <= age <= 13 / 365:  # 2–13 дней
            return "150:240"
        elif 14 / 365 <= age <= 23 / 365:  # 14–23 дня
            return "127:187"
        elif 24 / 365 <= age <= 30 / 365:  # 24–30 дней
            return "103:179"
        elif age < 2 / 12:  # 1 месяц
            return "90:166"
        elif age < 3 / 12:  # 2 месяца
            return "92:150"
        elif age < 4 / 12:  # 3 месяца
            return "96:135"
        elif age < 5 / 12:  # 4 месяца
            return "96:135"
        elif age < 8 / 12:  # 5–7 месяцев
            return "101:132"
        elif age < 11 / 12:  # 8–10 месяцев
            return "105:135"
        elif age < 1:  # 11 месяцев
            return "107:131"
        elif age < 5:  # 12 месяцев — 4 года
            return "108:132"
        elif age < 10:  # 5–9 лет
            return "111:143"
        elif age < 12:  # 10–11 лет
            return "119:147"
        elif age < 15:  # 12–14 лет
            if gender == 1:  # Мальчики
                return "120:160"
            else:  # Девочки
                return "115:150"
        elif age < 18:  # 15–17 лет
            if gender == 1:  # Юноши
                return "117:166"
            else:  # Девушки
                return "117:153"
    else:
        # Норма для взрослых
        if gender == 1:  # Мужчины
            if 18 <= age <= 44:
                return "132:173"
            elif 45 <= age <= 64:
                return "131:172"
            else:  # От 65 лет
                return "126:174"
        else:  # Женщины
            if 18 <= age <= 44:
                return "117:155"
            elif 45 <= age <= 64:
                return "117:160"
            else:  # От 65 лет
                return "117:161"

In [12]:
def get_hct_norm(age, gender):
    """Возвращает норму гематокрита в зависимости от возраста и пола."""
    if age < 18:
        # Норма для детей
        if age == 0:  # Возраст < 1 месяца (младенцы)
            return "41:65" if age <= 13 / 365 else "33:55"
        elif age < 2 / 12:  # 2 месяца
            return "32:44"
        elif age < 6 / 12:  # 3–5 месяцев
            return "31:41"
        elif age < 9 / 12:  # 6–8 месяцев
            return "32:40"
        elif age < 12 / 12:  # 9–11 месяцев
            return "33:41"
        elif age < 3:  # 12 месяцев — 2 года
            return "32:40"
        elif age < 6:  # 3–5 лет
            return "32:42"
        elif age < 9:  # 6–8 лет
            return "33:41"
        elif age < 12:  # 9–11 лет
            return "34:43"
        else:
            # Норма для подростков
            if gender == 1:  # Мужчины
                if 12 <= age < 15:
                    return "35:45"
                elif 15 <= age < 18:
                    return "37:48"
            else:  # Женщины
                if 12 <= age < 18:
                    return "34:44"
    else:
        # Норма для взрослых
        if gender == 1:  # Мужчины
            if 18 <= age <= 44:
                return "39:49"
            elif 45 <= age <= 64:
                return "39:50"
            else:  # От 65 лет
                return "37:51"
        else:  # Женщины
            if 18 <= age <= 44:
                return "35:45"
            else:  # От 45 лет
                return "35:47"

In [13]:
def get_mcv_norm(age, gender):
    """Возвращает норму среднего объема эритроцита (MCV) в зависимости от возраста и пола."""
    if age < 2 / 52:  # < 2 недели
        return "88:140"
    elif age < 1 / 12:  # 2 недели - 1 месяц
        return "91:112"
    elif age < 2 / 12:  # 1 - 2 месяца
        return "84:106"
    elif age < 4 / 12:  # 2 - 4 месяца
        return "76:97"
    elif age < 6 / 12:  # 4 - 6 месяцев
        return "68:85"
    elif age < 9 / 12:  # 6 - 9 месяцев
        return "70:85"
    elif age < 2:  # 9 месяцев - 2 года
        return "71:84"
    elif age < 5:  # 2 года - 5 лет
        return "73:85"
    elif age < 9:  # 5 - 9 лет
        return "75:87"
    elif age < 12:  # 9 - 12 лет
        return "76:90"
    elif age < 15:  # 12 - 15 лет
        if gender == 1:  # Мужчины
            return "77:94"
        else:  # Женщины
            return "73:95"
    elif age < 18:  # 15 - 18 лет
        if gender == 1:  # Мужчины
            return "79:95"
        else:  # Женщины
            return "78:98"
    else:
        # Норма для взрослых
        if gender == 1:  # Мужчины
            if 18 <= age <= 45:
                return "80:99"
            elif 45 <= age <= 65:
                return "81:101"
            else:  # > 65 лет
                return "81:103"
        else:  # Женщины
            if 18 <= age <= 45:
                return "81:100"
            elif 45 <= age <= 65:
                return "81:101"
            else:  # > 65 лет
                return "81:102"

In [14]:
def get_mch_norm(age, gender):
    """Возвращает норму среднего содержания гемоглобина в эритроците (MCH) в зависимости от возраста и пола."""
    if age < 2 / 52:  # < 2 недели
        return "30:37"
    elif age < 1 / 12:  # 2 недели - 1 месяц
        return "29:36"
    elif age < 2 / 12:  # 1 - 2 месяца
        return "27:34"
    elif age < 4 / 12:  # 2 - 4 месяца
        return "25:32"
    elif age < 6 / 12:  # 4 - 6 месяцев
        return "24:30"
    elif age < 9 / 12:  # 6 - 9 месяцев
        return "25:30"
    elif age < 1:  # 9 месяцев - 1 год
        return "24:30"
    elif age < 3:  # 1 - 3 года
        return "22:30"
    elif age < 9:  # 3 - 9 лет
        return "25:31"
    elif age < 15:  # 9 - 15 лет
        return "26:32"
    elif age < 18:  # 15 - 18 лет
        if gender == 1:  # Мужчины
            return "27:32"
        else:  # Женщины
            return "26:34"
    else:
        # Норма для взрослых
        if gender == 1:  # Мужчины
            if 18 <= age <= 45:
                return "27:34"
            elif 45 <= age <= 65:
                return "27:35"
            else:  # > 65 лет
                return "27:34"
        else:  # Женщины
            if 18 <= age <= 45:
                return "27:34"
            elif 45 <= age <= 65:
                return "27:34"
            else:  # > 65 лет
                return "27:35"

In [15]:
def get_mchc_norm(age, gender):
    """Возвращает норму средней концентрации гемоглобина в эритроците (MCHC) в зависимости от возраста и пола."""
    if age < 1 / 12:  # 1 день - 1 месяц
        return "316:375"
    elif age < 5 / 12:  # 2 - 5 месяцев
        return "306:324"
    elif age < 7 / 12:  # 6 - 7 месяцев
        return "307:324"
    elif age < 1:  # 8 месяцев - 1 год
        return "297:324"
    elif age < 3:  # 2 года
        return "307:344"
    elif age < 10:  # 3 - 9 лет
        return "336:344"
    elif age < 15:  # 10 - 14 лет
        return "336:354"
    elif age < 18:  # 15 - 18 лет
        return "300:380"
    else:
        # Норма для взрослых, независимо от пола
        return "300:380"

In [16]:
def get_rbc_norm(age, gender):
    """Возвращает норму эритроцитов (RBC) в зависимости от возраста и пола."""
    if age < 1 / 12:  # 1–13 дней
        return "3.9:5.9"
    elif age < 1:  # 14–30 дней, до 1 года
        if age < 2 / 12:
            return "3.3:5.3"
        elif age < 3 / 12:
            return "3.5:5.1"
        elif age < 4 / 12:
            return "3.6:4.8"
        elif age < 5 / 12:
            return "3.8:4.6"
        elif age < 6 / 12:
            return "4.0:4.8"
        elif age < 10 / 12:
            return "3.8:4.6"
        else:
            return "3.9:4.7"
    elif age < 5:  # 1 - 5 лет
        return "4.0:4.4"
    elif age == 6:
        return "4.1:4.5"
    elif age == 7:
        return "4.0:4.4"
    elif age == 8:
        return "4.2:4.6"
    elif age == 9:
        return "4.1:4.5"
    elif age < 12:  # 10 - 11 лет
        return "4.2:4.6"
    elif age < 15:  # 12–14 лет
        if gender == 1:  # Мальчики
            return "4.1:5.2"
        else:  # Девочки
            return "3.8:5.0"
    elif age < 18:  # 15–18 лет
        if gender == 1:  # Юноши
            return "4.2:5.6"
        else:  # Девушки
            return "3.9:5.1"
    else:
        # Норма для взрослых
        if gender == 1:  # Мужчины
            if 18 <= age <= 44:
                return "4.3:5.7"
            elif 45 <= age <= 64:
                return "4.2:5.6"
            else:  # > 65 лет
                return "3.8:5.8"
        else:  # Женщины
            if 18 <= age <= 44:
                return "3.8:5.1"
            elif 45 <= age <= 64:
                return "3.8:5.3"
            else:  # > 65 лет
                return "3.8:5.2"

In [17]:
def get_plt_norm(age):
    """Возвращает норму тромбоцитов (PLT) в зависимости от возраста."""
    # Нормы для детей до 1 года
    if age < 1 / 12:
        return "208:410"
    elif age < 2 / 12:
        return "208:352"
    elif age < 3 / 12:
        return "207:373"
    elif age < 4 / 12:
        return "205:395"
    elif age < 5 / 12:
        return "205:375"
    elif age < 6 / 12:
        return "203:377"
    elif age < 7 / 12:
        return "206:374"
    elif age < 8 / 12:
        return "215:365"
    elif age < 9 / 12:
        return "199:361"
    elif age < 10 / 12:
        return "205:355"
    elif age < 11 / 12:
        return "203:357"
    elif age < 1:
        return "207:353"
    
    # Нормы для детей старше 1 года
    elif age < 2:
        return "218:362"
    elif age < 3:
        return "214:366"
    elif age < 4:
        return "209:351"
    elif age < 5:
        return "196:344"
    elif age < 6:
        return "208:332"
    elif age < 7:
        return "220:360"
    elif age < 8:
        return "205:355"
    elif age < 9:
        return "205:375"
    elif age < 10:
        return "217:343"
    elif age < 11:
        return "211:349"
    elif age < 12:
        return "198:342"
    elif age < 13:
        return "202:338"
    elif age < 14:
        return "192:328"
    elif age < 15:
        return "198:342"
    elif age < 16:
        return "200:360"
    elif age < 17:
        return "180:320"
    
    # Норма для взрослых (с 18 лет и старше)
    return "180:320"

In [18]:
def get_wbc_norm(age, gender):
    """Возвращает норму лейкоцитов (WBC) в зависимости от возраста и пола."""
    # Нормы для детей
    if age < 10 / 12:
        return "6.0:17.5"
    elif age < 8:
        return "5.5:15.5"
    elif age < 12:
        return "4.5:13.5"
    elif age < 15:
        return "4.5:13.0"
    elif age < 18:
        return "4.5:11.3"
    
    # Нормы для мужчин
    if gender == 1:  # Мужчины
        if 12 <= age <= 16:
            return "4.5:13.0"
        else:
            return "4.5:11.3"
    
    # Нормы для женщин
    else:  # Женщины
        if 12 <= age <= 16:
            return "4.5:13.0"
        else:
            return "4.5:11.3"

In [19]:
def get_pct_norm(age):
    """Возвращает норму тромбокрита (PCT) в зависимости от возраста."""
    # Нормы для детей до 18 лет
    if age < 18:
        return "0.15:0.35"
    # Норма для взрослых
    else:
        return "0.15:0.4"

In [20]:
def get_ly_rel_norm(age, gender):
    if age <= 1 / 12:  # до 1 месяца
        return '25:60'
    elif 1 / 12 < age <= 1:  # 2–12 месяцев
        return '40:70'
    elif 1 < age <= 5:  # 1–5 лет
        return '35:60'
    elif 5 < age <= 10:  # 5–10 лет
        return '30:50'
    elif 10 < age <= 14:  # 10–14 лет
        return '30:48'
    elif age > 14:  # > 14 лет
        return '22:45'
    else:
        return None  # В случае, если возраст не попадает ни в одну категорию

In [21]:
def get_ly_abs_norm(age, gender):
    if age <= 1 / 12:  # до 1 месяца
        return '1.25:12.6'
    elif 1 / 12 < age <= 1:  # 2–12 месяцев
        return '2.2:12.3'
    elif 1 < age <= 5:  # 1–5 лет
        return '1.9:9.3'
    elif 5 < age <= 10:  # 5–10 лет
        return '1.3:7.3'
    elif 10 < age <= 14:  # 10–14 лет
        return '1.3:6.2'
    elif age > 14:  # > 14 лет (взрослые)
        return '1.0:4.0'
    else:
        return None  # В случае, если возраст не попадает ни в одну категорию

In [22]:
def get_ne_rel_norm(age, gender):
    if age <= 1 / 12:  # до 1 месяца
        return '31:55'
    elif 1 / 12 < age <= 1:  # 2–12 месяцев
        return '17:50'
    elif 1 < age <= 5:  # 1–5 лет
        return '30:60'
    elif 5 < age <= 10:  # 5–10 лет
        return '40:62'
    elif 10 < age <= 14:  # 10–14 лет
        return '44:65'
    elif age > 14:  # > 14 лет (взрослые)
        return '47:77'
    else:
        return None  # В случае, если возраст не попадает ни в одну категорию

In [23]:
def get_ne_abs_norm(age, gender):
    if age <= 1 / 12:  # до 1 месяца
        return '1.5:11.5'
    elif 1 / 12 < age <= 1:  # 2–12 месяцев
        return '0.9:8.8'
    elif 1 < age <= 5:  # 1–5 лет
        return '1.5:9.3'
    elif 5 < age <= 10:  # 5–10 лет
        return '1.8:8.1'
    elif 10 < age <= 14:  # 10–14 лет
        return '1.9:7.5'
    elif age > 14:  # > 14 лет (взрослые)
        return '1.8:7.2'
    else:
        return None  # В случае, если возраст не попадает ни в одну категорию

In [24]:
# Функция для определения нормы относительного количества моноцитов на основе возраста
def get_mo_rel_norm(age):
    if age <= 1 / 12:  # до 1 месяца
        return '5:15'
    elif 1 / 12 < age <= 1:  # 2–12 месяцев
        return '4:10'
    elif 1 < age <= 14:  # 1–14 лет
        return '3:11'
    elif age > 14:  # > 14 лет (взрослые)
        return '2:12'
    else:
        return None  # В случае, если возраст не попадает ни в одну категорию

In [25]:
def get_esr_norm(age, gender):
    if age < 10:  # Дети до 10 лет
        return '2:10'
    elif gender == 1:  # Мужчины
        if age < 50:
            return '1:15'
        else:
            return '2:20'
    elif gender == 0:  # Женщины
        if age < 50:
            return '2:20'
        else:
            return '2:30'
    else:
        return None  # В случае, если возраст или пол не указаны

In [26]:
def get_segm_neut_norm(age):
    """Возвращает норму сегментоядерных нейтрофилов в зависимости от возраста и пола."""
    if age < 16:
        # Норма для детей до 16 лет
        if 0 <= age <= 13 / 365:  # до 13 дней
            return "17:39"
        elif age < 1:  # дети до 1 года
            return "30:50"
        elif age < 2:  # дети 1 год 
            return "23:43"
        elif age < 3:  # дети 2 лет
            return "28:48"
        elif 2 < age < 5:  # дети 3-4 лет
            return "32:54"
        elif 4 < age < 8:  # дети 5-7 лет
            return "35:58"
        elif 7 < age < 12:  # дети 8-11 лет 
            return "41:59"
        else:  # все дети до 16 лет
            return "44:61"
    else: # норма для всех взрослых и детей старше 16
        return "47:72"

In [27]:
# Распределение записей по категориям
category_counts = {
    "Микроцитарно-гипохромная анемия": int(0.2 * num_records),
    "Нормоцитарно-нормохромная анемия": int(0.2 * num_records),
    "Гиперхромно-макроцитарная анемия": int(0.2 * num_records),
    "Выраженный макроцитоз": int(0.2 * num_records),
    "Норма": int(0.2 * num_records),
}

In [28]:
# Генерация данных для категорий
def generate_for_category(category, num_samples):
    """Генерирует данные для заданной категории."""
    records = []
    for _ in range(num_samples):
        age = np.random.randint(18, 100)
        gender = np.random.choice([0, 1])
        fixed_values = generate_fixed_values(fixed_norms)
        age_gender_values = generate_age_gender_values(age, gender)

        # Категория: патология или норма
        if category == "Микроцитарно-гипохромная анемия":
            age_gender_values["MCV"] = round(np.random.uniform(50, 79), 2)
            age_gender_values["MCH"] = round(np.random.uniform(10, 26), 2)
            age_gender_values["MCHC"] = round(np.random.uniform(20, 31), 2)
            age_gender_values["HGB"] = round(np.random.uniform(70, 110), 2)
        elif category == "Нормоцитарно-нормохромная анемия":
            age_gender_values["MCV"] = round(np.random.uniform(80, 95), 2)
            age_gender_values["MCH"] = round(np.random.uniform(27, 31), 2)
            age_gender_values["MCHC"] = round(np.random.uniform(32, 36), 2)
            age_gender_values["HGB"] = round(np.random.uniform(80, 115), 2)
        elif category == "Гиперхромно-макроцитарная анемия":
            age_gender_values["MCV"] = round(np.random.uniform(96, 110), 2)
            age_gender_values["MCH"] = round(np.random.uniform(32, 40), 2)
            age_gender_values["MCHC"] = round(np.random.uniform(33, 36), 2)
            age_gender_values["HGB"] = round(np.random.uniform(80, 110), 2)
        elif category == "Выраженный макроцитоз":
            age_gender_values["MCV"] = round(np.random.uniform(111, 130), 2)
            age_gender_values["HGB"] = round(np.random.uniform(80, 110), 2)
        else:  # Норма
            # Значения остаются в пределах нормы
            pass

        # Добавление категории
        record = {**{"Age": age, "Sex": gender}, **fixed_values, **age_gender_values, "ICD-10": category}
        records.append(record)
    return records

In [29]:
# Генерация всех данных
all_records = []
for category, count in category_counts.items():
    all_records.extend(generate_for_category(category, count))

In [30]:
# Создание DataFrame
final_blood_data = pd.DataFrame(all_records)

In [31]:
# Добавление пропусков
final_blood_data_with_missing = add_missing_values(final_blood_data, missing_probabilities.keys(), missing_probabilities)

In [32]:
# Обновление классификации
def classify_with_severity(row):
    MCV, MCH, MCHC, HGB = row["MCV"], row["MCH"], row["MCHC"], row["HGB"]
    if pd.isna(MCV) or pd.isna(MCH) or pd.isna(MCHC) or pd.isna(HGB):
        return "Норма"

    if HGB < 90:
        anemia_severity = "тяжёлая степень"
    elif 90 <= HGB < 110:
        anemia_severity = "средняя степень"
    elif 110 <= HGB < 120:
        anemia_severity = "лёгкая степень"
    else:
        anemia_severity = None

    if MCV < 80 and MCH < 27 and MCHC < 32:
        return f"Микроцитарно-гипохромная анемия ({anemia_severity})" if anemia_severity else "Микроцитарно-гипохромная анемия"
    elif 80 <= MCV <= 95 and 27 <= MCH <= 31 and 32 <= MCHC <= 36:
        return f"Нормоцитарно-нормохромная анемия ({anemia_severity})" if anemia_severity else "Нормоцитарно-нормохромная анемия"
    elif MCV > 95 and MCH > 31 and 32 <= MCHC <= 36:
        return f"Гиперхромно-макроцитарная анемия ({anemia_severity})" if anemia_severity else "Гиперхромно-макроцитарная анемия"
    elif MCV > 110:
        return "Выраженный макроцитоз"
    return "Норма"

In [33]:
# Обновлённая классификация с учётом степени анемии
final_blood_data_with_missing["ICD-10"] = final_blood_data_with_missing.apply(classify_with_severity, axis=1)

In [34]:
# Сохранение
output_file = "anemia.csv"
final_blood_data_with_missing.to_csv(output_file, index=False)

In [35]:
# Распределение по категориям
new_categories = {
    "Эритроцитоз": 0.1,
    "Нейтрофилез": 0.1,
    "Нейтропения": 0.1,
    "Агранулоцитоз": 0.1,
    "Эозинофилия": 0.1,
    "Моноцитоз": 0.1,
    "Лимфоцитоз": 0.1,
    "Лимфоцитопения": 0.1,
    "Гипертромбоцитоз": 0.1,
    "Тромбоцитопения": 0.1,
}

In [36]:
# Расчёт числа записей для каждой категории
new_category_counts = {cat: int(num_records * frac) for cat, frac in new_categories.items()}

In [37]:
# Генерация данных для новых категорий
def generate_for_new_category(category, num_samples):
    """Генерирует данные для новых категорий."""
    records = []
    for _ in range(num_samples):
        age = np.random.randint(18, 100)
        gender = np.random.choice([0, 1])
        fixed_values = generate_fixed_values(fixed_norms)
        age_gender_values = generate_age_gender_values(age, gender)

        # Категория: патология или норма
        if category == "Эритроцитоз":
            if gender == 1:
                age_gender_values["RBC"] = round(np.random.uniform(5.8, 7.0), 2)
                age_gender_values["HGB"] = round(np.random.uniform(178, 200), 2)
                age_gender_values["HCT"] = round(np.random.uniform(53, 60), 2)
            else:
                age_gender_values["RBC"] = round(np.random.uniform(5.3, 6.5), 2)
                age_gender_values["HGB"] = round(np.random.uniform(173, 190), 2)
                age_gender_values["HCT"] = round(np.random.uniform(49, 55), 2)
        elif category == "Нейтрофилез":
            age_gender_values["NE_ABS"] = round(np.random.uniform(6.1, 10.0), 2)
        elif category == "Нейтропения":
            age_gender_values["NE_ABS"] = round(np.random.uniform(0.6, 1.7), 2)
        elif category == "Агранулоцитоз":
            age_gender_values["NE_ABS"] = round(np.random.uniform(0.1, 0.4), 2)
        elif category == "Эозинофилия":
            age_gender_values["EO_ABS"] = round(np.random.uniform(0.5, 2.0), 2)
        elif category == "Моноцитоз":
            age_gender_values["MO_ABS"] = round(np.random.uniform(0.9, 2.0), 2)
        elif category == "Лимфоцитоз":
            age_gender_values["LY_ABS"] = round(np.random.uniform(4.1, 6.0), 2)
        elif category == "Лимфоцитопения":
            age_gender_values["LY_ABS"] = round(np.random.uniform(0.5, 1.1), 2)
        elif category == "Гипертромбоцитоз":
            age_gender_values["PLT"] = round(np.random.uniform(401, 600), 2)
        elif category == "Тромбоцитопения":
            age_gender_values["PLT"] = round(np.random.uniform(10, 99), 2)
        else:  # Норма
            pass  # Значения остаются в пределах нормальных диапазонов

        # Добавление категории
        record = {**{"Age": age, "Sex": gender}, **fixed_values, **age_gender_values, "Diagnosis": category}
        records.append(record)
    return records

In [38]:
# Генерация всех данных
new_records = []
for category, count in new_category_counts.items():
    new_records.extend(generate_for_new_category(category, count))

In [39]:
# Создание DataFrame
new_blood_data = pd.DataFrame(new_records)

In [40]:
# Добавление пропусков
new_blood_data_with_missing = add_missing_values(new_blood_data, missing_probabilities.keys(), missing_probabilities)

In [41]:
# Сохранение
output_file = "new_diag.csv"
new_blood_data_with_missing.to_csv(output_file, index=False)