In [2]:
import numpy as np
import pandas as pd

# === 1. Параметры датасета ===
N_samples = 2000  # Общее число примеров
defect_ratio = 0.15  # Доля дефектных лекарств (15%)

# === 2. Генерация нормальных данных ===
np.random.seed(42)
temperature = np.random.normal(loc=25, scale=5, size=N_samples)  # °C, нормальное распределение
pressure = np.random.normal(loc=2.5, scale=0.5, size=N_samples)  # Атм
humidity = np.random.normal(loc=50, scale=15, size=N_samples)  # %
NaCl = np.random.normal(loc=0.5, scale=0.1, size=N_samples)  # %
KCl = np.random.normal(loc=0.3, scale=0.05, size=N_samples)  # %

# === 3. Генерация дефектных данных ===
num_defects = int(N_samples * defect_ratio)
defect_indices = np.random.choice(N_samples, num_defects, replace=False)

temperature[defect_indices] += np.random.uniform(10, 20, size=num_defects)  # Аномальный перегрев
pressure[defect_indices] += np.random.uniform(1.0, 1.5, size=num_defects)  # Высокое давление
humidity[defect_indices] += np.random.uniform(20, 40, size=num_defects)  # Слишком высокая влажность
NaCl[defect_indices] -= np.random.uniform(0.2, 0.3, size=num_defects)  # Недостаток соли
KCl[defect_indices] += np.random.uniform(0.1, 0.2, size=num_defects)  # Перебор калия

# === 4. Создание меток (0 = нормальные, 1 = дефектные) ===
labels = np.zeros(N_samples)
labels[defect_indices] = 1  # Отмечаем дефектные примеры

# === 5. Формирование финального датасета ===
data = pd.DataFrame({
    "temperature": temperature,
    "pressure": pressure,
    "humidity": humidity,
    "NaCl": NaCl,
    "KCl": KCl,
    "defect": labels
})

# === 6. Сохранение датасета ===
data.to_csv("../data/realistic_dataset.csv", index=False)
print("✅ Реалистичный датасет создан и сохранён в `realistic_dataset.csv`!")


✅ Реалистичный датасет создан и сохранён в `realistic_dataset.csv`!


In [4]:
import numpy as np
import pandas as pd

# === 1. Параметры датасета ===
N_samples = 2000  # Общее число примеров
defect_ratio = 0.15  # Доля дефектных лекарств (15%)

# === 2. Генерация нормальных данных ===
np.random.seed(42)
temperature = np.random.normal(loc=25, scale=5, size=N_samples)  # °C, нормальное распределение
pressure = np.random.normal(loc=2.5, scale=0.5, size=N_samples)  # Атм
humidity = np.clip(70 - (temperature * 1.2) + np.random.normal(0, 5, size=N_samples), 10, 90)  # % с зависимостью от температуры
NaCl = np.clip(0.5 + (pressure * 0.1) + np.random.normal(0, 0.05, size=N_samples), 0.1, 1.0)  # % с влиянием давления
KCl = np.clip(0.3 - (pressure * 0.05) + np.random.normal(0, 0.02, size=N_samples), 0.1, 0.6)  # % с обратной зависимостью от давления

# === 3. Генерация дефектных данных ===
num_defects = int(N_samples * defect_ratio)
defect_indices = np.random.choice(N_samples, num_defects, replace=False)

temperature[defect_indices] += np.random.uniform(10, 20, size=num_defects)  # Аномальный перегрев
pressure[defect_indices] += np.random.uniform(1.0, 1.5, size=num_defects)  # Высокое давление
humidity[defect_indices] -= np.random.uniform(10, 30, size=num_defects)  # Чрезмерное испарение
NaCl[defect_indices] -= np.random.uniform(0.3, 0.5, size=num_defects)  # Недостаток соли
KCl[defect_indices] += np.random.uniform(0.1, 0.2, size=num_defects)  # Избыточное содержание калия

# === 4. Создание меток (0 = нормальные, 1 = дефектные) ===
labels = np.zeros(N_samples)
labels[defect_indices] = 1  # Отмечаем дефектные примеры

# === 5. Формирование финального датасета ===
data = pd.DataFrame({
    "temperature": temperature,
    "pressure": pressure,
    "humidity": humidity,
    "NaCl": NaCl,
    "KCl": KCl,
    "defect": labels
})

# === 6. Сохранение датасета ===
data.to_csv("../models/realistic_dataset_v2.csv", index=False)
print("✅ Обновленный реалистичный датасет создан и сохранён в `realistic_dataset_v2.csv`!")


✅ Обновленный реалистичный датасет создан и сохранён в `realistic_dataset_v2.csv`!
