In [11]:
import pandas as pd
import numpy as np
import random

# Thiết lập các tham số
n_train = 2100
n_test = 700
n_labels = 7
samples_per_label_train = n_train // n_labels
samples_per_label_test = n_test // n_labels
np.random.seed(3107)

# Các giá trị tiềm năng cho đặc trưng
genders = ['Male', 'Female']
work_times = ['Day', 'Night', 'Both', 'None']
sleep_habits = ['Yes', 'No']
noises = ['None', 'Low', 'High']
labels = [
    'Normal', 'Mild Insomnia', 'Risk of Disorder', 
    'Sleep Disorder', 'Sleep Apnea', 
    'Narcolepsy', 'Good Sleep'
]

# Tỉ lệ các nhãn
label_ratios = [1/n_labels] * n_labels

# Tỉ lệ tuổi
age_ratios = [0.08, 0.45, 0.30, 0.10, 0.05, 0.02]

# Hàm để sinh ngẫu nhiên dữ liệu theo đặc trưng
def generate_data(n_samples_per_label):
    data = []
    for label in labels:
        for _ in range(n_samples_per_label):
            gender = np.random.choice(genders, p=[0.525, 0.475])  # Giới tính nam có nguy cơ cao hơn
            age_group = np.random.choice([1, 2, 3, 4, 5, 6], p=age_ratios)
            if age_group == 1:
                age = np.random.randint(1, 18)
            elif age_group == 2:
                age = np.random.randint(18, 31)
            elif age_group == 3:
                age = np.random.randint(31, 51)
            elif age_group == 4:
                age = np.random.randint(51, 71)
            elif age_group == 5:
                age = np.random.randint(71, 91)
            else:
                age = np.random.randint(91, 101)
            
            # Điều chỉnh BMI theo tiêu chuẩn
            if age >= 70:
                bmi = np.round(np.random.uniform(18.5, 25), 1)
            elif age <= 14:
                bmi = np.round(np.random.uniform(14, 20), 1)
            else:
                bmi = np.round(np.random.uniform(18.5, 30), 1)
            
            # Điều chỉnh huyết áp theo tuổi và các yếu tố nguy cơ
            if age >= 50:
                bp = np.random.randint(90, 160)
            else:
                bp = np.random.randint(90, 130)
            
            # Điều chỉnh nhịp tim theo độ tuổi và giới tính
            if age < 10:
                hr = np.random.randint(70, 130)
            elif age < 20:
                hr = np.random.randint(60, 100)
            elif gender == 'Male':
                hr = np.random.randint(55, 85)
            else:
                hr = np.random.randint(60, 90)
            
            # Điều chỉnh thời gian làm việc theo độ tuổi
            if age <= 18 or age >= 60:
                work_time = np.random.choice(['None', 'Day'])
            else:
                work_time = np.random.choice(work_times, p=[0.5, 0.2, 0.2, 0.1])
            
            activity_level = np.random.randint(1, 11)
            food_habit = np.random.choice(sleep_habits)
            electronic_device_habit = np.random.choice(sleep_habits)
            
            # Điều chỉnh mức độ căng thẳng
            if work_time == 'Night' or food_habit == 'Yes' or electronic_device_habit == 'Yes':
                stress_level = np.random.randint(4, 11)
            else:
                stress_level = np.random.randint(1, 7)
            
            temperature = np.random.randint(15, 31)
            noise = np.random.choice(noises)
            sleep_duration = np.random.randint(2, 13)
            sleep_start_time = np.random.randint(1, 13)
            sleep_quality = np.random.randint(1, 11)
            
            # Điều chỉnh các yêu cầu liên quan đến nhãn
            if sleep_quality >= 7:
                label = np.random.choice(['Normal', 'Good Sleep'], p=[0.3, 0.7])
            else:
                if sleep_quality >= 4 and sleep_quality < 7:
                    label = 'Mild Insomnia'
                elif sleep_quality >= 1 and sleep_quality < 4:
                    label = np.random.choice(['Risk of Disorder', 'Sleep Disorder', 'Sleep Apnea', 'Narcolepsy'], p=[0.4, 0.3, 0.2, 0.1])
                else:
                    label = np.random.choice(labels, p=label_ratios)
            
            data.append([
                gender, age, bmi, bp, hr, work_time, activity_level, 
                stress_level, food_habit, electronic_device_habit, temperature, 
                noise, sleep_duration, sleep_start_time, sleep_quality, label
            ])
    
    return data

# Sinh dữ liệu
train_data = generate_data(samples_per_label_train)
test_data = generate_data(samples_per_label_test)

# Chuyển thành DataFrame và lưu thành file CSV
columns = [
    'Gender', 'Age', 'BMI', 'BP', 'HR', 'WorkTime',
    'Activity', 'Stress', 'FoodHabit', 'ElectronicHabit', 'Temp', 'Noise',
    'SleepDuration', 'SleepStart', 'SleepQuality', 'Label'
]
train_df = pd.DataFrame(train_data, columns=columns)
test_df = pd.DataFrame(test_data, columns=columns)

# Shuffle lại tập dữ liệu train và test
train_df = train_df.sample(frac=1, random_state=42).reset_index(drop=True)
test_df = test_df.sample(frac=1, random_state=42).reset_index(drop=True)

# Lưu thành file CSV
train_df.to_csv('train_dataset.csv', index=False)
test_df.to_csv('test_dataset.csv', index=False)

print("Dữ liệu đã được tạo và lưu thành công.")


Dữ liệu đã được tạo và lưu thành công.
