In [1]:
import pandas as pd
import random

In [2]:
# Özellikleri oluşturma
def generate_data_row_extended():
    # Yaş: 18-80 arası, gerçekçi dağılım
    age = random.randint(18, 80)
    
    # Cinsiyet
    gender = random.choice(["Female", "Male"])
    
    # BMI: WHO sınıflandırmasına göre
    # Zayıf: 15-18.5
    # Normal: 18.5-24.9
    # Kilolu: 25-29.9
    # Obez: 30-40
    # Morbid Obez: 40-50
    bmi_ranges = [
        (15, 18.5, 0.1),    # Zayıf
        (18.5, 24.9, 0.4),  # Normal
        (25, 29.9, 0.3),    # Kilolu
        (30, 40, 0.15),     # Obez
        (40, 50, 0.05)      # Morbid Obez
    ]
    
    selected_range = random.choices(bmi_ranges, weights=[r[2] for r in bmi_ranges])[0]
    bmi = round(random.uniform(selected_range[0], selected_range[1]), 2)
    
    # Kan şekeri: Normal, Pre-diyabet ve Diyabet aralıkları
    if random.random() < 0.7:  # Normal
        blood_sugar = random.randint(70, 99)
    elif random.random() < 0.85:  # Pre-diyabet
        blood_sugar = random.randint(100, 125)
    else:  # Diyabet
        blood_sugar = random.randint(126, 200)
    
    # Aile geçmişi: Diyabet varsa kan şekeri yüksek olma olasılığı artar
    family_history = random.choice(["Yes", "No"])
    if family_history == "Yes" and blood_sugar < 126:
        if random.random() < 0.4:
            blood_sugar = random.randint(100, 200)
    
    # Kan basıncı: Normal, Pre-hipertansiyon ve Hipertansiyon
    if random.random() < 0.6:  # Normal
        blood_pressure = random.randint(90, 120)
    elif random.random() < 0.8:  # Pre-hipertansiyon
        blood_pressure = random.randint(121, 140)
    else:  # Hipertansiyon
        blood_pressure = random.randint(141, 180)
    
    # Fiziksel aktivite: 0-5 saat/gün
    physical_activity = round(random.uniform(0, 5), 2)
    
    # Kolesterol: Normal, Sınırda ve Yüksek
    if random.random() < 0.6:  # Normal
        cholesterol = random.randint(150, 200)
    elif random.random() < 0.8:  # Sınırda
        cholesterol = random.randint(201, 239)
    else:  # Yüksek
        cholesterol = random.randint(240, 350)
    
    # Sigara ve Alkol kullanımı
    smoking = random.choice(["Yes", "No"])
    alcohol = random.choice(["Yes", "No"])
    
    # Uyku süresi: Normal dağılım
    sleep_duration = round(random.normalvariate(7, 1), 2)
    sleep_duration = max(4, min(10, sleep_duration))  # 4-10 saat arası sınırlama
    
    # Egzersiz sıklığı: Haftalık 0-7 gün
    exercise_frequency = random.randint(0, 7)
    
    # Stres seviyesi: 1-10 arası
    stress_level = random.randint(1, 10)
    
    # Diyabet durumu: Risk faktörlerine göre belirleme
    risk_score = 0
    risk_score += (1 if age > 45 else 0)
    risk_score += (1 if bmi > 25 else 0)
    risk_score += (2 if blood_sugar > 125 else 1 if blood_sugar > 99 else 0)
    risk_score += (1 if family_history == "Yes" else 0)
    risk_score += (1 if blood_pressure > 140 else 0)
    risk_score += (1 if physical_activity < 2 else 0)
    risk_score += (1 if cholesterol > 240 else 0)
    risk_score += (1 if smoking == "Yes" else 0)
    risk_score += (1 if sleep_duration < 6 else 0)
    risk_score += (1 if exercise_frequency < 3 else 0)
    risk_score += (1 if stress_level > 7 else 0)
    
    diabetes_status = 1 if (risk_score >= 6 or blood_sugar > 125) else 0
    
    return {
        "Age": age,
        "Gender": gender,
        "BMI": bmi,
        "Blood_Sugar_Level": blood_sugar,
        "Family_History": family_history,
        "Blood_Pressure": blood_pressure,
        "Physical_Activity": physical_activity,
        "Cholesterol_Level": cholesterol,
        "Smoking": smoking,
        "Alcohol_Consumption": alcohol,
        "Sleep_Duration": sleep_duration,
        "Exercise_Frequency": exercise_frequency,
        "Stress_Level": stress_level,
        "Diabetes_Status": diabetes_status
    }

In [3]:
# 1000 satırlık veri setini oluşturma
data_1000_extended = [generate_data_row_extended() for _ in range(1000)]
df_1000_extended = pd.DataFrame(data_1000_extended)

In [4]:
# Dosyayı kaydetme
file_path_1000_extended = "C:/Users/Monster/Desktop/222803014/veri.csv"
df_1000_extended.to_csv(file_path_1000_extended, index=False)


file_path_1000_extended

'C:/Users/Monster/Desktop/222803014/veri.csv'