In [4]:
import pandas as pd
from sklearn.model_selection import train_test_split  # برای تقسیم داده‌ها به مجموعه‌های آموزش و آزمایش

# بارگذاری داده‌ها از فایل CSV
df = pd.read_csv("student_depression_dataset.csv")

# حذف ستون "id" که برای شناسایی یکتای دانشجویان است و به تجزیه و تحلیل نیازی ندارد
df = df.drop(columns=["id"])

# تقسیم داده‌ها به مجموعه‌های آموزش و آزمایش با استفاده از Stratified Sampling
# Stratified Sampling باعث می‌شود که نسبت دسته‌ها (جنسیت در اینجا) در داده‌های آموزش و آزمایش مشابه نسبت اصلی باشد.
train_strat, test_strat = train_test_split(
    df,
    test_size=0.25,  # 25% از داده‌ها برای آزمایش
    stratify=df["Gender"],  # حفظ نسبت جنسیت‌ها در داده‌های آموزش و آزمایش
    random_state=42  # تعیین seed برای تولید تصادفی قابل تکرار
)

# چاپ نتایج
print("\033[94m✅ تقسیم داده‌ها با Stratified Sampling:\033[0m")

# نمایش اندازه داده‌های آموزش و آزمایش
print("Train size:", len(train_strat))
print("Test size:", len(test_strat))

# چاپ نسبت جنسیت در کل داده‌ها
print("\nنسبت جنسیت در کل داده:")
print(df["Gender"].value_counts(normalize=True))  # مقادیر نسبت جنسیت به صورت نرمال شده

# چاپ نسبت جنسیت در داده‌های آموزشی
print("\nنسبت جنسیت در Train:")
print(train_strat["Gender"].value_counts(normalize=True))  # مقادیر نسبت جنسیت در مجموعه آموزش

# چاپ نسبت جنسیت در داده‌های آزمایشی
print("\nنسبت جنسیت در Test:")
print(test_strat["Gender"].value_counts(normalize=True))  # مقادیر نسبت جنسیت در مجموعه آزمایش


[94m✅ تقسیم داده‌ها با Stratified Sampling:[0m
Train size: 20925
Test size: 6976

نسبت جنسیت در کل داده:
Gender
Male      0.55722
Female    0.44278
Name: proportion, dtype: float64

نسبت جنسیت در Train:
Gender
Male      0.557228
Female    0.442772
Name: proportion, dtype: float64

نسبت جنسیت در Test:
Gender
Male      0.557196
Female    0.442804
Name: proportion, dtype: float64


In [5]:
# تقسیم داده‌ها بدون استفاده از Stratified Sampling (Sampling تصادفی)
# در این حالت، تقسیم داده‌ها به صورت تصادفی انجام می‌شود بدون اینکه نسبت دسته‌ها (جنسیت در اینجا) حفظ شود
train_rand, test_rand = train_test_split(
    df,
    test_size=0.25,  # 25% از داده‌ها برای آزمایش
    random_state=42  # تعیین seed برای تولید تصادفی قابل تکرار
)

# چاپ نتایج تقسیم داده‌ها به صورت تصادفی
print("\n\033[93m📊 تقسیم داده‌ها با Sampling تصادفی:\033[0m")

# نمایش توزیع جنسیت در داده‌های آموزشی
print("Train Gender Distribution:")
print(train_rand["Gender"].value_counts(normalize=True))  # مقادیر نسبت جنسیت در مجموعه آموزش

# نمایش توزیع جنسیت در داده‌های آزمایشی
print("\nTest Gender Distribution:")
print(test_rand["Gender"].value_counts(normalize=True))  # مقادیر نسبت جنسیت در مجموعه آزمایش



[93m📊 تقسیم داده‌ها با Sampling تصادفی:[0m
Train Gender Distribution:
Gender
Male      0.558853
Female    0.441147
Name: proportion, dtype: float64

Test Gender Distribution:
Gender
Male      0.552322
Female    0.447678
Name: proportion, dtype: float64


In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split  # برای تقسیم داده‌ها به مجموعه‌های آموزش و آزمایش

# بارگذاری داده‌ها از فایل CSV و حذف ستون "id" که برای شناسایی یکتای دانشجویان است
df = pd.read_csv("student_depression_dataset.csv").drop(columns=["id"])

# تقسیم داده‌ها به مجموعه‌های آموزش و آزمایش با استفاده از Stratified Sampling (حفظ نسبت جنسیت‌ها)
train_strat, test_strat = train_test_split(df, test_size=0.25, stratify=df["Gender"], random_state=42)

# تقسیم داده‌ها به مجموعه‌های آموزش و آزمایش با استفاده از Random Sampling (تقسیم تصادفی بدون حفظ نسبت‌ها)
train_rand, test_rand = train_test_split(df, test_size=0.25, random_state=42)

# تابعی برای محاسبه درصد جنسیت در هر مجموعه
def gender_dist(data):
    # محاسبه نسبت جنسیت‌ها و تبدیل به درصد
    return data["Gender"].value_counts(normalize=True).mul(100).round(2)

# ساخت یک دیتافریم برای مقایسه درصد جنسیت‌ها در مجموعه‌های مختلف
comparison_df = pd.DataFrame({
    "Female (%)": [
        gender_dist(df).get("Female", 0),  # درصد زنان در کل داده‌ها
        gender_dist(train_strat).get("Female", 0),  # درصد زنان در مجموعه آموزش Stratified
        gender_dist(test_strat).get("Female", 0),  # درصد زنان در مجموعه آزمایش Stratified
        gender_dist(train_rand).get("Female", 0),  # درصد زنان در مجموعه آموزش Random
        gender_dist(test_rand).get("Female", 0),  # درصد زنان در مجموعه آزمایش Random
    ],
    "Male (%)": [
        gender_dist(df).get("Male", 0),  # درصد مردان در کل داده‌ها
        gender_dist(train_strat).get("Male", 0),  # درصد مردان در مجموعه آموزش Stratified
        gender_dist(test_strat).get("Male", 0),  # درصد مردان در مجموعه آزمایش Stratified
        gender_dist(train_rand).get("Male", 0),  # درصد مردان در مجموعه آموزش Random
        gender_dist(test_rand).get("Male", 0),  # درصد مردان در مجموعه آزمایش Random
    ]
}, index=["کل داده‌ها", "Train (Stratified)", "Test (Stratified)", "Train (Random)", "Test (Random)"])

# نمایش جدول مقایسه‌ای
print("\033[96m📊 جدول مقایسه‌ای نسبت جنسیت‌ها:\033[0m")
print(comparison_df)

# اگر بخواهید خروجی جدول را به فایل CSV ذخیره کنید:
# comparison_df.to_csv("gender_split_comparison.csv")


[96m📊 جدول مقایسه‌ای نسبت جنسیت‌ها:[0m
                    Female (%)  Male (%)
کل داده‌ها               44.28     55.72
Train (Stratified)       44.28     55.72
Test (Stratified)        44.28     55.72
Train (Random)           44.11     55.89
Test (Random)            44.77     55.23
