In [3]:
import pandas as pd

# بارگذاری داده‌ها از فایل CSV به یک DataFrame به نام df
# در این بخش داده‌ها از فایل "student_depression_dataset.csv" بارگذاری می‌شوند
df = pd.read_csv("student_depression_dataset.csv")

# حذف ستون "id" که برای شناسایی یکتای دانشجویان است و به تجزیه و تحلیل نیازی ندارد
# ستون 'id' ممکن است فقط به عنوان یک شناسه یکتا برای هر دانشجو باشد و در تحلیل‌ها استفاده نمی‌شود.
df = df.drop(columns=["id"])

# دسته‌بندی نمرات CGPA به 3 گروه مساوی: "Weak"، "Good"، "Brilliant"
# در این بخش از تابع qcut برای تقسیم داده‌ها به 3 گروه استفاده می‌شود که هر گروه تعداد تقریباً برابری از نمونه‌ها دارد.
df["cgpa_cat"] = pd.qcut(df["CGPA"], q=3, labels=["Weak", "Good", "Brilliant"])

# شمارش تعداد دانشجویان در هر گروه دسته‌بندی شده (Weak, Good, Brilliant)
# با استفاده از متد value_counts تعداد دانشجویان در هر گروه دسته‌بندی شده محاسبه و نمایش داده می‌شود.
cgpa_group_counts = df["cgpa_cat"].value_counts()

print("\n \033[94mنتیجه دسته‌بندی CGPA:\033[0m")
for label, count in cgpa_group_counts.items():
    print(f"🔹 {label}: {count} دانشجو")

# حذف ستون "CGPA" از دیتاست
# پس از دسته‌بندی نمرات، ستون 'CGPA' که اطلاعات اصلی را شامل می‌شود دیگر مورد نیاز نیست و حذف می‌شود.
df = df.drop(columns=["CGPA"])


[94mنتیجه دسته‌بندی CGPA:[0m
cgpa_cat
Weak         9375
Brilliant    9282
Good         9244
Name: count, dtype: int64
