In [16]:
import pandas as pd

# مرحله 1: بارگذاری و بررسی اولیه‌ی داده‌ها
# - بارگذاری دیتافریم با استفاده از pandas
# - نمایش تعداد سطرها (rows) و ستون‌ها (columns)
# - نمایش 5 سطر اول برای آشنایی اولیه با داده‌ها
# - چاپ تعداد مقادیر یکتای هر ستون برای تشخیص نوع داده (Nominal, Binary, Numeric, Ordinal)

# بارگذاری داده‌ها از فایل CSV
df = pd.read_csv("student_depression_dataset.csv")

# نمایش اطلاعات کلی دیتافریم شامل نوع داده‌ها، تعداد ناتمام‌ها و حافظه مصرفی
total_rows = len(df)

# لیستی برای ذخیره اطلاعات هر ستون
info_list = []

for col in df.columns:
    non_null_count = df[col].count()
    null_percent = (non_null_count / total_rows) * 100
    dtype = df[col].dtype

    info_list.append({
        "🧩 نام ستون": col,
        "📊 نوع داده": str(dtype),
        "✅ تعداد مقادیر غیرخالی": non_null_count,
        "📈 درصد پر بودن": f"{null_percent:.1f}%"
    })

# تبدیل به DataFrame جدولی
info_df = pd.DataFrame(info_list)

# نمایش جدول
display(info_df)  # اگر در Jupyter هستی

# نمایش 5 ردیف اول از دیتافریم برای آشنایی اولیه با داده‌ها
display(df.head())

# نمایش تعداد مقادیر یکتا برای هر ستون در دیتافریم
# این کار به ما کمک می‌کند تا انواع داده‌ها را شناسایی کنیم (مثلاً Nominal, Binary, Numeric, Ordinal)
unique_info = []

for column in df.columns:
    unique_count = df[column].nunique()
    unique_info.append({
        "🧩 نام ستون": column,
        "🔢 تعداد مقادیر یکتا": unique_count
    })

# تبدیل به جدول (DataFrame)
unique_df = pd.DataFrame(unique_info)

# مرتب‌سازی اختیاری (مثلاً از بیشترین به کمترین)
unique_df = unique_df.sort_values(by="🔢 تعداد مقادیر یکتا", ascending=False).reset_index(drop=True)

# نمایش جدول
display(unique_df) 

def detect_feature_type(series):
    unique_vals = series.dropna().unique()
    num_unique = len(unique_vals)
    
    if pd.api.types.is_numeric_dtype(series):
        if num_unique == 2:
            return "Binary (Numeric)"
        else:
            return "Numeric"
    elif pd.api.types.is_string_dtype(series) or pd.api.types.is_categorical_dtype(series):
        if num_unique == 2:
            return "Binary (Categorical)"
        elif num_unique < 10:
            return "Nominal"
        else:
            return "High-cardinality Nominal"
    else:
        return "Unknown"
        
feature_info = []

for column in df.columns:
    data_type = df[column].dtype
    unique_count = df[column].nunique()
    feature_type = detect_feature_type(df[column])
    
    feature_info.append({
        "نام ستون": column,
        "تعداد مقادیر یکتا": unique_count,
        "نوع داده (dtype)": str(data_type),
        "نوع ویژگی (Feature Type)": feature_type
    })

# تبدیل لیست به DataFrame
feature_df = pd.DataFrame(feature_info)

# نمایش جدول
print("\n📋 جدول ویژگی‌ها:")
display(feature_df) 
# توضیح: منظور از "مقدار یکتا" تعداد انواع مختلف داده‌ها در هر ستون است. 
# به طور مثال، در ستون 'Gender' دو مقدار یکتا داریم: "Male" و "Female" که نشان‌دهنده جنسیت است. 
# این مقدار برای ستون 'Gender' برابر ۲ است.


Unnamed: 0,🧩 نام ستون,📊 نوع داده,✅ تعداد مقادیر غیرخالی,📈 درصد پر بودن
0,id,int64,27901,100.0%
1,Gender,object,27901,100.0%
2,Age,float64,27901,100.0%
3,City,object,27901,100.0%
4,Profession,object,27901,100.0%
5,Academic Pressure,float64,27901,100.0%
6,Work Pressure,float64,27901,100.0%
7,CGPA,float64,27901,100.0%
8,Study Satisfaction,float64,27901,100.0%
9,Job Satisfaction,float64,27901,100.0%


Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,'5-6 hours',Healthy,B.Pharm,Yes,3.0,1.0,No,1
1,8,Female,24.0,Bangalore,Student,2.0,0.0,5.9,5.0,0.0,'5-6 hours',Moderate,BSc,No,3.0,2.0,Yes,0
2,26,Male,31.0,Srinagar,Student,3.0,0.0,7.03,5.0,0.0,'Less than 5 hours',Healthy,BA,No,9.0,1.0,Yes,0
3,30,Female,28.0,Varanasi,Student,3.0,0.0,5.59,2.0,0.0,'7-8 hours',Moderate,BCA,Yes,4.0,5.0,Yes,1
4,32,Female,25.0,Jaipur,Student,4.0,0.0,8.13,3.0,0.0,'5-6 hours',Moderate,M.Tech,Yes,1.0,1.0,No,0


Unnamed: 0,🧩 نام ستون,🔢 تعداد مقادیر یکتا
0,id,27901
1,CGPA,332
2,City,52
3,Age,34
4,Degree,28
5,Profession,14
6,Work/Study Hours,13
7,Academic Pressure,6
8,Financial Stress,6
9,Study Satisfaction,6



📋 جدول ویژگی‌ها:


Unnamed: 0,نام ستون,تعداد مقادیر یکتا,نوع داده (dtype),نوع ویژگی (Feature Type)
0,id,27901,int64,Numeric
1,Gender,2,object,Binary (Categorical)
2,Age,34,float64,Numeric
3,City,52,object,High-cardinality Nominal
4,Profession,14,object,High-cardinality Nominal
5,Academic Pressure,6,float64,Numeric
6,Work Pressure,3,float64,Numeric
7,CGPA,332,float64,Numeric
8,Study Satisfaction,6,float64,Numeric
9,Job Satisfaction,5,float64,Numeric
