# 00 - Tổng Quan Dữ Liệu Ban Đầu

## Mục tiêu:
- Nạp dữ liệu gốc và xem tổng quan.
- Thống kê nhanh các cột dạng số và phân loại.
- Phát hiện sơ bộ dữ liệu nhiễu, sai lệch hoặc thiếu.
- Định hướng cho bước làm sạch ở `01_data_cleaning.ipynb`.

In [5]:
import pandas as pd

# Đọc dữ liệu gốc
df = pd.read_csv("../data/raw/Student Depression Dataset.csv")

# Xem kích thước
print("Kích thước dữ liệu:", df.shape)

# Hiển thị 5 dòng đầu
df.head()


Kích thước dữ liệu: (27901, 18)


Unnamed: 0,id,Gender,Age,City,Profession,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Sleep Duration,Dietary Habits,Degree,Have you ever had suicidal thoughts ?,Work/Study Hours,Financial Stress,Family History of Mental Illness,Depression
0,2,Male,33.0,Visakhapatnam,Student,5.0,0.0,8.97,2.0,0.0,5-6 hours,Healthy,B.Pharm,Yes,3.0,1.0,No,1
1,8,Female,24.0,Bangalore,Student,2.0,0.0,5.9,5.0,0.0,5-6 hours,Moderate,BSc,No,3.0,2.0,Yes,0
2,26,Male,31.0,Srinagar,Student,3.0,0.0,7.03,5.0,0.0,Less than 5 hours,Healthy,BA,No,9.0,1.0,Yes,0
3,30,Female,28.0,Varanasi,Student,3.0,0.0,5.59,2.0,0.0,7-8 hours,Moderate,BCA,Yes,4.0,5.0,Yes,1
4,32,Female,25.0,Jaipur,Student,4.0,0.0,8.13,3.0,0.0,5-6 hours,Moderate,M.Tech,Yes,1.0,1.0,No,0


## Thông tin tổng quan
- Kiểm tra kiểu dữ liệu các cột
- Phân tích tỷ lệ thiếu

In [6]:
# Kiểu dữ liệu và thông tin tổng quan
df.info()

# Tỷ lệ thiếu theo cột
missing_ratio = df.isnull().mean().sort_values(ascending=False)
missing_ratio[missing_ratio > 0]  # Chỉ hiển thị cột có thiếu


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27901 entries, 0 to 27900
Data columns (total 18 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   id                                     27901 non-null  int64  
 1   Gender                                 27901 non-null  object 
 2   Age                                    27901 non-null  float64
 3   City                                   27901 non-null  object 
 4   Profession                             27901 non-null  object 
 5   Academic Pressure                      27901 non-null  float64
 6   Work Pressure                          27901 non-null  float64
 7   CGPA                                   27901 non-null  float64
 8   Study Satisfaction                     27901 non-null  float64
 9   Job Satisfaction                       27901 non-null  float64
 10  Sleep Duration                         27901 non-null  object 
 11  Di

Financial Stress    0.000108
dtype: float64

## Thống kê mô tả
- Dành cho các cột dạng số
- Giúp xác định ngoại lệ sơ bộ (min/max bất thường)

In [7]:
df.describe()

Unnamed: 0,id,Age,Academic Pressure,Work Pressure,CGPA,Study Satisfaction,Job Satisfaction,Work/Study Hours,Financial Stress,Depression
count,27901.0,27901.0,27901.0,27901.0,27901.0,27901.0,27901.0,27901.0,27898.0,27901.0
mean,70442.149421,25.8223,3.141214,0.00043,7.656104,2.943837,0.000681,7.156984,3.139867,0.585499
std,40641.175216,4.905687,1.381465,0.043992,1.470707,1.361148,0.044394,3.707642,1.437347,0.492645
min,2.0,18.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
25%,35039.0,21.0,2.0,0.0,6.29,2.0,0.0,4.0,2.0,0.0
50%,70684.0,25.0,3.0,0.0,7.77,3.0,0.0,8.0,3.0,1.0
75%,105818.0,30.0,4.0,0.0,8.92,4.0,0.0,10.0,4.0,1.0
max,140699.0,59.0,5.0,5.0,10.0,5.0,4.0,12.0,5.0,1.0


## Phân tích các cột phân loại
- Hiển thị top các giá trị phổ biến cho từng cột dạng `object`
- Tìm bất thường trong các giá trị như city, degree, gender...

In [8]:
cat_cols = df.select_dtypes(include='object').columns

for col in cat_cols:
    print(f"\n🔸 {col} (unique: {df[col].nunique()}):")
    print(df[col].value_counts(dropna=False).head(10))



🔸 Gender (unique: 2):
Gender
Male      15547
Female    12354
Name: count, dtype: int64

🔸 City (unique: 52):
City
Kalyan         1570
Srinagar       1372
Hyderabad      1340
Vasai-Virar    1290
Lucknow        1155
Thane          1139
Ludhiana       1111
Agra           1094
Surat          1078
Kolkata        1066
Name: count, dtype: int64

🔸 Profession (unique: 14):
Profession
Student             27870
Architect               8
Teacher                 6
Digital Marketer        3
Content Writer          2
Chef                    2
Doctor                  2
Pharmacist              2
Civil Engineer          1
UX/UI Designer          1
Name: count, dtype: int64

🔸 Sleep Duration (unique: 5):
Sleep Duration
Less than 5 hours    8310
7-8 hours            7346
5-6 hours            6183
More than 8 hours    6044
Others                 18
Name: count, dtype: int64

🔸 Dietary Habits (unique: 4):
Dietary Habits
Unhealthy    10317
Moderate      9921
Healthy       7651
Others          12
Name: coun

## Định hướng xử lý tiếp theo

### Các bước cần làm sạch:

- **City**:
  - Có chứa **tên người** hoặc giá trị nhiễu.
  - Có thể có lỗi chính tả (`Khaziabad`, `Nalyan`, ...).
  - Cần **ánh xạ theo cấp độ đô thị Ấn Độ sang tỉnh/thành Việt Nam** theo bảng quy tắc đã xác định.

- **Degree**:
  - Bằng cấp đa dạng, có nhiều viết tắt.
  - Cần **ánh xạ sang hệ thống bằng cấp Việt hóa** rõ ràng theo bảng chuyển đổi chi tiết.

- **Gender**,**Have you ever had suicidal thoughts ?**,**Family history of mental illness**:
  - Cần chuẩn hóa về dạng nhị phân `1 (Yes)` và `0 (No)` để thuận tiện cho mô hình.

- **Cột dư thừa cần loại bỏ**:
  - `id`: không có giá trị phân tích.
  - `Work Pressure`, `Job Satisfaction`: bị trùng lặp logic với các cột đã có hoặc không nhất quán.
  
---

**Tiếp tục với**:  
`01_data_cleaning.ipynb` để xử lý và làm sạch dữ liệu nhiễu trước khi thực hiện mã hóa (`Label Encoding`) và trích xuất đặc trưng.
