# P4DS Final Project — Health & Lifestyle Dataset
CQ2023/21 Nhóm 26:
- Châu Văn Minh Khoa - MSSV: 23122035  
- Phan Ngọc Quân - MSSV: 23122046

## I. Link GitHub
(Bỏ qua theo yêu cầu)

## II. Import
Các thư viện sử dụng trong phân tích dữ liệu.

In [None]:
# II. Import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
pd.set_option('display.max_columns', None)

## III. Thu thập dữ liệu
- Chủ đề: Sức khỏe và lối sống (Health & Lifestyle).
- Mục đích lựa chọn: Khảo sát mối quan hệ giữa thói quen sinh hoạt (vận động, ngủ, ăn uống, hút thuốc, uống rượu) và các chỉ số sức khỏe (BMI, huyết áp, tình trạng bệnh...).
- Nguồn dữ liệu: Kaggle — "Health and Lifestyle Dataset" (chik0di).
- Quyền sử dụng: Theo giấy phép công khai trên Kaggle; sử dụng cho học tập/nghiên cứu.
- Phương pháp thu thập: Tổng hợp khảo sát tự báo cáo (self-reported) từ người tham gia; đã qua chuẩn hóa/ẩn danh.
- Mô tả dữ liệu: Bao gồm các cột nhân khẩu học, thói quen lối sống và chỉ số sức khỏe. Chi tiết sẽ được khám phá ở phần IV.

## IV. Khám phá dữ liệu

In [None]:
# Đọc dữ liệu
DATA_PATH = 'data/health_lifestyle_dataset.csv'
df = pd.read_csv(DATA_PATH)
print('Đã tải dữ liệu với kích thước:', df.shape)
df.head()

In [None]:
# Kích thước dữ liệu
print(df.shape)
print(f'So dong: {df.shape[0]}, So cot: {df.shape[1]}')

In [None]:
# Xem mẫu các dòng dữ liệu
df.sample(10, random_state=42)

In [None]:
# Ý nghĩa mỗi dòng và kiểm tra trùng lặp
dup_count = df.duplicated().sum()
print(f'So dong trung lap: {dup_count}')
# Xóa trùng lặp nếu có
if dup_count > 0:
    df = df.drop_duplicates()
    print('Da xoa cac dong trung lap. Kich thuoc moi:', df.shape)

In [None]:
# Thông tin và kiểu dữ liệu các cột
df.info()
print('\nPhan bo kieu du lieu:')
print(df.dtypes.value_counts())
print('\nSo gia tri thieu theo cot:')
print(df.isna().sum())

In [None]:
# Phân bố các cột numeric
num_cols = df.select_dtypes(include=np.number).columns
print('So cot numeric:', len(num_cols))
display(df[num_cols].describe())
_ = df[num_cols].hist(figsize=(12,8), bins=30)
plt.tight_layout()
plt.show()

In [None]:
# Phân bố các cột categorical
cat_cols = df.select_dtypes(include=['object','category']).columns
print('So cot categorical:', len(cat_cols))
for c in cat_cols:
    plt.figure(figsize=(8,4))
    sns.countplot(y=c, data=df, order=df[c].value_counts().index)
    plt.title(f'Phan bo {c}')
    plt.tight_layout()
plt.show()

In [None]:
# Phát hiện giá trị bất thường (outlier, noise)
for c in num_cols:
    plt.figure(figsize=(6,3))
    sns.boxplot(x=df[c])
    plt.title(f'Outliers {c}')
    plt.tight_layout()
plt.show()
# Thống kê sơ bộ số lượng outlier theo z-score > 3
z = np.abs((df[num_cols] - df[num_cols].mean())/df[num_cols].std(ddof=0))
outlier_counts = (z > 3).sum()
print('So luong outlier theo cot (nguong z>3):')
print(outlier_counts)

In [None]:
# Tương quan giữa các cột
corr = df[num_cols].corr(numeric_only=True)
plt.figure(figsize=(10,8))
sns.heatmap(corr, annot=False, cmap='coolwarm', center=0)
plt.title('Ma tran tuong quan')
plt.tight_layout()
plt.show()

## V. Đặt câu hỏi và thực hiện phân tích dữ liệu
(Để trống — sẽ làm sau)

Gợi ý: Xác định biến mục tiêu và các biến giải thích; đặt câu hỏi như "Thói quen nào liên quan mạnh đến BMI?", "Mức độ vận động ảnh hưởng thế nào đến chỉ số sức khỏe?"

## VI. Mô hình hóa dữ liệu (Modeling)
(Để trống — sẽ làm sau)

Ghi chú: Sẽ thử các mô hình (hồi quy/phân loại) phù hợp, chia tập train/test, chọn metric (MAE/MSE/Accuracy/F1...), và đánh giá chéo.

## VII. Tổng kết — Hướng phát triển
- Làm sạch dữ liệu sâu hơn (xử lý thiếu, chuẩn hóa, mã hóa biến).
- Mở rộng trực quan hóa, so sánh theo nhóm (giới tính, độ tuổi...).
- Đặt câu hỏi cụ thể và thực hiện phân tích thống kê.
- Thử các mô hình dự đoán/giải thích và đánh giá hiệu năng.

## VIII. Tài liệu tham khảo
- Kaggle: https://www.kaggle.com/datasets/chik0di/health-and-lifestyle-dataset
- Tài liệu: Pandas, NumPy, Seaborn, Matplotlib (docs chính thức).