# **Tác vụ CV: Phân vùng tổn thương phổi từ ảnh X-quang ngực (Medical Image Segmentation with Explainable AI) - Kaggle Version**

## **Mô tả bài toán**
Phân vùng vùng tổn thương trên ảnh X-quang là bài toán trọng yếu trong chẩn đoán hình ảnh y học. Notebook này được thiết kế để chạy trên môi trường Kaggle với dataset đã được xử lý và tối ưu hóa.

## **Dataset**
Bộ dữ liệu **Chest X-ray Masks and Labels** đã được xử lý và tối ưu hóa:
- **283 ảnh X-quang ngực** (từ 800 ảnh gốc)
- **Mask phân vùng** tương ứng cho từng ảnh
- **Chia train/test**: 80/20 (226 train / 57 test)
- **Chia train/validation**: 90/10 (203 train / 23 validation)
- **Định dạng**: PNG (ảnh RGB, mask grayscale)
- **Kích thước ảnh**: 256x256 (resized từ 3000x2919)

## **Cấu hình**
- **Kích thước ảnh**: 256x256
- **Batch size**: 4
- **Epochs**: 10 (quick experiment)
- **Learning rate**: 0.001
- **Output**: /kaggle/working/


## **0. Hướng dẫn sử dụng**

### **0.1 Môi trường Kaggle (Khuyến nghị)**
1. **Tạo notebook mới** trên Kaggle.com
2. **Bật GPU** (Settings → Accelerator → GPU T4 x2)
3. **Add dataset**: Click "Add Data" → Tìm "chest-xray-masks-and-labels-processed" → Add
4. **Chạy code**: Chạy các cell theo thứ tự từ trên xuống dưới
5. **Lưu kết quả**: Files sẽ được lưu trong thư mục `/kaggle/working/`

**Cấu hình tối ưu cho Kaggle:**
- **Batch size**: 4 (phù hợp với GPU T4)
- **Epochs**: 10 (quick experiment) hoặc 50+ (full training)
- **Image size**: 256x256 (cân bằng giữa chất lượng và tốc độ)
- **Workers**: 0 (tránh lỗi multiprocessing trên Kaggle)

### **0.2 Môi trường Local (Tùy chọn)**
1. **Cài đặt Python**: Python 3.10+ với pip/conda
2. **GPU Support**: CUDA 11.8+ (khuyến nghị) hoặc CPU
3. **Dataset**: Tải về local và xử lý
4. **Chạy code**: Chạy các cell theo thứ tự từ trên xuống

**Cấu hình tối ưu cho Local:**
- **Batch size**: 4 (phù hợp với GPU local)
- **Epochs**: 10 (quick experiment) hoặc 50+ (full training)
- **Image size**: 256x256
- **Workers**: 2 (tối ưu cho CPU local)

### **0.3 Thống kê dữ liệu**
Bộ dữ liệu **Chest X-ray Masks and Labels** đã được xử lý và tối ưu hóa:
- **Tổng số ảnh gốc**: 800 ảnh X-quang ngực
- **Số ảnh có mask hợp lệ**: 566 ảnh (sau khi loại bỏ ảnh không có mask)
- **Số ảnh sử dụng**: 283 ảnh (50% reduction để tăng tốc training)
- **Train set**: 226 ảnh (80%)
- **Test set**: 57 ảnh (20%)
- **Train/Validation split**: 203 train / 23 validation (90/10)

### **0.4 Cấu trúc dữ liệu**
```
/kaggle/input/chest-xray-masks-and-labels-processed/
└── Lung Segmentation/
    ├── train/                 # 226 ảnh (80%)
    │   ├── CXR_png/          # Ảnh X-quang gốc
    │   │   ├── CHNCXR_0001_0.png
    │   │   └── ...
    │   ├── masks/            # Mask phân vùng
    │   │   ├── CHNCXR_0001_0_mask.png
    │   │   └── ...
    │   └── ClinicalReadings/ # Thông tin lâm sàng
    └── test/                 # 57 ảnh (20%) - Ẩn đi, không sử dụng
        ├── CXR_png/
        ├── masks/
        └── ClinicalReadings/
```

**Quy tắc đặt tên**: Ảnh `CHNCXR_0001_0.png` tương ứng với mask `CHNCXR_0001_0_mask.png`

### **0.5 Định dạng dữ liệu**
- **Ảnh gốc**: PNG format, kích thước gốc 3000x2919 pixels, resized về 256x256
- **Mask**: PNG format, grayscale, cùng kích thước với ảnh gốc
- **Mapping**: Tên file ảnh và mask hoàn toàn giống nhau
- **Class labels**: 0=normal, 1=tuberculosis/STB (Suspected Tuberculosis)

### **0.6 Liên kết tải dữ liệu**
Dữ liệu có thể được truy cập và tải về từ Kaggle:
* [Chest X-ray Masks and Labels Dataset (Processed)](https://www.kaggle.com/datasets/nikhilpandey360/chest-xray-masks-and-labels)


## **1. Thông tin Dataset "Chest X-ray Masks and Labels"**

### **1.1 Thông tin Dataset**
- **Tên**: Chest X-ray Masks and Labels (Processed Version)
- **Tác giả**: Nikhil Pandey (Original), Olympic AI Team (Processed)
- **Link**: https://www.kaggle.com/datasets/nikhilpandey360/chest-xray-masks-and-labels
- **Kích thước**: ~2.4GB (đã được xử lý và tối ưu hóa)
- **Số lượng ảnh gốc**: 800 ảnh X-quang ngực
- **Số lượng ảnh sử dụng**: 283 ảnh (sau khi xử lý và giảm kích thước)
- **Định dạng**: PNG (ảnh RGB + mask grayscale)

### **1.2 Dataset đã được xử lý**
Dataset đã được xử lý và tối ưu hóa cho Kaggle platform:

**Bước xử lý:**
1. **Loại bỏ ảnh không có mask**: Từ 800 ảnh → 566 ảnh có mask hợp lệ
2. **Giảm kích thước dataset**: Từ 566 ảnh → 283 ảnh (50% reduction)
3. **Chia train/test**: 226 ảnh train (80%) / 57 ảnh test (20%)
4. **Chia train/validation**: 203 ảnh train (90%) / 23 ảnh validation (10%)
5. **Resize ảnh**: Từ 3000x2919 pixels → 256x256 pixels

**Cấu trúc cuối cùng:**
```
/kaggle/input/chest-xray-masks-and-labels-processed/
└── Lung Segmentation/
    ├── train/                 # 226 ảnh (80%)
    │   ├── CXR_png/          # Ảnh X-quang gốc
    │   ├── masks/            # Mask phân vùng
    │   └── ClinicalReadings/  # Thông tin lâm sàng
    └── test/                 # 57 ảnh (20%) - Ẩn đi
        ├── CXR_png/
        ├── masks/
        └── ClinicalReadings/
```

### **1.3 Cách sử dụng Dataset Kaggle**
**Bước 1**: Tạo notebook mới trên Kaggle
```bash
# Tạo notebook mới
1. Vào kaggle.com → Sign in
2. Click "Create Notebook" → "New Notebook"
3. Bật GPU: Settings → Accelerator → GPU T4 x2
```

**Bước 2**: Add dataset vào notebook
```bash
# Add dataset
1. Click "Add Data" ở góc phải
2. Tìm kiếm "chest-xray-masks-and-labels-processed"
3. Click "Add" để tích hợp dataset
4. Dataset sẽ xuất hiện trong /kaggle/input/
```

**Bước 3**: Thiết lập đường dẫn trong code
```python
# Đường dẫn dataset
DATA_DIR = "/kaggle/input/chest-xray-masks-and-labels-processed"
LUNG_SEG_DIR = os.path.join(DATA_DIR, "Lung Segmentation")
TRAIN_DIR = os.path.join(LUNG_SEG_DIR, "train")
```

**Bước 4**: Tạo thư mục output
```python
# Tạo thư mục output
os.makedirs('/kaggle/working/models', exist_ok=True)
os.makedirs('/kaggle/working/plots', exist_ok=True)
os.makedirs('/kaggle/working/predictions', exist_ok=True)
os.makedirs('/kaggle/working/gradcam', exist_ok=True)
```

### **1.4 Ưu điểm của Dataset đã xử lý**
- **Tốc độ**: Dataset nhỏ hơn, training nhanh hơn
- **Cân bằng**: Duy trì tỷ lệ 50/50 normal/tuberculosis
- **Sạch sẽ**: Loại bỏ ảnh không có mask
- **Tối ưu**: Kích thước ảnh phù hợp với GPU T4
- **Sẵn sàng**: Không cần xử lý thêm, có thể training ngay

### **1.5 Thống kê chi tiết**
| Thông số | Giá trị |
|----------|---------|
| Tổng số ảnh gốc | 800 |
| Số ảnh có mask hợp lệ | 566 |
| Số ảnh sử dụng | 283 |
| Train set | 226 ảnh (80%) |
| Test set | 57 ảnh (20%) |
| Train/Validation split | 203/23 (90/10) |
| Kích thước ảnh | 256×256 pixels |
| Định dạng ảnh | PNG (RGB) |
| Định dạng mask | PNG (Grayscale) |
| Class balance | ~50/50 normal/tuberculosis |


In [None]:
# Kiểm tra dataset đã được xử lý sẵn trên Kaggle
import os

# Kiểm tra cấu trúc dataset
if os.path.exists('/kaggle/input/chest-xray-masks-and-labels-processed'):
    print("✅ Processed dataset đã được mount sẵn trong Kaggle environment!")
    print("📁 Cấu trúc dataset:")
    
    # Kiểm tra train folder
    train_dir = '/kaggle/input/chest-xray-masks-and-labels-processed/Lung Segmentation/train'
    if os.path.exists(train_dir):
        images_dir = os.path.join(train_dir, 'CXR_png')
        masks_dir = os.path.join(train_dir, 'masks')
        
        if os.path.exists(images_dir) and os.path.exists(masks_dir):
            image_count = len([f for f in os.listdir(images_dir) if f.endswith('.png')])
            mask_count = len([f for f in os.listdir(masks_dir) if f.endswith('.png')])
            
            print(f"   - Train images: {image_count}")
            print(f"   - Train masks: {mask_count}")
            print(f"   - Perfect alignment: {'✅' if image_count == mask_count else '❌'}")
    
    # Kiểm tra test folder
    test_dir = '/kaggle/input/chest-xray-masks-and-labels-processed/Lung Segmentation/test'
    if os.path.exists(test_dir):
        test_images_dir = os.path.join(test_dir, 'CXR_png')
        test_masks_dir = os.path.join(test_dir, 'masks')
        
        if os.path.exists(test_images_dir) and os.path.exists(test_masks_dir):
            test_image_count = len([f for f in os.listdir(test_images_dir) if f.endswith('.png')])
            test_mask_count = len([f for f in os.listdir(test_masks_dir) if f.endswith('.png')])
            
            print(f"   - Test images: {test_image_count}")
            print(f"   - Test masks: {test_mask_count}")
            print(f"   - Perfect alignment: {'✅' if test_image_count == test_mask_count else '❌'}")
    
    print("\n🎯 Dataset đã sẵn sàng cho training trên Kaggle!")
    print("📊 Thống kê:")
    print("   - Tổng số ảnh sử dụng: 283")
    print("   - Train set: 226 ảnh (80%)")
    print("   - Test set: 57 ảnh (20%)")
    print("   - Train/Validation: 203/23 (90/10)")
    print("   - Kích thước ảnh: 256x256 pixels")
    print("   - Class balance: ~50/50 normal/tuberculosis")
    
else:
    print("❌ Processed dataset chưa được mount!")
    print("📥 Vui lòng add dataset 'chest-xray-masks-and-labels-processed' vào Kaggle notebook.")
    print("🔗 Link dataset: https://www.kaggle.com/datasets/nikhilpandey360/chest-xray-masks-and-labels")


## **2. Huấn luyện mô hình**

Sử dụng tập `train` để huấn luyện mô hình segmentation. Sau đó sử dụng mô hình đã huấn luyện để:

1. **Dự đoán mask** trên tập `validation` và lưu kết quả vào thư mục `/kaggle/working/predictions/`
2. **Tính toán metrics** đánh giá: Dice Coefficient, IoU, và F1-Score
3. **Tạo visualization** bao gồm:
   - Ảnh gốc
   - Ground truth mask
   - Predicted mask
   - Overlay prediction trên ảnh gốc
4. **Áp dụng XAI** để tạo attention heatmap và giải thích vùng mà mô hình tập trung vào

### Mục tiêu sinh viên cần đạt:
- Huấn luyện thành công mô hình segmentation (Simple U-Net)
- Đạt Dice Score > 0.85 trên tập validation
- Tạo được visualization chất lượng cao
- Implement XAI (GradCAM) để giải thích mô hình

### Cấu hình đề xuất:
- **Model**: Simple U-Net với encoder từ đầu
- **Loss**: Combined Loss (Dice + BCE)
- **Optimizer**: Adam với learning rate 0.001
- **Epochs**: 10 (quick experiment) hoặc 50+ (full training)
- **Batch size**: 4
- **Image size**: 256x256
- **Data augmentation**: Horizontal flip, rotation, brightness/contrast


## **3. Đánh giá mô hình**

Sau khi huấn luyện mô hình xong, các thí sinh cần:

1. **Dự đoán trên tập validation** và lưu kết quả
2. **Tính toán các metrics** đánh giá chính:
   - **Dice Coefficient**: Đo độ tương đồng giữa prediction và ground truth
   - **IoU (Intersection over Union)**: Tỷ lệ giao và hợp của hai mask
   - **F1-Score**: Harmonic mean của precision và recall

3. **Tạo visualization** cho 5 samples ngẫu nhiên từ tập validation
4. **Implement XAI** để tạo attention heatmap

### Công thức tính metrics:

**Dice Coefficient:**
$$Dice = \frac{2|A \cap B|}{|A| + |B|}$$

**IoU:**
$$IoU = \frac{|A \cap B|}{|A \cup B|}$$

**F1-Score:**
$$F1 = \frac{2 \times Precision \times Recall}{Precision + Recall}$$

### Yêu cầu visualization:
- Hiển thị ảnh gốc, ground truth mask, predicted mask, và overlay
- Tạo heatmap XAI (GradCAM) để minh hoạ vùng chú ý của model
- Lưu 5 kết quả visualization tốt nhất vào `/kaggle/working/predictions/`
- So sánh prediction với ground truth trên validation set


In [None]:
# Ví dụ code đánh giá metrics và visualization
import numpy as np
import matplotlib.pyplot as plt
import cv2
import os

def calculate_dice(pred_mask, true_mask):
    """Tính Dice Coefficient"""
    intersection = np.logical_and(pred_mask, true_mask).sum()
    union = pred_mask.sum() + true_mask.sum()
    dice = (2.0 * intersection) / union
    return dice

def calculate_iou(pred_mask, true_mask):
    """Tính IoU"""
    intersection = np.logical_and(pred_mask, true_mask).sum()
    union = np.logical_or(pred_mask, true_mask).sum()
    iou = intersection / union
    return iou

def calculate_f1(pred_mask, true_mask):
    """Tính F1-Score"""
    precision = np.logical_and(pred_mask, true_mask).sum() / pred_mask.sum()
    recall = np.logical_and(pred_mask, true_mask).sum() / true_mask.sum()
    f1 = 2 * precision * recall / (precision + recall)
    return f1

# Ví dụ visualization với dataset đã xử lý
def visualize_results(image, true_mask, pred_mask, save_path=None):
    """Tạo visualization kết quả"""
    fig, axes = plt.subplots(1, 4, figsize=(16, 4))
    
    # Ảnh gốc
    axes[0].imshow(image)
    axes[0].set_title('Ảnh gốc')
    axes[0].axis('off')
    
    # Ground truth mask
    axes[1].imshow(true_mask, cmap='gray')
    axes[1].set_title('Ground Truth')
    axes[1].axis('off')
    
    # Predicted mask
    axes[2].imshow(pred_mask, cmap='gray')
    axes[2].set_title('Prediction')
    axes[2].axis('off')
    
    # Overlay prediction trên ảnh gốc
    overlay = image.copy()
    overlay[pred_mask > 0.5] = [255, 0, 0]  # Đỏ cho prediction
    axes[3].imshow(overlay)
    axes[3].set_title('Overlay')
    axes[3].axis('off')
    
    # Tính metrics
    dice = calculate_dice(pred_mask > 0.5, true_mask > 0.5)
    iou = calculate_iou(pred_mask > 0.5, true_mask > 0.5)
    f1 = calculate_f1(pred_mask > 0.5, true_mask > 0.5)
    
    # Thêm metrics vào title
    fig.suptitle(f'Dice: {dice:.3f}, IoU: {iou:.3f}, F1: {f1:.3f}', fontsize=14)
    
    plt.tight_layout()
    
    if save_path:
        plt.savefig(save_path, dpi=300, bbox_inches='tight')
        print(f"Visualization đã được lưu tại: {save_path}")
    
    plt.show()

# Ví dụ sử dụng với dataset đã xử lý
print("📊 Ví dụ sử dụng metrics và visualization:")
print("✅ Các hàm calculate_dice, calculate_iou, calculate_f1 đã được định nghĩa")
print("✅ Hàm visualize_results đã được định nghĩa")
print("🎯 Sẵn sàng để sử dụng với dataset đã xử lý trên Kaggle!")
