*Bài giới thiệu* **"Segmentation Gym"** *một phần mềm giúp xây dựng và thử nghiệm nhanh các mô hình phân đoạn ảnh địa chất dựa trên mạng UNet.*

github: https://github.com/Doodleverse/segmentation_gym

**Segmentation Gym** cung cấp một **pipeline Data-model** bao gồm **4 giai đoạn** chính:

![image.png](attachment:image.png)

# Model-Ready Data Set

1️⃣ Enter the **path to the images, labels** and **place to store** the output files.

* Hỗ trợ ảnh **3 channel (RGB)**, và **1 channel** (phổ, siêu phổ hoặc dải dữ liệu địa-vật lý), hoặc kết hợp cả **1-3 channel**

2️⃣ **Standardized**

$$ X_{std} = \frac{X - \mu}{\sigma} $$

3️⃣ **Resize**

* **Resize** both images and label to the **target dimension**
* Need larger: zero-padded
* Need smaller: shrunk then zero-padded

4️⃣ **Remapped** (optional)

Label, Encode lại class nếu cần thiếu (Có thể tách hoặc gộp các lớp)

5️⃣ **Augmentation** (optional)

*creates transformed version of the data*:
* rotation
* width
* height shift
* zoom
* vertical/ horizontal flips

> **Output**: Tensorflow Dataset hoặc Numpy npz

# Model building

*Sử dụng 2 họ chính: U-Net và Res U-Net*

**U-Net**

![image.png](attachment:image.png)

**Res U-Net**

![image.png](attachment:image.png)

**⭐️Đặc điểm U-Net**:
* Hoàn toàn tích chập (**fully convolutional**), không chứa lớp kết nối đầy đủ (fully connected layers) nào 
* **4 convolutional blocks**, mỗi block: **convolutional layers, Batch Normalization layers** connected by **ReLU** activations, **Dropout** (Optional)
* Mạng hình chữ "U"
* **Skip connection**: Cho phép thông tin từ nhánh **mã hóa truyền trực tiếp đến nhánh giải mã** tương ứng

**🌟 Res U-Net**:
* Tương tự **U-Net**
* **Khác biệt**: Đầu ra của mỗi tầng convolution được **cộng trực tiếp với đầu vào** trước khi đưa qua activation function (ReLU):
$$ y = f(x) + x $$

**🔗Architecture**:
* **Encoder**:
    * Chứa nhiều tầng convolutional để trích xuất đặc trưng
    * Sử dụng batch normalization, ReLU, pooling để giảm kích thước
* **Bottleneck**:
    * Lầ tầng sâu nhất, chứa các đặc trưng quan trọng nhất của ảnh đầu vào
* **Decoder**:
    * Dùng **upsampling** và **convolution** để khôi phục kích thước
    * Có **Skip connection** giúp kết hợp thông tin từ Encoder để tái tạo chính xác 

**⚙️Điều chỉnh kiến trúc mô hình**:
* Kernel
* Regularizing
* Filter
* stride length
* Dropout

# Model Training

* **Adam Optimizer**

* Variables specified in the configuration file:
    * **batch size** (recommend using the largest, available GPU memory allow)
    * **loss function**:
        * mean Dice: 
        $$ \text{Dice} = \frac{2|Y \cap \hat Y|}{|Y| + |\hat Y|} $$
        * Categorical Cross-entropy (**CCE**):  
        a measure of the difference between two distributions
        $$ \text{CCE} = -\sum_c Y_c \text{log}(\hat Y_c) $$
        * Kullback-Leibler distance (**KLD**)):
        measures divergence in class-probability distributions
        $$ \text{KLD} = \sum_c Y \text{log}(\frac{Y}{\hat{Y}}) $$
    * **learning rate**: Initial 

* **Learning Rate Scheduler**: specific learning rate như 1 hàm theo số epoch huấn luyện tuần tự:
    * Bắt đầu với giá trị nhỏ
    * Tăng nhanh đến tối đa
    * Giảm theo hàm mũ

* **Early stopping**: Model training stopped early when the validation loss didn't improve upon its previous best value for **10 epochs**.

# Model Evaluation

* mean IoU
$$ IoU = \frac{|Y\cap \hat{Y}|}{|Y| + |\hat{Y}| - |Y \cup \hat{Y}|} $$

* KLD
$$ \text{KLD} = \sum_c Y \text{log}(\frac{Y}{\hat{Y}}) $$

# Case study

* **419 coastal images from Landsat-8**
* classify pixel into 4 classes: **water, white-water, sand and other**
* experiment:
    * five different numbers of **model parameters**
    * three alternative **loss functions**
    * the use of **residual connections**

1️⃣ Model-ready dataset:
* group class: 11 $\rightarrow$ 4 classes
* Augmented 5 copies random (up to 5%):  
    * zoom 
    * rotation
    * width and height shift
    * horizontal flips
> Results: 2095  augmented image-label pairs

2️⃣Model building, 3️⃣Model trainning: total 30 models: 15 U-Net, 15 Res U-Net
* Each 15 include:
    * 3 **loss function**: Dice, CCE, KLD
    * 5 number of **convolution filters**: 2, 4, 6, 8 and 12
    * **Dropout** rate: 0.1 for each downsample layer
    * 7x7 **kernel** with **stride** of 2
    * **learning rate**: in range [1e-7, 1e-4]
    * **batch size**: 8
    

4️⃣ Evaluation

![image.png](attachment:image.png)