# Read number files in dataset

In [13]:
from functions import count_images_in_subfolders
folder_path = r'E:\NCKH\dataset\train'
df_train = count_images_in_subfolders(folder_path) # 19089 
df_train

{'normal': 2727,
 'oa_doubtful': 1428,
 'oa_mild': 1702,
 'oa_moderate': 934,
 'oa_severe': 338,
 'osteopenia': 124,
 'osteoporosis': 40}

In [14]:
sum(df_train.values())

7293

In [16]:
folder_path = r'E:\NCKH\dataset\test'
df_train = count_images_in_subfolders(folder_path) # 19089 
df_train

{'normal': 748,
 'oa_doubtful': 391,
 'oa_mild': 493,
 'oa_moderate': 267,
 'oa_severe': 92,
 'osteopenia': 30,
 'osteoporosis': 9}

# Solve imbalance dataset
## Oversampling, Data Augmentation và Resample with Different Ratios

### Oversampling

* **Mục tiêu:** Cân bằng lại tập dữ liệu bằng cách tăng số lượng mẫu trong lớp thiểu số.
* **Phương pháp:**
  * **Random oversampling:** Sao chép ngẫu nhiên các mẫu.
  * **SMOTE:** Tạo các mẫu tổng hợp mới dựa trên các mẫu lân cận.
* **Ưu điểm:** Giúp mô hình học tốt hơn các đặc trưng của lớp thiểu số.
* **Nhược điểm:** Có thể dẫn đến overfitting.

### Data Augmentation

* **Mục tiêu:** Tăng số lượng mẫu bằng cách tạo các biến thể của dữ liệu hiện có.
* **Phương pháp:**
  * Xoay, lật ảnh
  * Thay đổi độ sáng, độ tương phản
  * Thêm nhiễu
* **Ưu điểm:** Cải thiện khả năng tổng quát hóa của mô hình.
* **Nhược điểm:** Không phù hợp với mọi loại dữ liệu.

### Resample with Different Ratios

* **Mục tiêu:** Điều chỉnh tỷ lệ giữa các lớp trong tập dữ liệu.
* **Phương pháp:**
  * **Oversampling:** Tăng số lượng mẫu trong lớp thiểu số.
  * **Undersampling:** Giảm số lượng mẫu trong lớp đa số.
  * **Kết hợp:** Vừa tăng, vừa giảm số lượng mẫu.
* **Ưu điểm:** Linh hoạt trong việc điều chỉnh tỷ lệ.
* **Nhược điểm:** Cần chọn tỷ lệ phù hợp để tránh mất thông tin.

In [1]:
import os
import shutil
import random

# Đường dẫn đến thư mục dữ liệu gốc
folder_path = r'E:\NCKH\dataset\train'
output_folder = r'E:\NCKH\dataOversampling'
def Oversampling(folder_path, output_folder):
    # Tạo thư mục data1 nếu chưa có
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Hàm đếm số lượng ảnh trong thư mục
    def count_images_in_folder(folder):
        return len([f for f in os.listdir(folder) if os.path.isfile(os.path.join(folder, f))])

    # Lấy số lượng ảnh của tất cả các thư mục con
    class_counts = {}
    for subfolder in os.listdir(folder_path):
        subfolder_path = os.path.join(folder_path, subfolder)
        if os.path.isdir(subfolder_path):
            class_counts[subfolder] = count_images_in_folder(subfolder_path)

    # Tìm lớp có nhiều ảnh nhất
    max_count = max(class_counts.values())

    # Thực hiện oversampling cho các lớp có số lượng ảnh ít hơn
    for subfolder, count in class_counts.items():
        subfolder_path = os.path.join(folder_path, subfolder)
        output_subfolder_path = os.path.join(output_folder, subfolder)

        # Tạo thư mục tương ứng trong thư mục output
        if not os.path.exists(output_subfolder_path):
            os.makedirs(output_subfolder_path)

        # Sao chép tất cả các ảnh gốc sang thư mục mới
        for filename in os.listdir(subfolder_path):
            file_path = os.path.join(subfolder_path, filename)
            if os.path.isfile(file_path):
                shutil.copy(file_path, os.path.join(output_subfolder_path, filename))

        # Nếu số lượng ảnh ít hơn max_count, ta sẽ sao chép ngẫu nhiên các ảnh để đạt max_count
        if count < max_count:
            all_files = [f for f in os.listdir(output_subfolder_path) if os.path.isfile(os.path.join(output_subfolder_path, f))]
            while len(all_files) < max_count:
                file_to_copy = random.choice(all_files)
                new_file_name = f"copy_{len(all_files)}_" + file_to_copy
                shutil.copy(os.path.join(output_subfolder_path, file_to_copy), os.path.join(output_subfolder_path, new_file_name))
                all_files = [f for f in os.listdir(output_subfolder_path) if os.path.isfile(os.path.join(output_subfolder_path, f))]
                             
                             
Oversampling(folder_path, output_folder)
print(f"Data oversampled successfully in folder: {output_folder}")


Data oversampled successfully in folder: E:\NCKH\dataOversampling


In [10]:
from functions import count_images_in_subfolders

df = count_images_in_subfolders(output_folder) # 19089 
df

{'normal': 2727,
 'oa_doubtful': 2727,
 'oa_mild': 2727,
 'oa_moderate': 2727,
 'oa_severe': 2727,
 'osteopenia': 2727,
 'osteoporosis': 2727}

In [12]:
total = sum(df.values())
total

19089

| Folder        | normal | oa_doubtful | oa_mild | oa_moderate | oa_severe | osteopenia | osteoporosis | Sum   |
|---------------|--------|-------------|---------|-------------|-----------|------------|---------------|-------|
| dataset       | 2727   | 1428        | 1702    | 934         | 338       | 124        | 40            | 7293  |
| data1         | 2727   | 2727        | 2727    | 2727        | 2727      | 2727       | 2727          | 19089 |


## data agumentation

In [1]:
import os
import random
from PIL import Image, ImageEnhance
import shutil

# Đường dẫn đến thư mục gốc chứa dữ liệu
folder_path = r'E:\NCKH\dataset\train'
# Thư mục để lưu ảnh đã tăng cường
output_folder = r'E:\NCKH\dataAugmentation'

# Các định dạng file ảnh cần xử lý
image_extensions = ('.jpg', '.jpeg', '.png', '.bmp', '.tiff')

# Ngưỡng cho việc tăng cường mẫu
threshold = 1500

# Hàm thực hiện augmentation cho một ảnh
def augment_image(image):
    # Xoay ảnh ngẫu nhiên từ 0 đến 360 độ
    angle = random.randint(0, 360)
    image = image.rotate(angle)
    
    # Thay đổi độ sáng ngẫu nhiên
    enhancer = ImageEnhance.Brightness(image)
    brightness_factor = random.uniform(0.5, 1.5)  # Giới hạn độ sáng
    image = enhancer.enhance(brightness_factor)
    
    # Lật ảnh ngẫu nhiên theo chiều ngang
    if random.choice([True, False]):
        image = image.transpose(Image.FLIP_LEFT_RIGHT)
    
    return image

def dataAugmentation(folder_path, output_folder):
    # Tạo thư mục output nếu chưa tồn tại
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Duyệt qua các thư mục con trong thư mục gốc
    for subfolder in os.listdir(folder_path):
        subfolder_path = os.path.join(folder_path, subfolder)
        
        if os.path.isdir(subfolder_path):
            # Đếm số lượng ảnh trong thư mục con
            image_count = len([f for f in os.listdir(subfolder_path) if f.lower().endswith(image_extensions)])
            
            # Tạo thư mục con tương ứng trong thư mục output
            output_subfolder = os.path.join(output_folder, subfolder)
            os.makedirs(output_subfolder, exist_ok=True)

            # Kiểm tra số lượng ảnh với ngưỡng
            if image_count < threshold:
                # Tính số lượng ảnh cần tăng cường
                num_to_augment = threshold - image_count
                
                # Sao chép tất cả ảnh gốc vào thư mục output
                for filename in os.listdir(subfolder_path):
                    if filename.lower().endswith(image_extensions):
                        img_path = os.path.join(subfolder_path, filename)
                        shutil.copy(img_path, output_subfolder)  # Sao chép ảnh gốc vào thư mục mới
                
                # Tạo ảnh tăng cường cho đến khi đạt ngưỡng
                augmented_count = 0  # Số lượng ảnh đã tăng cường
                while augmented_count < num_to_augment:
                    for filename in os.listdir(output_subfolder):
                        if augmented_count >= num_to_augment:
                            break  # Dừng lại nếu đã đủ số lượng ảnh cần tăng cường
                        
                        if filename.lower().endswith(image_extensions):
                            # Đọc ảnh đã sao chép
                            img_path = os.path.join(output_subfolder, filename)
                            image = Image.open(img_path)

                            # Tăng cường ảnh
                            augmented_image = augment_image(image)
                            augmented_image.save(os.path.join(output_subfolder, f'augmented_{filename}_{augmented_count}.png'))
                            augmented_count += 1  # Tăng số lượng ảnh đã tăng cường

            else:
                # Nếu số lượng ảnh lớn hơn ngưỡng, chỉ cần sao chép
                for filename in os.listdir(subfolder_path):
                    if filename.lower().endswith(image_extensions):
                        img_path = os.path.join(subfolder_path, filename)
                        shutil.copy(img_path, output_subfolder)  # Sao chép ảnh gốc vào thư mục mới

    print("Data augmentation hoàn tất!")

# Gọi hàm thực hiện tăng cường dữ liệu
dataAugmentation(folder_path, output_folder)


Data augmentation hoàn tất!


In [2]:
from functions import count_images_in_subfolders
output_folder = r'E:\NCKH\dataAugmentation'
df_1 = count_images_in_subfolders(output_folder) # 19089 
df_1

{'normal': 2727,
 'oa_doubtful': 1500,
 'oa_mild': 1702,
 'oa_moderate': 1500,
 'oa_severe': 1500,
 'osteopenia': 1500,
 'osteoporosis': 1500}

| Folder            | normal | oa_doubtful | oa_mild | oa_moderate | oa_severe | osteopenia | osteoporosis | Sum   | Size|
|-------------------|--------|-------------|---------|-------------|-----------|------------|---------------|-------|--------|
| datasetOriginal           | 2727   | 1428        | 1702    | 934         | 338       | 124        | 40            | 7293  | 400Mb|
| dataOversampling             | 2727   | 2727        | 2727    | 2727        | 2727      | 2727       | 2727          | 19089 | 5GB|
| dataAugmentation  | 2727   | 1500        | 1702    | 1500        | 1500      | 1500       | 1500          | 11929 | 4.3GB|
