In [7]:
import os
import cv2
import numpy as np
import random

def preprocess_chest_xray(image_path, output_dir, target_size=(256, 256), sample_count=2500):
    """
    Tiền xử lý ảnh X-quang ngực:
    1. Khử nhiễu bằng Gaussian.
    2. Chuyển sang ảnh nhị phân bằng Otsu.
    3. Xác định và trích vùng trọng tâm.
    4. Resize và lưu ảnh.
    """
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    image_files = [f for f in os.listdir(image_path) if f.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.tiff'))]

    if len(image_files) > sample_count:
        sampled_files = random.sample(image_files, sample_count)
    else:
        sampled_files = image_files
        print(f"Chỉ tìm thấy {len(image_files)} ảnh trong {image_path}, sẽ xử lý toàn bộ.")

    print(f"Đang xử lý {len(sampled_files)} ảnh trong {image_path}...")

    for i, image_file in enumerate(sampled_files):
        img_path = os.path.join(image_path, image_file)
        try:
            img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
            if img is None:
                print(f"Lỗi: Không đọc được ảnh: {img_path}. Bỏ qua.")
                continue

            blurred = cv2.GaussianBlur(img, (5, 5), 0)
            _, binary = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)

            num_labels, labels, stats, _ = cv2.connectedComponentsWithStats(binary, 8, cv2.CV_32S)
            max_area, max_label = 0, 0
            for label in range(1, num_labels):
                if stats[label, cv2.CC_STAT_AREA] > max_area:
                    max_area = stats[label, cv2.CC_STAT_AREA]
                    max_label = label

            if max_label != 0:
                x, y, w, h = (
                    stats[max_label, cv2.CC_STAT_LEFT],
                    stats[max_label, cv2.CC_STAT_TOP],
                    stats[max_label, cv2.CC_STAT_WIDTH],
                    stats[max_label, cv2.CC_STAT_HEIGHT]
                )
                cropped = img[y:y+h, x:x+w]
            else:
                print(f"Cảnh báo: Không tìm thấy vùng trọng tâm rõ ràng trong {image_file}. Dùng ảnh gốc.")
                cropped = img

            resized = cv2.resize(cropped, target_size, interpolation=cv2.INTER_AREA)
            output_filename = f"processed_{image_file}"
            cv2.imwrite(os.path.join(output_dir, output_filename), resized)

            if (i + 1) % 100 == 0 or (i + 1) == len(sampled_files):
                print(f"Đã xử lý {i + 1}/{len(sampled_files)} ảnh.")

        except Exception as e:
            print(f"Lỗi khi xử lý ảnh {img_path}: {e}")

    print(f"Hoàn tất xử lý {len(sampled_files)} ảnh trong {image_path}.")


# === Cấu hình và thực thi ===

base_dataset_path = "D:\my_chestxray_subset"
output_base_dir   = "D:\my_chestxray_subset_preprocessed"
num_samples_per_set = 2500
sub_datasets = ["images_001", "images_002", "images_003"]

for subset in sub_datasets:
    input_path = os.path.join(base_dataset_path, subset, "images")  # thêm 'images' ở cuối đường dẫn
    output_path = os.path.join(output_base_dir, subset)

    if os.path.exists(input_path):
        print(f"\nBắt đầu xử lý thư mục: {subset}")
        preprocess_chest_xray(input_path, output_path, sample_count=num_samples_per_set)
    else:
        print(f"Cảnh báo: Không tìm thấy thư mục {input_path}")

print("Tiền xử lý hoàn tất.")



Bắt đầu xử lý thư mục: images_001
Đang xử lý 2500 ảnh trong D:\my_chestxray_subset\images_001\images...
Đã xử lý 100/2500 ảnh.
Đã xử lý 200/2500 ảnh.
Đã xử lý 300/2500 ảnh.
Đã xử lý 400/2500 ảnh.
Đã xử lý 500/2500 ảnh.
Đã xử lý 600/2500 ảnh.
Đã xử lý 700/2500 ảnh.
Đã xử lý 800/2500 ảnh.
Đã xử lý 900/2500 ảnh.
Đã xử lý 1000/2500 ảnh.
Đã xử lý 1100/2500 ảnh.
Đã xử lý 1200/2500 ảnh.
Đã xử lý 1300/2500 ảnh.
Đã xử lý 1400/2500 ảnh.
Đã xử lý 1500/2500 ảnh.
Đã xử lý 1600/2500 ảnh.
Đã xử lý 1700/2500 ảnh.
Đã xử lý 1800/2500 ảnh.
Đã xử lý 1900/2500 ảnh.
Đã xử lý 2000/2500 ảnh.
Đã xử lý 2100/2500 ảnh.
Đã xử lý 2200/2500 ảnh.
Đã xử lý 2300/2500 ảnh.
Đã xử lý 2400/2500 ảnh.
Đã xử lý 2500/2500 ảnh.
Hoàn tất xử lý 2500 ảnh trong D:\my_chestxray_subset\images_001\images.

Bắt đầu xử lý thư mục: images_002
Đang xử lý 2500 ảnh trong D:\my_chestxray_subset\images_002\images...
Đã xử lý 100/2500 ảnh.
Đã xử lý 200/2500 ảnh.
Đã xử lý 300/2500 ảnh.
Đã xử lý 400/2500 ảnh.
Đã xử lý 500/2500 ảnh.
Đã xử lý 600