In [2]:
dataset = [
{"name": "img1.png", "label": "benign", "blurriness": 0.4, "similarity": 0.92},
{"name": "img2.png", "label": None, "blurriness": 0.6, "similarity": 0.95},
{"name": "img3.png", "label": "malignant", "blurriness": 0.3, "similarity": 0.84},
{"name": "img4.png", "label": None, "blurriness": 0.5, "similarity": 0.88}
]

### Bước 1

In [6]:
def find_unlabeled(dataset):
    missing_label = []

    for i in range(len(dataset)):
        if dataset[i]['label'] is None: 
            missing_label.append(i)
    return missing_label

print(find_unlabeled(dataset))

[1, 3]


### Bước 2

In [7]:
def sort_by_blurriness(dataset):
    n = len(dataset)
    for i in range(n):
        swapped = False
        for j in range(0, n - i - 1):
            if dataset[j]['blurriness'] > dataset[j+1]['blurriness']:
                dataset[j], dataset[j+1] = dataset[j+1], dataset[j]
                swapped = True
        if not swapped:
            break
    return dataset

sorted_imgs = sort_by_blurriness(dataset)
print([img['name'] for img in sorted_imgs])

['img3.png', 'img1.png', 'img4.png', 'img2.png']


### Bước 3

In [10]:
def exists_similar_image(dataset, threshold):
    left, right = 0, len(dataset) - 1
    while left <= right: 
        mid = (left + right) // 2
        if dataset[mid]['similarity'] > threshold:
            return True
        else: 
            right = mid - 1
    return False

print(exists_similar_image(dataset, 0.9))

True


### Mở rộng

In [11]:
def log_low_quality_images(dataset, blurriness_threshold, similarity_threshold, filename="low_quality_images.txt"):
    with open(filename, "w") as f:
        for img in dataset:
            # Kiểm tra hình ảnh có độ mờ cao hoặc độ tương đồng thấp
            if img['blurriness'] > blurriness_threshold or img['similarity'] < similarity_threshold:
                f.write(f"Tên ảnh: {img['name']}, Độ mờ: {img['blurriness']}, Độ tương đồng: {img['similarity']}\n")
    
    return f"Đã ghi log vào file {filename}"

# Sử dụng hàm
log_low_quality_images(dataset, blurriness_threshold=0.5, similarity_threshold=0.85)

'Đã ghi log vào file low_quality_images.txt'

In [12]:
def check_duplicate_images(dataset, similarity_threshold=0.95, name_similarity_ratio=0.8):
    duplicates = []
    
    # Duyệt qua từng cặp ảnh
    for i in range(len(dataset)):
        for j in range(i+1, len(dataset)):
            img1 = dataset[i]
            img2 = dataset[j]
            
            # Kiểm tra độ tương đồng và độ tương tự của tên tệp
            name_similarity = len(set(img1['name']) & set(img2['name'])) / max(len(img1['name']), len(img2['name']))
            
            if img1['similarity'] >= similarity_threshold and name_similarity >= name_similarity_ratio:
                duplicates.append((img1['name'], img2['name'], img1['similarity'], name_similarity))
    
    return duplicates

# Sử dụng hàm
duplicates = check_duplicate_images(dataset)
print(f"Số lượng cặp ảnh trùng: {len(duplicates)}")
for pair in duplicates:
    print(f"Ảnh 1: {pair[0]}, Ảnh 2: {pair[1]}, Độ tương đồng: {pair[2]}, Độ tương tự tên: {pair[3]:.2f}")

Số lượng cặp ảnh trùng: 0


In [13]:
def generate_report(dataset):
    # Khởi tạo số liệu thống kê
    total_images = len(dataset)
    unlabeled_images = sum(1 for img in dataset if img['label'] is None)
    high_blurriness = sum(1 for img in dataset if img['blurriness'] > 0.5)
    high_similarity = sum(1 for img in dataset if img['similarity'] > 0.9)
    
    # Danh sách các ảnh theo từng loại
    unlabeled_list = [img['name'] for img in dataset if img['label'] is None]
    blurry_list = [img['name'] for img in dataset if img['blurriness'] > 0.5]
    similar_list = [img['name'] for img in dataset if img['similarity'] > 0.9]
    
    # Tạo báo cáo
    report = {
        "tổng_số_ảnh": total_images,
        "ảnh_chưa_gán_nhãn": {
            "số_lượng": unlabeled_images,
            "danh_sách": unlabeled_list
        },
        "ảnh_mờ": {
            "số_lượng": high_blurriness,
            "danh_sách": blurry_list
        },
        "ảnh_tương_đồng_cao": {
            "số_lượng": high_similarity,
            "danh_sách": similar_list
        }
    }
    
    return report

# Sử dụng hàm
report = generate_report(dataset)
print("BÁO CÁO TỔNG HỢP:")
print(f"Tổng số ảnh: {report['tổng_số_ảnh']}")
print(f"Số ảnh chưa gán nhãn: {report['ảnh_chưa_gán_nhãn']['số_lượng']}")
print(f"Danh sách ảnh chưa gán nhãn: {report['ảnh_chưa_gán_nhãn']['danh_sách']}")
print(f"Số ảnh mờ: {report['ảnh_mờ']['số_lượng']}")
print(f"Danh sách ảnh mờ: {report['ảnh_mờ']['danh_sách']}")
print(f"Số ảnh tương đồng cao: {report['ảnh_tương_đồng_cao']['số_lượng']}")
print(f"Danh sách ảnh tương đồng cao: {report['ảnh_tương_đồng_cao']['danh_sách']}")

BÁO CÁO TỔNG HỢP:
Tổng số ảnh: 4
Số ảnh chưa gán nhãn: 2
Danh sách ảnh chưa gán nhãn: ['img4.png', 'img2.png']
Số ảnh mờ: 1
Danh sách ảnh mờ: ['img2.png']
Số ảnh tương đồng cao: 2
Danh sách ảnh tương đồng cao: ['img1.png', 'img2.png']
