In [None]:
import os
import json
import matplotlib.pyplot as plt
import pandas as pd

# Định nghĩa đường dẫn
DATASET_PATH = "/kaggle/input/btxrd-data/BTXRD/BTXRD/Annotations"

# Lấy danh sách file JSON
json_files = [file for file in os.listdir(DATASET_PATH) if file.endswith(".json")]

# Nhãn khối u ác tính
MALIGNANT_LABELS = set(map(str.lower, [
    "osteosarcoma", "ewing's sarcoma", "chondrosarcoma", "leiomyosarcoma",
    "malignant", "metastatic", "plasmacytoma",
    "giant cell tumor", "undifferentiated pleomorphic sarcoma"
]))

# Biến đếm
benign_count = 0
malignant_count = 0
malignant_detail_counts = {label: 0 for label in MALIGNANT_LABELS}

# Duyệt qua từng file JSON
for file in json_files:
    with open(os.path.join(DATASET_PATH, file), "r") as f:
        data = json.load(f)
    
    # Kiểm tra nhãn
    for shape in data.get("shapes", []):
        label = shape.get("label", "").lower()
        found = False
        for m_label in MALIGNANT_LABELS:
            if m_label in label:
                malignant_count += 1
                malignant_detail_counts[m_label] += 1
                found = True
                break
        if not found:
            benign_count += 1

# In kết quả
print(f"Tổng số khối u lành tính: {benign_count}")
print(f"Tổng số khối u ác tính: {malignant_count}")

# Xuất bảng thống kê
stats_df = pd.DataFrame({
    "Loại khối u": ["Lành tính", "Ác tính"],
    "Số lượng": [benign_count, malignant_count]
})
print(stats_df)

# Xuất bảng thống kê chi tiết các loại khối u ác tính
malignant_df = pd.DataFrame(list(malignant_detail_counts.items()), columns=["Loại khối u ác tính", "Số lượng"])
print(malignant_df)

# Vẽ biểu đồ hình tròn
labels = ['Benign (Lành tính)', 'Malignant (Ác tính)']
values = [benign_count, malignant_count]
colors = ['green', 'red']

plt.figure(figsize=(6, 6))
plt.pie(values, labels=labels, autopct='%1.1f%%', colors=colors, startangle=90, counterclock=False)
plt.title("Tỷ lệ khối u lành tính và ác tính")
plt.show()

# Vẽ biểu đồ thanh cho từng loại khối u ác tính
plt.figure(figsize=(10, 6))
plt.bar(malignant_df["Loại khối u ác tính"], malignant_df["Số lượng"], color='red')
plt.xlabel("Loại khối u ác tính")
plt.ylabel("Số lượng")
plt.title("Phân bố các loại khối u ác tính")
plt.xticks(rotation=45, ha="right")
plt.show()