### **數據集來源**

[CelebFaces Attributes (CelebA) Dataset](https://www.kaggle.com/datasets/jessicali9530/celeba-dataset?resource=download)

### **刪除 CelebA 資料集的一部分**

當你隨機選擇一半的圖像並將其保留時，必須同步更新與這些圖像對應的標註文件，也就是說，必須刪除不再使用的圖像對應的標註，確保 `.csv` 文件中的記錄與你選擇保留的圖像一致。

---

### **同步刪除 `.csv` 文件中的標註**

CelebA 資料集中的四個 `.csv` 文件對應著不同的標註信息：

1. **`list_attr_celeba.csv`**：包含每張圖片的屬性標註（如性別、眼鏡等）。
2. **`list_bbox_celeba.csv`**：包含每張圖片的邊界框標註（即人臉位置）。
3. **`list_eval_partition.csv`**：包含每張圖片所屬的分區（訓練集、驗證集、測試集）。
4. **`list_landmarks_align_celeba.csv`**：包含每張圖片的五個面部特徵點（如眼睛、鼻子、嘴等）。

當你只保留一部分圖像後，需要同步過濾這四個 `.csv` 文件中的數據。

### **驗證同步處理結果**

在處理完圖片和 `.csv` 文件後，建議檢查以下幾點：
- **圖片數量一致**：確保篩選後的圖片數量與 `.csv` 文件中的記錄數一致。
- **文件對應正確**：確認篩選後的圖片文件名與 `.csv` 中的 `image_id` 一致。

---

### **總結**

- 當你刪除了一部分圖像時，必須同步更新所有的 `.csv` 標註文件，確保這些文件只包含保留下來的圖片的標註。
- 使用 Python 和 Pandas 可以輕鬆過濾和同步更新標註文件，並保存過濾後的新文件。

### **打印所有 `.csv` 文件的列名**

```python
import pandas as pd

# 讀取 CelebA 的四個 .csv 文件
attr_df = pd.read_csv('list_attr_celeba.csv')
bbox_df = pd.read_csv('list_bbox_celeba.csv')
eval_partition_df = pd.read_csv('list_eval_partition.csv')
landmarks_df = pd.read_csv('list_landmarks_align_celeba.csv')

# 打印每個 .csv 文件的列名
print("list_attr_celeba.csv 列名:", attr_df.columns.tolist())
print("list_bbox_celeba.csv 列名:", bbox_df.columns.tolist())
print("list_eval_partition.csv 列名:", eval_partition_df.columns.tolist())
print("list_landmarks_align_celeba.csv 列名:", landmarks_df.columns.tolist())
```

### 解釋：
- **`pd.read_csv()`**：用來讀取每個 `.csv` 文件。
- **`df.columns.tolist()`**：用來獲取 DataFrame 的列名，並將其轉換為列表格式，方便打印。

### 結果：
這段代碼會打印出所有四個 `.csv` 文件的列名，這樣你就能知道每個文件的正確列名，並根據這些列名進行篩選操作。

In [2]:
import pandas as pd

# 讀取 CelebA 的四個 .csv 文件
attr_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_attr_celeba.csv")
bbox_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_bbox_celeba.csv")
eval_partition_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_eval_partition.csv")
landmarks_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_landmarks_align_celeba.csv")

# 打印每個 .csv 文件的列名
print("list_attr_celeba.csv 列名:", attr_df.columns.tolist())
print("list_bbox_celeba.csv 列名:", bbox_df.columns.tolist())
print("list_eval_partition.csv 列名:", eval_partition_df.columns.tolist())
print("list_landmarks_align_celeba.csv 列名:", landmarks_df.columns.tolist())


list_attr_celeba.csv 列名: ['image_id', '5_o_Clock_Shadow', 'Arched_Eyebrows', 'Attractive', 'Bags_Under_Eyes', 'Bald', 'Bangs', 'Big_Lips', 'Big_Nose', 'Black_Hair', 'Blond_Hair', 'Blurry', 'Brown_Hair', 'Bushy_Eyebrows', 'Chubby', 'Double_Chin', 'Eyeglasses', 'Goatee', 'Gray_Hair', 'Heavy_Makeup', 'High_Cheekbones', 'Male', 'Mouth_Slightly_Open', 'Mustache', 'Narrow_Eyes', 'No_Beard', 'Oval_Face', 'Pale_Skin', 'Pointy_Nose', 'Receding_Hairline', 'Rosy_Cheeks', 'Sideburns', 'Smiling', 'Straight_Hair', 'Wavy_Hair', 'Wearing_Earrings', 'Wearing_Hat', 'Wearing_Lipstick', 'Wearing_Necklace', 'Wearing_Necktie', 'Young']
list_bbox_celeba.csv 列名: ['image_id', 'x_1', 'y_1', 'width', 'height']
list_eval_partition.csv 列名: ['image_id', 'partition']
list_landmarks_align_celeba.csv 列名: ['image_id', 'lefteye_x', 'lefteye_y', 'righteye_x', 'righteye_y', 'nose_x', 'nose_y', 'leftmouth_x', 'leftmouth_y', 'rightmouth_x', 'rightmouth_y']


根據需求，進行**人臉識別**以及**偵測人臉和性別**，挑選最相關的列名。

### 1. **`list_attr_celeba.csv`** - 屬性標註
這個文件包含性別和其他外觀特徵。
- **`image_id`**：圖片的唯一標識符，對應每張圖片。
- **`Male`**：性別標註，1 代表男性，-1 代表女性。

### 2. **`list_bbox_celeba.csv`** - 邊界框
這個文件包含每張圖片中人臉的邊界框，對於偵測人臉是非常重要的。
- **`image_id`**：圖片的唯一標識符。
- **`x_1`**：邊界框左上角的 x 坐標。
- **`y_1`**：邊界框左上角的 y 坐標。
- **`width`**：邊界框的寬度。
- **`height`**：邊界框的高度。

---

In [4]:
import os
import random
import pandas as pd
import shutil

# 圖片文件夾路徑
image_folder = r"C:\Users\cgiks\Downloads\img_align_celeba\img_align_celeba"
all_images = os.listdir(image_folder)

# 使用 round 函數選擇數據集總數的 0.5% 圖片
one_percent_count = round(len(all_images) / 200)  

# 隨機選擇 0.5% 圖片
random.seed(42)
selected_images = random.sample(all_images, one_percent_count)

# 去掉擴展名，獲取圖像 ID
# selected_image_ids = [img.split('.')[0] for img in selected_images]
# 在原始 .csv 文件中，image_id 是以 .jpg 結尾的（如 000001.jpg），而在篩選條件中沒有 .jpg 的版本（如 000001）。這會導致在篩選後的 .csv 文件中找不到匹配的 image_id。因此，我們應該保留擴展名，以匹配原始 csv 中的格式

# 保留擴展名，以匹配原始 csv 中的格式
selected_image_ids = [img for img in selected_images]

# 複製選擇的圖像到指定路徑
output_image_folder = r'D:\Learning_Python\30-Day AI Deep Learning Plan\第3週：物件檢測與 YOLO\Day17\images'
os.makedirs(output_image_folder, exist_ok=True)

for img in selected_images:
    shutil.copy(os.path.join(image_folder, img), os.path.join(output_image_folder, img))

# 讀取 CelebA 的四個 .csv 文件
attr_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_attr_celeba.csv")
bbox_df = pd.read_csv(r"C:\Users\cgiks\Downloads\list_bbox_celeba.csv")

# 過濾出已選擇的圖片 ID，並只保留 'image_id' 和 'Male' 列
attr_df_filtered = attr_df[attr_df['image_id'].isin(selected_image_ids)][['image_id', 'Male']]

# 過濾出已選擇的圖片 ID，並只保留 'image_id'、'x_1'、'y_1'、'width' 和 'height' 列
bbox_df_filtered = bbox_df[bbox_df['image_id'].isin(selected_image_ids)][['image_id', 'x_1', 'y_1', 'width', 'height']]

# 指定輸出路徑並保存過濾後的文件
output_csv_folder = r'D:\Learning_Python\30-Day AI Deep Learning Plan\第3週：物件檢測與 YOLO\Day17\csv'
os.makedirs(output_csv_folder, exist_ok=True)

# 保存過濾後的 .csv 文件到指定路徑
attr_df_filtered.to_csv(os.path.join(output_csv_folder, 'filtered_list_attr_celeba.csv'), index=False)
bbox_df_filtered.to_csv(os.path.join(output_csv_folder, 'filtered_list_bbox_celeba.csv'), index=False)


接下來你需要將過濾後的資料轉換為 **YOLO 格式**，以便進行物體檢測模型的訓練。

### YOLO 格式說明：

在 YOLO 中，每張圖片的標註會存儲在一個對應的 `.txt` 文件中，每行代表一個物體的邊界框和類別。格式如下：

```
<class_id> <x_center> <y_center> <width> <height>
```

- **`class_id`**：物體的類別 ID，例如：0 代表女性，1 代表男性。
- **`x_center`**、**`y_center`**：邊界框的中心座標（相對於圖片寬高進行歸一化，即 0 到 1 之間的值）。
- **`width`**、**`height`**：邊界框的寬度和高度（相對於圖片寬高進行歸一化）。

### 轉換邏輯：

1. **從過濾後的 `.csv` 文件中讀取資料**。
2. **計算中心座標**（`x_center`, `y_center`）並將寬度和高度進行歸一化。
3. **生成對應的 `.txt` 文件**，其中每行代表圖片中的一個物體。

### 代碼：

假設你已經過濾出了 `bbox_df_filtered`（人臉邊界框資料）和 `attr_df_filtered`（性別標註），你可以按照以下步驟將資料轉換為 YOLO 格式。

### 說明：
- **`x_center`** 和 **`y_center`**：是邊界框的中心點座標，並且經過歸一化（除以圖片的寬和高）。
- **`norm_width`** 和 **`norm_height`**：是邊界框的寬度和高度，也需要經過歸一化。
- **`class_id`**：`1` 代表男性，`0` 代表女性。
- **`.txt` 文件命名**：每個 `.txt` 文件與圖片名一致，但擴展名為 `.txt`，用來存儲每張圖片的標註。

### 生成的文件：
- 每張圖片都會有一個對應的 `.txt` 文件，存放該圖片的標註資訊。
- `.txt` 文件中的每一行表示一個邊界框，格式為 `<class_id> <x_center> <y_center> <width> <height>`，並且所有值都經過歸一化。

### YOLO 訓練的準備：
1. **圖片**：將圖片存放在一個資料夾中，例如 `images/`。
2. **標註文件**：將對應的 YOLO 格式標註存放在 `labels/` 資料夾中。
3. **資料集配置**：創建一個 `.yaml` 文件來描述數據集，包括路徑和類別數。


In [3]:
import os
import pandas as pd

output_txt_folder = r'D:\Learning_Python\30-Day AI Deep Learning Plan\第3週：物件檢測與 YOLO\Day17\labels'
os.makedirs(output_txt_folder, exist_ok=True)

# 載入過濾後的 .csv 文件
bbox_df_filtered = pd.read_csv(r'D:\Learning_Python\30-Day AI Deep Learning Plan\第3週：物件檢測與 YOLO\Day17\csv\filtered_list_bbox_celeba.csv')
attr_df_filtered = pd.read_csv(r'D:\Learning_Python\30-Day AI Deep Learning Plan\第3週：物件檢測與 YOLO\Day17\csv\filtered_list_attr_celeba.csv')

# 合併兩個資料框，基於 image_id 進行聯合
merged_df = pd.merge(bbox_df_filtered, attr_df_filtered, on='image_id')

# 依次處理每張圖片，轉換為 YOLO 格式
for index, row in merged_df.iterrows():
    image_id = row['image_id']
    
    # 邊界框坐標和尺寸
    x_1 = row['x_1']
    y_1 = row['y_1']
    width = row['width']
    height = row['height']
    
    # 圖片尺寸 (CelebA 的圖片尺寸是固定的 178x218)
    img_width = 178
    img_height = 218
    
    # 計算邊界框的中心座標和歸一化寬度、高度
    x_center = (x_1 + width / 2) / img_width
    y_center = (y_1 + height / 2) / img_height
    norm_width = width / img_width
    norm_height = height / img_height
    
    # 性別標註 (1 代表男性, -1 代表女性，因此我們可以將 1 映射為 1，-1 映射為 0)
    class_id = 1 if row['Male'] == 1 else 0
    
    # 將 YOLO 格式的標註寫入對應的 .txt 文件
    label_txt_file = os.path.join(output_txt_folder, f"{image_id.split('.')[0]}.txt")
    
    with open(label_txt_file, 'w') as f:
        # YOLO 格式：<class_id> <x_center> <y_center> <width> <height>
        f.write(f"{class_id} {x_center:.6f} {y_center:.6f} {norm_width:.6f} {norm_height:.6f}\n")
