In [21]:
import cv2  # 匯入OpenCV庫，用於圖像處理
import numpy as np  # 匯入NumPy庫，用於數值計算
import os  # 匯入OS庫，用於操作系統相關功能
import random  # 匯入Random庫，用於隨機選擇

# 路徑設定
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 存放去背猴子圖片的資料夾路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background'  # 存放背景圖片的資料夾路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage'  # 存放合成後圖片的資料夾路徑

# 確保輸出資料夾存在，若不存在則創建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 獲取所有猴子圖片和背景圖片的路徑列表
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設定迴圈次數，即要生成的合成圖片數量
num_iterations = 10

# 開始迴圈，生成合成圖片
for i in range(num_iterations):
    # 隨機選取一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)  # 從monkey_images列表中隨機選取一個文件路徑
    background_img_path = random.choice(background_images)  # 從background_images列表中隨機選取一個文件路徑
    
    # 讀取圖片
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 讀取去背猴子圖片（包含alpha通道）
    background_img = cv2.imread(background_img_path)  # 讀取背景圖片

    # 檢查圖片是否成功讀取
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # 確保猴子圖片有alpha通道（即有透明度資訊）
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue  # 如果沒有alpha通道，跳過此圖片

    # 隨機設定縮放比例，根據背景圖片大小縮放猴子圖片
    scale_factor = random.uniform(0.5, 0.6)  # 隨機選取縮放比例
    bg_height, bg_width = background_img.shape[:2]  # 獲取背景圖片的高度和寬度
    monkey_height, monkey_width = monkey_img.shape[:2]  # 獲取猴子圖片的原始高度和寬度
    
    # 計算新的猴子圖片寬度和高度
    new_monkey_width = int(bg_width * scale_factor)  # 根據縮放比例計算新的猴子圖片寬度
    new_monkey_height = int(monkey_height * new_monkey_width / monkey_width)  # 按比例計算新的猴子圖片高度
    
    # 確保縮放後的猴子圖片不會超過背景圖片的大小
    if new_monkey_height > bg_height or new_monkey_width > bg_width:
        print(f'Resized monkey image is too large for background: {monkey_img_path}')
        continue  # 如果猴子圖片超出背景圖片，跳過此圖片
    
    # 縮放猴子圖片
    monkey_img_resized = cv2.resize(monkey_img, (new_monkey_width, new_monkey_height))  # 縮放猴子圖片

    # 確定猴子圖片的位置，隨機選擇貼圖位置
    max_x = bg_width - new_monkey_width  # 計算猴子圖片在背景圖片上的最大x坐標
    max_y = bg_height - new_monkey_height  # 計算猴子圖片在背景圖片上的最大y坐標
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue  # 如果猴子圖片無法放置在背景圖片上，跳過此圖片

    x = random.randint(0, max_x)  # 隨機選取x坐標
    y = random.randint(0, max_y)  # 隨機選取y坐標

    # 合成圖片
    for c in range(0, 3):  # 對RGB三個通道進行合成
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)  # 將猴子圖片貼在背景圖片上

    # 保存合成圖片，名稱中包含縮放比例
    output_path = os.path.join(output_dir, f'composite_{i}_scale_{scale_factor:.2f}.png')  # 設定合成圖片的保存路徑
    cv2.imwrite(output_path, background_img)  # 保存合成圖片

print(f'合成圖片已保存至 {output_dir}。')  # 打印完成訊息


TypeError: unsupported operand type(s) for -: 'int' and 'tuple'

In [24]:
import cv2  # 匯入OpenCV庫，用於圖像處理
import numpy as np  # 匯入NumPy庫，用於數值計算
import os  # 匯入OS庫，用於操作系統相關功能
import random  # 匯入Random庫，用於隨機選擇

# 路徑設定
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 存放去背猴子圖片的資料夾路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background'  # 存放背景圖片的資料夾路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage'  # 存放合成後圖片的資料夾路徑

# 確保輸出資料夾存在，若不存在則創建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 獲取所有猴子圖片和背景圖片的路徑列表
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設定迴圈次數，即要生成的合成圖片數量
num_iterations = 10

# 開始迴圈，生成合成圖片
for i in range(num_iterations):
    # 隨機選取一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)  # 從monkey_images列表中隨機選取一個文件路徑
    background_img_path = random.choice(background_images)  # 從background_images列表中隨機選取一個文件路徑
    
    # 讀取圖片
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 讀取去背猴子圖片（包含alpha通道）
    background_img = cv2.imread(background_img_path)  # 讀取背景圖片

    # 檢查圖片是否成功讀取
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # 確保猴子圖片有alpha通道（即有透明度資訊）
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue  # 如果沒有alpha通道，跳過此圖片

    # 隨機設定縮放比例，根據背景圖片大小縮放猴子圖片
    scale_factor = round(random.uniform(0.5, 0.8), 4)  # 隨機選取縮放比例並格式化為四位小數
    bg_height, bg_width = background_img.shape[:2]  # 獲取背景圖片的高度和寬度
    monkey_height, monkey_width = monkey_img.shape[:2]  # 獲取猴子圖片的原始高度和寬度
    
    # 計算新的猴子圖片寬度和高度
    new_monkey_width = int(bg_width * scale_factor)  # 根據縮放比例計算新的猴子圖片寬度
    new_monkey_height = int(monkey_height * new_monkey_width / monkey_width)  # 按比例計算新的猴子圖片高度
    
    # 確保縮放後的猴子圖片不會超過背景圖片的大小
    if new_monkey_height > bg_height or new_monkey_width > bg_width:
        print(f'Resized monkey image is too large for background: {monkey_img_path}')
        continue  # 如果猴子圖片超出背景圖片，跳過此圖片
    
    # 縮放猴子圖片
    monkey_img_resized = cv2.resize(monkey_img, (new_monkey_width, new_monkey_height))  # 縮放猴子圖片

    # 確定猴子圖片的位置，隨機選擇貼圖位置
    max_x = bg_width - new_monkey_width  # 計算猴子圖片在背景圖片上的最大x坐標
    max_y = bg_height - new_monkey_height  # 計算猴子圖片在背景圖片上的最大y坐標
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue  # 如果猴子圖片無法放置在背景圖片上，跳過此圖片

    x = random.randint(0, max_x)  # 隨機選取x坐標
    y = random.randint(0, max_y)  # 隨機選取y坐標

    # 合成圖片
    for c in range(0, 3):  # 對RGB三個通道進行合成
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)  # 將猴子圖片貼在背景圖片上

    # 保存合成圖片，名稱中包含縮放比例
    output_path = os.path.join(output_dir, f'composite_{i}_scale_{scale_factor:.4f}.png')  # 設定合成圖片的保存路徑
    cv2.imwrite(output_path, background_img)  # 保存合成圖片

print(f'合成圖片已保存至 {output_dir}。')  # 打印完成訊息


合成圖片已保存至 C:\Users\User\Desktop\monkey\TrainImage。


In [5]:
#正式
import cv2  # 匯入OpenCV庫，用於圖像處理
import numpy as np  # 匯入NumPy庫，用於數值計算
import os  # 匯入OS庫，用於操作系統相關功能
import random  # 匯入Random庫，用於隨機選擇

# 路徑設定
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 存放去背猴子圖片的資料夾路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background'  # 存放背景圖片的資料夾路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage'  # 存放合成後圖片的資料夾路徑

# 確保輸出資料夾存在，若不存在則創建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 獲取所有猴子圖片和背景圖片的路徑列表
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設定迴圈次數，即要生成的合成圖片數量
num_iterations = 10

# 開始迴圈，生成合成圖片
for i in range(num_iterations):
    # 隨機選取一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)  # 從monkey_images列表中隨機選取一個文件路徑
    background_img_path = random.choice(background_images)  # 從background_images列表中隨機選取一個文件路徑
    
    # 讀取圖片
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 讀取去背猴子圖片（包含alpha通道）
    background_img = cv2.imread(background_img_path)  # 讀取背景圖片

    # 檢查圖片是否成功讀取
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # 確保猴子圖片有alpha通道（即有透明度資訊）
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue  # 如果沒有alpha通道，跳過此圖片

    # 取得背景圖片的大小（面積）
    bg_height, bg_width = background_img.shape[:2]  # 獲取背景圖片的高度和寬度
    bg_area = bg_height * bg_width  # 計算背景圖片的面積

    # 隨機選取縮放比例並格式化為四位小數
    scale_factor = round(random.uniform(0.05, 0.1), 4)

    # 計算理想的猴子圖片大小（面積）
    ideal_monkey_area = bg_area * scale_factor  # 計算理想的猴子圖片面積

    # 獲取去背猴子圖片的原始大小（面積）
    monkey_height, monkey_width = monkey_img.shape[:2]  # 獲取猴子圖片的原始高度和寬度
    monkey_area = monkey_height * monkey_width  # 計算猴子圖片的面積

    # 計算調整比例，使得猴子圖片的面積接近理想面積，且保持比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5  # 計算需要縮放的比例

    # 計算新的猴子圖片寬度和高度，並進行縮放
    new_monkey_width = int(monkey_width * scale_ratio)
    new_monkey_height = int(monkey_height * scale_ratio)
    monkey_img_resized = cv2.resize(monkey_img, (new_monkey_width, new_monkey_height))  # 縮放猴子圖片

    # 確定猴子圖片的位置，隨機選擇貼圖位置
    max_x = bg_width - new_monkey_width  # 計算猴子圖片在背景圖片上的最大x坐標
    max_y = bg_height - new_monkey_height  # 計算猴子圖片在背景圖片上的最大y坐標
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue  # 如果猴子圖片無法放置在背景圖片上，跳過此圖片

    x = random.randint(0, max_x)  # 隨機選取x坐標
    y = random.randint(0, max_y)  # 隨機選取y坐標

    # 合成圖片
    for c in range(0, 3):  # 對RGB三個通道進行合成
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)  # 將猴子圖片貼在背景圖片上

    # 保存合成圖片，名稱中包含縮放比例
    output_path = os.path.join(output_dir, f'composite_{i}_scale_{scale_factor:.4f}.png')  # 設定合成圖片的保存路徑
    cv2.imwrite(output_path, background_img)  # 保存合成圖片

print(f'合成圖片已保存至 {output_dir}。')  # 打印完成訊息


合成圖片已保存至 C:\Users\User\Desktop\monkey\TrainImage。


: 

In [2]:
import cv2  # 匯入OpenCV庫，用於圖像處理
import numpy as np  # 匯入NumPy庫，用於數值計算
import os  # 匯入OS庫，用於操作系統相關功能
import random  # 匯入Random庫，用於隨機選擇

# 路徑設定
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 存放去背猴子圖片的資料夾路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background'  # 存放背景圖片的資料夾路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage'  # 存放合成後圖片的資料夾路徑

# 確保輸出資料夾存在，若不存在則創建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 獲取所有猴子圖片和背景圖片的路徑列表
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設定迴圈次數，即要生成的合成圖片數量
num_iterations = 10

# 開始迴圈，生成合成圖片
for i in range(num_iterations):
    # 隨機選取一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)  # 從monkey_images列表中隨機選取一個文件路徑
    background_img_path = random.choice(background_images)  # 從background_images列表中隨機選取一個文件路徑
    
    # 讀取圖片
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 讀取去背猴子圖片（包含alpha通道）
    background_img = cv2.imread(background_img_path)  # 讀取背景圖片

    # 檢查圖片是否成功讀取
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # 確保猴子圖片有alpha通道（即有透明度資訊）
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue  # 如果沒有alpha通道，跳過此圖片

    # 計算去背後剩餘的圖片大小
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]

    # 取得背景圖片的大小（面積）
    bg_height, bg_width = background_img.shape[:2]  # 獲取背景圖片的高度和寬度
    bg_area = bg_height * bg_width  # 計算背景圖片的面積

    # 隨機選取縮放比例並格式化為四位小數
    scale_factor = round(random.uniform(0.05, 0.1), 4)

    # 計算理想的猴子圖片大小（面積）
    ideal_monkey_area = bg_area * scale_factor  # 計算理想的猴子圖片面積

    # 獲取去背猴子圖片的原始大小（面積）
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]  # 獲取猴子圖片的原始高度和寬度
    monkey_area = monkey_height * monkey_width  # 計算猴子圖片的面積

    # 計算調整比例，使得猴子圖片的面積接近理想面積，且保持比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5  # 計算需要縮放的比例

    # 計算新的猴子圖片寬度和高度，並進行縮放
    new_monkey_width = int(monkey_width * scale_ratio)
    new_monkey_height = int(monkey_height * scale_ratio)
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))  # 縮放猴子圖片

    # 確定猴子圖片的位置，隨機選擇貼圖位置
    max_x = bg_width - new_monkey_width  # 計算猴子圖片在背景圖片上的最大x坐標
    max_y = bg_height - new_monkey_height  # 計算猴子圖片在背景圖片上的最大y坐標
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue  # 如果猴子圖片無法放置在背景圖片上，跳過此圖片

    x = random.randint(0, max_x)  # 隨機選取x坐標
    y = random.randint(0, max_y)  # 隨機選取y坐標

    # 合成圖片
    for c in range(0, 3):  # 對RGB三個通道進行合成
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)  # 將猴子圖片貼在背景圖片上

    # 保存合成圖片，名稱中包含縮放比例
    output_path = os.path.join(output_dir, f'composite_{i}_scale_{scale_factor:.4f}.png')  # 設定合成圖片的保存路徑
    cv2.imwrite(output_path, background_img)  # 保存合成圖片

print(f'合成圖片已保存至 {output_dir}。')  # 打印完成訊息


合成圖片已保存至 C:\Users\User\Desktop\monkey\TrainImage。


In [2]:
import cv2  # 匯入OpenCV庫，用於圖像處理
import numpy as np  # 匯入NumPy庫，用於數值計算
import os  # 匯入OS庫，用於操作系統相關功能
import random  # 匯入Random庫，用於隨機選擇

# 路徑設定
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 存放去背猴子圖片的資料夾路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 存放背景圖片的資料夾路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0706'  # 存放合成後圖片的資料夾路徑

# 確保輸出資料夾存在，若不存在則創建
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 獲取所有猴子圖片和背景圖片的路徑列表
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設定迴圈次數，即要生成的合成圖片數量
num_iterations = 1500

# 根據比例範圍生成隨機比例
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]
scale_factors += [round(random.uniform(0.01, 0.02), 4) for _ in range(int(num_iterations * 0.3))]
scale_factors += [round(random.uniform(0.05, 0.1), 4) for _ in range(int(num_iterations * 0.3))]
random.shuffle(scale_factors)  # 打亂比例順序

# 開始迴圈，生成合成圖片
for i in range(num_iterations):
    # 隨機選取一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)  # 從monkey_images列表中隨機選取一個文件路徑
    background_img_path = random.choice(background_images)  # 從background_images列表中隨機選取一個文件路徑
    
    # 讀取圖片
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 讀取去背猴子圖片（包含alpha通道）
    background_img = cv2.imread(background_img_path)  # 讀取背景圖片

    # 檢查圖片是否成功讀取
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # 確保猴子圖片有alpha通道（即有透明度資訊）
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue  # 如果沒有alpha通道，跳過此圖片

    # 取得背景圖片的大小（面積）
    bg_height, bg_width = background_img.shape[:2]  # 獲取背景圖片的高度和寬度
    bg_area = bg_height * bg_width  # 計算背景圖片的面積

    # 使用預先生成的縮放比例
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖片大小（面積）
    ideal_monkey_area = bg_area * scale_factor  # 計算理想的猴子圖片面積

    # 獲取去背猴子圖片的原始大小（面積）
    monkey_height, monkey_width = monkey_img.shape[:2]  # 獲取猴子圖片的原始高度和寬度
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width  # 計算猴子圖片的面積

    # 計算調整比例，使得猴子圖片的面積接近理想面積，且保持比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5  # 計算需要縮放的比例

    # 計算新的猴子圖片寬度和高度，並進行縮放
    new_monkey_width = int(monkey_width * scale_ratio)
    new_monkey_height = int(monkey_height * scale_ratio)
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))  # 縮放猴子圖片

    # 確定猴子圖片的位置，隨機選擇貼圖位置
    max_x = bg_width - new_monkey_width  # 計算猴子圖片在背景圖片上的最大x坐標
    max_y = bg_height - new_monkey_height  # 計算猴子圖片在背景圖片上的最大y坐標
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue  # 如果猴子圖片無法放置在背景圖片上，跳過此圖片

    x = random.randint(0, max_x)  # 隨機選取x坐標
    y = random.randint(0, max_y)  # 隨機選取y坐標

    # 合成圖片
    for c in range(0, 3):  # 對RGB三個通道進行合成
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)  # 將猴子圖片貼在背景圖片上

    # 保存合成圖片，名稱中包含縮放比例
    output_path = os.path.join(output_dir, f'composite_{i}_scale_{scale_factor:.4f}.png')  # 設定合成圖片的保存路徑
    cv2.imwrite(output_path, background_img)  # 保存合成圖片

print(f'合成圖片已保存至 {output_dir}。')  # 打印完成訊息


合成圖片已保存至 C:\Users\User\Desktop\monkey\TrainImage0706。


正式的合成圖片程式碼

In [3]:
import cv2
import numpy as np
import os
import random

# Path settings

monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0707'

# Ensure output directory exists
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Get all monkey and background image paths
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# Set the number of images to generate
num_iterations = 1500

# Generate scale factors with adjusted ranges
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # Medium
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # Small
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # Large
random.shuffle(scale_factors)
 # 打亂比例順序

# Minimum size in pixels for the smaller dimension of the macaque
min_pixel_size = 32

# Start loop to generate composite images
for i in range(num_iterations):
    # Randomly select a monkey image and a background image
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # Read images
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)
    background_img = cv2.imread(background_img_path)

    # Check if images are read successfully
    if monkey_img is None:
        print(f'Failed to read monkey image: {monkey_img_path}')
        continue
    if background_img is None:
        print(f'Failed to read background image: {background_img_path}')
        continue

    # Ensure monkey image has alpha channel
    if monkey_img.shape[2] != 4:
        print(f'Monkey image does not have alpha channel: {monkey_img_path}')
        continue

    # Get background image size
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # Use pre-generated scale factor
    scale_factor = scale_factors[i]

    # Calculate ideal monkey image size
    ideal_monkey_area = bg_area * scale_factor

    # Get original monkey image size
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # Calculate scale ratio
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5

    # Calculate new monkey image dimensions ensuring minimum size
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # Adjust aspect ratio if needed
    if new_monkey_width / new_monkey_height != monkey_width / monkey_height:
        if new_monkey_width < new_monkey_height:
            new_monkey_height = int(new_monkey_width * (monkey_height / monkey_width))
        else:
            new_monkey_width = int(new_monkey_height * (monkey_width / monkey_height))

    # Resize monkey image
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))

    # Determine monkey image position
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        print(f'Cannot place monkey image on background: {monkey_img_path}')
        continue

    x = random.randint(0, max_x)
    y = random.randint(0, max_y)

    # Composite image
    for c in range(0, 3):
        background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (monkey_img_resized[:, :, 3] / 255.0) + \
            background_img[y:y+new_monkey_height, x:x+new_monkey_width, c] * \
            (1.0 - monkey_img_resized[:, :, 3] / 255.0)

    # Save composite image
    output_path = os.path.join(output_dir, f'monkey_{i}_{scale_factor:.4f}.png')
    cv2.imwrite(output_path, background_img)

print(f'Composite images have been saved to {output_dir}.')

Composite images have been saved to C:\Users\User\Desktop\monkey\TrainImage0707.


將背景圖片統一設為640*640，再進行上面的圖片合成

In [1]:
import cv2
import os
from pathlib import Path

# Set the path to the background images
background_dir = Path('C:\\Users\\User\\Desktop\\monkey\\background')

# Set the output directory for resized images
output_dir = Path('C:\\Users\\User\\Desktop\\monkey\\background_new')

# Set the target size
target_size = (640, 640)

# Ensure the output directory exists
output_dir.mkdir(exist_ok=True)

# Get all image files in the directory
image_files = list(background_dir.glob('*.[pj][np][g]'))  # This will match .png, .jpg, .jpeg

# Process each image
for img_path in image_files:
    # Read the image
    img = cv2.imread(str(img_path))
    
    if img is None:
        print(f"Failed to read image: {img_path}")
        continue
    
    # Resize the image
    resized_img = cv2.resize(img, target_size, interpolation=cv2.INTER_AREA)
    
    # Create the output filename
    output_filename = output_dir / img_path.name
    
    # Save the resized image
    cv2.imwrite(str(output_filename), resized_img)
    
    print(f"Resized and saved: {output_filename}")

print(f"All images have been resized and saved to {output_dir}")

Resized and saved: C:\Users\User\Desktop\monkey\background_new\0009.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\02123.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\06514.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\10.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\100.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1000_F_318874613_EYlfHvNF9zmBA8JxmTV5RNiBSOXUHV0M.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1000_F_318874768_SA4lvlM32174jZzyoN2kpUFKiwOlULBn.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_04da0f355f65049a368845b22c8d15a8.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_27280453590a8d20303cb89f9930b7d7.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_568c1385ea69732836b2f28c5289e75b.jpg
Resized and saved: C:\U

0912程式碼調整


In [1]:
import cv2
import numpy as np
import os
import random
import json

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0912'  # 合成圖片的輸出路徑
mask_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\MaskOutput'  # 遮罩輸出路徑
json_output = 'C:\\Users\\User\\Desktop\\monkey\\annotations.json'  # COCO 格式 JSON 註解輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(mask_output_dir):
    os.makedirs(mask_output_dir)

# 初始化 COCO 格式的 JSON 註解文件
coco_annotations = {
    'images': [],
    'annotations': [],
    'categories': [{'id': 1, 'name': 'monkey'}]  # 定義類別：猴子
}
annotation_id = 1  # 註解 ID 初始值

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 1500

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 隨機水平翻轉圖像的函數
def random_flip(image, mask):
    if random.choice([True, False]):
        # 同時翻轉圖片和遮罩
        return cv2.flip(image, 1), cv2.flip(mask, 1)  # 1 表示水平翻轉
    return image, mask

# 隨機旋轉圖像和遮罩的函數，範圍預設為 -30 到 30 度
def random_rotate(image, mask, angle_range=(-30, 30)):
    angle = random.uniform(*angle_range)  # 在範圍內隨機選取角度
    h, w = image.shape[:2]  # 獲取圖像尺寸
    center = (w // 2, h // 2)  # 設置旋轉中心為圖像的中心
    # 計算旋轉矩陣
    rotation_matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
    # 對圖像進行旋轉
    rotated_image = cv2.warpAffine(image, rotation_matrix, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    # 對遮罩進行旋轉
    rotated_mask = cv2.warpAffine(mask, rotation_matrix, (w, h), flags=cv2.INTER_NEAREST, borderMode=cv2.BORDER_REPLICATE)
    return rotated_image, rotated_mask

# 生成合成圖片和遮罩的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue
    
    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 隨機水平翻轉圖像和遮罩
    monkey_img_cropped, monkey_mask = random_flip(monkey_img_cropped, monkey_mask)

    # 隨機旋轉圖像和遮罩
    monkey_img_cropped, monkey_mask = random_rotate(monkey_img_cropped, monkey_mask)

    # 調整猴子圖像和遮罩的大小
    scale_factor = random.uniform(0.02, 0.15)  # 隨機縮放比例
    new_monkey_width = max(int(w * scale_factor), min_pixel_size)  # 新的寬度
    new_monkey_height = max(int(h * scale_factor), min_pixel_size)  # 新的高度

    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))  # 調整猴子圖像大小
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))  # 調整遮罩大小

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 保存合成的圖像
    output_path = os.path.join(output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

    # 保存遮罩圖像
    mask_output_path = os.path.join(mask_output_dir, f'mask_{i}.png')
    cv2.imwrite(mask_output_path, mask_resized)

    # 尋找遮罩的輪廓，用於 COCO 格式的 segmentation
    contours, _ = cv2.findContours(mask_resized, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    segmentation = []
    for contour in contours:
        contour = contour.flatten().tolist()  # 展平成一維數組
        segmentation.append(contour)

    # 創建 COCO 格式的 JSON 註解
    coco_annotations['images'].append({
        'file_name': f'monkey_{i}.png',
        'id': i,
        'height': bg_height,
        'width': bg_width
    })
    
    coco_annotations['annotations'].append({
        'segmentation': segmentation,
        'image_id': i,
        'category_id': 1,  # 類別 ID，1 表示猴子
        'id': annotation_id,
        'bbox': [x_offset, y_offset, new_monkey_width, new_monkey_height],  # 邊界框
        'iscrowd': 0  # 非擁擠目標
    })
    annotation_id += 1

# 保存 COCO 格式的註解到 JSON 文件
with open(json_output, 'w') as json_file:
    json.dump(coco_annotations, json_file)

print(f'合成的圖片、遮罩和註解已保存。')


合成的圖片、遮罩和註解已保存。


In [1]:
import cv2
import numpy as np
import os
import random
import json

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913'  # 合成圖片的輸出路徑
json_output = 'C:\\Users\\User\\Desktop\\monkey\\annotations.json'  # COCO 格式 JSON 註解輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# 初始化 COCO 格式的 JSON 註解文件
coco_annotations = {
    'images': [],
    'annotations': [],
    'categories': [{'id': 1, 'name': 'monkey'}],  # 定義類別，ID為1
    'licenses': [{'id': 1, 'name': 'Unknown', 'url': ''}],  # 添加許可證資訊（可選）
}
annotation_id = 1  # 註解 ID 初始值

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 200

# 生成調整過範圍的比例因子
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 生成合成圖片和遮罩的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue
    
    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 保存合成的圖像
    output_path = os.path.join(output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

    # 使用矩形邊界框（bbox）來框取猴子
    bbox = [x_offset, y_offset, new_monkey_width, new_monkey_height]  # x, y, width, height

    # 創建 COCO 格式的 JSON 註解
    coco_annotations['images'].append({
        'file_name': f'monkey_{i}.png',
        'id': i,
        'height': bg_height,
        'width': bg_width,
        'license': 1  # 註冊圖像的許可證ID
    })
    
    coco_annotations['annotations'].append({
        'bbox': bbox,  # 使用矩形邊界框
        'image_id': i,
        'category_id': 1,  # 類別 ID，1 表示猴子
        'id': annotation_id,
        'iscrowd': 0  # 非擁擠目標
    })
    annotation_id += 1

# 保存 COCO 格式的註解到 JSON 文件
with open(json_output, 'w') as json_file:
    json.dump(coco_annotations, json_file, indent=4)

print(f'合成的圖片和註解已保存至 {output_dir}。')


合成的圖片和註解已保存至 C:\Users\User\Desktop\monkey\TrainImage0913。


In [2]:
import cv2
import numpy as np
import os
import random

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913'  # 合成圖片的輸出路徑
labels_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\Labels'  # 標註檔案輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(labels_output_dir):
    os.makedirs(labels_output_dir)

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 200

# 生成調整過範圍的比例因子
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 開始生成合成圖片和標註文件的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue
    
    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 保存合成的圖像
    output_path = os.path.join(output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

    # 計算 YOLO 格式的標註（相對於圖像尺寸）
    x_center = (x_offset + new_monkey_width / 2) / bg_width
    y_center = (y_offset + new_monkey_height / 2) / bg_height
    width = new_monkey_width / bg_width
    height = new_monkey_height / bg_height

    # 保存標註為 YOLO 格式
    label_path = os.path.join(labels_output_dir, f'monkey_{i}.txt')
    with open(label_path, 'w') as label_file:
        label_file.write(f"0 {x_center} {y_center} {width} {height}\n")  # 類別ID為0（猴子）

print(f'合成的圖片和標註已保存至 {output_dir} 和 {labels_output_dir}。')


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0913 和 C:\Users\User\Desktop\monkey\Labels。


不規則外框

In [2]:
import cv2
import numpy as np
import os
import random

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913'  # 合成圖片的輸出路徑
labels_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\Labels'  # 標註檔案輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(labels_output_dir):
    os.makedirs(labels_output_dir)

# 生成新資料夾來存儲所有輸出
combined_output_dir = os.path.join(output_dir, 'combined_output')
if not os.path.exists(combined_output_dir):
    os.makedirs(combined_output_dir)

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 200

# 生成調整過範圍的比例因子
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 隨機左右翻轉函數
def random_flip(image, mask):
    if random.choice([True, False]):
        # 同時翻轉圖片和遮罩
        return cv2.flip(image, 1), cv2.flip(mask, 1)
    return image, mask

# 隨機旋轉函數
def random_rotate(image, mask, angle_range=(-30, 30)):
    angle = random.uniform(*angle_range)
    h, w = image.shape[:2]
    center = (w // 2, h // 2)
    matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated_image = cv2.warpAffine(image, matrix, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    rotated_mask = cv2.warpAffine(mask, matrix, (w, h), flags=cv2.INTER_NEAREST, borderMode=cv2.BORDER_REPLICATE)
    return rotated_image, rotated_mask

# 生成合成圖片和標註文件的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue

    # 隨機左右翻轉
    monkey_img, alpha_channel = random_flip(monkey_img, alpha_channel)

    # 隨機旋轉
    monkey_img, alpha_channel = random_rotate(monkey_img, alpha_channel)

    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 提取猴子圖像的輪廓
    contours, _ = cv2.findContours(mask_resized, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    segmentation = []
    for contour in contours:
        contour = contour.flatten().tolist()
        segmentation.append(contour)

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 保存合成的圖像
    output_path = os.path.join(combined_output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

    # 計算 YOLO 格式的標註（相對於圖像尺寸）
    x_center = (x_offset + new_monkey_width / 2) / bg_width
    y_center = (y_offset + new_monkey_height / 2) / bg_height
    width = new_monkey_width / bg_width
    height = new_monkey_height / bg_height

    # 保存標註為 YOLO 格式
    label_path = os.path.join(labels_output_dir, f'monkey_{i}.txt')
    with open(label_path, 'w') as label_file:
        label_file.write(f"0 {x_center} {y_center} {width} {height}\n")  # 類別ID為0（猴子）

print(f'合成的圖片和標註已保存至 {combined_output_dir} 和 {labels_output_dir}。')


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0913\combined_output 和 C:\Users\User\Desktop\monkey\Labels。


In [3]:
import cv2
import numpy as np
import os
import random

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913'  # 合成圖片的輸出路徑
labels_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913\\Labels'  # 標註檔案輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(labels_output_dir):
    os.makedirs(labels_output_dir)

# 生成新資料夾來存儲所有輸出
combined_output_dir = os.path.join(output_dir, 'combined_output')
if not os.path.exists(combined_output_dir):
    os.makedirs(combined_output_dir)

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 200

# 生成調整過範圍的比例因子
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 隨機左右翻轉函數
def random_flip(image, mask):
    if random.choice([True, False]):
        # 同時翻轉圖片和遮罩
        return cv2.flip(image, 1), cv2.flip(mask, 1)
    return image, mask

# 隨機旋轉函數
def random_rotate(image, mask, angle_range=(-30, 30)):
    angle = random.uniform(*angle_range)
    h, w = image.shape[:2]
    center = (w // 2, h // 2)
    matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated_image = cv2.warpAffine(image, matrix, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    rotated_mask = cv2.warpAffine(mask, matrix, (w, h), flags=cv2.INTER_NEAREST, borderMode=cv2.BORDER_REPLICATE)
    return rotated_image, rotated_mask

# 生成合成圖片和標註文件的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue

    # 隨機左右翻轉
    monkey_img, alpha_channel = random_flip(monkey_img, alpha_channel)

    # 隨機旋轉
    monkey_img, alpha_channel = random_rotate(monkey_img, alpha_channel)

    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例
    scale_ratio = (ideal_monkey_area / monkey_area) ** 0.5

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 使用 OpenCV 提取輪廓，並生成更多輪廓點
    contours, _ = cv2.findContours(mask_resized, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    if contours:
        contour = max(contours, key=cv2.contourArea)  # 提取最大輪廓
        # YOLO 格式需要相對於圖片尺寸的座標
        normalized_contour = [(float(x_offset + p[0][0]) / bg_width, float(y_offset + p[0][1]) / bg_height) for p in contour]
        
        # YOLO 標註格式 (類別, 每個點的 (x, y) 座標)
        yolo_annotation = "0 " + " ".join([f"{x:.6f} {y:.6f}" for x, y in normalized_contour]) + "\n"
        
        # 保存標註為 YOLO 格式
        label_path = os.path.join(labels_output_dir, f'monkey_{i}.txt')
        with open(label_path, 'w') as label_file:
            label_file.write(yolo_annotation)

    # 保存合成的圖像
    output_path = os.path.join(combined_output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

print(f'合成的圖片和標註已保存至 {combined_output_dir} 和 {labels_output_dir}。')


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0913\combined_output 和 C:\Users\User\Desktop\monkey\TrainImage0913\Labels。


In [5]:
import cv2
import numpy as np
import os
import random

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913'  # 合成圖片的輸出路徑
labels_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0913\\Labels'  # 標註檔案輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(labels_output_dir):
    os.makedirs(labels_output_dir)

# 生成新資料夾來存儲所有輸出
combined_output_dir = os.path.join(output_dir, 'combined_output')
if not os.path.exists(combined_output_dir):
    os.makedirs(combined_output_dir)

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 200

# 生成調整過範圍的比例因子
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 隨機左右翻轉函數
def random_flip(image, mask):
    if random.choice([True, False]):
        # 同時翻轉圖片和遮罩
        return cv2.flip(image, 1), cv2.flip(mask, 1)
    return image, mask

# 隨機旋轉函數
def random_rotate(image, mask, angle_range=(-30, 30)):
    angle = random.uniform(*angle_range)
    h, w = image.shape[:2]
    center = (w // 2, h // 2)
    matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated_image = cv2.warpAffine(image, matrix, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    rotated_mask = cv2.warpAffine(mask, matrix, (w, h), flags=cv2.INTER_NEAREST, borderMode=cv2.BORDER_REPLICATE)
    return rotated_image, rotated_mask

# 生成合成圖片和標註文件的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]

    # 隨機左右翻轉
    monkey_img, alpha_channel = random_flip(monkey_img, alpha_channel)

    # 隨機旋轉
    monkey_img, alpha_channel = random_rotate(monkey_img, alpha_channel)

    # 旋轉和翻轉後重新提取非透明像素的座標
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue

    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    
    # 修正：避免裁剪過度，僅提取猴子非透明區域
    if w < min_pixel_size or h < min_pixel_size:
        continue  # 如果裁剪區域太小，跳過這個圖像
    
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例，防止猴子圖像過度縮放
    scale_ratio = min((ideal_monkey_area / monkey_area) ** 0.5, 1.0)  # 最大縮放比例為 1，防止過大

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 使用 OpenCV 提取輪廓，並生成更多輪廓點
    contours, _ = cv2.findContours(mask_resized, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    if contours:
        contour = max(contours, key=cv2.contourArea)  # 提取最大輪廓
        # YOLO 格式需要相對於圖片尺寸的座標
        normalized_contour = [(float(x_offset + p[0][0]) / bg_width, float(y_offset + p[0][1]) / bg_height) for p in contour]
        
        # YOLO 標註格式 (類別, 每個點的 (x, y) 座標)
        yolo_annotation = "0 " + " ".join([f"{x:.6f} {y:.6f}" for x, y in normalized_contour]) + "\n"
        
        # 保存標註為 YOLO 格式
        label_path = os.path.join(labels_output_dir, f'monkey_{i}.txt')
        with open(label_path, 'w') as label_file:
            label_file.write(yolo_annotation)

    # 保存合成的圖像
    output_path = os.path.join(combined_output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

print(f'合成的圖片和標註已保存至 {combined_output_dir} 和 {labels_output_dir}。')


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0913\combined_output 和 C:\Users\User\Desktop\monkey\TrainImage0913\Labels。


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0913\combined_output 和 C:\Users\User\Desktop\monkey\TrainImage0913\Labels。


In [3]:
import cv2
import numpy as np
import os
import random

# 路徑設置
monkey_dir = 'C:\\Users\\User\\Desktop\\monkey\\Remonkey'  # 猴子圖片的路徑
background_dir = 'C:\\Users\\User\\Desktop\\monkey\\background_new'  # 背景圖片的路徑
output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0923'  # 合成圖片的輸出路徑
labels_output_dir = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0923\\Labels'  # 標註檔案輸出路徑
labelmap_output_path = 'C:\\Users\\User\\Desktop\\monkey\\TrainImage0923\\obj.txt'  # LabelMap 文件輸出路徑

# 確保輸出目錄存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
if not os.path.exists(labels_output_dir):
    os.makedirs(labels_output_dir)

# 生成新資料夾來存儲所有輸出
combined_output_dir = os.path.join(output_dir, 'combined_output')
if not os.path.exists(combined_output_dir):
    os.makedirs(combined_output_dir)

# 生成 obj.names 文件來對應類別名稱
with open(labelmap_output_path, 'w') as f:
    f.write("monkey\n")  # 類別0對應名稱 'monkey'

# 獲取所有猴子圖片和背景圖片的路徑
monkey_images = [os.path.join(monkey_dir, f) for f in os.listdir(monkey_dir) if f.endswith(('.png', '.jpg'))]
background_images = [os.path.join(background_dir, f) for f in os.listdir(background_dir) if f.endswith(('.png', '.jpg'))]

# 設置要生成的圖片數量
num_iterations = 2000

# 生成調整過範圍的比例因子
'''
scale_factors = []
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.3))]  # 小比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.3))]  # 大比例
'''

scale_factors = []

scale_factors += [round(random.uniform(0.015, 0.02), 4) for _ in range(int(num_iterations * 0.2))]  # 小比例
scale_factors += [round(random.uniform(0.02, 0.05), 4) for _ in range(int(num_iterations * 0.4))]  # 中等比例
scale_factors += [round(random.uniform(0.05, 0.15), 4) for _ in range(int(num_iterations * 0.2))]  # 大比例
scale_factors += [round(random.uniform(0.15, 0.2), 4) for _ in range(int(num_iterations * 0.1))]  # 特大比例
scale_factors += [round(random.uniform(0.2, 0.3), 4) for _ in range(int(num_iterations * 0.1))]  # 超大比例
random.shuffle(scale_factors)  # 打亂比例順序

# 猴子圖片最小尺寸（以像素為單位）
min_pixel_size = 32

# 隨機左右翻轉函數
def random_flip(image, mask):
    if random.choice([True, False]):
        # 同時翻轉圖片和遮罩
        return cv2.flip(image, 1), cv2.flip(mask, 1)
    return image, mask

# 隨機旋轉函數
def random_rotate(image, mask, angle_range=(-30, 30)):
    angle = random.uniform(*angle_range)
    h, w = image.shape[:2]
    center = (w // 2, h // 2)
    matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
    rotated_image = cv2.warpAffine(image, matrix, (w, h), flags=cv2.INTER_LINEAR, borderMode=cv2.BORDER_REPLICATE)
    rotated_mask = cv2.warpAffine(mask, matrix, (w, h), flags=cv2.INTER_NEAREST, borderMode=cv2.BORDER_REPLICATE)
    return rotated_image, rotated_mask

# 生成合成圖片和標註文件的主循環
for i in range(num_iterations):
    # 隨機選擇一張猴子圖片和一張背景圖片
    monkey_img_path = random.choice(monkey_images)
    background_img_path = random.choice(background_images)
    
    # 讀取圖像
    monkey_img = cv2.imread(monkey_img_path, cv2.IMREAD_UNCHANGED)  # 保持 alpha 通道
    background_img = cv2.imread(background_img_path)

    # 檢查圖像是否成功讀取
    if monkey_img is None or background_img is None:
        continue

    # 確保猴子圖像有 alpha 通道（透明通道）
    if monkey_img.shape[2] != 4:
        continue

    # 提取 alpha 通道作為遮罩
    alpha_channel = monkey_img[:, :, 3]

    # 隨機左右翻轉
    monkey_img, alpha_channel = random_flip(monkey_img, alpha_channel)

    # 隨機旋轉
    monkey_img, alpha_channel = random_rotate(monkey_img, alpha_channel)

    # 旋轉和翻轉後重新提取非透明像素的座標，**修正後這一步在旋轉和翻轉後進行**
    non_zero_coords = cv2.findNonZero(alpha_channel)  # 找到 alpha 通道中的非零像素
    if non_zero_coords is None:
        continue

    # 獲取猴子圖像的邊界框並進行裁剪
    x, y, w, h = cv2.boundingRect(non_zero_coords)
    
    # 修正：避免裁剪過度，僅提取猴子非透明區域
    if w < min_pixel_size or h < min_pixel_size:
        continue  # 如果裁剪區域太小，跳過這個圖像
    
    monkey_img_cropped = monkey_img[y:y+h, x:x+w]
    monkey_mask = alpha_channel[y:y+h, x:x+w]  # 裁剪遮罩

    # 獲取背景圖像的大小
    bg_height, bg_width = background_img.shape[:2]
    bg_area = bg_height * bg_width

    # 使用預生成的比例因子
    scale_factor = scale_factors[i]

    # 計算理想的猴子圖像大小
    ideal_monkey_area = bg_area * scale_factor

    # 獲取原始猴子圖像的大小
    monkey_height, monkey_width = monkey_img_cropped.shape[:2]
    monkey_area = monkey_height * monkey_width

    # 計算縮放比例，防止猴子圖像過度縮放
    scale_ratio = min((ideal_monkey_area / monkey_area) ** 0.5, 1.0)  # 最大縮放比例為 1，防止過大

    # 計算新的猴子圖像尺寸，確保最小尺寸
    new_monkey_width = max(int(monkey_width * scale_ratio), min_pixel_size)
    new_monkey_height = max(int(monkey_height * scale_ratio), min_pixel_size)

    # 調整猴子圖像和遮罩的大小
    monkey_img_resized = cv2.resize(monkey_img_cropped, (new_monkey_width, new_monkey_height))
    mask_resized = cv2.resize(monkey_mask, (new_monkey_width, new_monkey_height))

    # 隨機確定猴子圖像在背景圖像中的位置
    max_x = bg_width - new_monkey_width
    max_y = bg_height - new_monkey_height
    if max_x <= 0 or max_y <= 0:
        continue

    x_offset = random.randint(0, max_x)  # 隨機選擇 x 軸偏移
    y_offset = random.randint(0, max_y)  # 隨機選擇 y 軸偏移

    # 將猴子圖像疊加到背景圖像上
    for c in range(0, 3):
        background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] = \
            monkey_img_resized[:, :, c] * (mask_resized / 255.0) + \
            background_img[y_offset:y_offset+new_monkey_height, x_offset:x_offset+new_monkey_width, c] * \
            (1.0 - mask_resized / 255.0)

    # 使用 OpenCV 提取輪廓，並生成更多輪廓點
    contours, _ = cv2.findContours(mask_resized, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    if contours:
        contour = max(contours, key=cv2.contourArea)  # 提取最大輪廓
        # YOLO 格式需要相對於圖片尺寸的座標
        normalized_contour = [(float(x_offset + p[0][0]) / bg_width, float(y_offset + p[0][1]) / bg_height) for p in contour]
        
        # YOLO 標註格式 (類別, 每個點的 (x, y) 座標)
        yolo_annotation = "0 " + " ".join([f"{x:.6f} {y:.6f}" for x, y in normalized_contour]) + "\n"
        
        # 保存標註為 YOLO 格式
        label_path = os.path.join(labels_output_dir, f'monkey_{i}.txt')
        with open(label_path, 'w') as label_file:
            label_file.write(yolo_annotation)

    # 保存合成的圖像
    output_path = os.path.join(combined_output_dir, f'monkey_{i}.png')
    cv2.imwrite(output_path, background_img)

print(f'合成的圖片和標註已保存至 {combined_output_dir} 和 {labels_output_dir}。')


合成的圖片和標註已保存至 C:\Users\User\Desktop\monkey\TrainImage0923\combined_output 和 C:\Users\User\Desktop\monkey\TrainImage0923\Labels。


將背景圖片統一設為640*640，再進行上面的圖片合成

In [1]:
import cv2
import os
from pathlib import Path

# Set the path to the background images
background_dir = Path('C:\\Users\\User\\Desktop\\monkey\\background')

# Set the output directory for resized images
output_dir = Path('C:\\Users\\User\\Desktop\\monkey\\background_new')

# Set the target size
target_size = (640, 640)

# Ensure the output directory exists
output_dir.mkdir(exist_ok=True)

# Get all image files in the directory
image_files = list(background_dir.glob('*.[pj][np][g]'))  # This will match .png, .jpg, .jpeg

# Process each image
for img_path in image_files:
    # Read the image
    img = cv2.imread(str(img_path))
    
    if img is None:
        print(f"Failed to read image: {img_path}")
        continue
    
    # Resize the image
    resized_img = cv2.resize(img, target_size, interpolation=cv2.INTER_AREA)
    
    # Create the output filename
    output_filename = output_dir / img_path.name
    
    # Save the resized image
    cv2.imwrite(str(output_filename), resized_img)
    
    print(f"Resized and saved: {output_filename}")

print(f"All images have been resized and saved to {output_dir}")

Resized and saved: C:\Users\User\Desktop\monkey\background_new\0009.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\02123.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\06514.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\10.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\100.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1000_F_318874613_EYlfHvNF9zmBA8JxmTV5RNiBSOXUHV0M.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1000_F_318874768_SA4lvlM32174jZzyoN2kpUFKiwOlULBn.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_04da0f355f65049a368845b22c8d15a8.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_568c1385ea69732836b2f28c5289e75b.jpg
Resized and saved: C:\Users\User\Desktop\monkey\background_new\1024_90b87c28564b195b9e7a927f8f99009b.jpg
Resized and saved: C:\U