In [1]:
import os
import pandas as pd

DATA_DIR = r"D:\Project\PJT_10\shopee-product-matching"
CSV_PATH = os.path.join(DATA_DIR, "train.csv")

df = pd.read_csv(CSV_PATH)

# label_group별로 이미지명, 텍스트(title) 리스트 묶기
grouped = df.groupby("label_group").agg({
    "image": list,
    "title": list
}).reset_index()

# 예: 첫 3개 그룹 내용 확인
for idx, row in grouped.head(3).iterrows():
    print(f"Label Group: {row['label_group']}")
    print(f"Images: {row['image']}")
    print(f"Titles: {row['title']}\n")

# 저장 - csv로 저장시 리스트는 문자열로 저장됨
SAVE_PATH = os.path.join(DATA_DIR, "grouped_label_data.csv")
grouped.to_csv(SAVE_PATH, index=False)

print(f"Grouped data saved to {SAVE_PATH}")

Label Group: 258047
Images: ['1d7aadc7503b2b4539cc9a5fe41979dd.jpg', '3301b8aaccea93d1098995ffbc537335.jpg', 'eec692257e74fcbc6cb63cb76d0f20e7.jpg']
Titles: ['Sarung celana wadimor original 100% dewasa dan anak hitam dan putih polos', 'SARUNG CELANA WADIMOR DEWASA HITAM POLOS SARCEL', 'WARNA RANDOM ACAK Sarung Celana Wadimor MURAH Celana Sarung WADIMOR']

Label Group: 297977
Images: ['3977f4e7a47c73568c5e9fcb61723b4b.jpg', '5d075d7eaa258052ab125c75c06293d6.jpg']
Titles: ['Wall Sticker / WallSticker -  Submarine Measure - SK9222', 'RELIZA WALL STICKER PENGUKUR TINGGI BADAN JERAPAH STIKER DINDING XL8337']

Label Group: 645628
Images: ['58167b1c1bf3b33226ad342f9bbc3bc9.jpg', '70fe1461e4115c3ba79bbc176ae7a118.jpg', '726574cf844c5dac0669f926d09c8931.jpg', '757c82b2781305c17d9384c48f76bb3a.jpg', '8364a3398f498979f62065bb280b0c7c.jpg', '8bcd5a841b439f6dbf614ad15ce39248.jpg', '96f576b30ec40414cc2eadb2be8e2d91.jpg', 'a3e83f94822e26ecf236c80d922d6794.jpg', 'b19a6f887d8efd3c0bf2aa9845b03c23.jpg',

In [2]:
import os
import shutil
import pandas as pd

DATA_DIR = r"D:\Project\PJT_10\shopee-product-matching"
CSV_PATH = os.path.join(DATA_DIR, "train.csv")
IMAGE_DIR = os.path.join(DATA_DIR, "train_images")
OUTPUT_DIR = os.path.join(DATA_DIR, "train_images_by_label")

df = pd.read_csv(CSV_PATH)

# label_group별로 이미지 리스트 및 정보 묶기
grouped = df.groupby("label_group")

os.makedirs(OUTPUT_DIR, exist_ok=True)

for label_group, group_df in grouped:
    label_group_str = str(label_group)
    group_folder = os.path.join(OUTPUT_DIR, label_group_str)
    os.makedirs(group_folder, exist_ok=True)

    # 이미지 복사
    for _, row in group_df.iterrows():
        img_name = row['image']
        src_path = os.path.join(IMAGE_DIR, img_name)
        dst_path = os.path.join(group_folder, img_name)
        if os.path.exists(src_path):
            shutil.copy2(src_path, dst_path)
        else:
            print(f"[Warning] 이미지 파일 없음: {src_path}")

    # 이미지별 정보 txt 저장 (탭으로 구분된 텍스트 파일)
    info_txt_path = os.path.join(group_folder, f"{label_group_str}_info.txt")
    with open(info_txt_path, "w", encoding="utf-8") as f:
        # 헤더 작성
        f.write("posting_id\timage\timage_phash\ttitle\tlabel_group\n")
        # 각 행을 탭으로 구분하여 기록
        for _, row in group_df.iterrows():
            line = f"{row['posting_id']}\t{row['image']}\t{row['image_phash']}\t{row['title']}\t{row['label_group']}\n"
            f.write(line)

print(f"label_group 별 이미지 및 정보 파일 저장 완료. 경로: {OUTPUT_DIR}")

label_group 별 이미지 및 정보 파일 저장 완료. 경로: D:\Project\PJT_10\shopee-product-matching\train_images_by_label
