In [4]:
import pandas as pd

# 파일 경로 설정
template_media_path = 'ijbc_face_tid_mid.txt'
pair_label_path = 'ijbc_template_pair_label.txt'

# CSV 파일 로드 (구분자 자동 감지 또는 , 대신 다른 구분자가 있을 수 있으니 sep 확인)
template_media_df = pd.read_csv(template_media_path)
pair_label_df = pd.read_csv(pair_label_path)

print("🔍 template_media_df columns:")
print(template_media_df.columns)

print("\n🔍 pair_label_df columns:")
print(pair_label_df.columns)


🔍 template_media_df columns:
Index(['1.jpg 1 69544'], dtype='object')

🔍 pair_label_df columns:
Index(['1 11065 1'], dtype='object')


In [7]:
import pandas as pd

# 파일 경로
template_media_path = 'ijbc_face_tid_mid.txt'
pair_label_path = 'ijbc_template_pair_label.txt'

# 공백 여러 칸 기준으로 읽기 + 컬럼명 수동 지정
template_media_df = pd.read_csv(
    template_media_path,
    sep=r'\s+',
    header=None,
    names=['FILE_NAME', 'MEDIA_ID', 'TEMPLATE_ID']
)

pair_label_df = pd.read_csv(
    pair_label_path,
    sep=r'\s+',
    header=None,
    names=['TEMPLATE_ID_1', 'TEMPLATE_ID_2', 'IS_SAME']
)

# 자료형 명시적 변환 (중요!)
template_media_df['TEMPLATE_ID'] = template_media_df['TEMPLATE_ID'].astype(int)
pair_label_df['TEMPLATE_ID_1'] = pair_label_df['TEMPLATE_ID_1'].astype(int)
pair_label_df['TEMPLATE_ID_2'] = pair_label_df['TEMPLATE_ID_2'].astype(int)

# 등장하는 템플릿 ID 추출
template_ids = pd.unique(pair_label_df[['TEMPLATE_ID_1', 'TEMPLATE_ID_2']].values.ravel())

# 매칭 확인
used_images_df = template_media_df[template_media_df['TEMPLATE_ID'].isin(template_ids)]

# 고유 이미지 수 계산
unique_images = used_images_df['FILE_NAME'].nunique()

# 디버깅용 출력
print(f"🔍 전체 템플릿 수: {template_media_df['TEMPLATE_ID'].nunique()}")
print(f"🔍 1:1 템플릿 수: {len(template_ids)}")
print(f"✅ 매칭된 템플릿 수: {used_images_df['TEMPLATE_ID'].nunique()}")
print(f"✅ 고유 이미지 수: {unique_images}")


🔍 전체 템플릿 수: 34180
🔍 1:1 템플릿 수: 23124
✅ 매칭된 템플릿 수: 865
✅ 고유 이미지 수: 1895


In [8]:
# 템플릿 ID 비교
media_tids = set(template_media_df['TEMPLATE_ID'].unique())
verification_tids = set(template_ids)

missing = verification_tids - media_tids

print(f"🛑 매핑 안 된 템플릿 수: {len(missing)}")
print("예시로 매칭 안 된 템플릿 몇 개:", list(missing)[:10])

🛑 매핑 안 된 템플릿 수: 22259
예시로 매칭 안 된 템플릿 몇 개: [2, 4, 5, 6, 7, 8, 9, 10, 11, 12]
