In [None]:
import pandas as pd
import openai
import numpy as np
import json
import time
from tqdm.notebook import tqdm

# tqdm의 pandas용 progress_apply 활성화
tqdm.pandas()

# 1. OpenAI API 키 설정 (반드시 본인의 API 키로 변경하세요)
openai.api_key = ""

##############################################
# 2. 데이터 로드: 원본 데이터(parquet) 및 카탈로그 데이터(CSV)
##############################################
# 원본 데이터 파일: '/Users/kali/Downloads/2024-05-20T10_00_00+09_00 (1).parquet'
df1 = pd.read_parquet('/content/2024-05-20T10_00_00+09_00 (1).parquet')

# 카탈로그 데이터 파일: '/Users/kali/Downloads/diaper_UNIQUE_240430_v1.csv'
df2 = pd.read_csv('/content/fenelope_UNIQUE.csv')

##############################################
# 3. 카탈로그 데이터 임베딩 처리 및 CSV 저장 (오류 발생시 재시도)
##############################################
# 카탈로그 데이터의 join_item_name 생성
df2['join_item_name'] = (
    df2['TITLE_TEXT'].fillna('') + " " +
    df2['opt_title'].fillna('') + " " +
    df2['OPTION_TEXT_1'].fillna('') + " " +
    df2['OPTION_TEXT_2'].fillna('') + " " +
    df2['OPTION_TEXT_3'].fillna('')
).str.strip()

# 임베딩 캐싱용 딕셔너리 (중복 호출 방지)
embedding_cache = {}

def get_embedding(text, model="text-embedding-ada-002"):
    """
    주어진 텍스트에 대해 OpenAI 임베딩 벡터를 반환합니다.
    """
    if text in embedding_cache:
        return embedding_cache[text]
    response = openai.Embedding.create(
        input=[text],
        model=model
    )
    embedding = np.array(response['data'][0]['embedding'])
    embedding_cache[text] = embedding
    return embedding

def safe_get_embedding(text, model="text-embedding-3-large", max_retries=3):
    """
    임베딩 호출 시 오류가 발생하면 재시도합니다.
    max_retries 번 시도 후에도 실패하면 None을 반환합니다.
    """
    for attempt in range(max_retries):
        try:
            return get_embedding(text, model=model)
        except Exception as e:
            print(f"임베딩 오류 발생 (텍스트 일부: {text[:30]}...): {e} (재시도 {attempt+1}/{max_retries})")
            time.sleep(5)  # 재시도 전 5초 대기
    return None

# EMBEDDING 컬럼이 없으면 추가 (이미 존재하면 그대로 사용)
if 'EMBEDDING' not in df2.columns:
    df2['EMBEDDING'] = None

# 임베딩이 없는 행(또는 NaN인 행)을 찾아 계산 (진행률 표시)
missing_mask = df2['EMBEDDING'].isnull()
if missing_mask.any():
    df2.loc[missing_mask, 'EMBEDDING'] = df2.loc[missing_mask, 'join_item_name'].progress_apply(lambda x: safe_get_embedding(x))

# CSV에 저장하기 위해 EMBEDDING 컬럼을 문자열(JSON 형식)로 변환
df2['EMBEDDING_STR'] = df2['EMBEDDING'].apply(lambda arr: json.dumps(arr.tolist()) if arr is not None else None)

# CSV 파일로 저장 (임베딩 재사용을 위해)
df2.to_csv('/content/catalog_with_embeddings.csv', index=False)
print("카탈로그 데이터의 임베딩이 계산되어 CSV 파일로 저장되었습니다.")

##############################################
# 4. 원본 데이터 필터링 (CHECK == 0, BRAND == "페넬로페")
##############################################
df1_filtered = df1[(df1['CHECK'] == 0) & (df1['BRAND'] == "페넬로페")].copy()

##############################################
# 5. 원본 데이터의 join_item_name 생성 및 임베딩 계산
##############################################
df1_filtered['join_item_name'] = (
    df1_filtered['OPTION_TEXT_1'].fillna('') + " " +
    df1_filtered['opt_title'].fillna('') + " " +
    df1_filtered['TITLE_TEXT'].fillna('') + " " +
    df1_filtered['OPTION_TEXT_2'].fillna('') + " " +
    df1_filtered['OPTION_TEXT_3'].fillna('')
).str.strip()

# 원본 데이터 임베딩 계산 (진행률 표시)
df1_filtered['embedding'] = df1_filtered['join_item_name'].progress_apply(lambda x: safe_get_embedding(x))

##############################################
# 6. 상품 매칭: 원본 데이터 각 행에 대해 카탈로그 데이터와 코사인 유사도 비교
##############################################
def cosine_similarity(vec1, vec2):
    """두 벡터 간의 코사인 유사도 계산"""
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2))

# 카탈로그 데이터에서 BRAND가 "페넬로페"인 행만 필터링
df2_filtered = df2[df2['BRAND'] == "페넬로페"].copy()

# 매핑할 카탈로그 컬럼들 (매칭 후 원본 데이터에 삽입)
catalog_cols = [
    "ITEM_ID", "MANUFACTURER", "BRAND", "SUBBRAND",
    "WEIGHT", "UOM", "PIECE", "PACK", "TOTAL_WEIGHT",
    "SKU", "SEGMENT1", "SEGMENT2", "SEGMENT3"
]

# 원본 데이터에 해당 컬럼들을 미리 None으로 초기화
for col in catalog_cols:
    df1_filtered[col] = None

similarity_scores = []  # 각 행별 최고 유사도 저장

# 원본 데이터 각 행마다 카탈로그 데이터와 코사인 유사도 비교 (진행률 표시)
for idx, row in tqdm(df1_filtered.iterrows(), total=df1_filtered.shape[0], desc="매칭 진행 중"):
    vec1 = row['embedding']
    best_similarity = -1
    best_match_idx = None

    for jdx, cat_row in df2_filtered.iterrows():
        vec2 = cat_row['EMBEDDING']
        sim = cosine_similarity(vec1, vec2)
        if sim > best_similarity:
            best_similarity = sim
            best_match_idx = jdx

    similarity_scores.append(best_similarity)

    # 최고 유사도에 해당하는 카탈로그 행의 정보 매핑
    if best_match_idx is not None:
        matched_row = df2_filtered.loc[best_match_idx]
        for col in catalog_cols:
            df1_filtered.at[idx, col] = matched_row[col]

df1_filtered['similarity'] = similarity_scores

##############################################
# 7. 최종 결과 출력
##############################################
print("===== 매칭 결과 (브랜드 '페넬로페' 및 CHECK=0 대상) =====")
print(df1_filtered[[
    'TITLE_TEXT', 'opt_title', 'OPTION_TEXT_1', 'OPTION_TEXT_2', 'OPTION_TEXT_3',
    'join_item_name', 'ITEM_ID', 'MANUFACTURER', 'BRAND', 'SUBBRAND', 'WEIGHT',
    'UOM', 'PIECE', 'PACK', 'TOTAL_WEIGHT', 'SKU', 'SEGMENT1', 'SEGMENT2',
    'SEGMENT3', 'similarity'
]])
