## Mockdb 관련 스크립트

### Postgresql 연결 설정

In [5]:
import os
from dotenv import load_dotenv

# 데이터베이스 관련
from sqlalchemy import create_engine, text

load_dotenv('.env')

# PostgreSQL 설정 로드
PG_HOST = os.getenv('PG_HOST')
PG_PORT = os.getenv('PG_PORT')
PG_DATABASE = os.getenv('PG_DATABASE')
PG_USER = os.getenv('PG_USER')
PG_PASSWORD = os.getenv('PG_PASSWORD')

print(f"PostgreSQL 연결 정보:")
print(f"   Host: {PG_HOST}")
print(f"   Port: {PG_PORT}")

# SQLAlchemy 연결 문자열 생성
POSTGRES_URL = f"postgresql://{PG_USER}:{PG_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DATABASE}"

print(f"\n✅ PostgreSQL 설정 로드 완료")

PostgreSQL 연결 정보:
   Host: dev-rubicon-postgresql.postgres.database.azure.com
   Port: 5432

✅ PostgreSQL 설정 로드 완료


### PostgreSQL 연결 및 테이블 생성

In [6]:
def postgresql_connection_and_create_tables():
    """PostgreSQL 연결 및 테이블 생성"""
    
    print("=" * 60)
    print("PostgreSQL 연결 및 테이블 생성")
    print("=" * 60)
    
    try:
        # SQLAlchemy 엔진 생성
        engine = create_engine(POSTGRES_URL)
        # engine = get_db_connection()
        
        # 연결 테스트
        with engine.connect() as conn:
            # 기본 연결 테스트
            result = conn.execute(text("SELECT version();"))
            version = result.fetchone()[0]
            print(f"✅ PostgreSQL 연결 성공!")
            print(f"   버전: {version}")
            
            # 현재 데이터베이스 정보
            result = conn.execute(text("SELECT current_database(), current_user;"))
            db_info = result.fetchone()
            print(f"   현재 DB: {db_info[0]}")
            print(f"   사용자: {db_info[1]}")
            
            existing_tables = [row[0] for row in result.fetchall()]
            print(f"\n📊 기존 테이블 수: {len(existing_tables)}개")
            if existing_tables:
                for table in existing_tables:
                    print(f"   • {table}")
        
        with engine.connect() as conn:
            # 트랜잭션 시작
            trans = conn.begin()
            
            try:
                # 1. 상품 정보 테이블 생성
                conn.execute(text("""
                    CREATE TABLE IF NOT EXISTS kt_merged_product_20251015 (
                        product_id VARCHAR(15),
                        model_code VARCHAR(100),
                        is_bespoke_goods VARCHAR(1),
                        model_name VARCHAR(100),
                        product_name VARCHAR(1000),
                        display_category_major VARCHAR(1000),
                        display_category_middle VARCHAR(1000),
                        display_category_minor VARCHAR(1000),
                        product_category_major VARCHAR(1000),
                        product_category_middle VARCHAR(1000),
                        product_category_minor VARCHAR(1000),
                        product_color VARCHAR(1000),
                        release_date DATE,
                        is_ai_subscription_eligible VARCHAR(1),
                        is_smart_subscription_eligible VARCHAR(1),
                        is_galaxy_club_eligible VARCHAR(1),
                        is_installment_payment_available VARCHAR(1),
                        product_detail_url TEXT,
                        site_code VARCHAR(10),
                        unique_selling_point VARCHAR[],
                        review_count INT4,
                        review_rating_score NUMERIC(5,2),
                        standard_price NUMERIC(10),
                        member_price NUMERIC(10),
                        benefit_price NUMERIC(10),
                        product_specification JSONB,
                        web_coupon_discount_amount NUMERIC(10),
                        stock_quantity INT4,
                        bundle_component_model_code VARCHAR[],
                        is_bundle_product TEXT,
                        final_price NUMERIC,
                        review_text_collection JSONB,
                        category_rank_recommend INT4,
                        category_rank_quantity INT4,
                        category_rank_rating INT4,
                        total_sale_amount NUMERIC(15),
                        total_sale_quantity INT4,
                        event_info JSONB,
                        coupon_info JSONB,
                        promotion_info JSONB,
                        payment_benefit_info JSONB
                    );
                """))
                print("   ✅ kt_merged_product_20251015 테이블 생성")


                # 인덱스 생성
                conn.execute(text("CREATE INDEX IF NOT EXISTS idx_model_code ON kt_merged_product_20251015(model_code);"))
                conn.execute(text("CREATE INDEX IF NOT EXISTS idx_site_code ON kt_merged_product_20251015(site_code);"))
                conn.execute(text("CREATE INDEX IF NOT EXISTS idx_model_code_site_code ON kt_merged_product_20251015(model_code, site_code);"))
                conn.execute(text("CREATE INDEX IF NOT EXISTS idx_product_id ON kt_merged_product_20251015(product_id);"))
                conn.execute(text("CREATE INDEX IF NOT EXISTS idx_product_name ON kt_merged_product_20251015(product_name);"))
                print("   ✅ 인덱스 생성 완료")


                # 커멘트 생성
                conn.execute(text("COMMENT ON TABLE kt_merged_product_20251015 IS '상품 통합 정보 테이블';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_id IS '데이터베이스에서 각 제품을 식별하기 위한 고유 ID';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.model_code IS '제품의 세부 사양(색상, 용량 등)을 포함하는 고유 모델 코드 (예: SM-S928NZ...)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_bespoke_goods IS '비스포크 상품 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.model_name IS '제품의 공식 모델명 (예: Galaxy S24 Ultra)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_name IS '웹사이트에 최종적으로 표시되는 제품명 (예: 갤럭시 S24 Ultra 자급제 256GB 티타늄 그레이)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.display_category_major IS '웹사이트에 노출되는 제품의 대분류 카테고리명 (예: 모바일, TV & 오디오, 가전)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.display_category_middle IS '웹사이트에 노출되는 제품의 중분류 카테고리명 (예: 스마트폰, QLED, 비스포크)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.display_category_minor IS '웹사이트에 노출되는 제품의 소분류 카테고리명 (예: Galaxy S, Neo QLED, 냉장고)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_category_major IS '내부 시스템에서 관리하는 제품의 대분류 카테고리 코드 또는 이름';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_category_middle IS '내부 시스템에서 관리하는 제품의 중분류 카테고리 코드 또는 이름';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_category_minor IS '내부 시스템에서 관리하는 제품의 소분류 카테고리 코드 또는 이름';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_color IS '제품의 색상명 (예: 티타늄 블랙, 코튼 화이트)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.release_date IS '제품의 공식 출시일';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_ai_subscription_eligible IS 'Galaxy AI와 같은 AI 관련 구독 서비스 가입 가능 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_smart_subscription_eligible IS '스마트 기기 구독 서비스(삼성닷컴 구독) 가입 가능 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_galaxy_club_eligible IS '갤럭시 클럽 가입 또는 혜택 적용 가능 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_installment_payment_available IS '할부 결제 가능 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_detail_url IS '제품의 상세 페이지로 연결되는 전체 URL 주소';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.site_code IS '판매 채널을 구분하는 코드 (예: 온라인, B2B, 특정 프로모션)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.unique_selling_point IS '제품의 핵심 특장점을 요약한 문구 모음 (예: Galaxy AI 탑재, 2억 화소 카메라)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.review_count IS '해당 제품에 달린 리뷰의 총 개수';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.review_rating_score IS '해당 제품의 평균 리뷰 별점 (예: 4.8)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.standard_price IS '할인이 적용되지 않은 정상 판매가';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.member_price IS '삼성닷컴 회원에게만 적용되는 할인가';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.benefit_price IS '즉시 할인, 쿠폰 등 모든 혜택이 적용된 최종 가격(혜택가)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.product_specification IS '제품의 상세 기술 사양(스펙) 데이터 (JSON 형태)';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.web_coupon_discount_amount IS '웹 쿠폰 적용 시 할인되는 금액';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.stock_quantity IS '판매 가능한 재고 수량';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.bundle_component_model_code IS '번들(패키지) 상품일 경우, 구성품 각각의 모델 코드 목록';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.is_bundle_product IS '번들 상품 여부';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.final_price IS '웹 쿠폰 할인 금액이 적용된 가격';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.review_text_collection IS '사용자들이 작성한 리뷰 텍스트 데이터의 모음';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.category_rank_recommend IS '카테고리 내에서 추천순에 따른 제품 순위';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.category_rank_quantity IS '카테고리 내에서 판매량순에 따른 제품 순위';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.category_rank_rating IS '카테고리 내에서 평점순에 따른 제품 순위';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.total_sale_amount IS '해당 제품의 총 판매 금액';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.total_sale_quantity IS '해당 제품의 총 판매 수량';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.event_info IS '해당 제품이 포함되는 이벤트와 혜택 정보 목록';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.coupon_info IS '해당 제품별에 적용할 수 있는 쿠폰 혜택 목록';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.promotion_info IS '해당 제품을 묶음으로 구매 시 제공되는 프로모션 혜택 목록';"))
                conn.execute(text("COMMENT ON COLUMN kt_merged_product_20251015.payment_benefit_info IS '결제와 관련되어 제공되는 혜택의 목록 (예: 삼성카드 5% 청구할인)';"))
                print("   ✅ 커멘트 생성 완료")

                # 트랜잭션 커밋
                trans.commit()
                print("\n✅ 모든 테이블 생성 완료!")
                
            except Exception as e:
                trans.rollback()
                print(f"❌ 테이블 생성 실패: {e}")
                return None
        
        return engine
        
    except Exception as e:
        print(f"❌ PostgreSQL 연결 실패: {e}")
        return None

# PostgreSQL 연결 및 테이블 생성
pg_engine = postgresql_connection_and_create_tables()

PostgreSQL 연결 및 테이블 생성
✅ PostgreSQL 연결 성공!
   버전: PostgreSQL 17.5 on x86_64-pc-linux-gnu, compiled by gcc (GCC) 11.2.0, 64-bit
   현재 DB: postgres
   사용자: rubicon

📊 기존 테이블 수: 0개
   ✅ kt_merged_product_20251015 테이블 생성
   ✅ 인덱스 생성 완료
   ✅ 커멘트 생성 완료

✅ 모든 테이블 생성 완료!


### 로컬 파일의 데이터를 postgresql에 업로드

In [7]:
import pandas as pd
import numpy as np
from typing import List, Dict
import os
from dotenv import load_dotenv
import psycopg2
from psycopg2.extras import execute_batch, Json
from datetime import datetime
import json
from sqlalchemy import create_engine, inspect
import csv

# .env 파일 로드
load_dotenv()

# PostgreSQL 연결 정보
PG_HOST = os.getenv('PG_HOST', 'localhost')
PG_PORT = os.getenv('PG_PORT', '5432')
PG_DATABASE = os.getenv('PG_DATABASE', 'postgres')
PG_USER = os.getenv('PG_USER', 'postgres')
PG_PASSWORD = os.getenv('PG_PASSWORD', '')

print(f"PostgreSQL 연결 정보: {PG_USER}@{PG_HOST}:{PG_PORT}/{PG_DATABASE}")

def detect_file_format(file_path: str):
    """파일 형식을 자동으로 감지합니다."""
    with open(file_path, 'r', encoding='utf-8') as file:
        # 첫 몇 줄을 읽어서 형식 판단
        first_line = file.readline()
        
        # CSV 형식 (따옴표로 둘러싸인 쉼표 구분)
        if '","' in first_line:
            return 'csv', ','
        # TSV 형식 (탭 구분)
        elif '\t' in first_line:
            return 'tsv', '\t'
        # 쉼표 구분
        elif ',' in first_line:
            return 'csv', ','
        else:
            # 기본값으로 CSV 처리
            return 'csv', ','

def parse_json_field(value):
    """JSON 필드를 파싱하여 PostgreSQL Json 객체로 변환"""
    # None 또는 NaN 처리
    if pd.isna(value) or value is None:
        return None
    
    # 이미 dict 또는 list인 경우
    if isinstance(value, (dict, list)):
        return Json(value)
        
    # 문자열인 경우
    if isinstance(value, str):
        value = value.strip()
        
        # 빈 문자열 처리
        if not value:
            return None
            
        try:
            # JSON 배열 [] 형식 처리
            if value.startswith('['):
                parsed = json.loads(value)
                return Json(parsed)
            # JSON 객체 {} 형식 처리
            elif value.startswith('{'):
                parsed = json.loads(value)
                return Json(parsed)
            # 빈 배열이나 객체 문자열 처리
            elif value in ['[]', '{}']:
                parsed = json.loads(value)
                return Json(parsed)
            else:
                # JSON 형식이 아닌 경우 문자열을 그대로 JSON 문자열로 변환
                return Json({"value": value})
        except json.JSONDecodeError:
            # JSON 파싱 실패 시 처리
            # 작은따옴표를 큰따옴표로 변경 후 재시도
            try:
                if value.startswith('[') or value.startswith('{'):
                    value_cleaned = value.replace("'", '"')
                    parsed = json.loads(value_cleaned)
                    return Json(parsed)
                else:
                    # JSON 형식이 아니면 문자열로 감싸서 반환
                    return Json({"value": value})
            except:
                # 그래도 실패하면 문자열로 감싸서 반환
                return Json({"value": value})
    
    # 기타 타입은 None 반환
    return None

def read_tsv_file(file_path: str, table_name: str = 'kt_merged_product_20251015') -> pd.DataFrame:
    """TSV 파일을 읽고 지정된 테이블 구조에 맞게 데이터 타입을 설정합니다."""
    
    # 파일 경로 확인 및 찾기
    if not os.path.exists(file_path):
        # 환경변수에서 파일 경로 가져오기
        env_path = os.getenv('PG_UPLOAD_FILE_PATH')
        if env_path and os.path.exists(env_path):
            file_path = env_path
        else:
            # 기본 경로들 확인
            possible_paths = [
                '/Users/toby/prog/kt/rubicon/data/sr_merged_product_202509231550.tsv',
                './data/sr_merged_product_202509231550.tsv',
                '../data/sr_merged_product_202509231550.tsv'
            ]
            for path in possible_paths:
                if os.path.exists(path):
                    file_path = path
                    break
            else:
                raise FileNotFoundError(f"파일을 찾을 수 없습니다: {file_path}")
    
    print(f"TSV 파일 읽기 시작: {file_path}")
    
    # 파일 형식 자동 감지
    file_format, delimiter = detect_file_format(file_path)
    print(f"파일 형식 감지: {file_format}, 구분자: '{delimiter}'")
    
    # DB 연결하여 테이블 구조 확인
    POSTGRES_URL = f"postgresql://{PG_USER}:{PG_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DATABASE}"
    engine = create_engine(POSTGRES_URL)
    
    try:
        inspector = inspect(engine)
        columns_info = inspector.get_columns(table_name)
        
        # DB 컬럼 정보를 딕셔너리로 변환
        db_dtype_dict = {}
        for col in columns_info:
            col_name = col['name']
            col_type = str(col['type'])
            
            # SQLAlchemy 타입을 pandas dtype으로 변환
            if 'VARCHAR' in col_type.upper() or 'TEXT' in col_type.upper():
                db_dtype_dict[col_name] = 'object'
            elif 'INT' in col_type.upper() or 'SERIAL' in col_type.upper():
                db_dtype_dict[col_name] = 'Int64'  # nullable integer
            elif 'NUMERIC' in col_type.upper() or 'DECIMAL' in col_type.upper():
                db_dtype_dict[col_name] = 'float64'
            elif 'BOOL' in col_type.upper():
                db_dtype_dict[col_name] = 'object'  # Y/N 처리를 위해
            elif 'DATE' in col_type.upper() or 'TIMESTAMP' in col_type.upper():
                db_dtype_dict[col_name] = 'object'  # 날짜는 나중에 파싱
            elif 'JSON' in col_type.upper():
                db_dtype_dict[col_name] = 'object'  # JSON은 object로
            else:
                db_dtype_dict[col_name] = 'object'
                
        print(f"DB 테이블에서 {len(db_dtype_dict)}개 컬럼 타입 정보 조회 완료")
        
    except Exception as e:
        print(f"DB 테이블 구조 조회 실패: {e}")
        raise
    finally:
        engine.dispose()
    
    # 컬럼 매핑 정의 (원본 파일 컬럼 -> DB 테이블 컬럼)
    column_mapping = {
        'disp_lv1': 'display_category_major',
        'disp_lv2': 'display_category_middle', 
        'disp_lv3': 'display_category_minor',
        'product_category_lv1': 'product_category_major',
        'product_category_lv2': 'product_category_middle',
        'product_category_lv3': 'product_category_minor',
        'mdl_code': 'model_code',
        'goods_id': 'product_id',
        'goods_nm': 'product_name',
        'color': 'product_color',
        'release_dt': 'release_date',
        'ai_eligibility': 'is_ai_subscription_eligible',
        'smart_eligibility': 'is_smart_subscription_eligible', 
        'galaxy_eligibility': 'is_galaxy_club_eligible',
        'installment_payment': 'is_installment_payment_available',
        'pd_url': 'product_detail_url',
        'selling_pt': 'unique_selling_point',
        'review_qty': 'review_count',
        'review_score': 'review_rating_score',
        'sale_prc1': 'standard_price',
        'sale_prc2': 'member_price',
        'sale_prc3': 'benefit_price',
        'sale_prc': 'final_price',
        'review_content': 'review_text_collection',
        'spec': 'product_specification',  # spec -> product_specification 매핑 추가
        'web_cp_dc_amt': 'web_coupon_discount',
        'stock_qty': 'stock_quantity',
        'ctg_rank_recommend': 'category_rank_recommend',
        'ctg_rank_qty': 'category_rank_quantity',
        'ctg_rank_score': 'category_rank_rating',
        'card_promotion': 'payment_benefit_info'  # card_promotion -> payment_benefit_info 매핑 추가
    }
    
    # CSV 파일 읽기 (따옴표 처리 포함)
    try:
        if file_format == 'csv':
            df = pd.read_csv(file_path, 
                           sep=delimiter,
                           encoding='utf-8',
                           quotechar='"',
                           quoting=csv.QUOTE_ALL,
                           on_bad_lines='skip',
                           engine='python')
        else:
            df = pd.read_csv(file_path,
                           sep=delimiter, 
                           encoding='utf-8',
                           on_bad_lines='skip',
                           engine='python')
                           
        print(f"파일 읽기 완료: {len(df)} 행, {len(df.columns)} 열")
        print(f"원본 컬럼: {list(df.columns[:10])}...")
        
        # 컬럼명 매핑 적용
        df = df.rename(columns=column_mapping)
        print(f"컬럼 매핑 완료: {len(df.columns)}개 컬럼")
        
        # DB에 있는 컬럼만 선택 (교집합)
        available_columns = list(set(df.columns) & set(db_dtype_dict.keys()))
        df = df[available_columns]
        
        # DB에는 있지만 데이터에 없는 컬럼 추가
        missing_columns = set(db_dtype_dict.keys()) - set(df.columns)
        for col in missing_columns:
            df[col] = None
            
        # 컬럼 순서를 DB 테이블과 동일하게 정렬
        df = df[list(db_dtype_dict.keys())]
        
        print(f"최종 DataFrame: {len(df)} 행, {len(df.columns)} 열")
        
    except Exception as e:
        print(f"파일 읽기 오류: {e}")
        print(f"첫 5줄 내용 확인:")
        with open(file_path, 'r', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if i >= 5:
                    break
                print(f"Line {i+1}: {line[:200]}...")
        raise
    
    return df

def prepare_data_for_insert(df: pd.DataFrame, table_name: str = 'kt_merged_product_20251015') -> List[tuple]:
    """DataFrame을 PostgreSQL 삽입용 튜플 리스트로 변환"""
    records = []
    
    # DB 연결하여 테이블 구조 확인
    POSTGRES_URL = f"postgresql://{PG_USER}:{PG_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DATABASE}"
    engine = create_engine(POSTGRES_URL)
    
    try:
        inspector = inspect(engine)
        columns_info = inspector.get_columns(table_name)
        
        # DB 테이블 컬럼 순서와 타입 정보 수집
        db_columns = []
        column_types = {}
        
        for col in columns_info:
            col_name = col['name']
            col_type = str(col['type'])
            db_columns.append(col_name)
            column_types[col_name] = col_type
            
        print(f"DB 테이블에서 {len(db_columns)}개 컬럼 정보 조회 완료")
        
    except Exception as e:
        print(f"DB 테이블 구조 조회 실패: {e}")
        raise
    finally:
        engine.dispose()
    
    for idx, row in df.iterrows():
        record = []
        
        try:
            for table_col in db_columns:
                # DataFrame에서 해당 컬럼 찾기
                if table_col in df.columns:
                    value = row[table_col]
                else:
                    # 특수 케이스 처리
                    if table_col == 'is_bespoke_goods':
                        # bespoke 관련 컬럼이 없으면 None
                        value = None
                    elif table_col == 'is_bundle_product':
                        # bundle_component_model_code가 있으면 Y, 없으면 N
                        if 'bundle_component_model_code' in df.columns:
                            bundle_val = row.get('bundle_component_model_code')
                            value = 'Y' if pd.notna(bundle_val) and str(bundle_val).strip() else 'N'
                        else:
                            value = 'N'
                    elif table_col == 'web_coupon_discount_amount':
                        # web_coupon_discount와 동일
                        value = row.get('web_coupon_discount', None)
                    elif table_col == 'event_info':
                        # event_info는 원본에 없으므로 빈 JSON 객체 생성
                        value = '{}'
                    elif table_col == 'coupon_info':
                        # coupon_info는 원본에 없으므로 빈 JSON 객체 생성
                        value = '{}'
                    elif table_col == 'promotion_info':
                        # promotion_info는 원본에 없으므로 빈 JSON 객체 생성  
                        value = '{}'
                    elif table_col in ['total_sale_amount', 'total_sale_quantity']:
                        # 판매 총액/수량 - 없으면 None
                        value = None
                    else:
                        record.append(None)
                        continue
                
                # 데이터 타입별 처리
                col_type = column_types[table_col].upper()
                
                # 문자열 처리
                if 'VARCHAR' in col_type or 'TEXT' in col_type or 'CHAR' in col_type:
                    if pd.notna(value):
                        # Boolean 타입의 특수 처리 (Y/N 값)
                        if table_col in ['is_bespoke_goods', 'is_ai_subscription_eligible', 
                                        'is_smart_subscription_eligible', 'is_galaxy_club_eligible',
                                        'is_installment_payment_available', 'is_bundle_product']:
                            val_str = str(value).strip().upper()
                            if val_str in ['TRUE', '1', 'Y', 'YES', 'T']:
                                record.append('Y')
                            elif val_str in ['FALSE', '0', 'N', 'NO', 'F']:
                                record.append('N')
                            else:
                                record.append(None)
                        else:
                            # 문자열 정리
                            val = str(value).strip()
                            # 따옴표 제거
                            if val.startswith('"') and val.endswith('"'):
                                val = val[1:-1]
                            record.append(val if val else None)
                    else:
                        record.append(None)
                        
                # 정수 처리
                elif 'INT' in col_type or 'SERIAL' in col_type:
                    if pd.notna(value):
                        try:
                            # 문자열에서 숫자만 추출
                            val_str = str(value).strip().replace(',', '').replace('"', '')
                            if val_str and val_str != 'nan':
                                record.append(int(float(val_str)))
                            else:
                                record.append(None)
                        except:
                            record.append(None)
                    else:
                        record.append(None)
                        
                # 실수 처리  
                elif 'NUMERIC' in col_type or 'DECIMAL' in col_type or 'FLOAT' in col_type or 'DOUBLE' in col_type:
                    if pd.notna(value):
                        try:
                            val_str = str(value).strip().replace(',', '').replace('"', '')
                            if val_str and val_str != 'nan':
                                record.append(float(val_str))
                            else:
                                record.append(None)
                        except:
                            record.append(None)
                    else:
                        record.append(None)
                        
                # 날짜 처리
                elif 'DATE' in col_type or 'TIMESTAMP' in col_type:
                    if pd.notna(value):
                        try:
                            # 날짜 문자열 파싱
                            val_str = str(value).strip().replace('"', '')
                            if val_str and val_str != 'nan':
                                # YYYYMMDD 형식 처리
                                if len(val_str) == 8 and val_str.isdigit():
                                    date_val = datetime.strptime(val_str, '%Y%m%d').date()
                                    record.append(date_val)
                                # YYYY-MM-DD 형식 처리
                                elif '-' in val_str:
                                    date_val = datetime.strptime(val_str.split(' ')[0], '%Y-%m-%d').date()
                                    record.append(date_val)
                                else:
                                    record.append(None)
                            else:
                                record.append(None)
                        except:
                            record.append(None)
                    else:
                        record.append(None)
                        
                # JSONB 처리
                elif 'JSON' in col_type:
                    json_value = parse_json_field(value)
                    record.append(json_value)
                    
                else:
                    record.append(None)
                    
        except Exception as e:
            print(f"레코드 {idx} 처리 중 오류: {e}")
            continue
            
        if len(record) == len(db_columns):
            records.append(tuple(record))
        else:
            print(f"레코드 {idx}: 컬럼 수 불일치 ({len(record)} vs {len(db_columns)})")
    
    return records

def insert_data_to_postgres(records: List[tuple], table_name: str = 'kt_merged_product_20251015', batch_size: int = 100):
    """데이터를 PostgreSQL에 삽입"""
    conn = None
    cur = None
    
    try:
        # PostgreSQL 연결
        conn = psycopg2.connect(
            host=PG_HOST,
            port=PG_PORT,
            database=PG_DATABASE,
            user=PG_USER,
            password=PG_PASSWORD
        )
        cur = conn.cursor()
        
        # 테이블 컬럼 목록 조회
        cur.execute(f"""
            SELECT column_name 
            FROM information_schema.columns
            WHERE table_name = '{table_name}'
            ORDER BY ordinal_position
        """)
        columns = [row[0] for row in cur.fetchall()]
        
        # INSERT 쿼리 생성
        placeholders = ','.join(['%s'] * len(columns))
        insert_query = f"INSERT INTO {table_name} ({','.join(columns)}) VALUES ({placeholders})"
        
        print(f"데이터 삽입 시작: {len(records)}개 레코드")
        
        # 배치 삽입
        success_count = 0
        error_count = 0
        
        for i in range(0, len(records), batch_size):
            batch = records[i:i+batch_size]
            try:
                execute_batch(cur, insert_query, batch, page_size=batch_size)
                conn.commit()
                success_count += len(batch)
                print(f"진행: {success_count}/{len(records)} 레코드 삽입 완료")
            except Exception as batch_error:
                conn.rollback()
                print(f"배치 {i//batch_size + 1} 삽입 실패: {batch_error}")
                
                # 실패한 배치는 개별 삽입 시도
                for record in batch:
                    try:
                        cur.execute(insert_query, record)
                        conn.commit()
                        success_count += 1
                    except Exception as record_error:
                        conn.rollback()
                        error_count += 1
                        print(f"레코드 삽입 실패: {record_error}")
        
        print(f"\n데이터 삽입 완료:")
        print(f"  - 성공: {success_count}개")
        print(f"  - 실패: {error_count}개")
        
    except Exception as e:
        print(f"데이터베이스 오류: {e}")
        if conn:
            conn.rollback()
    finally:
        if cur:
            cur.close()
        if conn:
            conn.close()

# 실행
if __name__ == "__main__":
    try:
        # TSV 파일 읽기
        file_path = os.getenv('PG_UPLOAD_FILE_PATH', '/Users/toby/prog/kt/rubicon/data/sr_merged_product_202509231550.tsv')
        df = read_tsv_file(file_path)
        
        # 데이터 준비
        records = prepare_data_for_insert(df)
        
        # PostgreSQL에 삽입
        if records:
            insert_data_to_postgres(records)
        else:
            print("삽입할 데이터가 없습니다.")
            
    except Exception as e:
        print(f"오류 발생: {e}")

PostgreSQL 연결 정보: rubicon@dev-rubicon-postgresql.postgres.database.azure.com:5432/postgres
TSV 파일 읽기 시작: /Users/toby/prog/kt/rubicon/data/kt_merged_product_251015_20251015.tsv
파일 형식 감지: tsv, 구분자: '	'
DB 테이블에서 41개 컬럼 타입 정보 조회 완료
파일 읽기 완료: 2814 행, 41 열
원본 컬럼: ['product_id', 'model_code', 'is_bespoke_goods', 'model_name', 'product_name', 'display_category_major', 'display_category_middle', 'display_category_minor', 'product_category_major', 'product_category_middle']...
컬럼 매핑 완료: 41개 컬럼
최종 DataFrame: 2814 행, 41 열
DB 테이블에서 41개 컬럼 정보 조회 완료
데이터 삽입 시작: 2814개 레코드
진행: 100/2814 레코드 삽입 완료
진행: 200/2814 레코드 삽입 완료
진행: 300/2814 레코드 삽입 완료
진행: 400/2814 레코드 삽입 완료
진행: 500/2814 레코드 삽입 완료
진행: 600/2814 레코드 삽입 완료
진행: 700/2814 레코드 삽입 완료
진행: 800/2814 레코드 삽입 완료
진행: 900/2814 레코드 삽입 완료
진행: 1000/2814 레코드 삽입 완료
진행: 1100/2814 레코드 삽입 완료
진행: 1200/2814 레코드 삽입 완료
진행: 1300/2814 레코드 삽입 완료
진행: 1400/2814 레코드 삽입 완료
진행: 1500/2814 레코드 삽입 완료
진행: 1600/2814 레코드 삽입 완료
진행: 1700/2814 레코드 삽입 완료
진행: 1800/2814 레코드 삽입 완료
진행: 1900/2814 레

In [28]:
import json
import psycopg2
from psycopg2.extras import execute_batch, Json
import pandas as pd
from sqlalchemy import create_engine, inspect
import os
from dotenv import load_dotenv
import numpy as np

# .env 파일 로드
load_dotenv()

def get_db_connection():
    """PostgreSQL 데이터베이스 연결 객체를 반환합니다."""
    return psycopg2.connect(
        host=os.getenv('PG_HOST'),
        port=os.getenv('PG_PORT', 5432),
        database=os.getenv('PG_DATABASE'),
        user=os.getenv('PG_USER'),
        password=os.getenv('PG_PASSWORD')
    )

def flatten_jsonb_structure(jsonb_data):
    """
    중첩된 JSONB 구조를 평탄화하여 최하위 key-value만 최상위로 추출합니다.
    모든 값을 리스트로 변환하고, 동일한 키의 값들은 배열에 추가합니다.
    
    Args:
        jsonb_data: JSON 문자열, 딕셔너리, 또는 psycopg2의 JSONB 객체
    
    Returns:
        평탄화된 딕셔너리 (모든 값이 리스트)
    """
    # None 체크
    if jsonb_data is None:
        return {}
    
    # numpy/pandas NaN 체크
    try:
        if pd.isna(jsonb_data):
            return {}
    except (TypeError, ValueError):
        # pd.isna가 실패하는 경우 (예: dict, list 등)
        pass
    
    # 빈 문자열 체크
    if jsonb_data == '':
        return {}
    
    # psycopg2에서 반환된 딕셔너리나 리스트인 경우 그대로 사용
    if isinstance(jsonb_data, (dict, list)):
        data = jsonb_data
    # 문자열인 경우 JSON으로 파싱
    elif isinstance(jsonb_data, str):
        try:
            data = json.loads(jsonb_data)
        except (json.JSONDecodeError, TypeError):
            return {}
    else:
        # 기타 타입은 빈 딕셔너리 반환
        return {}
    
    # 리스트인 경우 첫 번째 요소가 딕셔너리면 처리, 아니면 빈 딕셔너리
    if isinstance(data, list):
        if len(data) > 0 and isinstance(data[0], dict):
            data = data[0]
        else:
            return {}
    
    # 딕셔너리가 아닌 경우 빈 딕셔너리 반환
    if not isinstance(data, dict):
        return {}
    
    # 중복 키의 값들을 수집하기 위한 딕셔너리
    collected_values = {}
    
    def extract_leaf_values(obj, parent_key=''):
        """재귀적으로 최하위 leaf 노드의 key-value를 추출합니다."""
        if isinstance(obj, dict):
            for key, value in obj.items():
                # value가 딕셔너리인 경우 재귀 호출
                if isinstance(value, dict):
                    extract_leaf_values(value, key)
                else:
                    # leaf 노드인 경우 collected_values에 추가
                    if key not in collected_values:
                        collected_values[key] = []
                    
                    # 리스트인 경우 각 요소를 추가, 아닌 경우 단일 값 추가
                    if isinstance(value, list):
                        collected_values[key].extend(value)
                    elif value is not None:
                        collected_values[key].append(value)
        else:
            # 딕셔너리가 아닌 경우
            if parent_key:
                if parent_key not in collected_values:
                    collected_values[parent_key] = []
                    
                if isinstance(obj, list):
                    collected_values[parent_key].extend(obj)
                elif obj is not None:
                    collected_values[parent_key].append(obj)
    
    # 최상위 레벨부터 처리
    if isinstance(data, dict):
        # 먼저 최상위 레벨의 모든 키-값 처리
        for key, value in data.items():
            if not isinstance(value, dict):
                # 최상위 레벨의 non-dict 값들을 먼저 수집
                if key not in collected_values:
                    collected_values[key] = []
                    
                if isinstance(value, list):
                    collected_values[key].extend(value)
                elif value is not None:
                    collected_values[key].append(value)
        
        # 그 다음 중첩된 딕셔너리 처리
        for key, value in data.items():
            if isinstance(value, dict):
                extract_leaf_values(value)
    
    # 빈 리스트를 가진 키는 제거하지 않고 유지
    flattened = {k: v if v else [] for k, v in collected_values.items()}
    
    return flattened

def update_product_specification_column(table_name='kt_merged_product_20251015', batch_size=1000):
    """
    product_specification 컬럼을 ori_product_specification으로 변경하고,
    평탄화된 구조를 새로운 product_specification 컬럼에 저장합니다.
    모든 값은 배열 형태로 저장되며, 동일 키의 값들은 병합됩니다.
    """
    conn = None
    cursor = None
    
    try:
        # 데이터베이스 연결
        conn = get_db_connection()
        cursor = conn.cursor()
        
        print(f"테이블 {table_name}의 product_specification 컬럼 처리 시작...")
        
        # 1. 컬럼 존재 여부 확인
        cursor.execute("""
            SELECT column_name 
            FROM information_schema.columns 
            WHERE table_name = %s 
            AND column_name IN ('product_specification', 'ori_product_specification')
        """, (table_name,))
        
        existing_columns = [row[0] for row in cursor.fetchall()]
        print(f"현재 존재하는 컬럼: {existing_columns}")
        
        # 2. ori_product_specification 컬럼이 없으면 추가
        if 'ori_product_specification' not in existing_columns:
            print("ori_product_specification 컬럼 추가 중...")
            cursor.execute(f"""
                ALTER TABLE {table_name} 
                ADD COLUMN IF NOT EXISTS ori_product_specification JSONB
            """)
            conn.commit()
        
        # 3. 기존 product_specification 데이터를 ori_product_specification으로 복사
        if 'product_specification' in existing_columns:
            print("기존 데이터를 ori_product_specification으로 복사 중...")
            cursor.execute(f"""
                UPDATE {table_name}
                SET ori_product_specification = product_specification
                WHERE ori_product_specification IS NULL 
                AND product_specification IS NOT NULL
            """)
            conn.commit()
            print(f"복사된 행 수: {cursor.rowcount}")
        
        # 4. 모든 데이터 조회 및 평탄화 처리
        print("데이터 조회 및 평탄화 처리 시작...")
        cursor.execute(f"""
            SELECT product_id, ori_product_specification
            FROM {table_name}
            WHERE ori_product_specification IS NOT NULL
            ORDER BY product_id
        """)
        
        updates = []
        processed_count = 0
        error_count = 0
        
        while True:
            rows = cursor.fetchmany(batch_size)
            if not rows:
                break
            
            for product_id, ori_spec in rows:
                try:
                    # JSONB 데이터 평탄화 (모든 값을 리스트로, 중복 키 병합)
                    flattened_spec = flatten_jsonb_structure(ori_spec)
                    updates.append((Json(flattened_spec), product_id))
                    processed_count += 1
                except Exception as e:
                    print(f"Product ID {product_id} 처리 중 오류: {e}")
                    error_count += 1
                    continue
            
            # 배치 업데이트
            if updates:
                print(f"처리 중... ({processed_count} 행 완료, {error_count} 오류)")
                update_cursor = conn.cursor()
                execute_batch(
                    update_cursor,
                    f"""
                    UPDATE {table_name}
                    SET product_specification = %s
                    WHERE product_id = %s
                    """,
                    updates
                )
                conn.commit()
                updates = []
                update_cursor.close()
        
        print(f"총 {processed_count}개 행의 product_specification 컬럼 평탄화 완료")
        if error_count > 0:
            print(f"오류 발생 행 수: {error_count}")
        
        # 5. 샘플 데이터 확인
        print("\n평탄화된 데이터 샘플 확인:")
        cursor.execute(f"""
            SELECT product_id, 
                   ori_product_specification,
                   product_specification
            FROM {table_name}
            WHERE ori_product_specification IS NOT NULL
            LIMIT 3
        """)
        
        for product_id, ori_spec, new_spec in cursor.fetchall():
            print(f"\nProduct ID: {product_id}")
            if ori_spec:
                print(f"원본 구조 키: {list(ori_spec.keys())[:5] if isinstance(ori_spec, dict) else type(ori_spec)}")
            if new_spec:
                print(f"평탄화된 구조 키 개수: {len(new_spec)}")
                # 처음 5개 키-값만 출력
                sample_items = list(new_spec.items())[:5]
                for key, value in sample_items:
                    print(f"  {key}: {value} (리스트, {len(value)}개 항목)")
        
        # 6. 중복 키 병합 예시 확인
        print("\n중복 키가 병합된 예시 확인:")
        cursor.execute(f"""
            SELECT product_id, product_specification
            FROM {table_name}
            WHERE product_specification IS NOT NULL
            AND jsonb_typeof(product_specification) = 'object'
            LIMIT 5
        """)
        
        for product_id, spec in cursor.fetchall():
            if spec and isinstance(spec, dict):
                # 2개 이상의 값을 가진 키 찾기
                multi_value_keys = {k: v for k, v in spec.items() if isinstance(v, list) and len(v) > 1}
                if multi_value_keys:
                    print(f"\nProduct ID {product_id}에서 중복 병합된 키:")
                    for key, values in list(multi_value_keys.items())[:3]:
                        print(f"  {key}: {values}")
                    break
        
    except Exception as e:
        print(f"오류 발생: {e}")
        if conn:
            conn.rollback()
        raise
    finally:
        if cursor:
            cursor.close()
        if conn:
            conn.close()

# 테스트를 위한 샘플 데이터로 함수 동작 확인
def test_flatten():
    """평탄화 함수 테스트"""
    test_cases = [
        {
            "name": "중복 키 테스트",
            "input": {
                "색상": "블랙",
                "추가": {"색상": "블랙"}
            },
            "expected": {
                "색상": ["블랙", "블랙"]
            }
        },
        {
            "name": "복합 중첩 구조",
            "input": {
                "사운드": {
                    "감도": "100dB",
                    "색상": "실버"
                },
                "색상": "블랙",
                "추가": {
                    "색상": "화이트"
                }
            },
            "expected": {
                "감도": ["100dB"],
                "색상": ["블랙", "실버", "화이트"]
            }
        }
    ]
    
    for test in test_cases:
        print(f"\n{test['name']}:")
        print(f"입력: {test['input']}")
        result = flatten_jsonb_structure(test['input'])
        print(f"결과: {result}")
        print(f"예상: {test['expected']}")

# 테스트 실행
print("=== 평탄화 함수 테스트 ===")
test_flatten()

print("\n=== 실제 데이터베이스 처리 ===")
# 함수 실행
if __name__ == "__main__":
    # 테이블 이름을 환경변수나 설정에서 가져올 수도 있습니다
    update_product_specification_column(table_name='kt_merged_product_20251015_mod')

=== 평탄화 함수 테스트 ===

중복 키 테스트:
입력: {'색상': '블랙', '추가': {'색상': '블랙'}}
결과: {'색상': ['블랙', '블랙']}
예상: {'색상': ['블랙', '블랙']}

복합 중첩 구조:
입력: {'사운드': {'감도': '100dB', '색상': '실버'}, '색상': '블랙', '추가': {'색상': '화이트'}}
결과: {'색상': ['블랙', '실버', '화이트'], '감도': ['100dB']}
예상: {'감도': ['100dB'], '색상': ['블랙', '실버', '화이트']}

=== 실제 데이터베이스 처리 ===
테이블 kt_merged_product_20251015_mod의 product_specification 컬럼 처리 시작...
현재 존재하는 컬럼: ['ori_product_specification', 'product_specification']
기존 데이터를 ori_product_specification으로 복사 중...
복사된 행 수: 0
데이터 조회 및 평탄화 처리 시작...
처리 중... (1000 행 완료, 0 오류)
처리 중... (2000 행 완료, 0 오류)
처리 중... (2812 행 완료, 0 오류)
총 2812개 행의 product_specification 컬럼 평탄화 완료

평탄화된 데이터 샘플 확인:

Product ID: G000192665
원본 구조 키: ['색상', '일반', '추가', '사운드', '외관 사양']
평탄화된 구조 키 개수: 18
  감도: ['97dB SPL @ 1kHz/1mW'] (리스트, 1개 항목)
  기타: ['TwistLock™ 기술 적용', 'Quantum 시그니처 사운드'] (리스트, 2개 항목)
  무게: ['21.5 g'] (리스트, 1개 항목)
  색상: ['블랙', '블랙'] (리스트, 2개 항목)
  제조국: ['중국'] (리스트, 1개 항목)

Product ID: G000192695
원본 구조 키: ['복사', '스캔', '인쇄

In [None]:
# spec depth 있는 부분을 depth 1으로 변경 



### Mongodb 연결


In [None]:
# Azure Cosmos DB for MongoDB 설정 (Microsoft 공식 방식)
import os
import sys
from dotenv import load_dotenv
import pymongo

load_dotenv('.env')

# Microsoft 공식 방식: COSMOS_CONNECTION_STRING 또는 MONGODB_CONNECTION_STRING 사용
CONNECTION_STRING = os.getenv('COSMOS_CONNECTION_STRING') or os.getenv('MONGODB_CONNECTION_STRING')

print("=" * 60)
print("Azure Cosmos DB for MongoDB 연결 설정 (MS 공식 방식)")
print("=" * 60)

# 연결 문자열 확인
if CONNECTION_STRING:
    print("✅ 연결 문자열 로드 완료")
    # 보안을 위해 일부만 출력
    if "mongodb://" in CONNECTION_STRING or "mongodb+srv://" in CONNECTION_STRING:
        parts = CONNECTION_STRING.split('@')
        if len(parts) > 1:
            host_info = parts[1].split('?')[0] if '?' in parts[1] else parts[1].split('/')[0]
            print(f"   Host: {host_info}")
else:
    print("❌ 연결 문자열을 찾을 수 없습니다.")
    print("   .env 파일에 COSMOS_CONNECTION_STRING 또는 MONGODB_CONNECTION_STRING을 설정해주세요.")
    print("\n💡 .env 파일 예시:")
    print("   COSMOS_CONNECTION_STRING=mongodb://username:password@host:port/database?ssl=true&replicaSet=globaldb&retryWrites=false")

In [None]:
# MongoDB 연결 (Microsoft 공식 방식)
def mongodb_connection_ms_official():
    """Microsoft 공식 방식으로 Azure Cosmos DB for MongoDB 연결"""
    
    print("=" * 60)
    print("MongoDB 연결 테스트 (MS 공식 방식)")
    print("=" * 60)
    
    if not CONNECTION_STRING:
        print("❌ 연결 문자열이 없습니다.")
        return None
    
    try:
        # Microsoft 공식 방식: 단순한 MongoClient 생성
        client = pymongo.MongoClient(CONNECTION_STRING)
        print(CONNECTION_STRING)
        
        # 클라이언트 옵션 확인 (디버깅용)
        print("🔍 클라이언트 옵션:")
        for prop, value in vars(client.options).items():
            if value is not None:  # None이 아닌 값만 표시
                print(f"   {prop}: {value}")
        
        print("\n🔗 연결 검증 중...")
        
        # Microsoft 공식 방식: server_info()로 연결 검증
        try:
            server_info = client.server_info()
            print("✅ 연결 성공!")
            print(f"   서버 버전: {server_info.get('version', 'N/A')}")
            
            # 추가 연결 정보
            if 'buildInfo' in server_info:
                build_info = server_info.get('buildInfo', {})
                print(f"   빌드 정보: {build_info.get('gitVersion', 'N/A')}")
            
        except (pymongo.errors.OperationFailure, 
                pymongo.errors.ConnectionFailure, 
                pymongo.errors.ExecutionTimeout) as err:
            print(f"❌ 연결 실패: {err}")
            return None
        
        # 데이터베이스 목록 조회 (선택적)
        try:
            db_list = client.list_database_names()
            print(f"\n📊 접근 가능한 데이터베이스 ({len(db_list)}개):")
            for db in db_list[:10]:  # 최대 10개만 표시
                print(f"   • {db}")
        except Exception as db_error:
            print(f"   ℹ️  데이터베이스 목록 조회 제한: {db_error}")
        
        print("\n✅ Azure Cosmos DB for MongoDB 연결 완료!")
        return client
        
    except Exception as err:
        print(f"❌ 전체적인 연결 오류: {err}")
        
        # 상세한 오류 정보 제공
        error_type = type(err).__name__
        print(f"\n🔍 오류 유형: {error_type}")
        
        if "timeout" in str(err).lower():
            print("💡 타임아웃 문제 - 네트워크 연결 또는 방화벽 확인")
        elif "authentication" in str(err).lower():
            print("💡 인증 문제 - 사용자명/비밀번호 확인")
        elif "ssl" in str(err).lower():
            print("💡 SSL 문제 - 연결 문자열의 SSL 설정 확인")
        
        return None

# Microsoft 공식 방식으로 연결 시도
mongo_client = mongodb_connection_ms_official()

In [None]:
# MongoDB 컬렉션(테이블) 생성 및 인덱스 설정 - PostgreSQL 구조 기반
def create_mongodb_collections():
    """MongoDB 컬렉션 생성 및 인덱스 설정 (PostgreSQL kt_merged_product_20251001 구조 기반)"""
    
    print("=" * 60)
    print("MongoDB 컬렉션 생성 (PostgreSQL 구조 기반)")
    print("=" * 60)
    
    if not mongo_client:
        print("❌ MongoDB 클라이언트가 없습니다. 연결을 먼저 수행하세요.")
        return None
    
    try:
        # rubicon 데이터베이스 선택 또는 생성
        db_name = "rubicon"
        db = mongo_client[db_name]
        print(f"📚 데이터베이스 '{db_name}' 선택/생성")
        
        # kt_merged_product_20251001 컬렉션 생성 (PostgreSQL 테이블과 동일한 이름)
        collection_name = "kt_merged_product_20251001"
        kt_merged_product_20251001 = db[collection_name]
        
        # 기존 컬렉션 확인
        existing_collections = db.list_collection_names()
        if collection_name in existing_collections:
            print(f"   ℹ️  '{collection_name}' 컬렉션이 이미 존재합니다.")
            doc_count = kt_merged_product_20251001.count_documents({})
            print(f"      현재 문서 수: {doc_count}개")
            
            # 기존 데이터 삭제 여부 확인 (선택적)
            # kt_merged_product_20251001.drop()
            # print(f"   ✅ 기존 컬렉션 삭제 후 재생성")
        else:
            print(f"   ✅ '{collection_name}' 컬렉션 생성")
        
        # PostgreSQL과 동일한 인덱스 생성
        print("\n📍 인덱스 생성 (PostgreSQL 구조 기반):")
        
        # 단일 필드 인덱스
        kt_merged_product_20251001.create_index("model_code", name="idx_model_code")
        print("   ✅ model_code 인덱스 생성")
        
        kt_merged_product_20251001.create_index("site_code", name="idx_site_code")
        print("   ✅ site_code 인덱스 생성")
        
        kt_merged_product_20251001.create_index("product_id", name="idx_product_id")
        print("   ✅ product_id 인덱스 생성")
        
        kt_merged_product_20251001.create_index("product_name", name="idx_product_name")
        print("   ✅ product_name 인덱스 생성")
        
        # 복합 인덱스
        kt_merged_product_20251001.create_index(
            [("model_code", 1), ("site_ccode", 1)],
            name="idx_model_code_site_code"
        )
        print("   ✅ model_code + site_ccode 복합 인덱스 생성")
        
        # 추가 성능 최적화 인덱스
        kt_merged_product_20251001.create_index("release_date", name="idx_release_date")
        print("   ✅ release_date 인덱스 생성")
        
        kt_merged_product_20251001.create_index("final_price", name="idx_final_price")
        print("   ✅ final_price 인덱스 생성")
        
        # 텍스트 검색 인덱스 (MongoDB 특화)
        try:
            kt_merged_product_20251001.create_index(
                [("product_name", "text"), ("model_name", "text"), ("product_specification", "text")],
                name="text_search_index",
                default_language="korean"  # 한국어 텍스트 검색 지원
            )
            print("   ✅ 텍스트 검색 인덱스 생성 (product_name, model_name, product_specification)")
        except Exception as text_idx_error:
            print(f"   ⚠️  텍스트 인덱스 생성 실패 (이미 존재할 수 있음): {text_idx_error}")
        
        # 스키마 검증 규칙 정의 (MongoDB 3.6+)
        # PostgreSQL kt_merged_product_20251001 테이블과 동일한 구조
        validation_rules = {
            "$jsonSchema": {
                "bsonType": "object",
                "title": "상품 통합 정보 (KT)",
                "description": "PostgreSQL kt_merged_product_20251001 테이블과 동일한 구조",
                "properties": {
                    # 제품 기본 정보
                    "product_id": {"bsonType": "string", "maxLength": 15, "description": "상품 아이디"},
                    "model_code": {"bsonType": "string", "maxLength": 100, "description": "모델 코드"},
                    "is_bespoke_goods": {"bsonType": "string", "maxLength": 1, "description": "비스포크 상품 여부"},
                    "model_name": {"bsonType": "string", "description": "모델 명(모델 코드 상위 집합)"},
                    "product_name": {"bsonType": "string", "description": "상품 명"},
                    
                    # 전시 카테고리
                    "display_category_major": {"bsonType": "string", "description": "전시 대분류"},
                    "display_category_middle": {"bsonType": "string", "description": "전시 중분류"},
                    "display_category_minor": {"bsonType": "string", "description": "전시 소분류"},
                    
                    # 제품 카테고리
                    "product_category_major": {"bsonType": "string", "description": "카테고리 대분류"},
                    "product_category_middle": {"bsonType": "string", "description": "카테고리 중분류"},
                    "product_category_minor": {"bsonType": "string", "description": "카테고리 소분류"},
                    
                    # 제품 속성
                    "product_color": {"bsonType": "string", "description": "색상"},
                    "release_date": {"bsonType": ["date", "string"], "description": "출시일"},
                    
                    # 플래그 필드 (VARCHAR(1))
                    "is_ai_subscription_eligible": {"bsonType": "string", "maxLength": 1, "description": "AI 구독 대상 여부"},
                    "is_smart_subscription_eligible": {"bsonType": "string", "maxLength": 1, "description": "스마트 구독 대상 여부"},
                    "is_galaxy_club_eligible": {"bsonType": "string", "maxLength": 1, "description": "갤럭시 클럽 대상 여부"},
                    "is_installment_payment_available": {"bsonType": "string", "maxLength": 1, "description": "할부 결제 가능 여부"},
                    "is_bundle_product": {"bsonType": "string", "maxLength": 1, "description": "번들 상품 여부"},
                    
                    # URL 및 텍스트
                    "product_detail_url": {"bsonType": "string", "description": "제품 상세 URL"},
                    "site_code": {"bsonType": "string", "maxLength": 10, "description": "사이트 코드"},
                    "unique_selling_point": {"bsonType": "string", "description": "모델 카드 주요 판매 포인트"},
                    
                    # 리뷰 정보
                    "review_count": {"bsonType": ["int", "long"], "description": "리뷰 개수"},
                    "review_rating_score": {"bsonType": ["double", "decimal"], "description": "리뷰 평점"},
                    "review_text_collection": {"bsonType": "object", "description": "리뷰 텍스트 모음 (JSONB)"},
                    
                    # 가격 정보
                    "standard_price": {"bsonType": ["double", "decimal", "long"], "description": "기준가"},
                    "member_price": {"bsonType": ["double", "decimal", "long"], "description": "회원가"},
                    "benefit_price": {"bsonType": ["double", "decimal", "long"], "description": "혜택가"},
                    "web_coupon_discount": {"bsonType": ["double", "decimal", "long"], "description": "웹 쿠폰 할인 금액"},
                    "final_price": {"bsonType": ["double", "decimal", "long"], "description": "최종 가격"},
                    
                    # 재고 및 판매 정보
                    "stock_quantity": {"bsonType": ["int", "long"], "description": "재고 수량"},
                    "total_sale_amount": {"bsonType": ["double", "decimal", "long"], "description": "총 판매 금액"},
                    "total_sale_quantity": {"bsonType": ["int", "long"], "description": "총 판매 수량"},
                    
                    # 번들 정보
                    "bundle_component_model_code": {
                        "bsonType": "array",
                        "items": {"bsonType": "string"},
                        "description": "번들 구성 상품 모델 코드 목록"
                    },
                    
                    # 카테고리 랭킹
                    "category_rank_recommend": {"bsonType": ["int", "long"], "description": "전시 소분류 내 추천순 순위"},
                    "category_rank_quantity": {"bsonType": ["int", "long"], "description": "전시 소분류 내 판매량순 순위"},
                    "category_rank_rating": {"bsonType": ["int", "long"], "description": "전시 소분류 내 별점순 순위"},
                    
                    # JSON 필드 (PostgreSQL JSONB -> MongoDB Object)
                    "product_specification": {"bsonType": "object", "description": "제품 사양 정보 (JSONB)"},
                    "event_info": {"bsonType": "object", "description": "이벤트 정보 (JSONB)"},
                    "coupon_info": {"bsonType": "object", "description": "쿠폰 정보 (JSONB)"},
                    "promotion_info": {"bsonType": "object", "description": "프로모션 정보 (JSONB)"}
                }
            }
        }
        
        # 스키마 검증 설정 (선택적 - Cosmos DB에서 지원하는 경우)
        try:
            db.command({
                "collMod": collection_name,
                "validator": validation_rules,
                "validationLevel": "moderate"  # 기존 문서는 검증 안함, 신규/수정만 검증
            })
            print("\n✅ 스키마 검증 규칙 설정 완료")
        except Exception as validation_error:
            print(f"\n⚠️  스키마 검증 설정 실패 (Cosmos DB 버전 확인): {validation_error}")
        
        # 인덱스 정보 출력
        print("\n📊 생성된 인덱스 목록:")
        indexes = kt_merged_product_20251001.list_indexes()
        for idx in indexes:
            print(f"   • {idx['name']}: {idx['key']}")
        
        print("\n✅ MongoDB 컬렉션 및 인덱스 생성 완료!")
        print(f"   데이터베이스: {db_name}")
        print(f"   컬렉션: {collection_name}")
        
        # 생성된 컬렉션 정보 반환
        return {
            "database": db,
            "kt_merged_product_20251001": kt_merged_product_20251001
        }
        
    except Exception as e:
        print(f"❌ 컬렉션 생성 실패: {e}")
        import traceback
        traceback.print_exc()
        return None

# 컬렉션 생성 실행
collections = create_mongodb_collections()

In [None]:
# PostgreSQL 데이터 파일을 읽어서 MongoDB용 데이터로 변환
import pandas as pd
from datetime import datetime
import json
import os
from dotenv import load_dotenv

load_dotenv('.env')
PG_UPLOAD_FILE_PATH = os.getenv('PG_UPLOAD_FILE_PATH')

def analyze_file_structure(file_path):
    """파일 구조 분석"""
    print("=" * 50)
    print("파일 구조 분석")
    print("=" * 50)
    
    try:
        # 파일 첫 몇 줄 읽기
        with open(file_path, 'r', encoding='utf-8') as f:
            lines = [f.readline().strip() for _ in range(5)]
        
        print(f"파일 첫 5줄:")
        for i, line in enumerate(lines):
            print(f"  [{i}] {line[:100]}{'...' if len(line) > 100 else ''}")
        
        # 구분자 자동 감지
        first_line = lines[0] if lines else ""
        tab_count = first_line.count('\t')
        comma_count = first_line.count(',')
        semicolon_count = first_line.count(';')
        
        print(f"\n구분자 분석:")
        print(f"  탭(\\t): {tab_count}개")
        print(f"  쉼표(,): {comma_count}개")
        print(f"  세미콜론(;): {semicolon_count}개")
        
        # 최적 구분자 결정
        if tab_count > comma_count and tab_count > semicolon_count:
            delimiter = '\t'
            delimiter_name = 'TAB'
        elif comma_count > semicolon_count:
            delimiter = ','
            delimiter_name = 'COMMA'
        else:
            delimiter = ';'
            delimiter_name = 'SEMICOLON'
        
        print(f"  권장 구분자: {delimiter_name}")
        
        return delimiter, lines
        
    except Exception as e:
        print(f"파일 분석 실패: {e}")
        return None, []

def parse_json_field_safe(value):
    """JSON 필드 안전 파싱"""
    if pd.isna(value) or value == '' or value is None:
        return {}
        
    # 이미 dict인 경우
    if isinstance(value, dict):
        return value
        
    # 문자열인 경우
    if isinstance(value, str):
        value = value.strip()
        if not value or value in ['{}', 'null', 'None']:
            return {}
            
        try:
            # JSON 문자열 파싱
            if value.startswith('{') and value.endswith('}'):
                parsed = json.loads(value)
                return parsed if isinstance(parsed, dict) else {}
        except json.JSONDecodeError:
            # JSON 파싱 실패시 빈 딕셔너리 반환
            return {}
    
    return {}

def load_and_transform_pg_data():
    """PostgreSQL CSV/TSV 파일을 MongoDB용 데이터로 변환"""
    
    print("=" * 60)
    print("PostgreSQL 데이터 파일 로드 및 변환")
    print("=" * 60)
    
    if not PG_UPLOAD_FILE_PATH:
        print("❌ PG_UPLOAD_FILE_PATH가 설정되지 않았습니다.")
        print("   .env 파일에 PG_UPLOAD_FILE_PATH를 확인하세요.")
        return None
    
    try:
        print(f"📁 파일 경로: {PG_UPLOAD_FILE_PATH}")
        
        # 파일 존재 확인
        if not os.path.exists(PG_UPLOAD_FILE_PATH):
            print(f"❌ 파일을 찾을 수 없습니다: {PG_UPLOAD_FILE_PATH}")
            return None
        
        # 파일 크기 확인
        file_size = os.path.getsize(PG_UPLOAD_FILE_PATH)
        print(f"📏 파일 크기: {file_size:,} bytes ({file_size/1024:.1f} KB)")
        
        # 파일 구조 분석
        delimiter, sample_lines = analyze_file_structure(PG_UPLOAD_FILE_PATH)
        
        if delimiter is None:
            print("❌ 파일 구조를 분석할 수 없습니다.")
            return None
        
        # 여러 구분자로 시도
        delimiters_to_try = [delimiter, '\t', ',', ';']
        df = None
        
        for delim in delimiters_to_try:
            try:
                print(f"\n🔄 구분자 '{delim}' 시도...")
                
                # 파일 읽기
                test_df = pd.read_csv(
                    PG_UPLOAD_FILE_PATH,
                    encoding='utf-8',
                    delimiter=delim,
                    quotechar='"',
                    quoting=1,  # QUOTE_MINIMAL
                    na_values=['', 'NULL', 'null', 'None', 'NaN'],
                    keep_default_na=True,
                    nrows=5  # 처음 5행만 테스트
                )
                
                # 성공적으로 파싱되었는지 확인
                if len(test_df.columns) > 1 and len(test_df) > 0:
                    print(f"   ✅ 성공: {len(test_df.columns)}개 컬럼, {len(test_df)}개 행")
                    print(f"   컬럼명: {list(test_df.columns)[:10]}")
                    
                    # 전체 파일 읽기
                    df = pd.read_csv(
                        PG_UPLOAD_FILE_PATH,
                        encoding='utf-8',
                        delimiter=delim,
                        quotechar='"',
                        quoting=1,
                        na_values=['', 'NULL', 'null', 'None', 'NaN'],
                        keep_default_na=True
                    )
                    print(f"   전체 파일 로드: {len(df)}개 레코드")
                    break
                else:
                    print(f"   ❌ 실패: {len(test_df.columns)}개 컬럼만 인식")
                    
            except Exception as e:
                print(f"   ❌ 구분자 '{delim}' 실패: {e}")
        
        if df is None or df.empty:
            print("❌ 모든 구분자로 파싱 실패")
            return None
        
        print(f"\n✅ 파일 파싱 성공!")
        print(f"   총 레코드: {len(df)}개")
        print(f"   총 컬럼: {len(df.columns)}개")
        print(f"   컬럼 목록: {list(df.columns)}")
        
        # 필수 컬럼 확인
        required_cols = ['mdl_code', 'goods_id', 'goods_nm']
        missing_cols = [col for col in required_cols if col not in df.columns]
        if missing_cols:
            print(f"⚠️  필수 컬럼 누락: {missing_cols}")
            print(f"   실제 컬럼: {list(df.columns)[:10]}")
        
        # 데이터 샘플 확인
        print(f"\n📋 원본 데이터 샘플 (첫 3행):")
        for idx in range(min(3, len(df))):
            print(f"  행 {idx}:")
            for col in list(df.columns)[:5]:  # 처음 5개 컬럼만
                value = df.iloc[idx][col]
                print(f"    {col}: {value}")
        
        # MongoDB 문서로 변환
        products_data = []
        conversion_errors = 0
        
        print(f"\n📦 데이터 변환 시작...")
        
        for idx, row in df.iterrows():
            try:
                # MongoDB 문서 생성
                product = {}
                
                # 모든 컬럼을 처리
                for col_name in df.columns:
                    value = row[col_name]
                    
                    # NaN이나 None 값 처리
                    if pd.isna(value):
                        continue
                    
                    # 빈 문자열 제외
                    if isinstance(value, str) and value.strip() == '':
                        continue
                    
                    # 컬럼별 특수 처리
                    if col_name == 'spec':
                        # JSON 필드 처리
                        parsed_spec = parse_json_field_safe(value)
                        if parsed_spec:
                            product['spec'] = parsed_spec
                    
                    elif col_name == 'card_promotion':
                        # JSON 필드 처리
                        parsed_promo = parse_json_field_safe(value)
                        if parsed_promo:
                            product['card_promotion'] = parsed_promo
                    
                    elif col_name == 'release_date':
                        # 날짜 필드 처리
                        try:
                            date_obj = pd.to_datetime(value)
                            product['release_date'] = date_obj.isoformat()
                        except:
                            product['release_date'] = str(value)
                    
                    elif col_name in ['review_num', 'stock_qty', 'ctg_rank_recommend', 
                                      'ctg_rank_quantity', 'ctg_rank_rating']:
                        # 정수 필드 처리
                        try:
                            product[col_name] = int(float(value))
                        except (ValueError, TypeError):
                            product[col_name] = 0
                    
                    elif col_name in ['sale_prc', 'sale_prc1', 'sale_prc2', 'sale_prc3', 
                                      'web_cd_dc_amt', 'web_cp_dc_amt', 'estm_score']:
                        # 실수 필드 처리
                        try:
                            # web_cp_dc_amt는 web_cd_dc_amt로 변환
                            field_name = 'web_cd_dc_amt' if col_name == 'web_cp_dc_amt' else col_name
                            product[field_name] = float(value)
                        except (ValueError, TypeError):
                            pass
                    
                    elif col_name in ['aisc_yn', 'sc_yn', 'gc_yn', 'div_pay_apl_yn', 'show_yn']:
                        # Y/N 필드 처리
                        str_value = str(value).strip().upper()
                        if str_value in ['Y', 'N']:
                            product[col_name] = str_value
                    
                    else:
                        # 기본 문자열 처리
                        product[col_name] = str(value).strip()
                
                # 추가 메타데이터
                product.update({
                    "imported_from": "PostgreSQL",
                    "imported_at": datetime.now().isoformat(),
                    "source_file": os.path.basename(PG_UPLOAD_FILE_PATH),
                    "record_index": idx
                })
                
                # 필수 필드 확인 (더 관대하게)
                has_required = any(key in product and product[key] for key in ['mdl_code', 'goods_id', 'goods_nm'])
                
                if has_required or len(product) > 4:  # 메타데이터 4개 + 실제 데이터
                    products_data.append(product)
                else:
                    print(f"   ⚠️  행 {idx}: 유효한 데이터 없음 (필드 수: {len(product)})")
                    conversion_errors += 1
                
                # 처음 몇 개 변환 결과 출력
                if idx < 3:
                    print(f"   행 {idx} 변환 결과: {len(product)}개 필드")
                    for key, val in list(product.items())[:5]:
                        print(f"      {key}: {val}")
                
            except Exception as e:
                conversion_errors += 1
                if conversion_errors <= 5:
                    print(f"   ⚠️  행 {idx} 변환 실패: {e}")
        
        print(f"\n✅ 변환 완료:")
        print(f"   성공: {len(products_data)}개 문서")
        print(f"   실패: {conversion_errors}개 문서")
        
        return {
            "products": products_data,
            "customers": [],
            "orders": []
        }
        
    except Exception as e:
        print(f"❌ 데이터 로드 실패: {e}")
        import traceback
        traceback.print_exc()
        return None

# PostgreSQL 데이터 로드 및 변환
pg_data = load_and_transform_pg_data()

# 결과 요약
if pg_data and pg_data['products']:
    print(f"\n🎉 최종 결과:")
    print(f"   변환된 제품 수: {len(pg_data['products'])}개")
    
    if pg_data['products']:
        sample = pg_data['products'][0]
        print(f"   첫 번째 제품 필드 수: {len(sample)}개")
        print(f"   주요 필드: {[k for k in sample.keys() if not k.startswith('imported')][:10]}")
else:
    print(f"\n❌ 데이터 변환 실패")
    pg_data = None

In [None]:
pg_data

In [None]:
# MongoDB에 PostgreSQL 데이터 삽입 (kt_merged_product_20251001)
def insert_pg_data_to_mongodb(collections, pg_data):
    """PostgreSQL 데이터를 MongoDB kt_merged_product_20251001 컬렉션에 삽입"""
    
    print("=" * 60)
    print("PostgreSQL 데이터를 MongoDB에 삽입")
    print("=" * 60)
    
    if collections is None:
        print("❌ 컬렉션 정보가 없습니다.")
        return False
    
    if pg_data is None:
        print("❌ 삽입할 데이터가 없습니다.")
        return False
    
    try:
        # kt_merged_product_20251001 컬렉션 가져오기
        kt_merged_product_20251001 = collections.get("kt_merged_product_20251001")
        
        # MongoDB Collection 객체는 None과 비교해야 함
        if kt_merged_product_20251001 is None:
            print("❌ kt_merged_product_20251001 컬렉션을 찾을 수 없습니다.")
            return False
        
        # products 데이터 확인 및 삽입
        if pg_data.get("products") and len(pg_data["products"]) > 0:
            # 기존 PostgreSQL 데이터 삭제 (선택적)
            try:
                delete_result = kt_merged_product_20251001.delete_many({"imported_from": "PostgreSQL"})
                if delete_result.deleted_count > 0:
                    print(f"   ℹ️  기존 PostgreSQL 데이터 {delete_result.deleted_count}개 삭제")
            except Exception as delete_error:
                print(f"   ⚠️  기존 데이터 삭제 실패 (계속 진행): {delete_error}")
            
            # 배치 크기 설정 (Cosmos DB는 작은 배치가 효율적)
            batch_size = 50  # Cosmos DB 최적화를 위해 작은 배치 사용
            total_products = len(pg_data["products"])
            inserted_count = 0
            failed_count = 0
            failed_samples = []
            
            print(f"\n📤 데이터 삽입 시작 ({total_products}개 문서)")
            
            # 배치 단위로 삽입
            for i in range(0, total_products, batch_size):
                batch = pg_data["products"][i:i + batch_size]
                try:
                    result = kt_merged_product_20251001.insert_many(batch, ordered=False)
                    inserted_count += len(result.inserted_ids)
                    
                    # 진행 상황 표시
                    progress = min(i + batch_size, total_products)
                    print(f"   진행중: {progress}/{total_products} ({progress*100//total_products}%)")
                    
                except Exception as batch_error:
                    error_msg = str(batch_error)
                    if "duplicate key" in error_msg.lower():
                        print(f"   ⚠️  배치에 중복 키 존재 - 개별 삽입 시도")
                    else:
                        print(f"   ⚠️  배치 삽입 일부 실패: {error_msg[:100]}")
                    
                    # 개별 문서 삽입 시도
                    for doc in batch:
                        try:
                            kt_merged_product_20251001.insert_one(doc)
                            inserted_count += 1
                        except Exception as doc_error:
                            failed_count += 1
                            if failed_count <= 3:  # 처음 3개 오류만 샘플로 저장
                                failed_samples.append({
                                    'mdl_code': doc.get('mdl_code', 'Unknown'),
                                    'error': str(doc_error)[:100]
                                })
            
            print(f"\n✅ 데이터 삽입 완료:")
            print(f"   성공: {inserted_count}개 문서")
            print(f"   실패: {failed_count}개 문서")
            
            if failed_samples:
                print(f"\n⚠️  실패 샘플:")
                for sample in failed_samples:
                    print(f"   • {sample['mdl_code']}: {sample['error']}")
            
            # 삽입 후 통계
            print("\n📊 컬렉션 통계:")
            try:
                total_docs = kt_merged_product_20251001.count_documents({})
                pg_docs = kt_merged_product_20251001.count_documents({"imported_from": "PostgreSQL"})
                print(f"   전체 문서: {total_docs}개")
                print(f"   PostgreSQL 데이터: {pg_docs}개")
                
                # spec 필드가 있는 문서 확인
                spec_docs = kt_merged_product_20251001.count_documents({
                    "spec": {"$exists": True, "$ne": {}}
                })
                print(f"   spec 필드 보유: {spec_docs}개")
                
                # card_promotion 필드가 있는 문서 확인
                card_promo_docs = kt_merged_product_20251001.count_documents({
                    "card_promotion": {"$exists": True, "$ne": {}}
                })
                print(f"   card_promotion 필드 보유: {card_promo_docs}개")
            except Exception as stat_error:
                print(f"   ⚠️  통계 조회 실패: {stat_error}")
            
            # 샘플 문서 확인
            try:
                sample = kt_merged_product_20251001.find_one({
                    "imported_from": "PostgreSQL",
                    "spec": {"$exists": True, "$ne": {}}
                })
                
                if sample:
                    print("\n📋 삽입된 데이터 샘플:")
                    print(f"   모델코드: {sample.get('mdl_code')}")
                    print(f"   상품명: {sample.get('goods_nm')}")
                    print(f"   사이트: {sample.get('site_cd')}")
                    
                    sale_prc = sample.get('sale_prc')
                    if sale_prc is not None:
                        print(f"   가격: {sale_prc:,}원")
                    
                    if isinstance(sample.get('spec'), dict):
                        spec_keys = list(sample.get('spec', {}).keys())
                        print(f"   spec 필드 키: {spec_keys[:5]}")
                    
                    if isinstance(sample.get('card_promotion'), dict):
                        promo_keys = list(sample.get('card_promotion', {}).keys())
                        print(f"   card_promotion 키: {promo_keys}")
            except Exception as sample_error:
                print(f"   ⚠️  샘플 조회 실패: {sample_error}")
            
            # 인덱스 통계 (선택적)
            try:
                index_stats = kt_merged_product_20251001.index_information()
                print(f"\n📍 활성 인덱스: {len(index_stats)}개")
            except:
                pass
            
            return True
        else:
            print("❌ Products 데이터가 비어있습니다.")
            return False
            
    except Exception as e:
        print(f"❌ 데이터 삽입 실패: {e}")
        import traceback
        traceback.print_exc()
        return False

# PostgreSQL 데이터 삽입 실행
if collections is not None and pg_data is not None:
    insert_result = insert_pg_data_to_mongodb(collections, pg_data)
else:
    print("컬렉션 또는 데이터가 없습니다.")
    print("다음을 확인하세요:")
    print("1. MongoDB 연결이 성공했는지")
    print("2. 컬렉션 생성이 완료되었는지")
    print("3. PostgreSQL 데이터가 로드되었는지")

In [None]:
# MongoDB kt_merged_product_20251001 데이터 조회 및 검증
def query_mongodb_kt_merged_product_20251001(collections):
    """MongoDB kt_merged_product_20251001 컬렉션에서 데이터 조회"""
    
    print("=" * 60)
    print("MongoDB kt_merged_product_20251001 데이터 조회")
    print("=" * 60)
    
    if collections is None:
        print("❌ 컬렉션 정보가 없습니다.")
        return
    
    try:
        kt_merged_product_20251001 = collections.get("kt_merged_product_20251001")
        
        # MongoDB Collection 객체는 None과 비교
        if kt_merged_product_20251001 is None:
            print("❌ kt_merged_product_20251001 컬렉션을 찾을 수 없습니다.")
            return
        
        # 1. 기본 통계
        total_docs = kt_merged_product_20251001.count_documents({})
        pg_docs = kt_merged_product_20251001.count_documents({"imported_from": "PostgreSQL"})
        
        print("\n📊 1. 컬렉션 통계:")
        print(f"   전체 문서 수: {total_docs:,}")
        print(f"   PostgreSQL 데이터: {pg_docs:,}")
        
        if total_docs == 0:
            print("❌ 데이터가 없습니다. 데이터 삽입을 먼저 실행해주세요.")
            return
        
        # 2. 샘플 데이터 조회
        print("\n📋 2. 데이터 샘플 (처음 3개):")
        samples = list(kt_merged_product_20251001.find().limit(3))
        
        for idx, product in enumerate(samples, 1):
            print(f"\n   [{idx}] 제품 정보:")
            print(f"       상품명: {product.get('goods_nm', 'N/A')}")
            print(f"       모델코드: {product.get('mdl_code', 'N/A')}")
            print(f"       상품ID: {product.get('goods_id', 'N/A')}")
            print(f"       사이트: {product.get('site_cd', 'N/A')}")
            print(f"       카테고리: {product.get('disp_lv1', '')}/{product.get('disp_lv2', '')}/{product.get('disp_lv3', '')}")
            
            if product.get('sale_prc') is not None:
                print(f"       가격: {product.get('sale_prc'):,}원")
            
            if product.get('stock_qty') is not None:
                print(f"       재고: {product.get('stock_qty'):,}개")
            
            # spec 정보
            if product.get('spec') and isinstance(product.get('spec'), dict):
                spec_keys = list(product.get('spec').keys())[:3]
                print(f"       spec 정보: {spec_keys}")
        
        # 3. 가격 범위별 분포
        print("\n💰 3. 가격 범위별 제품 분포:")
        price_pipeline = [
            {"$match": {"sale_prc": {"$exists": True, "$ne": None}}},
            {"$bucket": {
                "groupBy": "$sale_prc",
                "boundaries": [0, 500000, 1000000, 2000000, 5000000, float('inf')],
                "default": "기타",
                "output": {
                    "count": {"$sum": 1},
                    "avg_price": {"$avg": "$sale_prc"}
                }
            }}
        ]
        
        try:
            price_results = list(kt_merged_product_20251001.aggregate(price_pipeline))
            price_labels = ["~50만원", "50~100만원", "100~200만원", "200~500만원", "500만원~"]
            
            for idx, result in enumerate(price_results):
                if result['_id'] != "기타":
                    label = price_labels[min(idx, len(price_labels)-1)]
                    print(f"   {label}: {result['count']:,}개 (평균: {result['avg_price']:,.0f}원)")
        except Exception as price_error:
            print(f"   ⚠️  가격 분포 분석 실패: {price_error}")
        
        # 4. 사이트별 통계
        print("\n📈 4. 사이트별 제품 통계:")
        site_pipeline = [
            {"$match": {"site_cd": {"$exists": True, "$ne": None}}},
            {"$group": {
                "_id": "$site_cd",
                "count": {"$sum": 1},
                "avg_price": {"$avg": "$sale_prc"},
                "max_price": {"$max": "$sale_prc"},
                "min_price": {"$min": "$sale_prc"},
                "avg_stock": {"$avg": "$stock_qty"}
            }},
            {"$sort": {"count": -1}},
            {"$limit": 10}
        ]
        
        try:
            site_results = list(kt_merged_product_20251001.aggregate(site_pipeline))
            for result in site_results:
                print(f"   사이트 '{result['_id']}':")
                print(f"      제품 수: {result['count']:,}개")
                if result.get('avg_price') is not None:
                    print(f"      평균 가격: {result['avg_price']:,.0f}원")
                if result.get('avg_stock') is not None:
                    print(f"      평균 재고: {result['avg_stock']:.0f}개")
        except Exception as site_error:
            print(f"   ⚠️  사이트별 통계 실패: {site_error}")
        
        # 5. 카테고리별 통계 (disp_lv1 기준)
        print("\n📦 5. 대분류별 제품 통계 (상위 10개):")
        category_pipeline = [
            {"$match": {"disp_lv1": {"$exists": True, "$ne": ""}}},
            {"$group": {
                "_id": "$disp_lv1",
                "count": {"$sum": 1},
                "avg_price": {"$avg": "$sale_prc"},
                "brands": {"$addToSet": "$disp_lv2"}
            }},
            {"$sort": {"count": -1}},
            {"$limit": 10}
        ]
        
        try:
            category_results = list(kt_merged_product_20251001.aggregate(category_pipeline))
            for result in category_results:
                print(f"   {result['_id']}: {result['count']:,}개")
                if result.get('avg_price') is not None:
                    print(f"      평균 가격: {result['avg_price']:,.0f}원")
                if result.get('brands'):
                    print(f"      하위 카테고리: {len(result['brands'])}개")
        except Exception as cat_error:
            print(f"   ⚠️  카테고리 통계 실패: {cat_error}")
        
        # 6. spec 필드 분석
        print("\n🔧 6. spec 필드 분석:")
        try:
            spec_count = kt_merged_product_20251001.count_documents({
                "spec": {"$exists": True, "$ne": {}}
            })
            print(f"   spec 필드 보유 제품: {spec_count:,}개 ({spec_count*100//total_docs if total_docs else 0}%)")
            
            # spec 키 통계
            if spec_count > 0:
                spec_sample = kt_merged_product_20251001.find_one({"spec": {"$exists": True, "$ne": {}}})
                if spec_sample and spec_sample.get('spec'):
                    print(f"   spec 샘플 키: {list(spec_sample['spec'].keys())[:10]}")
        except Exception as spec_error:
            print(f"   ⚠️  spec 분석 실패: {spec_error}")
        
        # 7. 날짜 필드 분석
        print("\n📅 7. 출시일 분석:")
        try:
            date_count = kt_merged_product_20251001.count_documents({
                "release_date": {"$exists": True, "$ne": None}
            })
            print(f"   출시일 정보 보유: {date_count:,}개 ({date_count*100//total_docs if total_docs else 0}%)")
        except Exception as date_error:
            print(f"   ⚠️  날짜 분석 실패: {date_error}")
        
        # 8. 재고 상태 분석
        print("\n📦 8. 재고 상태:")
        stock_pipeline = [
            {"$match": {"stock_qty": {"$exists": True}}},
            {"$group": {
                "_id": None,
                "total_stock": {"$sum": "$stock_qty"},
                "avg_stock": {"$avg": "$stock_qty"},
                "max_stock": {"$max": "$stock_qty"},
                "out_of_stock": {"$sum": {"$cond": [{"$eq": ["$stock_qty", 0]}, 1, 0]}},
                "low_stock": {"$sum": {"$cond": [{"$and": [{"$gt": ["$stock_qty", 0]}, {"$lte": ["$stock_qty", 10]}]}, 1, 0]}}
            }}
        ]
        
        try:
            stock_results = list(kt_merged_product_20251001.aggregate(stock_pipeline))
            if stock_results:
                result = stock_results[0]
                print(f"   총 재고: {result.get('total_stock', 0):,}개")
                print(f"   평균 재고: {result.get('avg_stock', 0):.1f}개")
                print(f"   최대 재고: {result.get('max_stock', 0):,}개")
                print(f"   품절 상품: {result.get('out_of_stock', 0):,}개")
                print(f"   재고 부족(10개 이하): {result.get('low_stock', 0):,}개")
        except Exception as stock_error:
            print(f"   ⚠️  재고 분석 실패: {stock_error}")
        
        # 9. 검색 예시
        print("\n🔍 9. 텍스트 검색 예시:")
        
        # 텍스트 검색 (인덱스가 있는 경우)
        try:
            search_results = kt_merged_product_20251001.find(
                {"$text": {"$search": "갤럭시"}},
                {"score": {"$meta": "textScore"}}
            ).sort([("score", {"$meta": "textScore"})]).limit(5)
            
            search_count = 0
            for product in search_results:
                search_count += 1
                print(f"   • {product.get('goods_nm')} (점수: {product.get('score', 0):.2f})")
            
            if search_count == 0:
                raise Exception("텍스트 인덱스 검색 결과 없음")
                
        except:
            # 정규식 검색으로 대체
            try:
                regex_results = kt_merged_product_20251001.find(
                    {"goods_nm": {"$regex": "갤럭시", "$options": "i"}}
                ).limit(5)
                
                for product in regex_results:
                    print(f"   • {product.get('goods_nm')} ({product.get('mdl_code')})")
            except Exception as search_error:
                print(f"   ⚠️  검색 실패: {search_error}")
        
        # 10. 복잡한 쿼리 예시 - 고가 제품 중 재고가 있는 제품
        print("\n💎 10. 고가 제품 (200만원 이상, 재고 있음):")
        try:
            premium_products = kt_merged_product_20251001.find({
                "sale_prc": {"$gte": 2000000},
                "stock_qty": {"$gt": 0}
            }).sort("sale_prc", -1).limit(5)
            
            premium_count = 0
            for product in premium_products:
                premium_count += 1
                print(f"   • {product.get('goods_nm')}")
                print(f"      가격: {product.get('sale_prc'):,}원")
                print(f"      재고: {product.get('stock_qty'):,}개")
                print(f"      사이트: {product.get('site_cd')}")
            
            if premium_count == 0:
                print("   해당 조건의 제품이 없습니다.")
        except Exception as premium_error:
            print(f"   ⚠️  고가 제품 조회 실패: {premium_error}")
        
    except Exception as e:
        print(f"❌ 조회 실패: {e}")
        import traceback
        traceback.print_exc()

# 데이터 조회 실행
if collections is not None:
    query_mongodb_kt_merged_product_20251001(collections)
else:
    print("컬렉션 정보가 없습니다. MongoDB 연결과 컬렉션 생성을 먼저 실행하세요.")

### Appendix (v_spec_type_check_table_20251015) 추가 - DBeaver로 데이터 누락이 되어 작성

In [None]:
# CREATE TABLE IF NOT EXISTS v_spec_type_check_table_20251015 (
# 	disp_lv1 VARCHAR(1000),
# 	disp_lv2 VARCHAR(1000),
# 	disp_lv3 VARCHAR(1000),
# 	disp_nm1 VARCHAR(1000),
# 	disp_nm2 VARCHAR(1000),
# 	total_count INT4,
# 	cnt_numeric INT4,
# 	cnt_non_numeric INT4,
# 	symbols VARCHAR(100),
# 	numericvalue TEXT,
# 	nonnumericvalue TEXT,
# 	cnt_ck INT4
# );

import csv
import psycopg2
from psycopg2 import extras

def load_tsv_to_postgresql(tsv_file_path):
    """
    TSV 파일을 읽어서 PostgreSQL 테이블에 삽입
    
    Args:
        tsv_file_path: TSV 파일 경로
    """
    
    # PostgreSQL 연결
    conn = psycopg2.connect(
        host=PG_HOST,
        port=PG_PORT,
        database=PG_DATABASE,
        user=PG_USER,
        password=PG_PASSWORD
    )
    cursor = conn.cursor()
    
    try:
        # TSV 파일 읽기
        with open(tsv_file_path, 'r', encoding='utf-8') as f:
            # TSV 파일 파싱 (탭 구분자)
            tsv_reader = csv.reader(f, delimiter='\t')
            
            # 헤더가 있다면 스킵 (필요시)
            next(tsv_reader)
            
            # 데이터 준비
            data_to_insert = []
            for row in tsv_reader:
                # 빈 문자열("")을 None으로 변환 (NULL 처리)
                processed_row = [
                    None if val == '""' or val == '' else val 
                    for val in row
                ]
                data_to_insert.append(tuple(processed_row))
            
            # INSERT 쿼리
            insert_query = """
                INSERT INTO v_spec_type_check_table_20251015 
                (disp_lv1, disp_lv2, disp_lv3, disp_nm1, disp_nm2, total_count, cnt_numeric, cnt_non_numeric, symbols, numericvalue, nonnumericvalue, cnt_ck)
                VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            """
            
            # 배치 삽입 (성능 향상)
            extras.execute_batch(cursor, insert_query, data_to_insert)
            
            # 커밋
            conn.commit()
            print(f"✓ {len(data_to_insert)}개 행이 성공적으로 삽입되었습니다.")
            
    except Exception as e:
        conn.rollback()
        print(f"✗ 오류 발생: {e}")
        raise
    
    finally:
        cursor.close()
        conn.close()


# 사용 예시
if __name__ == "__main__":
    # TSV 파일 경로
    tsv_file = '/Users/toby/prog/kt/rubicon/data/v_spec_type_check_table_20251015.tsv'
    
    # 실행
    load_tsv_to_postgresql(tsv_file)

✓ 11474개 행이 성공적으로 삽입되었습니다.
