# 0. 개관

[파이프라인 흐름 요약]        
1.올리브영 글로벌에서 주기별로 카테고리 9개별 상위 30개 제품의 제품 정보 및 리뷰 데이터 수집         

2. 수집된 리뷰 데이터에 대해 다음과 같은 처리 수행         
2.1**번역** → 다국어 리뷰를 영어로 번역 (langdetect + NLLB)      
2.2 **문장 분리** → 리뷰를 문장 단위로 분리      
2.3 **감정 분석** → 각 문장에 1~5점 감정 점수 부여, 전체 리뷰 감정 부여       
2.4 **키워드 추출** → KeyBERT로 리뷰당 5개 키워드 추출       
2.5 **클러스터링** → 비슷한 리뷰끼리 그룹화 (0, 1, 2)      
2.6 **결과 출력 및 저장** → 콘솔 출력 + 엑셀 저장

## Download

In [None]:
!pip install langdetect transformers keybert sentence-transformers scikit-learn
!pip install transformers langdetect keybert
!pip install google-generativeai pandas
!pip install google-genai

# 1. 올리브영 크롤링 코드

In [None]:
"""
Olive Young Global - Web Crawler (Auto Country Selection)
K-Beauty 제품 및 리뷰 데이터 수집 크롤러

수집 데이터: 제품 정보, 가격, 평점, 성분, 리뷰(최신 50개)
대상 시장: USA, Japan, China (자동 선택)
카테고리: 9개 (Skincare 2개, Makeup 4개, Hair 1개, Mask 1개, Suncare 1개)
"""

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
import pandas as pd
import time
from datetime import datetime
import os
import json


class OliveYoungCrawlerAuto:
    """
    올리브영 글로벌 웹사이트 크롤러 (자동 국가 선택)
    
    Features:
    - 자동 국가 선택 (USA, Japan, China)
    - 제품 상세 정보 수집 (제품명, 브랜드, 가격, 평점, 성분, 설명)
    - 리뷰 데이터 수집 (내용, 날짜, 평점, 카테고리별 세부평점)
    - 실시간 저장 (5개 제품마다)
    - View 36 자동 설정
    """
    
    def __init__(self, country='Japan', save_folder='./oliveyoung_data'):
        """
        크롤러 초기화
        
        Args:
            country (str): 국가 선택 ('USA', 'Japan', 'China')
            save_folder (str): 저장 폴더 경로
        """
        from selenium.webdriver.chrome.service import Service
        from webdriver_manager.chrome import ChromeDriverManager
        
        # 국가 설정
        country_map = {
            'USA': ('USA', '미국', 'USA'),
            'Japan': ('Japan', '일본', 'JAPAN'),
            'China': ('China', '중국', 'MAINLAND, CHINA')
        }
        
        if country not in country_map:
            raise ValueError("country는 'USA', 'Japan', 'China' 중 하나여야 합니다.")
        
        self.country_code, self.country_name_kr, self.country_name_en = country_map[country]
        
        print("=" * 70)
        print(f"Olive Young Global Crawler - {self.country_code}")
        print("=" * 70)
        
        # 저장 폴더 설정
        self.save_folder = save_folder
        if not os.path.exists(save_folder):
            os.makedirs(save_folder)
        print(f"[INFO] 저장 폴더: {os.path.abspath(save_folder)}")
        
        # Chrome 드라이버 설정
        options = webdriver.ChromeOptions()
        options.add_argument('--no-sandbox')
        options.add_argument('--disable-dev-shm-usage')
        options.add_argument('--disable-gpu')
        options.add_argument('--window-size=1920,1080')
        options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36')
        
        service = Service(ChromeDriverManager().install())
        self.driver = webdriver.Chrome(service=service, options=options)
        self.wait = WebDriverWait(self.driver, 10)
        
        # 데이터 저장 리스트
        self.all_data = []
        
        # 파일명 생성
        timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
        self.excel_filename = os.path.join(save_folder, f'oliveyoung_{self.country_name_kr}_{timestamp}.xlsx')
        
        # 국가 자동 선택
        self.select_country()
    
    def select_country(self):
        """
        올리브영 사이트에서 국가 자동 선택
        """
        print(f"\n[STEP 0] 국가 선택: {self.country_name_kr}")
        
        try:
            # 메인 페이지 접속
            self.driver.get("https://global.oliveyoung.com")
            time.sleep(5)  # 충분히 대기
            
            # 페이지 스크롤 (요소가 화면에 보이도록)
            self.driver.execute_script("window.scrollTo(0, 0);")
            time.sleep(1)
            
            # 국가 선택 버튼 클릭
            try:
                # 여러 방법으로 버튼 찾기
                country_button = None
                
                # 방법 1: ID로 찾기
                try:
                    country_button = self.wait.until(
                        EC.presence_of_element_located((By.ID, 'sel_headDivCntry'))
                    )
                    print("[DEBUG] ID로 버튼 찾음")
                except:
                    pass
                
                # 방법 2: data-testid로 찾기
                if not country_button:
                    try:
                        country_button = self.driver.find_element(
                            By.CSS_SELECTOR, '[data-testid="header-country-change-select-country-button"]'
                        )
                        print("[DEBUG] data-testid로 버튼 찾음")
                    except:
                        pass
                
                # 방법 3: XPath로 찾기 (현재 국가 텍스트 포함)
                if not country_button:
                    try:
                        country_button = self.driver.find_element(
                            By.XPATH, "//div[@id='sel_headDivCntry' or contains(@class, 'selectbox-trigger')]"
                        )
                        print("[DEBUG] XPath로 버튼 찾음")
                    except:
                        pass
                
                if not country_button:
                    print("[WARNING] 국가 선택 버튼을 찾을 수 없습니다.")
                    print("[INFO] 수동으로 국가를 선택하거나 기본 국가로 진행합니다.")
                    time.sleep(10)  # 수동 선택 시간 제공
                    return
                
                # JavaScript로 강제 클릭
                print("[INFO] 국가 선택 버튼 클릭 중...")
                self.driver.execute_script("arguments[0].scrollIntoView(true);", country_button)
                time.sleep(1)
                self.driver.execute_script("arguments[0].click();", country_button)
                time.sleep(3)
                print("[SUCCESS] 국가 선택 팝업 열기 완료")
                
                # 드롭다운에서 국가 선택
                print(f"[INFO] {self.country_name_kr} 선택 중...")
                country_xpath = f"//span[contains(text(), '{self.country_name_en}')]"
                
                try:
                    country_option = self.wait.until(
                        EC.element_to_be_clickable((By.XPATH, country_xpath))
                    )
                    self.driver.execute_script("arguments[0].click();", country_option)
                    time.sleep(2)
                    print(f"[SUCCESS] {self.country_name_kr} 선택 완료")
                except:
                    print(f"[WARNING] {self.country_name_kr} 옵션을 찾을 수 없습니다.")
                    print("[INFO] 수동으로 국가를 선택해주세요.")
                    time.sleep(10)
                    return
                
                # Save 버튼 클릭
                try:
                    save_button = self.wait.until(
                        EC.element_to_be_clickable((By.XPATH, "//button[contains(text(), 'Save') or contains(text(), '저장')]"))
                    )
                    self.driver.execute_script("arguments[0].click();", save_button)
                    time.sleep(3)
                    print("[SUCCESS] 국가 설정 저장 완료")
                except:
                    print("[WARNING] Save 버튼을 찾을 수 없습니다.")
                    print("[INFO] 엔터를 눌러 진행하거나 수동으로 저장해주세요.")
                    time.sleep(5)
                
            except Exception as e:
                print(f"[WARNING] 국가 선택 중 오류: {str(e)[:100]}")
                print("[INFO] 수동으로 국가를 선택하거나 기본 국가로 진행합니다.")
                time.sleep(10)  # 수동 선택 시간
        
        except Exception as e:
            print(f"[ERROR] 국가 선택 실패: {e}")
            print("[INFO] 기본 설정으로 계속 진행합니다.")
            time.sleep(5)
    
    def get_product_urls(self, category_url, limit=30):
        """
        카테고리 페이지에서 제품 URL 수집
        
        Args:
            category_url (str): 카테고리 페이지 URL
            limit (int): 수집할 제품 개수 (기본: 30)
        
        Returns:
            list: 제품 상세 페이지 URL 리스트
        """
        print(f"\n{'='*70}")
        print(f"[STEP 1] 카테고리 페이지 접속 중...")
        print(f"{'='*70}")
        
        try:
            # View 36 파라미터 추가
            if '?' in category_url:
                url_with_view = f"{category_url}&pageSize=36"
            else:
                url_with_view = f"{category_url}?pageSize=36"
            
            self.driver.get(url_with_view)
            time.sleep(5)
            
            # View 36 버튼 클릭 시도
            try:
                view_buttons = self.driver.find_elements(By.CSS_SELECTOR, 'button, a')
                for btn in view_buttons:
                    if '36' in btn.text:
                        btn.click()
                        time.sleep(2)
                        print("[SUCCESS] View 36 설정 완료")
                        break
            except:
                pass
            
            # 페이지 스크롤
            for i in range(3):
                self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
                time.sleep(1.5)
            
            # 제품 링크 수집
            product_links = self.driver.find_elements(By.CSS_SELECTOR, 'a[href*="/product/detail"]')
            
            urls = []
            for link in product_links:
                href = link.get_attribute('href')
                if href and href not in urls:
                    urls.append(href)
            
            print(f"[SUCCESS] 제품 URL 수집 완료: {len(urls)}개")
            return urls[:limit]
            
        except Exception as e:
            print(f"[ERROR] URL 수집 실패: {e}")
            return []
    
    def extract_product_and_reviews(self, product_url, rank, major_category, sub_category):
        """
        제품 상세 정보 및 리뷰 수집
        
        Args:
            product_url (str): 제품 상세 페이지 URL
            rank (int): 카테고리 내 순위
            major_category (str): 대분류 카테고리
            sub_category (str): 중분류 카테고리
        
        Returns:
            list: 제품 정보 + 리뷰가 결합된 데이터 리스트
        """
        all_rows = []
        
        try:
            self.driver.get(product_url)
            time.sleep(3)
            
            # === 제품 기본 정보 수집 ===
            product_info = {
                'country': self.country_code,
                'major_category': major_category,
                'sub_category': sub_category,
                'rank': rank,
                'product_url': product_url
            }
            
            # 제품명
            try:
                product_info['product_name'] = self.driver.find_element(
                    By.CSS_SELECTOR, 'dt[data-testid="product-name"]'
                ).text.strip()
            except:
                product_info['product_name'] = ''
            
            # 브랜드
            try:
                brand_elem = self.driver.find_element(By.CSS_SELECTOR, 'dt.notranslate')
                product_info['brand'] = brand_elem.text.strip()
            except:
                product_info['brand'] = ''
            
            # 할인율
            try:
                discount = self.driver.find_element(By.CSS_SELECTOR, 'span.discount-rate').text.strip()
                product_info['discount_rate'] = discount
            except:
                product_info['discount_rate'] = ''
            
            # 가격 (원가)
            try:
                price_elem = self.driver.find_element(By.CSS_SELECTOR, 'dt.price')
                price_spans = price_elem.find_elements(By.CSS_SELECTOR, 'div > span')
                if price_spans:
                    product_info['price'] = price_spans[0].text.strip()
                else:
                    product_info['price'] = ''
            except:
                product_info['price'] = ''
            
            # 평균 평점
            try:
                rating_elem = self.driver.find_element(By.CSS_SELECTOR, 'dl.prd-rating-info')
                rating_spans = rating_elem.find_elements(By.TAG_NAME, 'span')
                for span in rating_spans:
                    text = span.text.strip()
                    if text and text[0].isdigit():
                        product_info['rating'] = text
                        break
                if 'rating' not in product_info:
                    product_info['rating'] = ''
            except:
                product_info['rating'] = ''
            
            # 성분 (버튼 클릭 후 수집)
            try:
                ingr_button = self.driver.find_element(
                    By.CSS_SELECTOR, 'a[data-testid="product-featuredingredients-link"]'
                )
                ingr_button.click()
                time.sleep(2)
                
                product_info['ingredients'] = self.driver.find_element(
                    By.CSS_SELECTOR, 'div[data-testid="product-featuredingredients-content"]'
                ).text.strip()
            except:
                product_info['ingredients'] = ''
            
            # 제품 설명 (버튼 클릭 후 수집)
            try:
                desc_button = self.driver.find_element(
                    By.CSS_SELECTOR, 'a[data-testid="product-whyweloveit-link"]'
                )
                desc_button.click()
                time.sleep(2)
                
                product_info['description'] = self.driver.find_element(
                    By.CSS_SELECTOR, 'div[data-testid="product-whyweloveit-content"]'
                ).text.strip()
            except:
                product_info['description'] = ''

            print(f"  [PRODUCT {rank:2d}] {product_info['brand']:20s} | {product_info['product_name'][:50]}")
            print(f"               가격: {product_info['price']} (할인: {product_info['discount_rate']}) | 평점: {product_info['rating']}")
            
            # === 리뷰 데이터 수집 ===
            print(f"    [STEP 2] 리뷰 수집 시작...")
            
            # 리뷰 섹션으로 스크롤
            time.sleep(2)
            self.driver.execute_script("window.scrollTo(0, document.body.scrollHeight/2);")
            time.sleep(2)
            
            # 최신순 정렬
            try:
                newest_buttons = self.driver.find_elements(By.CSS_SELECTOR, 'li[tabindex="0"]')
                for button in newest_buttons:
                    if 'Newest' in button.text or 'newest' in button.text:
                        button.click()
                        time.sleep(2)
                        print(f"    [SUCCESS] 최신순 정렬 완료")
                        break
            except:
                print(f"    [WARNING] 최신순 버튼 찾기 실패 (기본 정렬 사용)")
            
            # More 버튼 반복 클릭 (리뷰 50개 로드)
            more_clicks = 0
            while more_clicks < 5:
                try:
                    more_btn = self.driver.find_element(By.CSS_SELECTOR, 'button.review-list-more-btn')
                    if more_btn.is_displayed():
                        self.driver.execute_script("arguments[0].scrollIntoView(true);", more_btn)
                        time.sleep(1)
                        more_btn.click()
                        more_clicks += 1
                        print(f"    [LOADING] More 버튼 클릭 ({more_clicks}/5)")
                        time.sleep(2)
                        
                        # 리뷰 개수 확인
                        reviews = self.driver.find_elements(By.CSS_SELECTOR, 'div.product-review-unit-main')
                        if len(reviews) >= 50:
                            print(f"    [SUCCESS] 목표 달성: {len(reviews)}개 리뷰 로드 완료")
                            break
                    else:
                        break
                except NoSuchElementException:
                    print(f"    [INFO] More 버튼 없음 (모든 리뷰 로드 완료)")
                    break
                except:
                    break
            
            # 리뷰 파싱
            review_elements = self.driver.find_elements(By.CSS_SELECTOR, 'div.product-review-unit-main')
            print(f"    [INFO] 발견된 리뷰: {len(review_elements)}개")
            
            for idx, review_elem in enumerate(review_elements[:50], 1):
                try:
                    row = product_info.copy()
                    
                    # 리뷰 전체 별점 (1-5점)
                    try:
                        filled_stars = review_elem.find_elements(
                            By.CSS_SELECTOR, 'div.product-review-unit-header div.review-star-rating div.icon-star.filled'
                        )
                        row['review_rating'] = len(filled_stars) / 2 if filled_stars else ''
                    except:
                        row['review_rating'] = ''
                    
                    # 리뷰 내용
                    try:
                        row['review_content'] = review_elem.find_element(
                            By.CSS_SELECTOR, 'div.review-unit-cont-comment'
                        ).text.strip()
                    except:
                        row['review_content'] = ''
                    
                    # 작성 날짜
                    try:
                        parent = review_elem.find_element(By.XPATH, '..')
                        date_elem = parent.find_element(
                            By.CSS_SELECTOR, 'span.review-write-info-date.notranslate'
                        )
                        row['review_date'] = date_elem.get_attribute('textContent').strip()
                    except:
                        row['review_date'] = ''
                    
                    # 카테고리별 세부 평점
                    try:
                        detail_ratings = {}
                        detail_items = review_elem.find_elements(By.CSS_SELECTOR, 'ul.list-review-evlt > li')
                        
                        for item in detail_items:
                            try:
                                category_name = item.find_element(By.TAG_NAME, 'span').text.strip()
                                filled = item.find_elements(By.CSS_SELECTOR, 'div.icon-star.filled')
                                rating_value = len(filled) / 2
                                
                                if category_name:
                                    detail_ratings[category_name] = rating_value
                            except:
                                continue
                        
                        row['review_detail_ratings'] = json.dumps(detail_ratings) if detail_ratings else ''
                    except:
                        row['review_detail_ratings'] = ''
                    
                    all_rows.append(row)
                    
                    if idx % 20 == 0:
                        print(f"    [PROGRESS] 리뷰 수집 중... {idx}/{min(50, len(review_elements))}")
                
                except:
                    continue
            
            print(f"    [SUCCESS] 리뷰 수집 완료: {len(all_rows)}개")
            return all_rows
            
        except Exception as e:
            print(f"  [ERROR] 제품 처리 실패: {str(e)[:50]}")
            return all_rows
    
    def save_to_excel(self):
        """수집된 데이터를 Excel 파일로 저장"""
        if not self.all_data:
            print("[WARNING] 저장할 데이터가 없습니다.")
            return
        
        df = pd.DataFrame(self.all_data)
        
        # 컬럼 순서 정렬 (15개)
        columns = [
            'country', 'major_category', 'sub_category', 'rank',
            'product_name', 'brand', 'discount_rate', 'price', 'rating',
            'ingredients', 'description',
            'review_content', 'review_date', 'review_rating', 'review_detail_ratings',
            'product_url'
        ]
        
        existing_cols = [c for c in columns if c in df.columns]
        df = df[existing_cols]
        
        df.to_excel(self.excel_filename, index=False, engine='openpyxl')
        print(f"\n[SAVED] {self.excel_filename} ({len(df)}행)")
    
    def get_dataframe(self):
        """수집된 데이터를 DataFrame으로 반환"""
        if not self.all_data:
            return pd.DataFrame()
        
        df = pd.DataFrame(self.all_data)
        
        columns = [
            'country', 'major_category', 'sub_category', 'rank',
            'product_name', 'brand', 'discount_rate', 'price', 'rating',
            'ingredients', 'description',
            'review_content', 'review_date', 'review_rating', 'review_detail_ratings',
            'product_url'
        ]
        
        existing_cols = [c for c in columns if c in df.columns]
        return df[existing_cols]
    
    def crawl_all_categories(self):
        """
        전체 카테고리 크롤링 (9개 카테고리)
        """
        # 9개 카테고리 정의
        categories = {
            'Skincare': {
                'Moisturizers': '1000000009',
                'Cleansers': '1000000010'
            },
            'Makeup': {
                'Face': '1000000032',
                'Eye': '1000000040',
                'Lip': '1000000045',
                'Nail': '1000000049'
            },
            'Hair': {
                'All Hair': '1000000070'
            },
            'Mask': {
                'All Face Masks': '1000000003'
            },
            'Suncare': {
                'All Suncare': '1000000011'
            }
        }
        
        total_categories = sum(len(subs) for subs in categories.values())
        current = 0
        
        print(f"\n{'='*70}")
        print(f"[START] 전체 크롤링 시작 ({self.country_name_kr})")
        print(f"[INFO] 총 {total_categories}개 카테고리")
        print(f"[INFO] 예상 소요 시간: 약 {total_categories * 15}분")
        print(f"{'='*70}")
        
        overall_start = time.time()
        
        # 각 카테고리 크롤링
        for major_category, sub_categories in categories.items():
            for sub_category, category_id in sub_categories.items():
                current += 1
                
                print(f"\n{'='*70}")
                print(f"[PROGRESS] 카테고리 [{current}/{total_categories}]")
                print(f"[CATEGORY] {major_category} > {sub_category}")
                print(f"{'='*70}")
                
                category_url = f"https://global.oliveyoung.com/display/category?ctgrNo={category_id}"
                
                # 카테고리 크롤링
                self.crawl_category(category_url, major_category, sub_category, limit=30)
                
                print(f"\n[INFO] 현재까지 수집된 데이터: {len(self.all_data)}행")
        
        # 전체 완료
        total_elapsed = time.time() - overall_start
        print(f"\n{'='*70}")
        print(f"[COMPLETED] 전체 크롤링 완료!")
        print(f"[TIME] 총 소요 시간: {total_elapsed/60:.1f}분")
        print(f"[RESULT] 최종 수집 데이터: {len(self.all_data)}행")
        print(f"{'='*70}")
    
    def crawl_category(self, category_url, major_category, sub_category, limit=30):
        """
        카테고리 전체 크롤링 실행
        
        Args:
            category_url (str): 카테고리 페이지 URL
            major_category (str): 대분류 카테고리명
            sub_category (str): 중분류 카테고리명
            limit (int): 수집할 제품 개수
        """
        print(f"\n{'='*70}")
        print(f"[CATEGORY] {major_category} > {sub_category}")
        print(f"{'='*70}")
        
        start_time = time.time()
        
        # 1. 제품 URL 수집
        urls = self.get_product_urls(category_url, limit)
        
        if not urls:
            print("[ERROR] 제품 URL을 찾을 수 없습니다.")
            return
        
        # 2. 각 제품별 크롤링
        for rank, url in enumerate(urls, 1):
            print(f"\n[PROCESSING] 제품 [{rank}/{len(urls)}]")
            
            rows = self.extract_product_and_reviews(
                url, rank, major_category, sub_category
            )
            
            self.all_data.extend(rows)
            
            # 중간 저장 (5개마다)
            if rank % 5 == 0:
                self.save_to_excel()
                print(f"  [CHECKPOINT] 중간 저장 완료 (총 {len(self.all_data)}행)")
            
            time.sleep(2)
        
        # 최종 저장
        self.save_to_excel()
        
        elapsed = time.time() - start_time
        print(f"\n{'='*70}")
        print(f"[COMPLETED] 크롤링 완료 (소요시간: {elapsed/60:.1f}분)")
        print(f"[RESULT] 총 {len(self.all_data)}행 수집")
        print(f"{'='*70}")
    
    def print_stats(self):
        """수집된 데이터 통계 출력"""
        if not self.all_data:
            return
        
        df = pd.DataFrame(self.all_data)
        print(f"\n{'='*70}")
        print("[STATISTICS] 데이터 통계")
        print(f"{'='*70}")
        print(f"총 데이터 행: {len(df)}")
        print(f"제품 수: {df['product_name'].nunique()}")
        print(f"\n브랜드별 제품 수 (TOP 10):")
        print(df['brand'].value_counts().head(10))
        
        # 평균 평점 계산
        if 'rating' in df.columns:
            try:
                ratings = df['rating'].replace('', None).dropna()
                if len(ratings) > 0:
                    avg_rating = pd.to_numeric(ratings, errors='coerce').mean()
                    print(f"\n평균 제품 평점: {avg_rating:.2f}")
            except:
                pass
    
    def close(self):
        """브라우저 종료"""
        self.driver.quit()


def main():
    """
    메인 실행 함수
    """
    print("\n" + "="*70)
    print("Olive Young Global Web Crawler")
    print("="*70 + "\n")
    
    COUNTRY = 'China'
    
    print(f"선택된 국가: {COUNTRY}")
    print("="*70 + "\n")
    
    crawler = OliveYoungCrawlerAuto(
        country=COUNTRY,
        save_folder='./oliveyoung_data'
    )
    
    df = pd.DataFrame()
    
    try:
        crawler.crawl_all_categories()
        crawler.print_stats()
        df = crawler.get_dataframe()
        
    except KeyboardInterrupt:
        print("\n[INTERRUPTED] 사용자에 의해 중단되었습니다.")
        df = crawler.get_dataframe()
        
    except Exception as e:
        print(f"\n[ERROR] 오류 발생: {e}")
        import traceback
        traceback.print_exc()
        df = crawler.get_dataframe()
        
    finally:
        crawler.close()
    
    return df, COUNTRY


if __name__ == "__main__":
    df_result, country = main()
    
    if country == 'Japan':
        df_japan = df_result
    elif country == 'China':
        df_china = df_result
    elif country == 'USA':
        df_usa = df_result

## 파일 열기 (임의)

In [2]:
# 파이프라인에서는 삭제 가능 (시행영상에서는 미리 준비된 걸로 하는 게 좋을듯!)
import pandas as pd
df_japan = pd.read_excel('./amore/oliveyoung_data/oliveyoung_일본_crawling.xlsx')
df_usa = pd.read_excel('./amore/oliveyoung_data/oliveyoung_미국_crawling.xlsx')
df_china = pd.read_excel('./amore/oliveyoung_data/oliveyoung_중국_crawling.xlsx')

df_usa.head()

Unnamed: 0,country,major_category,sub_category,rank,product_name,brand,discount_rate,price,rating,ingredients,description,review_content,review_date,review_rating,review_detail_ratings,product_url
0,USA,Skincare,Moisturizers,1,★2025 Awards★ Anua PDRN Hyaluronic Acid Capsul...,Anua,53%,US$68.00,4.8,"PDRN helps enhance skin health for a glowing, ...","A concentrated, water-free formula that plumps...",This is my second purchase! It's truly amazing...,2025/12/20,5,"{""Absorbs quickly"": 5.0, ""Moisturizing"": 5.0, ...",https://global.oliveyoung.com/product/detail?p...
1,USA,Skincare,Moisturizers,1,★2025 Awards★ Anua PDRN Hyaluronic Acid Capsul...,Anua,53%,US$68.00,4.8,"PDRN helps enhance skin health for a glowing, ...","A concentrated, water-free formula that plumps...",It feels very comfortable and moisturizing aft...,2025/12/20,5,"{""Absorbs quickly"": 5.0, ""Moisturizing"": 5.0, ...",https://global.oliveyoung.com/product/detail?p...
2,USA,Skincare,Moisturizers,1,★2025 Awards★ Anua PDRN Hyaluronic Acid Capsul...,Anua,53%,US$68.00,4.8,"PDRN helps enhance skin health for a glowing, ...","A concentrated, water-free formula that plumps...",I bought this serum in Korea and it fits my sk...,2025/12/20,5,"{""Absorbs quickly"": 5.0, ""Moisturizing"": 5.0, ...",https://global.oliveyoung.com/product/detail?p...
3,USA,Skincare,Moisturizers,1,★2025 Awards★ Anua PDRN Hyaluronic Acid Capsul...,Anua,53%,US$68.00,4.8,"PDRN helps enhance skin health for a glowing, ...","A concentrated, water-free formula that plumps...",The feeling of use is really good. It's not st...,2024/10/19,5,"{""Absorbs quickly"": 5.0, ""Moisturizing"": 5.0, ...",https://global.oliveyoung.com/product/detail?p...
4,USA,Skincare,Moisturizers,1,★2025 Awards★ Anua PDRN Hyaluronic Acid Capsul...,Anua,53%,US$68.00,4.8,"PDRN helps enhance skin health for a glowing, ...","A concentrated, water-free formula that plumps...","I've always wanted to use it, so I'm happy to ...",2025/12/18,5,"{""Absorbs quickly"": 5.0, ""Moisturizing"": 5.0, ...",https://global.oliveyoung.com/product/detail?p...


# 2. 아모퍼레시픽 브랜드 판별 컬럼 추가

In [3]:
# 아모레퍼시픽 브랜드 리스트 (영문/한글 모두 포함)
amore_brands = [
    # 영문명
    'Sulwhasoo', 'Laneige', 'Innisfree', 'AP Beauty', 'Hera', 
    'Primera', 'IOPE', 'Mamonde', 'Hanyul', 'Aestura',
    'Espoir', 'Etude', 'Ryo', 'Mise en scène', 'LABO-H',
    'Ryoe', 'Amos Professional', 'Longtake', 'illiyoon', 'Happy Bath',
    'SKINYOU', 'Median', 'GENTIST', 'VITALBEAUTIE', "O'Sulloc",
    'Makeon', 'Odyssey', 'VERDIE', 'HOLIRITUALS', 'Tata Harper', 'COSRX',
    
    # 한글명 (데이터에 한글로 되어있을 가능성 대비)
    '설화수', '라네즈', '이니스프리', '에이피뷰티', '헤라',
    '프리메라', '아이오페', '마몽드', '한율', '에스트라',
    '에스쁘아', '에뛰드', '려', '미쟝센', '라보에이치',
    '아윤채', '아모스프로페셔널', '롱테이크', '일리윤', '해피바스',
    '스킨유', '메디안', '젠티스트', '바이탈뷰티', '오설록',
    '메이크온', '오딧세이', '비레디', '홀리추얼', '타타하퍼', '코스알엑스',
    
    # 변형 (대소문자, 띄어쓰기 등)
    'SULWHASOO', 'LANEIGE', 'INNISFREE', 'HERA', 'PRIMERA',
    'MAMONDE', 'HANYUL', 'AESTURA', 'ESPOIR', 'ETUDE',
    'RYO', 'MISE EN SCENE', 'MISE EN SCÈNE', 'ILLYOON', 'ILLIYOON',
    'HAPPYBATH', 'HAPPY BATH', 'SKIN YOU', 'O\'SULLOC', 'OSULLOC',
    'MAKE ON', 'COS RX', 'COS-RX'
]

# 브랜드명을 소문자로 통일 (대소문자 구분 없이 비교)
amore_brands_lower = [brand.lower() for brand in amore_brands]

# is_amore 컬럼 추가 함수
def check_amore_brand(brand_name):
    """브랜드가 아모레퍼시픽이면 1, 아니면 0"""
    if pd.isna(brand_name):
        return 0
    
    brand_lower = str(brand_name).lower().strip()
    
    # 정확히 일치하는 경우
    if brand_lower in amore_brands_lower:
        return 1
    
    # 부분 일치 (브랜드명이 포함된 경우)
    for amore_brand in amore_brands_lower:
        if amore_brand in brand_lower or brand_lower in amore_brand:
            return 1
    
    return 0

# is_amore 컬럼 추가
df_usa['is_amore'] = df_usa['brand'].apply(check_amore_brand)
df_japan['is_amore'] = df_japan['brand'].apply(check_amore_brand)
df_china['is_amore'] = df_china['brand'].apply(check_amore_brand)

# 모든 국가 데이터프레임에 함수 적용
def apply_to_all_countries(func):
    global df_japan, df_usa, df_china
    
    df_japan = func(df_japan)
    df_usa = func(df_usa)
    df_china = func(df_china)

# 3. 리뷰 테이블 생성 및 분리

[파이프라인 흐름 요약]
1. **데이터 로드** → 엑셀 파일에서 리뷰 데이터 읽기
2. **번역** → 다국어 리뷰를 영어로 번역 (langdetect + NLLB)
3. **문장 분리** → 리뷰를 문장 단위로 분리
4. **감정 분석** → 각 문장에 1~5점 감정 점수 부여, 전체 리뷰 감정 부여
5. **키워드 추출** → KeyBERT로 리뷰당 5개 키워드 추출
6. **클러스터링** → 비슷한 리뷰끼리 그룹화 (0, 1, 2)
7. **결과 출력 및 저장** → 콘솔 출력 + 엑셀 저장

[결과 해석]
- `ID`: 리뷰 번호
- `cluster`: 비슷한 리뷰 그룹 (같은 번호 = 유사한 내용)
- `KeyBERT keywords`: 추출된 핵심 키워드

In [17]:
# =============================================================================
# 올리브영 리뷰 분석 파이프라인 - 리뷰 키워드 추출 (테스트용 10개)
# =============================================================================

import pandas as pd
import numpy as np
from transformers import pipeline
from langdetect import detect
from keybert import KeyBERT
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
import re
from collections import defaultdict, Counter
from pprint import pprint

# -----------------------------------------------------------------------------
# 1. 모델 초기화
# -----------------------------------------------------------------------------

translator = pipeline("translation", model="facebook/nllb-200-distilled-600M")
kw_model = KeyBERT()

lang_map = {
    'ja': 'jpn_Jpan',
    'ko': 'kor_Hang',
    'en': 'eng_Latn',
    'zh-cn': 'zho_Hans',
}


Device set to use cpu


In [18]:

# -----------------------------------------------------------------------------
# 2. 번역 함수
# -----------------------------------------------------------------------------

def normalize_language_and_translate(text):
    try:
        if pd.isna(text) or str(text).strip() == '':
            return {'lang': 'unknown', 'text_en': ''}

        lang_code = detect(str(text))

        if lang_code == 'en':
            return {'lang': 'eng_Latn', 'text_en': str(text)}

        src_lang = lang_map.get(lang_code, 'jpn_Jpan')
        translated = translator(
            str(text),
            src_lang=src_lang,
            tgt_lang='eng_Latn',
            max_length=512
        )[0]['translation_text']

        return {'lang': src_lang, 'text_en': translated}
    except:
        return {'lang': 'unknown', 'text_en': str(text)}

# -----------------------------------------------------------------------------
# 3. 문장 분리 함수
# -----------------------------------------------------------------------------

def split_sentences(text):
    if not text:
        return []
    sentences = re.split(r'[.!?]+', text)
    return [s.strip() for s in sentences if s.strip()]

# -----------------------------------------------------------------------------
# 4. 문장별 감정 점수 (임의)
# -----------------------------------------------------------------------------
def sentiment_of_sentence(sentence):
    """
    문장의 감정 점수 반환 (1~5)
    1: 매우 부정, 2: 부정, 3: 중립, 4: 긍정, 5: 매우 긍정
    """
    if not sentence or len(sentence.strip()) < 3:
        return 3

    try:
        out = sentiment_pipe(sentence)[0]
        return int(out["label"][0])
    except:
        return 3

# -----------------------------------------------------------------------------
# 5. 리뷰 문장 전체 감정 판단 (임의)
# -----------------------------------------------------------------------------

def sentiment_of_review(sentences):
    """
    리뷰 전체 감정 판단
    """
    if not sentences:
        return "neutral"

    scores = [sentiment_of_sentence(s) for s in sentences]

    avg_score = sum(scores) / len(scores)
    neg_ratio = sum(1 for s in scores if s <= 2) / len(scores)

    if neg_ratio >= 0.3:
        return "negative"

    if avg_score >= 4.0:
        return "positive"
    elif avg_score >= 3.0:
        return "neutral"
    else:
        return "negative"

# -----------------------------------------------------------------------------
# 6. KeyBERT 키워드 추출
# -----------------------------------------------------------------------------

custom_stop_words = "english"
    #+ [ #불용어 설정
    #'very', 'truly', 'really', 'quite', 'so',
    #'just', 'absolutely', 'totally', 'extremely' ]

def extract_keywords_keybert(text, top_n=5):
    if not text or len(text.strip()) < 10:
        return []

    try:
        keywords = kw_model.extract_keywords(
            text,
            keyphrase_ngram_range=(1, 2),  # 1-2개 단어 조합 추출 (예: "second purchase", "absorbs very quickly")
            stop_words=custom_stop_words,   # 불용어 제거 (의미 없는 단어 필터링)
            top_n=top_n,                    # 상위 N개 키워드만 추출
            use_mmr=True,                   # MMR 알고리즘 사용 (다양성 확보, 키워드 중복 제거)
            diversity=0.5                   # 0.5 = 관련성과 다양성의 균형 (0.0-1.0, 높을수록 서로 다른 키워드 추출)
        )
        return [kw[0] for kw in keywords]
    except:
        return []

# -----------------------------------------------------------------------------
# 7. 제품별 리뷰 파이프라인 [최종]
# -----------------------------------------------------------------------------

def run_review_pipeline(df, top_n_reviews=None):
    """
    제품별 리뷰 분석 파이프라인

    Args:
        df: 입력 데이터프레임
        top_n_reviews: 처리할 리뷰 개수 (기본값None: 전체)

    Returns:
        list: 처리된 리뷰 결과
    """

    # None이면 전체, 아니면 지정된 개수
    if top_n_reviews is None:
        df_sample = df.copy()
    else:
        df_sample = df.head(top_n_reviews).copy()

    processed = []
    total_reviews = len(df_sample)

    # [개발/테스트용 - 자동화 시 제거 가능] 처리 시작 메시지
    print("===== PROCESSING REVIEWS =====")
    print(f"총 {total_reviews}개 리뷰 처리 시작\n")

    for idx, row in df_sample.iterrows():
        # [개발/테스트용 - 자동화 시 제거 가능] 50개마다 진행 상황 출력
        current = idx + 1
        if current % 50 == 0 or current == total_reviews:
            print(f"진행중: {current}/{total_reviews} 리뷰 처리 완료")

        review_id = f"r{idx+1}"
        country = row.get('country', 'Unknown')
        platform = 'oliveyoung_global'
        review_text = row.get('review_content', '')

        norm = normalize_language_and_translate(review_text)
        sentences = split_sentences(norm['text_en'])

        sentence_records = []
        for s in sentences:
            score = sentiment_of_sentence(s)
            sentence_records.append({'sentence': s, 'score': score})

        review_sentiment = sentiment_of_review(sentences)
        keywords = extract_keywords_keybert(norm['text_en'], top_n=5)

        processed.append({
            'id': review_id,
            'country': country,
            'platform': platform,
            'major_category': row.get('major_category', ''),
            'sub_category': row.get('sub_category', ''),
            'product_name': row.get('product_name', ''),
            'brand': row.get('brand', ''),
            'lang': norm['lang'],
            'text_en': norm['text_en'],
            #'sentences': sentence_records,
            #'review_sentiment': review_sentiment,
            'review_rating' : row.get('review_rating', ''),
            'review_detail_ratings' : row.get('review_detail_ratings', ''),
            'kw_keybert': keywords,
            'cluster': 0
        })

    # [개발/테스트용 - 자동화 시 제거 가능] 리뷰 처리 완료 메시지
    print(f"\n리뷰 처리 완료: {total_reviews}개")

    if len(processed) >= 3:
        # [개발/테스트용 - 자동화 시 제거 가능] 클러스터링 시작 메시지
        print("클러스터링 시작...")

        corpus = [p['text_en'] for p in processed]
        vectorizer = TfidfVectorizer(max_df=0.9, min_df=1, ngram_range=(1, 2), stop_words='english')
        X = vectorizer.fit_transform(corpus)
        n_clusters = max(1, min(3, len(corpus)))
        km = KMeans(n_clusters=n_clusters, random_state=42)
        km.fit(X)
        labels = km.labels_

        for i, p in enumerate(processed):
            p['cluster'] = int(labels[i])

        # [개발/테스트용 - 자동화 시 제거 가능] 클러스터링 완료 메시지
        print("클러스터링 완료")

    return processed

# -----------------------------------------------------------------------------
# 8. 결과 출력 함수
# -----------------------------------------------------------------------------

def print_processed_reviews(processed, show_sample=True, sample_size=20):
    """
    처리된 리뷰 결과 출력

    Args:
        processed: 처리된 리뷰 리스트
        show_sample: 샘플 출력 여부
        sample_size: 출력할 샘플 개수
    """
    print('\n===== 분석 결과 요약 =====')
    print(f"총 처리된 리뷰: {len(processed)}개")

    # 감정 분포
    sentiments = [p.get('review_sentiment') for p in processed]
    positive = sentiments.count('positive')
    neutral = sentiments.count('neutral')
    negative = sentiments.count('negative')

    print(f"긍정: {positive}개, 중립: {neutral}개, 부정: {negative}개")

    # 클러스터 분포
    clusters = [p.get('cluster') for p in processed]
    cluster_counts = {i: clusters.count(i) for i in set(clusters)}
    print(f"클러스터 분포: {cluster_counts}")

# -----------------------------------------------------------------------------
# 9. 결과를 테이블로 저장 
# -----------------------------------------------------------------------------

from datetime import datetime

def save_results_to_table(processed, output_file=None, country=None):
    """
    처리된 리뷰 결과를 테이블 형태로 저장

    Args:
        processed: 처리된 리뷰 리스트
        output_file: 출력 파일명 (None이면 자동 생성)
        country: 국가명 (파일명과 메타데이터용)
    """

    # 국가명 자동 추출 (processed에서)
    if country is None and len(processed) > 0:
        country = processed[0].get('country', 'Unknown')

    # 타임스탬프 생성
    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')

    # 파일명 자동 생성
    if output_file is None:
        output_file = f'./oliveyoung_data/review_analysis_results_{country}_{timestamp}.xlsx'

    rows = []

    for p in processed:
        #sentences_text = ' | '.join([f"{s['sentence']} (score: {s['score']})" for s in p['sentences']])

        result_row = {
            'review_id': p['id'],
            'country': p['country'],
            'platform': p['platform'],
            'major_category': p.get('major_category', ''),
            'sub_category': p.get('sub_category', ''),
            'product_name': p.get('product_name', ''),
            'brand': p.get('brand', ''),
            'language': p['lang'],
            'translated_text': p['text_en'],
            #'sentences': sentences_text,
            #'review_sentiment': p['review_sentiment'],
            'review_rating' : p.get('review_rating', ''),
            'review_detail_ratings' : p.get('review_detail_ratings', ''),
            'keywords': ', '.join(p['kw_keybert']),   
            'cluster': p['cluster'],
            'analysis_timestamp': timestamp
        }
        rows.append(result_row)

    result_df = pd.DataFrame(rows)
    result_df.to_excel(output_file, index=False)

    # 출력 메시지에 국가와 시간 포함
    print(f"\n[{country}] 분석 완료: {timestamp}")
    print(f"결과가 {output_file}에 저장되었습니다")
    print(f"총 {len(processed)}개 리뷰 처리")

    return result_df

In [None]:
# =============================================================================
# 실행
# =============================================================================

if __name__ == "__main__":
    # processed = run_review_pipeline(df_usa, top_n_reviews=len(df_usa))
    # print_processed_reviews(processed) #파이프라인 삭제
    # df_usa_review = save_results_to_table(processed) 
    
    # processed = run_review_pipeline(df_china, top_n_reviews=len(df_china))
    # print_processed_reviews(processed) #파이프라인 삭제
    # df_china_review = save_results_to_table(processed)
    
    # processed = run_review_pipeline(df_japan, top_n_reviews=len(df_japan))
    # print_processed_reviews(processed) #파이프라인 삭제
    # df_japan_review = save_results_to_table(processed)

    # 일본어 sample로 실시 (제품별 2개 행 -> 총 454행)
    df_japan_sample= (df_japan.groupby(['product_name', 'brand'], as_index=False).head(2).reset_index(drop=True))
    processed = run_review_pipeline(df_japan_sample, top_n_reviews=len(df_japan))
    print_processed_reviews(processed) #파이프라인 삭제
    df_japan_review = save_results_to_table(processed)
    


===== PROCESSING REVIEWS =====
총 454개 리뷰 처리 시작

진행중: 50/454 리뷰 처리 완료
진행중: 100/454 리뷰 처리 완료


Your input_length: 490 is bigger than 0.9 * max_length: 512. You might consider increasing your max_length manually, e.g. translator('...', max_length=400)


진행중: 150/454 리뷰 처리 완료
진행중: 200/454 리뷰 처리 완료
진행중: 250/454 리뷰 처리 완료
진행중: 300/454 리뷰 처리 완료
진행중: 350/454 리뷰 처리 완료
진행중: 400/454 리뷰 처리 완료
진행중: 450/454 리뷰 처리 완료
진행중: 454/454 리뷰 처리 완료

리뷰 처리 완료: 454개
클러스터링 시작...
클러스터링 완료

===== 분석 결과 요약 =====
총 처리된 리뷰: 454개
긍정: 0개, 중립: 0개, 부정: 0개
클러스터 분포: {0: 65, 1: 160, 2: 229}

[Japan] 분석 완료: 20251231_072010
결과가 ./oliveyoung_data/review_analysis_results_Japan_20251231_072010.xlsx에 저장되었습니다
총 454개 리뷰 처리


In [19]:
# 제품 테이블 분리
df_usa_products = df_usa.drop_duplicates(subset=['product_name', 'brand']).reset_index(drop=True)
df_china_products = df_china.drop_duplicates(subset=['product_name', 'brand']).reset_index(drop=True)
df_japan_products = df_japan.drop_duplicates(subset=['product_name', 'brand']).reset_index(drop=True)

In [None]:
#일본어만 행 수 줄여서 번역
def translate_product_columns(df):
    columns = ['product_name', 'brand', 'ingredients', 'description']
    for col in columns:
        df[col] = df[col].apply(lambda x: normalize_language_and_translate(x)['text_en'])
    return df

# 사용
df_japan_products = translate_product_columns(df_japan_products)

# 4. K-Beauty 제품 속성 추출 파이프라인 [아래는 2안 코드]
- 1안) Claude API를 사용 : 유료    
- 2안) Gemini API 활용 : 무료 
- 2안으로 실행할 시, 세션 만료되면, 끊겨서 기다려야 함. 실행이 정 안된다싶으면 말해주세요. 클로드 코드 드릴게요(클로드 로컬 호출 코드는 생성 안함)

In [None]:
import pandas as pd
import json
import re
import os
import time
from datetime import datetime
import google.generativeai as genai

# API 키 설정 (한 번만 실행)
api_key = "AIzaSyBGLZU62iYN9Cg0CJOHaDxI0k1khv4UsR8"
genai.configure(api_key=api_key)
model = genai.GenerativeModel('gemini-2.5-flash')

def extract_keywords_with_gemini(ingredients, description, retry=3):
    """최적화된 프롬프트로 제품 속성 추출"""
    
    prompt = f"""You are a K-beauty cosmetic product analyzer. Extract structured keywords from the product information below.

CRITICAL RULES:
1. Use lowercase ONLY for all keywords
2. NEVER leave any field empty - if unsure, make reasonable inference
3. Return ONLY valid JSON (no markdown, no explanation, no code blocks)
4. Be specific and consistent across all products
5. Extract actual ingredient/benefit names, not descriptions

PRODUCT INFORMATION:
Ingredients:
{ingredients}

Description:
{description}

EXTRACTION GUIDELINES:

key_ingredients (3-5 items):
- Extract actual chemical/botanical names
- Examples: "pdrn", "niacinamide", "hyaluronic acid", "ceramide", "retinol"
- NOT: "moisturizing ingredients", "active ingredients"

product_type (1-2 items):
- Product category/formulation
- Examples: "serum", "cream", "toner", "essence", "balm", "mist", "oil"
- If unclear, infer from context (e.g., liquid texture → "serum" or "toner")

texture (1-3 items):
- Physical feel/consistency
- Examples: "watery", "gel-type", "lightweight", "rich", "creamy", "silky", "thick"
- REQUIRED: Always extract at least one texture keyword
- If not mentioned, infer from product_type (serum → "lightweight", cream → "rich")

features (2-4 items):
- Unique characteristics or formulation tech
- Examples: "water-free", "capsule", "liposome", "vegan", "hypoallergenic", "fragrance-free"
- If none found, use: ["dermatologist-tested"] as default

benefits (2-4 items):
- Skincare effects/claims
- Examples: "moisturizing", "brightening", "anti-aging", "pore-care", "soothing", "firming"
- REQUIRED: Always extract at least 2 benefits

NOW EXTRACT FROM THIS PRODUCT:

Return JSON only:
"""

    for attempt in range(retry):
        try:
            response = model.generate_content(
                prompt,
                generation_config=genai.types.GenerationConfig(
                    temperature=0.2,
                    top_p=0.8,
                    top_k=40,
                )
            )
            content = response.text
            
            content = content.replace('```json', '').replace('```', '')
            first_brace = content.find('{')
            last_brace = content.rfind('}')
            
            if first_brace != -1 and last_brace != -1:
                json_text = content[first_brace:last_brace + 1]
                result = json.loads(json_text)
                return result, None
            else:
                return None, "JSON 파싱 실패"
                
        except Exception as e:
            if attempt < retry - 1:
                print(f"  재시도 중... ({attempt + 1}/{retry})")
                time.sleep(2)
                continue
            else:
                return None, str(e)
    
    return None, "재시도 횟수 초과"


def process_product_attributes(df, country_name='unknown'):
    """
    제품 속성 추출 파이프라인
    
    Args:
        df: 입력 데이터프레임 (ingredients, description 컬럼 필요)
        country_name: 국가명 (체크포인트 파일 구분용)
    
    Returns:
        result_df: 속성이 추출된 데이터프레임
    """
    
    print(f"\n{'='*80}")
    print(f"[{country_name.upper()}] 제품 속성 추출 시작")
    print(f"{'='*80}")
    
    # 데이터 정제
    print("Step 1: 데이터 정제")
    df = df.drop_duplicates(subset=['product_name'], keep='first')
    
    def clean_product_name(name):
        name = re.sub(r'★[^★]*★\s*', '', str(name))
        name = re.sub(r'【[^】]*】\s*', '', name)
        name = re.sub(r'\s+', ' ', name).strip()
        return name
    
    df['product_name_clean'] = df['product_name'].apply(clean_product_name)
    print(f"완료: {len(df)}개 제품 준비됨\n")
    
    # 체크포인트 파일
    checkpoint_file = f'checkpoint_progress_{country_name}.csv'
    start_idx = 0
    
    if os.path.exists(checkpoint_file):
        print("INFO: 이전 진행상황 발견")
        response = input("이어서 진행하시겠습니까? (y/n): ")
        if response.lower() == 'y':
            checkpoint_df = pd.read_csv(checkpoint_file)
            start_idx = len(checkpoint_df)
            print(f"완료: {start_idx}번째 항목부터 재개")
        else:
            print("완료: 처음부터 새로 시작")
            if os.path.exists(checkpoint_file):
                os.remove(checkpoint_file)
        print()
    
    # 처리 시작
    print(f"Step 2: {len(df) - start_idx}개 제품 처리 시작")
    print(f"예상 소요 시간: 약 {((len(df) - start_idx) * 4) // 60}분\n")
    
    results = []
    errors = []
    
    # 이전 진행상황 로드
    if start_idx > 0 and os.path.exists(checkpoint_file):
        checkpoint_df = pd.read_csv(checkpoint_file)
        results = checkpoint_df.to_dict('records')
    
    for idx in range(start_idx, len(df)):
        row = df.iloc[idx]
        
        print(f"처리 중 [{idx+1}/{len(df)}]: {row['brand']} - {row['product_name_clean'][:40]}...")
        
        keywords, error = extract_keywords_with_gemini(
            str(row.get('ingredients', '')),
            str(row.get('description', ''))
        )
        
        if keywords:
            result_row = {
                'product_name_clean': row['product_name_clean'],
                'brand': row['brand'],
                'country': row.get('country', country_name),
                'major_category': row.get('major_category', ''),
                'sub_category': row.get('sub_category', ''),
                'price': row.get('price', ''),
                'rating': row.get('rating', ''),
                'key_ingredients': ', '.join(keywords.get('key_ingredients', [])),
                'product_type': ', '.join(keywords.get('product_type', [])),
                'texture': ', '.join(keywords.get('texture', [])),
                'features': ', '.join(keywords.get('features', [])),
                'benefits': ', '.join(keywords.get('benefits', []))
            }
            results.append(result_row)
        else:
            errors.append({'index': idx, 'product': row['product_name_clean'], 'error': error})
        
        # 10개마다 체크포인트 저장
        if (idx + 1) % 10 == 0:
            pd.DataFrame(results).to_csv(checkpoint_file, index=False, encoding='utf-8-sig')
            print(f"  [체크포인트 저장: {len(results)}개 완료]")
        
        print()
        time.sleep(8)  # API 호출 제한
    
    # 최종 결과
    result_df = pd.DataFrame(results)
    
    # 체크포인트 파일 삭제
    if os.path.exists(checkpoint_file):
        os.remove(checkpoint_file)
    
    print(f"\n{'='*80}")
    print(f"[{country_name.upper()}] 처리 완료!")
    print(f"{'='*80}")
    print(f"처리된 제품: {len(results)}개")
    if errors:
        print(f"오류 발생: {len(errors)}개")
    
    if len(results) > 0:
        print(f"\n결과 통계:")
        print(f"- 평균 추출된 성분 수: {result_df['key_ingredients'].str.split(',').str.len().mean():.1f}개")
        print(f"- 평균 추출된 효과 수: {result_df['benefits'].str.split(',').str.len().mean():.1f}개")
        print(f"- 제형 추출률: {(result_df['texture'] != '').sum() / len(result_df) * 100:.1f}%")
        print(f"- 특징 추출률: {(result_df['features'] != '').sum() / len(result_df) * 100:.1f}%")
    
    return result_df


# 실행
if __name__ == "__main__":

    df_usa_products = process_product_attributes(df_usa_products, country_name='usa')
    df_japan_products = process_product_attributes(df_japan_products, country_name='japan')
    df_china_products = process_product_attributes(df_china_products, country_name='china')

In [None]:
import plotly.graph_objects as go
from ipywidgets import interact, Dropdown
from IPython.display import display

def analyze_amore_products(df):
    """
    아모레 브랜드 제품 분석 및 시각화
    
    Args:
        df: 입력 데이터프레임 (is_amore 컬럼 필요)
    
    Returns:
        table: 집계 표
        fig: plotly 그래프 객체
    """
    
    # 아모레 제품 필터링
    amore_df = df[df['is_amore'] == 1].copy()
    
    if len(amore_df) == 0:
        print("경고: 아모레 제품이 없습니다.")
        return pd.DataFrame(), None
    
    # 표 생성
    table = amore_df.groupby(['sub_category', 'brand']).agg({
        'rank': 'min',
        'product_name': lambda x: list(x),
        'product_url': lambda x: list(x)
    }).reset_index()
    
    table['product_count'] = table['product_name'].apply(len)
    table.columns = ['sub_category', 'brand', 'brand_rank', 'product_names', 'product_links', 'product_count']
    table = table[['sub_category', 'brand', 'brand_rank', 'product_count', 'product_names', 'product_links']]
    table = table.sort_values(['sub_category', 'brand_rank'])
    
    # 그래프 데이터 준비
    graph_data = table.copy()
    
    # 그래프 생성 (적층형)
    fig = go.Figure()
    
    # 모든 카테고리 목록
    categories = graph_data['sub_category'].unique()
    
    for brand in graph_data['brand'].unique():
        brand_data = graph_data[graph_data['brand'] == brand]
        
        # 각 카테고리에 대해 데이터 준비 (없는 경우 0)
        y_values = []
        hover_text = []
        
        for cat in categories:
            cat_data = brand_data[brand_data['sub_category'] == cat]
            if len(cat_data) > 0:
                y_values.append(cat_data.iloc[0]['product_count'])
                hover_text.append(f"순위: {int(cat_data.iloc[0]['brand_rank'])}<br>제품 수: {int(cat_data.iloc[0]['product_count'])}")
            else:
                y_values.append(0)
                hover_text.append("")
        
        fig.add_trace(go.Bar(
            x=categories,
            y=y_values,
            name=brand,
            text=[str(int(v)) if v > 0 else '' for v in y_values],
            textposition='inside',
            hovertext=hover_text,
            hovertemplate='<b>%{x}</b><br>브랜드: ' + brand + '<br>%{hovertext}<extra></extra>'
        ))
    
    # 레이아웃 설정
    fig.update_layout(
        title='Amorepacific Brand Distribution by Category',
        xaxis_title='sub_category',
        yaxis_title='product_count',
        barmode='stack',
        height=600,
        showlegend=True,
        legend=dict(
            title=dict(text='brand'),
            orientation="v",
            yanchor="top",
            y=1,
            xanchor="left",
            x=1.02
        ),
        updatemenus=[
            dict(
                buttons=[
                    dict(label="All Brands", method="update", args=[{"visible": [True] * len(fig.data)}]),
                    *[dict(label=brand, method="update", 
                          args=[{"visible": [d.name == brand for d in fig.data]}]) 
                      for brand in graph_data['brand'].unique()]
                ],
                direction="down",
                showactive=True,
                x=0.17,
                xanchor="left",
                y=1.15,
                yanchor="top"
            ),
            dict(
                buttons=[
                    dict(label="All Categories", method="relayout", args=[{"xaxis.range": None}]),
                    *[dict(label=cat, method="relayout",
                          args=[{"xaxis.range": [i-0.5, i+0.5]}])
                      for i, cat in enumerate(graph_data['sub_category'].unique())]
                ],
                direction="down",
                showactive=True,
                x=0.5,
                xanchor="left",
                y=1.15,
                yanchor="top"
            )
        ]
    )
    
    # 인터랙티브 테이블 생성 함수
    def show_filtered_table(category='All', brand='All'):
        filtered = table.copy()
        
        if category != 'All':
            filtered = filtered[filtered['sub_category'] == category]
        
        if brand != 'All':
            filtered = filtered[filtered['brand'] == brand]
        
        display(filtered)
    
    # 드롭다운 옵션
    categories_list = ['All'] + list(table['sub_category'].unique())
    brands_list = ['All'] + list(table['brand'].unique())

    interact(show_filtered_table, 
             category=Dropdown(options=categories_list, value='All', description='카테고리:'),
             brand=Dropdown(options=brands_list, value='All', description='브랜드:'))
    
    return table, fig

# 실행
table_usa, fig_usa = analyze_amore_products(df_usa_products)
fig_usa.show()

table_japan, fig_japan = analyze_amore_products(df_japan_products)
fig_japan.show()

table_china, fig_china = analyze_amore_products(df_china_products)
fig_china.show()