In [4]:
pip install selenium pandas


Note: you may need to restart the kernel to use updated packages.


In [5]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time
import pandas as pd

# 크롬 브라우저 설정 (헤드리스 모드)
options = Options()
options.add_argument("--headless")
options.add_argument("--disable-gpu")
options.add_argument("--no-sandbox")

# 13세트 (1~100, 101~200, ..., 1201~1280)
for set_num in range(1, 14):
    driver = webdriver.Chrome(options=options)

    results = []

    start_page = (set_num - 1) * 100 + 1
    end_page = min(set_num * 100, 1280)  # 마지막 세트는 1280까지만

    print(f"\n[SET {set_num}] 페이지 {start_page} ~ {end_page} 시작")

    for page in range(start_page, end_page + 1):
        url = f"https://coos.kr/ingredients?page={page}"
        driver.get(url)
        time.sleep(2)

        items = driver.find_elements(By.CLASS_NAME, "MuiGrid-grid-md-6")
        print(f"[INFO] 페이지 {page} 처리 중 - {len(items)}개 항목")

        for item in items:
            try:
                h5 = item.find_element(By.TAG_NAME, "h5")
                full_text = h5.text.strip()
                lines = full_text.split("\n")
                korean_name = lines[0]
                english_name = lines[1] if len(lines) > 1 else None

                results.append({
                    "korean_name": korean_name,
                    "english_name": english_name
                })
            except:
                continue

        time.sleep(1)

    driver.quit()

    # 저장
    df = pd.DataFrame(results)
    filename = f"COOS_성분{set_num}.csv"
    df.to_csv(filename, encoding="utf-8-sig", index=False)
    print(f"[SET {set_num}] 저장 완료 - 총 {len(df)}개 성분 → {filename}")



[SET 1] 페이지 1 ~ 100 시작
[INFO] 페이지 1 처리 중 - 22개 항목
[INFO] 페이지 2 처리 중 - 22개 항목
[INFO] 페이지 3 처리 중 - 22개 항목
[INFO] 페이지 4 처리 중 - 22개 항목
[INFO] 페이지 5 처리 중 - 22개 항목
[INFO] 페이지 6 처리 중 - 22개 항목
[INFO] 페이지 7 처리 중 - 22개 항목
[INFO] 페이지 8 처리 중 - 22개 항목
[INFO] 페이지 9 처리 중 - 22개 항목
[INFO] 페이지 10 처리 중 - 22개 항목
[INFO] 페이지 11 처리 중 - 22개 항목
[INFO] 페이지 12 처리 중 - 22개 항목
[INFO] 페이지 13 처리 중 - 22개 항목
[INFO] 페이지 14 처리 중 - 22개 항목
[INFO] 페이지 15 처리 중 - 22개 항목
[INFO] 페이지 16 처리 중 - 22개 항목
[INFO] 페이지 17 처리 중 - 22개 항목
[INFO] 페이지 18 처리 중 - 22개 항목
[INFO] 페이지 19 처리 중 - 22개 항목
[INFO] 페이지 20 처리 중 - 22개 항목
[INFO] 페이지 21 처리 중 - 22개 항목
[INFO] 페이지 22 처리 중 - 22개 항목
[INFO] 페이지 23 처리 중 - 22개 항목
[INFO] 페이지 24 처리 중 - 22개 항목
[INFO] 페이지 25 처리 중 - 22개 항목
[INFO] 페이지 26 처리 중 - 22개 항목
[INFO] 페이지 27 처리 중 - 22개 항목
[INFO] 페이지 28 처리 중 - 22개 항목
[INFO] 페이지 29 처리 중 - 22개 항목
[INFO] 페이지 30 처리 중 - 22개 항목
[INFO] 페이지 31 처리 중 - 22개 항목
[INFO] 페이지 32 처리 중 - 22개 항목
[INFO] 페이지 33 처리 중 - 22개 항목
[INFO] 페이지 34 처리 중 - 22개 항목
[INFO] 페이지 35 처리 중 - 22개 항목
[INFO

In [6]:
import pandas as pd
import os

# 결과 저장용 리스트
all_data = []

# 1~13번 파일 순차적으로 불러오기
for i in range(1, 14):
    filename = f"COOS_성분{i}.csv"
    
    if os.path.exists(filename):
        df = pd.read_csv(filename, encoding="utf-8-sig")
        all_data.append(df)
        print(f"[INFO] {filename} 불러오기 완료 - {len(df)}행")
    else:
        print(f"[경고] {filename} 파일이 존재하지 않음")

# 전체 데이터프레임 병합
combined_df = pd.concat(all_data, ignore_index=True)

# 중복 제거 (korean_name과 english_name이 같은 경우)
combined_df.drop_duplicates(subset=["korean_name", "english_name"], inplace=True)

# 최종 저장
combined_df.to_csv("COOS_성분_통합.csv", encoding="utf-8-sig", index=False)
print(f"\n[완료] 총 {len(combined_df)}개 성분 병합 저장 → COOS_성분_통합.csv")


[INFO] COOS_성분1.csv 불러오기 완료 - 2000행
[INFO] COOS_성분2.csv 불러오기 완료 - 2000행
[INFO] COOS_성분3.csv 불러오기 완료 - 2000행
[INFO] COOS_성분4.csv 불러오기 완료 - 2000행
[INFO] COOS_성분5.csv 불러오기 완료 - 1960행
[INFO] COOS_성분6.csv 불러오기 완료 - 2000행
[INFO] COOS_성분7.csv 불러오기 완료 - 2000행
[INFO] COOS_성분8.csv 불러오기 완료 - 2000행
[INFO] COOS_성분9.csv 불러오기 완료 - 2000행
[INFO] COOS_성분10.csv 불러오기 완료 - 2000행
[INFO] COOS_성분11.csv 불러오기 완료 - 2000행
[INFO] COOS_성분12.csv 불러오기 완료 - 2000행
[INFO] COOS_성분13.csv 불러오기 완료 - 1583행

[완료] 총 25543개 성분 병합 저장 → COOS_성분_통합.csv
