# 상품 정보 크롤링

In [None]:
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import time

# 웹드라이버 실행
# url = 'https://zigzag.kr/categories/-1?title=%EC%9D%98%EB%A5%98&category_id=-1&middle_category_id=474&sub_category_id=474&sort=200'  # 상의
# url = 'https://zigzag.kr/categories/-1?title=%EC%95%84%EC%9A%B0%ED%84%B0&category_id=-1&middle_category_id=436&sort=200'  # 아우터
url = 'https://zigzag.kr/categories/-1?title=%ED%8C%AC%EC%B8%A0&category_id=-1&middle_category_id=547&sort=200' #팬츠
driver = webdriver.Chrome()
driver.get(url)
time.sleep(2)  # 페이지 로딩 대기

# 스크롤하여 데이터 수집
scrolls = 9  # 원하는 만큼 스크롤 (조정 가능)
collected_links = set()  # 중복 방지를 위한 set()

for _ in range(scrolls):
    # 스크롤 내리기
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(3)  # 페이지가 로딩될 시간을 줌
    
    # 페이지 HTML 업데이트
    soup = BeautifulSoup(driver.page_source, "html.parser")
    
    # 상품 링크 수집 (새로운 상품이 로딩되었을 가능성이 있으므로 계속 추가)
    links = soup.select("#__next > div.zds-themes.light-theme > div.css-xrh5h3.edi339y0 > main > section.css-j2fe9p.eeob9mf0 > div a")
    
    for link in links:
        product_url = link.get('href')
        if product_url and product_url.startswith('/catalog/products/'):
            collected_links.add(f'https://zigzag.kr{product_url}')  # 중복 제거 위해 set에 추가

# 최종 수집된 링크 확인
print(f"총 {len(collected_links)}개의 상품 링크를 수집했습니다.")

# 수집된 정보를 저장할 리스트
data = []

# 상품 상세 정보 크롤링
for idx, full_url in enumerate(list(collected_links)):  # 모든 상품 링크를 크롤링
    driver.get(full_url)
    time.sleep(2)
    
    item_page = BeautifulSoup(driver.page_source, 'html.parser')
    
    try:
        brand_name = item_page.select_one('.css-gwr30y').text.strip()
        item_name = item_page.select_one('h1.css-1n8byw.e14n6e5u1').text.strip()
        origin_price = item_page.select_one('.css-14j45be.e1yx2lle2').text.strip()
        discount_price = item_page.select_one('.css-no59fe.e1ovj4ty1').text.strip()
        review_count = item_page.select_one('span.css-1ovjo5n').text.strip()
        item_score_avg = item_page.select_one('.css-1hld56p.e71452m2').text.strip()
        brand_keyword = [span.text for span in item_page.select("#__next > div.zds-themes.light-theme > div.css-xrh5h3.edi339y0 > div > div.shop_row > div > div > div > div > div:nth-child(2) > div.css-2jjng0.eq4fxvi7 span")]
        
        print(brand_name, item_name, origin_price, discount_price, review_count, item_score_avg, brand_keyword)
        
        # 수집한 데이터를 리스트에 추가
        data.append({
            '브랜드': brand_name,
            '상품명': item_name,
            '원가': origin_price,
            '할인 가격': discount_price,
            '리뷰 개수': review_count,
            '평점': item_score_avg,
            '키워드': ', '.join(brand_keyword)
        })
        
        print(len(data))

    except AttributeError:
        print(f"[{idx+1}] 데이터가 부족한 상품입니다. URL: {full_url}")
    
    time.sleep(2)

# 크롤링된 데이터를 DataFrame으로 변환
df = pd.DataFrame(data)

# DataFrame을 CSV 파일로 저장
df.to_csv(r'D:\0_Yebang\취업\포트폴리오\개인프로젝트\Shopping_mall_analyze\data\pants_info.csv', index=False, encoding='utf-8')

# 브라우저 종료
driver.quit()

print(f"총 {len(df)}개의 상품 정보를 CSV로 저장했습니다.")

## 리뷰 크롤링

In [None]:
import time
import pandas as pd
import csv
import re
import os 
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 웹드라이버 실행
url = 'https://zigzag.kr/search'
driver = webdriver.Chrome()

# 데이터 불러오기
df = pd.read_csv(r'D:\0_Yebang\취업\포트폴리오\개인프로젝트\Shopping_mall_analyze\data\top_info.csv', encoding='utf-8')
product_names = df['상품명'].tolist()

# 파일이 없을 때만 새로 생성
file_path = r"D:\0_Yebang\취업\포트폴리오\개인프로젝트\Shopping_mall_analyze\data\top_reviews.csv"

# 항상 새로 파일을 덮어쓰도록 수정
with open(file_path, mode="w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["브랜드명", "상품명", "리뷰어", "날짜", "사이즈", "퀄리티", "색감", "키", "몸무게", "상의", "리뷰"])  
    print("📂 CSV 파일 덮어쓰기 완료!")
    
    for product in product_names:
        driver.get(url)
        time.sleep(1)
    
        try:
            # 검색창 찾기
            search_box = driver.find_element(By.XPATH, '//*[@id="__next"]/div/div[2]/main/div[1]/nav/div/input')
            search_box.clear()
            search_box.send_keys(product)
            search_box.send_keys(Keys.ENTER)
            time.sleep(2)
            
            # 첫 번째 상품의 링크 가져오기
            link = driver.find_element(By.CSS_SELECTOR, '#__next > div > div.css-xrh5h3.edi339y0 > main > div.css-1ad8qtm.basic > div > div > div > div > div > div > div > a')
            product_link = link.get_attribute("href")
            driver.get(product_link)
            time.sleep(1)
            
            # 브랜드명, 상품명 가져오기
            brand_name = driver.find_element(By.CSS_SELECTOR, '.css-gwr30y').text.strip()
            item_name = driver.find_element(By.CSS_SELECTOR, 'h1.css-1n8byw.e14n6e5u1').text.strip()
            
            # 리뷰 페이지로 이동
            product_id = product_link.split("/")[-1]
            review_link = f"https://zigzag.kr/review/list/{product_id}"
            driver.get(review_link)
            time.sleep(2)    

            # 스크롤 다운 (3번)
            for _ in range(1):
                driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')
                time.sleep(1) 
            
            # 리뷰 컨테이너 찾기 (리뷰 데이터 크롤링 시작)
            review_containers = driver.find_elements(By.CSS_SELECTOR, "div.css-vbvoj0.e13bai5o0")
            
            for review in review_containers:
                try:
                    reviewer = review.find_element(By.CSS_SELECTOR, "p.zds4_s96ru86.zds4_s96ru815").text.strip()
                    review_date = review.find_element(By.CSS_SELECTOR, "div.css-1xqlji6.eimmef70").text.strip()
                    
                    # 옵션 정보 가져오기
                    option_elements = review.find_elements(By.CSS_SELECTOR, "div.css-6e8rvi.eld8gav1")
                    options = [opt.text.strip() for opt in option_elements if opt.text.strip()]
                    
                    # 리뷰 
                    review_texts  = review.find_elements(By.CSS_SELECTOR, "span.zds4_s96ru86.zds4_s96ru813")
                    review_contents = [con.text.strip() for con in review_texts if con.text.strip()]
                    
                    # 정규표현식으로 값 추출
                    size = next((opt.split()[-1] for opt in options if "사이즈" in opt), "")
                    quality = next((opt.split()[-1] for opt in options if "퀄리티" in opt), "")
                    color = next((opt.split()[-1] for opt in options if "색감" in opt), "")
                    height = next((re.search(r"(\d+)cm", opt).group(1) + "cm" for opt in options if "cm" in opt), "")
                    weight = next((re.search(r"(\d+)kg", opt).group(1) + "kg" for opt in options if "kg" in opt), "")
                    top_size = next((opt.split()[-1] for opt in options if "상의" in opt), "")

                    # 데이터 CSV 파일에 저장
                    writer.writerow([brand_name, item_name, reviewer, review_date, size, quality, color, height, weight, top_size, review_contents])
                    
                    # 출력 확인
                    print(f"✔ 리뷰어: {reviewer} | 날짜: {review_date} | 사이즈: {size} | 퀄리티: {quality} | 색감: {color} | 키: {height} | 몸무게: {weight} | 상의: {top_size} | 리뷰: {review_contents}")
                
                except Exception as e:
                    print(f"⚠ 리뷰 크롤링 오류: {e}")
                    
            
        except Exception as e:
            print(f"⚠ '{product}' 검색 실패: {e}")


# 드라이버 종료
driver.quit()


# 신발, 가방 크롤링 

In [None]:

import time
import pandas as pd
import csv
import re
import os 
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.action_chains import ActionChains

# 웹드라이버 실행 시 옵션 추가 (유니코드 문제 해결)
chrome_options = Options()
chrome_options.add_argument("--disable-extensions")  # 확장 프로그램 비활성화
chrome_options.add_argument("--lang=ko-KR")  # 한국어 언어로 설정
chrome_options.add_argument("--no-sandbox")  # 보안 모드 비활성화
chrome_options.add_argument("--disable-dev-shm-usage")  # 메모리 관련 이슈 방지


url = 'https://zigzag.kr/categories/582?title=%EC%8A%88%EC%A6%88%20%EC%A0%84%EC%B2%B4&category_id=582&middle_category_id=582&sort=200'
# WebDriver 경로 지정
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
driver.get(url)
time.sleep(2)  # 페이지 로딩 대기

# 스크롤하여 데이터 수집
scrolls = 9  # 원하는 만큼 스크롤 (조정 가능)
collected_links = set()  # 중복 방지를 위한 set()

for _ in range(scrolls):
    # 스크롤 내리기
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(3)  # 페이지가 로딩될 시간을 줌
    
    # 페이지 HTML 업데이트
    soup = BeautifulSoup(driver.page_source, "html.parser")
    
    # 상품 링크 수집 (새로운 상품이 로딩되었을 가능성이 있으므로 계속 추가)
    links = soup.select("#__next > div.zds-themes.light-theme > div.css-xrh5h3.edi339y0 > main > section.css-j2fe9p.eeob9mf0 > div a")
    
    for link in links:
        product_url = link.get('href')
        if product_url and product_url.startswith('/catalog/products/'):
            collected_links.add(f'https://zigzag.kr{product_url}?tab=review')  # 중복 제거 위해 set에 추가

# 최종 수집된 링크 확인
print(f"총 {len(collected_links)}개의 상품 링크를 수집했습니다.")

# 수집된 정보를 저장할 리스트
data = []

# 상품 상세 정보 크롤링
for idx, full_url in enumerate(list(collected_links)):  # 모든 상품 링크를 크롤링
    driver.get(full_url)
    time.sleep(2)
    
    try:
        brand_name = driver.find_element(By.CSS_SELECTOR, '.css-gwr30y').text.strip()
        item_name = driver.find_element(By.CSS_SELECTOR, "h1.css-1n8byw.e14n6e5u1").text.strip()
        origin_price = driver.find_element(By.CSS_SELECTOR, ".css-14j45be.e1yx2lle2").text.strip()
        discount_price = driver.find_element(By.CSS_SELECTOR, ".css-no59fe.e1ovj4ty1").text.strip()
        review_count = driver.find_element(By.CSS_SELECTOR, "span.css-1ovjo5n.e4stbpt2").text.strip()
        # 평균 평점
        item_score_avg = driver.find_element(By.CSS_SELECTOR, "span.css-1eso3qr.e107eqcl2").text.strip()
        # 브랜드 키워드
        brand_keyword_elements = driver.find_elements(
            By.CSS_SELECTOR, "#__next > div.zds-themes.light-theme > div.css-xrh5h3.edi339y0 > div > div.shop_row > div > div > div > div > div:nth-child(2) > div.css-2jjng0.eq4fxvi7 span"
        )
        brand_keyword = [element.text for element in brand_keyword_elements]
        
        print(brand_name, item_name, origin_price, discount_price, review_count, item_score_avg, brand_keyword, full_url)
        
        #리뷰 페이지 들어가기 
        product_id = full_url.split("/")[-1]
        # 리뷰 페이지 URL 생성
        review_link = f"https://zigzag.kr/review/list/{product_id}"
        driver.get(review_link)
        time.sleep(2)
        
        # 스크롤 다운 (3번)
        for _ in range(5):
            driver.execute_script('window.scrollTo(0,document.body.scrollHeight);')
            time.sleep(2) 
        
        # 리뷰 컨테이너 찾기 (리뷰 데이터 크롤링 시작)
        review_containers = driver.find_elements(By.CSS_SELECTOR, "div.css-vbvoj0.e13bai5o0")
        
        for review in review_containers:
            try:
                #리뷰 더보기 버튼
                add_button = review.find_elements(By.CSS_SELECTOR, "span.zds4_s96ru86.zds4_s96ru813 p")
                
                for button in add_button:
                    try:
                        # 버튼이 클릭 가능한 상태인지 확인
                        WebDriverWait(driver, 10).until(EC.element_to_be_clickable(button))
                        
                        # ActionChains을 사용하여 클릭 시도
                        action = ActionChains(driver)
                        action.move_to_element(button).click().perform()
                        
                        time.sleep(1)
                    except Exception as e:
                        print(f"⚠ 버튼 클릭 오류: {e}")
                        
                reviewer = review.find_element(By.CSS_SELECTOR, "p.zds4_s96ru86.zds4_s96ru815").text.strip()
                review_date = review.find_element(By.CSS_SELECTOR, "div.css-1xqlji6.eimmef70").text.strip()
                
                # 옵션 정보 가져오기
                option_elements = review.find_elements(By.CSS_SELECTOR, "div.css-6e8rvi.eld8gav1")
                options = [opt.text.strip() for opt in option_elements if opt.text.strip()]
                
                # 리뷰 
                review_texts  = review.find_elements(By.CSS_SELECTOR, "span.zds4_s96ru86.zds4_s96ru813")
                review_contents = [con.text.strip() for con in review_texts if con.text.strip()]
                
                # 정규표현식으로 값 추출
                size = next((opt.split()[-1] for opt in options if "사이즈" in opt), "")
                quality = next((opt.split()[-1] for opt in options if "퀄리티" in opt), "")
                color = next((opt.split()[-1] for opt in options if "색감" in opt), "")
                height = next((re.search(r"(\d+)cm", opt).group(1) + "cm" for opt in options if "cm" in opt), "")
                weight = next((re.search(r"(\d+)kg", opt).group(1) + "kg" for opt in options if "kg" in opt), "")
                top_size = next((opt.split()[-1] for opt in options if "상의" in opt), "")
                
                # 출력 확인
                print(f"✔ 리뷰어: {reviewer} | 날짜: {review_date} | 사이즈: {size} | 퀄리티: {quality} | 색감: {color} | 키: {height} | 몸무게: {weight} | 상의: {top_size} | 리뷰: {review_contents}")
                
            
        
                # 수집한 데이터를 리스트에 추가
                data.append({
                    '브랜드': brand_name,
                    '상품명': item_name,
                    '원가': origin_price,
                    '할인 가격': discount_price,
                    '리뷰 개수': review_count,
                    '평점': item_score_avg,
                    '키워드': ', '.join(brand_keyword),
                    '링크': full_url,
                    '리뷰어': reviewer,
                    '작성날짜': review_date,
                    '사이즈': size,
                    '퀄리티': quality,
                    '색감': color,
                    '키': height,
                    '몸무게': weight,
                    '상의사이즈' : top_size,
                    '리뷰': review_contents
                })
                
                print(len(data))

            except Exception as e:
                        print(f"⚠ 리뷰 크롤링 오류: {e}")

    except AttributeError:
        print(f"[{idx+1}] 데이터가 부족한 상품입니다. URL: {full_url}")
    

# 크롤링된 데이터를 DataFrame으로 변환
df = pd.DataFrame(data)

# DataFrame을 CSV 파일로 저장
df.to_csv(r'D:\0_Yebang\취업\포트폴리오\개인프로젝트\Shopping_mall_analyze\data\top_info_reviews.csv', index=False, encoding='utf-8')

# 브라우저 종료
driver.quit()

print(f"총 {len(df)}개의 상품 정보를 CSV로 저장했습니다.")