# Car.com 크롤링 코드 
- 코랩 환경에서는 크롬드라이버 경로 지정에 문제가 발생해 코드파일을 첨부합니다. 
- URl : https://www.cars.com/
- 크롤링 대상 : ravo4의 소비자 리뷰, 평점
- 리뷰기간 :  2010~2023년 

In [1]:
import pandas as pd

In [2]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from selenium.webdriver.chrome.options import Options as ChromeOptions
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup

In [3]:
def get_reviews(year, max_pages=5):
    options = ChromeOptions()
    user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36"
    options.add_argument('user-agent=' + user_agent)
    options.add_argument("lang=ko_KR")
    options.add_argument('headless')
    options.add_argument('window-size=1920x1080')
    options.add_argument("disable-gpu")
    options.add_argument("--no-sandbox")

    # 수동으로 다운로드한 ChromeDriver 경로 설정
    chromedriver_path = 'C:/Users/USER/Desktop/chromedriver-win64/chromedriver.exe'
    service = ChromeService(executable_path=chromedriver_path)
    
    # chrome driver
    driver = webdriver.Chrome(service=service, options=options)
    
    all_reviews = []
    page = 1

    while page <= max_pages:
        url = f"https://www.cars.com/research/toyota-rav4-{year}/consumer-reviews/?page={page}&page_size=200&sort_by=MostRecent"
        driver.get(url)
        
        # 명시적인 대기 시간 추가
        try:
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CLASS_NAME, 'reviews-collection'))
            )
        except:
            print(f"Timeout waiting for page {page}")
            break
        
        # HTML 파싱
        soup = BeautifulSoup(driver.page_source, "html.parser")

        # 리뷰 데이터 추출
        reviews_collection = soup.find('div', class_='reviews-collection')
        if not reviews_collection:
            print(f"No reviews collection found on page {page}")
            break
        
        reviews = reviews_collection.find_all('div', class_='sds-container consumer-review-container')
        if not reviews:
            print(f"No reviews found in reviews collection on page {page}")
            break

        for review in reviews:
            review_text_div = review.find('p', class_='review-body')
            if review_text_div:
                review_text = review_text_div.get_text(strip=True)
            else:
                review_text = "No Review Text Found"
            
            review_date_div = review.find('div', class_='review-byline review-section')
            if review_date_div:
                review_date = review_date_div.find('div').get_text(strip=True)
            else:
                review_date = "No Date Found"
            
            review_title_div = review.find('h3', class_='spark-heading-6 title')
            if review_title_div:
                review_title = review_title_div.get_text(strip=True)
            else:
                review_title = "No Title Found"
            
            review_rating_div = review.find('div', class_='review-stars')
            if review_rating_div:
                review_rating_span = review_rating_div.find('span', class_='sds-rating__count')
                if review_rating_span:
                    review_rating = review_rating_span.get_text(strip=True)
                else:
                    review_rating = "No Rating Found"
            else:
                review_rating = "No Rating Found"

            all_reviews.append({
                "날짜": review_date,
                "리뷰 제목": review_title,
                "리뷰 내용": review_text,
                "평점": review_rating
            })

        page += 1
    
    driver.quit()
    
    return all_reviews

- 용량 문제로 각 연도별로 크롤링 하고, 엑셀로 내보내기
- 쥬피터 환경에서 합치는데 용량 문제로 불가능하여, 엑셀 파일들을 합침

In [None]:
reviews_2010 = get_reviews(2010)

# 데이터 프레임으로 변환
reviews_2010 = pd.DataFrame(reviews_2010)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2010_0604_1.xlsx'
reviews_2010.to_excel(excel_path, index=False)

In [13]:
reviews_2011 = get_reviews(2011)

# 데이터 프레임으로 변환
reviews_2011 = pd.DataFrame(reviews_2011)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2011_0604.xlsx'
reviews_2011.to_excel(excel_path, index=False)


In [14]:
reviews_2012 = get_reviews(2012)

# 데이터 프레임으로 변환
reviews_2012 = pd.DataFrame(reviews_2012)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2012_0604.xlsx'
reviews_2012.to_excel(excel_path, index=False)

In [15]:
reviews_2013 = get_reviews(2013)

# 데이터 프레임으로 변환
reviews_2013 = pd.DataFrame(reviews_2013)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2013_0604.xlsx'
reviews_2013.to_excel(excel_path, index=False)

In [16]:
reviews_2014 = get_reviews(2014)

# 데이터 프레임으로 변환
reviews_2014 = pd.DataFrame(reviews_2014)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2014_0604.xlsx'
reviews_2014.to_excel(excel_path, index=False)


In [17]:
reviews_2015 = get_reviews(2015)

# 데이터 프레임으로 변환
reviews_2015 = pd.DataFrame(reviews_2015)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2015_0604.xlsx'
reviews_2015.to_excel(excel_path, index=False)


In [18]:
reviews_2016 = get_reviews(2016)

# 데이터 프레임으로 변환
reviews_2016 = pd.DataFrame(reviews_2016)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2016_0604.xlsx'
reviews_2016.to_excel(excel_path, index=False)


In [19]:
reviews_2017 = get_reviews(2017)

# 데이터 프레임으로 변환
reviews_2017 = pd.DataFrame(reviews_2017)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2017_0604.xlsx'
reviews_2017.to_excel(excel_path, index=False)


In [4]:
reviews_2018 = get_reviews(2018)

# 데이터 프레임으로 변환
reviews_2018 = pd.DataFrame(reviews_2018)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2018_0604.xlsx'
reviews_2018.to_excel(excel_path, index=False)


In [5]:
#reviews_2019 = get_reviews(2019)

# 데이터 프레임으로 변환
reviews_2019 = pd.DataFrame(reviews_2019)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2019_0604.xlsx'
reviews_2019.to_excel(excel_path, index=False)


In [6]:
reviews_2020 = get_reviews(2020)

# 데이터 프레임으로 변환
reviews_2020 = pd.DataFrame(reviews_2020)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2020_0604.xlsx'
reviews_2020.to_excel(excel_path, index=False)


In [7]:
reviews_2021 = get_reviews(2021)

# 데이터 프레임으로 변환
reviews_2021 = pd.DataFrame(reviews_2021)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2021_0604.xlsx'
reviews_2021.to_excel(excel_path, index=False)


In [8]:
reviews_2022 = get_reviews(2022)

# 데이터 프레임으로 변환
reviews_2022 = pd.DataFrame(reviews_2022)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2022_0604.xlsx'
reviews_2022.to_excel(excel_path, index=False)


In [9]:
reviews_2023 = get_reviews(2023)

# 데이터 프레임으로 변환
reviews_2023 = pd.DataFrame(reviews_2023)

# 엑셀 파일로 내보내기
excel_path = 'reviews_2023_0604.xlsx'
reviews_2023.to_excel(excel_path, index=False)
