In [31]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time
import re

# ChromeDriver 경로 지정
driver_path = "./chromedriver-win64/chromedriver.exe" 

# Chrome WebDriver 실행
driver = webdriver.Chrome(executable_path=driver_path)

base_url = "https://www.kbchachacha.com/public/search/main.kbc#!?countryOrder=1&page="

# 데이터 저장 리스트
car_ids = []
car_prices = []
car_titles = []
car_dates = []
car_distances = []

for page in range(1, 2):  # 1~500페이지까지 밖에 없음
    print(f"Processing page {page}...")
    # 페이지 열기
    driver.get(base_url + str(page)) 
    driver.implicitly_wait(10)
    time.sleep(5)  # 페이지 로드 대기

    # 페이지 소스 가져오기
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')

    vehicle_ids = soup.find_all('div', class_='area')

    # car_ids에 추가
    for veh_id in vehicle_ids:
        car_id = veh_id.get('data-car-seq')
        if car_id != None :
            car_ids.append(car_id)

    vehicle_prices = soup.find_all('strong', class_='pay')
    for price in vehicle_prices:
        raw_price = price.text.strip()  # 원본 텍스트 가져오기
        cleaned_price = raw_price.split('원')[0] + '원'  # '원' 기준으로 첫 번째 가격만 남기기
        car_prices.append(cleaned_price)
    
    
    title_tags = soup.find_all('strong', class_='tit')
    for title_tag in title_tags:
        # <span> 태그를 제거한 텍스트만 추출
        for span in title_tag.find_all('span'):
            span.extract()  # <span> 태그 제거
        text_only = title_tag.get_text(strip=True)  # 남은 텍스트 추출
        car_titles.append(text_only)


    vehicle_dates = soup.find_all('div', class_='first')
    for date in vehicle_dates :
        car_date = date.text.strip()
        car_dates.append(car_date)
    
    vehicle_distances = soup.find_all('div', class_='data-in')
    for distance in vehicle_distances : 
        dist = distance.find('span')
        car_distances.append(dist.get_text(strip=True))

print(f"Total car IDs collected: {len(car_ids)}")
print(f"Total car PRICEs collected: {len(car_prices)}")
print(f"Total car INFOs collected: {len(car_titles)}")
print(f"Total car DATEs collected: {len(car_dates)}")
print(f"Total car DISTANCEs collected: {len(car_distances)}")


print(car_ids)
print(car_prices)
print(car_titles)
print(car_dates)
print(car_distances)

driver.quit()


Processing page 1...
Total car IDs collected: 36
Total car PRICEs collected: 36
Total car INFOs collected: 36
Total car DATEs collected: 36
Total car DISTANCEs collected: 36
['26247492', '26197424', '26393917', '26446042', '26354824', '26408457', '26268484', '26228544', '26404728', '26469861', '26402395', '25975878', '26444307', '25888104', '26162896', '26460980', '26487762', '26307972', '26298442', '26297328', '26269316', '26242389', '26066460', '26026526', '26504651', '26454111', '26443515', '26434139', '26382821', '26373317', '26357011', '26349141', '26319062', '26313317', '26261728', '26227593']
['1,870만원', '1,200만원', '2,160만원', '4,680만원', '3,550만원', '3,040만원', '4,070만원', '4,350만원', '2,340만원', '3,800만원', '1,180만원', '4,800만원', '3,600만원', '980만원', '1,430만원', '1,550만원', '5,500만원', '1,080만원', '680만원', '2,780만원', '3,300만원', '1,600만원', '1,340만원', '1,600만원', '1,060만원', '1,600만원', '1,080만원', '1,880만원', '2,460만원', '1,900만원', '780만원', '700만원', '480만원', '1,940만원', '320만원', '670만원']
['현대 쏘나타 (

In [34]:
import pandas as pd

car_data = {
    "차량등록번호": car_ids,
    "가격": car_prices,
    "차량모델명": car_titles,
    "차량사양": car_dates,
    "주행거리": car_distances,
}

print(car_data)

df = pd.DataFrame(car_data)

# CSV 파일로 저장
file_path = "car_data.csv"
df.to_csv(file_path, index=False, encoding='utf-8-sig')

print(f"CSV 파일이 성공적으로 저장되었습니다: {file_path}")

{'차량등록번호': ['26247492', '26197424', '26393917', '26446042', '26354824', '26408457', '26268484', '26228544', '26404728', '26469861', '26402395', '25975878', '26444307', '25888104', '26162896', '26460980', '26487762', '26307972', '26298442', '26297328', '26269316', '26242389', '26066460', '26026526', '26504651', '26454111', '26443515', '26434139', '26382821', '26373317', '26357011', '26349141', '26319062', '26313317', '26261728', '26227593'], '가격': ['1,870만원', '1,200만원', '2,160만원', '4,680만원', '3,550만원', '3,040만원', '4,070만원', '4,350만원', '2,340만원', '3,800만원', '1,180만원', '4,800만원', '3,600만원', '980만원', '1,430만원', '1,550만원', '5,500만원', '1,080만원', '680만원', '2,780만원', '3,300만원', '1,600만원', '1,340만원', '1,600만원', '1,060만원', '1,600만원', '1,080만원', '1,880만원', '2,460만원', '1,900만원', '780만원', '700만원', '480만원', '1,940만원', '320만원', '670만원'], '차량모델명': ['현대 쏘나타 (DN8) 2.0 프리미엄', '현대 제네시스DH G330 모던', '기아 더 뉴 니로 1.6 HEV 프레스티지', '현대 디 올 뉴 싼타페 MX5 가솔린 2.5T AWD 캘리그래피', '기아 카니발 4세대 D2.2 9인승 노블레스', '기아 카니발 4세대 D2.

In [21]:
url = "https://www.kbchachacha.com/public/car/detail.kbc?carSeq="
test_url = url + car_ids[0]

driver.get(test_url + str(page))
driver.implicitly_wait(10)
time.sleep(5)  # 페이지 로드 대기

# 페이지 소스 가져오기
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

print(soup)

MaxRetryError: HTTPConnectionPool(host='127.0.0.1', port=50841): Max retries exceeded with url: /session/d879951106e4531b088d55a580241acb/url (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000026F54FA0B00>: Failed to establish a new connection: [WinError 10061] 대상 컴퓨터에서 연결을 거부했으므로 연결하지 못했습니다',))