In [174]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
from docx import Document
from pathlib import Path
import re

# 1. 브라우저 옵션
options = Options()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=options)

# 2. URL 접근
url = "https://www.bobaedream.co.kr/view?code=battle&No=1313420&bm=1"
driver.get(url)
soup = BeautifulSoup(driver.page_source, "html.parser")

# 3. 제목 추출
title_tag = soup.find('h3', class_='title')
if not title_tag:
    title_tag = soup.find('span', class_='b-title')
title = title_tag.get_text(strip=True) if title_tag else "제목 없음"

# 4. 본문 추출
main_content = soup.find('div', class_='bodyCont', itemprop='articleBody')
if not main_content:
    main_content = soup.find('div', class_='bodyCont')
text = main_content.get_text('\n', strip=True) if main_content else "본문을 찾을 수 없습니다."

driver.quit()

# 5. 워드 파일로 저장
downloads_path = Path("/Users/minjoong/Desktop/감성분석 워드 파일/Bobae")
downloads_path.mkdir(parents=True, exist_ok=True)
safe_title = re.sub(r'[\\/*?:"<>|]', "", title)
save_path = downloads_path / f"{safe_title}.docx"

doc = Document()
doc.add_heading(title, 0)
doc.add_paragraph(text)
doc.save(save_path)

print(f"워드 파일이 '{save_path}'에 저장되었습니다! Finder에서 바로 확인해보세요.")

# --- 키워드 탐색 및 콘솔 출력 (추가부분) ---
keywords = ["클러스터", "계기판", "디스플레이"]
found_keywords = [kw for kw in keywords if kw in text]

if found_keywords:
    print(f"[✓] 본문에서 키워드 발견: {', '.join(found_keywords)}")
else:
    print("[!] 본문에 키워드(클러스터, 계기판, 디스플레이)가 없습니다.")

워드 파일이 '/Users/minjoong/Desktop/감성분석 워드 파일/Bobae/제목 없음.docx'에 저장되었습니다! Finder에서 바로 확인해보세요.
[✓] 본문에서 키워드 발견: 디스플레이


In [18]:
!pip install requests beautifulsoup4 python-docx



In [18]:
import requests
from bs4 import BeautifulSoup
from docx import Document
import os

# 저장할 폴더 설정
save_dir = "/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa"
os.makedirs(save_dir, exist_ok=True)
save_path = os.path.join(save_dir, "제목없음.docx")

# 헤더
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

# 크롤링할 URL
url = "https://auto.danawa.com/news/?Tab=F2&Work=detail&no=5807278"
# 1. 크롤링
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, 'html.parser')

# 본문 추출
content_div = soup.find('div', class_='board_exp')  # 또는 다른 클래스명 확인 필요
if content_div:
    content_text = content_div.get_text(separator='\n', strip=True)
else:
    content_text = '본문을 찾을 수 없습니다.'

# 2. 워드 저장 (키워드와 무관하게 항상 저장!)
document = Document()
document.add_paragraph(content_text)
document.save(save_path)
print('저장 완료! 경로:', save_path)

# 3. 키워드 탐색 (추가적으로 print만!)
keywords = ["클러스터", "계기판", "디스플레이"]
found_keywords = [kw for kw in keywords if kw in content_text]
if found_keywords:
    print(f"본문에서 키워드 발견: {', '.join(found_keywords)}")
else:
    print("본문에 키워드가 없습니다.")

저장 완료! 경로: /Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa/제목없음.docx
본문에 키워드가 없습니다.


In [None]:
**2023년 이전 다나와자동차 크롤링 코드**

In [66]:
import requests
from bs4 import BeautifulSoup
from docx import Document
import os

# 저장할 폴더 설정
save_dir = "/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa"
os.makedirs(save_dir, exist_ok=True)
save_path = os.path.join(save_dir, "제목없음.docx")

# 헤더
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}

url = "https://dpg.danawa.com/news/view?boardSeq=62&listSeq=5185498&past=Y"

# 1. 크롤링
res = requests.get(url, headers=headers)
res.raise_for_status()
soup = BeautifulSoup(res.text, 'html.parser')

# 본문 추출 : 스크린샷 구조처럼 처리
content_div = soup.find('div', class_='arti_content exp_margin')
if content_div:
    # <p> 태그 단위로 문단 추출
    paragraphs = [p.get_text(strip=True) for p in content_div.find_all('p')]
    content_text = '\n'.join(paragraphs) if paragraphs else content_div.get_text(separator='\n', strip=True)
else:
    content_text = '본문을 찾을 수 없습니다.'

# 2. 워드 저장
document = Document()
document.add_paragraph(content_text)
document.save(save_path)
print('저장 완료! 경로:', save_path)

# 3. 키워드 탐색
keywords = ["클러스터", "계기판", "디스플레이"]
found_keywords = [kw for kw in keywords if kw in content_text]
if found_keywords:
    print(f"본문에서 키워드 발견: {', '.join(found_keywords)}")
else:
    print("본문에 키워드가 없습니다.")

저장 완료! 경로: /Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa/제목없음.docx
본문에 키워드가 없습니다.


In [9]:
!pip install selenium beautifulsoup4 webdriver-manager python-docx --quiet

import os
import re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup
from docx import Document

brand_keywords = [
    "현대", "기아", "쉐보레", "쌍용", "KGM", "르노", "벤츠", "메르세데스", "아우디", "BMW", "테슬라"
]
content_keywords = [
    "클러스터", "디스플레이", "계기판"
]
save_dir = "/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2"
os.makedirs(save_dir, exist_ok=True)
start_url = "https://auto.danawa.com/news/?Work=list&Tab=F2&Stab=all&Brand=&Model=&HeadText=&NewsGroup=&SearchKey=&SearchWord=&Punit=10&useOldData=y&Page=15"
WAIT = 30

def sanitize_filename(title):
    filename = re.sub(r'[\\/*?:"<>|]', '_', title)
    filename = filename.strip()
    return filename[:100]

def find_nextpage_href(soup, curr_page_num):
    """현재 페이지번호 기준, 다음 페이지 숫자(link__number)의 href 반환"""
    for a in soup.find_all('a', class_='link__number'):
        t = a.get_text(strip=True)
        if t.isdigit() and int(t) == curr_page_num+1:
            return a['href']
    return None

def get_current_page_num(soup):
    """현재 활성 페이지(li.list-item--active)에서 텍스트 추출 (실패시 1 반환)"""
    li = soup.find('li', class_='list-item--active')
    if li:
        try:
            num = int(li.get_text(strip=True))
            return num
        except:
            return 1
    return 1

options = Options()
options.add_argument("--start-maximized")
# options.add_argument("--headless")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
)

total_saved = 0

def save_article_to_word(title, url, content):
    safe_title = sanitize_filename(title)
    save_path = os.path.join(save_dir, f"{safe_title}.docx")
    doc = Document()
    doc.add_heading(title, 0)
    doc.add_paragraph(f"URL: {url}")
    doc.add_paragraph(content)
    doc.save(save_path)
    print(f"워드 저장: {save_path}")

driver.get(start_url)

try:
    while True:
        # --- 현재 페이지 번호 추출 ---
        try:
            WebDriverWait(driver, WAIT).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
            )
        except TimeoutException:
            print("글 목록이 안 뜸. 이 페이지 스킵.")
            break

        soup = BeautifulSoup(driver.page_source, 'html.parser')
        curr_page = get_current_page_num(soup)
        print(f"\n=== 현재 페이지: {curr_page} ===")

        posts = soup.select('div.title')

        for post in posts:
            title_tag = post.find("a")
            if not title_tag:
                continue
            title = title_tag.get_text(strip=True)
            link = title_tag['href']
            if link.startswith('/'):
                link = 'https://auto.danawa.com' + link

            if any(kw in title for kw in brand_keywords):
                print(f"[브랜드 키워드 포함] {title}")
                driver.get(link)
                try:
                    WebDriverWait(driver, WAIT).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, 'div.arti_content.exp_margin'))
                    )
                except TimeoutException:
                    print(f"본문 로딩 실패: {title}")
                    driver.back()
                    # wait for list
                    try:
                        WebDriverWait(driver, WAIT).until(
                            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
                        )
                    except TimeoutException:
                        print("뒤로가기 후 목록 로딩 실패, 종료!")
                        raise
                    continue

                soup_detail = BeautifulSoup(driver.page_source, 'html.parser')
                content_tag = soup_detail.find('div', class_='arti_content exp_margin')
                if content_tag:
                    content = content_tag.get_text(separator="\n", strip=True)
                    if any(ckw in content for ckw in content_keywords):
                        print(f"▶ {title}")
                        save_article_to_word(title, link, content)
                        total_saved += 1
                driver.back()
                # wait for list
                try:
                    WebDriverWait(driver, WAIT).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
                    )
                except TimeoutException:
                    print("뒤로가기 후 목록 로딩 실패, 종료!")
                    raise

        # --- 다음 페이지 href 찾기 ---
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        next_href = find_nextpage_href(soup, curr_page)
        if not next_href:
            print("다음 페이지 링크 못찾음 (아마 마지막 페이지). 종료!")
            break
        if not next_href.startswith('http'):
            next_href = 'https://auto.danawa.com' + next_href
        print(f"---> {curr_page+1} 페이지로 이동: {next_href}")
        driver.get(next_href)

except KeyboardInterrupt:
    print("\n중간 중단 신호 감지! (지금까지 저장된 글은 전부 워드로 저장됨)")
finally:
    driver.quit()
    print(f"총 워드 파일 저장 개수: {total_saved}")


=== 현재 페이지: 1 ===
[브랜드 키워드 포함] 고성능 괴물 전기차 '기아 EV6 GT' 눈 깜짝, 화살보다 빠른 시속 260km
[브랜드 키워드 포함] 벤츠 EQE 350+, 성능은 고만고만 '첨단 사양으로 프리미엄 전기차 욕구 채워'
▶ 벤츠 EQE 350+, 성능은 고만고만 '첨단 사양으로 프리미엄 전기차 욕구 채워'
워드 저장: /Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2/벤츠 EQE 350+, 성능은 고만고만 '첨단 사양으로 프리미엄 전기차 욕구 채워'.docx
[브랜드 키워드 포함] [시승기] 고성능 괴물 전기차 '기아 EV6 GT' 눈 깜짝, 화살보다 빠른 시속 260km
[브랜드 키워드 포함] 보다 커지고 더 강력해진! 뉴 아우디 A3 40 TFSI 세단 프리미엄 트림 리뷰
본문 로딩 실패: 보다 커지고 더 강력해진! 뉴 아우디 A3 40 TFSI 세단 프리미엄 트림 리뷰
[브랜드 키워드 포함] 역사상 가장 빠른 국산차...7200만원에 제로백 3.5초, 585마력 ll 기아 EV6 GT 시승
본문 로딩 실패: 역사상 가장 빠른 국산차...7200만원에 제로백 3.5초, 585마력 ll 기아 EV6 GT 시승
다음 페이지 링크 못찾음 (아마 마지막 페이지). 종료!
총 워드 파일 저장 개수: 1


In [4]:
!pip install selenium beautifulsoup4 webdriver-manager python-docx --quiet

import os
import re
from urllib.parse import urljoin
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from bs4 import BeautifulSoup
from docx import Document

brand_keywords = [
    "현대", "기아", "쉐보레", "쌍용", "KGM", "르노", "벤츠", "메르세데스", "아우디", "BMW","테슬라", "아이오닉", "제네시스"
]
content_keywords = [
    "클러스터", "디스플레이", "계기판"
]
save_dir = "/Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2"
os.makedirs(save_dir, exist_ok=True)
start_url = "https://auto.danawa.com/news/?Work=list&Tab=F2&Stab=all&Brand=&Model=&HeadText=&NewsGroup=&SearchKey=&SearchWord=&Punit=10&useOldData=y&Page=121"
WAIT = 30

def sanitize_filename(title):
    filename = re.sub(r'[\\/*?:"<>|]', '_', title)
    filename = filename.strip()
    return filename[:100]

def find_nextpage_href(soup, curr_page_num):
    # (1) 다음 숫자 페이지가 있으면 그걸 반환
    for a in soup.find_all('a', class_='link__number'):
        t = a.get_text(strip=True)
        if t.isdigit() and int(t) == curr_page_num+1:
            return a['href']
    # (2) 없으면 '다음 페이지로' 버튼이 있는지 확인하고 반환
    li_next = soup.find('li', class_='list-item--next')
    if li_next:
        a_next = li_next.find('a')
        if a_next:
            span_blind = a_next.find('span', class_='blind')
            if span_blind and '다음 페이지로' in span_blind.text:
                return a_next['href']
    return None

def get_current_page_num(soup):
    li = soup.find('li', class_='list-item--active')
    if li:
        try:
            num = int(li.get_text(strip=True))
            return num
        except:
            return 1
    # fallback: canonical에서 &Page= 값 추출(없는 경우 1)
    link_tag = soup.find('link', rel='canonical')
    if link_tag:
        from urllib.parse import urlparse, parse_qs
        parsed = urlparse(link_tag['href'])
        try:
            return int(parse_qs(parsed.query).get('Page',[1])[0])
        except:
            return 1
    return 1

options = Options()
options.add_argument("--start-maximized")
# options.add_argument("--headless")  # 창 숨기고 돌리려면 주석 해제

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=options
)

total_saved = 0

def save_article_to_word(title, url, content):
    safe_title = sanitize_filename(title)
    save_path = os.path.join(save_dir, f"{safe_title}.docx")
    doc = Document()
    doc.add_heading(title, 0)
    doc.add_paragraph(f"URL: {url}")
    doc.add_paragraph(content)
    doc.save(save_path)
    print(f"워드 저장: {save_path}")

driver.get(start_url)

try:
    while True:
        try:
            WebDriverWait(driver, WAIT).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
            )
        except TimeoutException:
            print("글 목록이 안 뜸. 이 페이지 스킵.")
            break

        soup = BeautifulSoup(driver.page_source, 'html.parser')
        curr_page = get_current_page_num(soup)
        print(f"\n=== 현재 페이지: {curr_page} ===")

        posts = soup.select('div.title')

        for post in posts:
            title_tag = post.find("a")
            if not title_tag:
                continue
            title = title_tag.get_text(strip=True)
            link = title_tag['href']
            if link.startswith('/'):
                link = urljoin(driver.current_url, link)
            elif link.startswith('?'):
                link = urljoin(driver.current_url, link)

            if any(kw in title for kw in brand_keywords):
                print(f"[브랜드 키워드 포함] {title}")
                driver.get(link)
                try:
                    WebDriverWait(driver, WAIT).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, 'div.arti_content.exp_margin'))
                    )
                except TimeoutException:
                    print(f"본문 로딩 실패: {title}")
                    driver.back()
                    try:
                        WebDriverWait(driver, WAIT).until(
                            EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
                        )
                    except TimeoutException:
                        print("뒤로가기 후 목록 로딩 실패, 종료!")
                        raise
                    continue

                soup_detail = BeautifulSoup(driver.page_source, 'html.parser')
                content_tag = soup_detail.find('div', class_='arti_content exp_margin')
                if content_tag:
                    content = content_tag.get_text(separator="\n", strip=True)
                    if any(ckw in content for ckw in content_keywords):
                        print(f"▶ {title}")
                        save_article_to_word(title, link, content)
                        total_saved += 1
                driver.back()
                try:
                    WebDriverWait(driver, WAIT).until(
                        EC.presence_of_element_located((By.CSS_SELECTOR, 'div.title'))
                    )
                except TimeoutException:
                    print("뒤로가기 후 목록 로딩 실패, 종료!")
                    raise

        # --- 다음 페이지 href 찾기 (숫자, 없으면 '다음') ---
        soup = BeautifulSoup(driver.page_source, 'html.parser')
        next_href = find_nextpage_href(soup, curr_page)
        if not next_href:
            print("다음 페이지 링크 못찾음 (아마 마지막 페이지). 종료!")
            break
        # 절대경로 처리
        if not next_href.startswith('http'):
            next_href = urljoin(driver.current_url, next_href)
        print(f"---> {curr_page+1} 페이지로 이동: {next_href}")
        driver.get(next_href)

except KeyboardInterrupt:
    print("\n중간 중단 신호 감지! (지금까지 저장된 글은 전부 워드로 저장됨)")
finally:
    driver.quit()
    print(f"총 워드 파일 저장 개수: {total_saved}")



=== 현재 페이지: 121 ===
[브랜드 키워드 포함] 2019 기아 K7 2.5 GDi 시승기
▶ 2019 기아 K7 2.5 GDi 시승기
워드 저장: /Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2/2019 기아 K7 2.5 GDi 시승기.docx
[브랜드 키워드 포함] [영상시승] 프리미엄 EV의 개척자 - BMW i3 120Ah 시승기
[브랜드 키워드 포함] 기아 K7 프리미어 뒷좌석 정복기, 그랜저 제칠수 있을까?
본문 로딩 실패: 기아 K7 프리미어 뒷좌석 정복기, 그랜저 제칠수 있을까?
[브랜드 키워드 포함] 강병휘 선수와 함께 BMW 신형 7시리즈 디자인 변화 살펴보기
본문 로딩 실패: 강병휘 선수와 함께 BMW 신형 7시리즈 디자인 변화 살펴보기
[브랜드 키워드 포함] [시승기] 그랜저 아성(牙城)에 도전장 던진..기아차 K7 프리미어
▶ [시승기] 그랜저 아성(牙城)에 도전장 던진..기아차 K7 프리미어
워드 저장: /Users/minjoong/Desktop/전공종합설계및논문/감성분석 워드 파일/Danawa2/[시승기] 그랜저 아성(牙城)에 도전장 던진..기아차 K7 프리미어.docx
[브랜드 키워드 포함] “최고다!“ 기아 신형 K7 주행리뷰
본문 로딩 실패: “최고다!“ 기아 신형 K7 주행리뷰
[브랜드 키워드 포함] 기아 K7 프리미어 시승기... 그랜저에도 없는 R-MDPS장착! 업그레이드된 주행성능으로 숙적을 잡을까?
본문 로딩 실패: 기아 K7 프리미어 시승기... 그랜저에도 없는 R-MDPS장착! 업그레이드된 주행성능으로 숙적을 잡을까?
---> 122 페이지로 이동: https://auto.danawa.com/news/?Work=list&Tab=F2&Stab=all&Brand=&Model=&HeadText=&NewsGroup=&SearchKey=&SearchWord=&Pu