# 초기 코드

### mark 1

In [2]:
import requests
from bs4 import BeautifulSoup
import newspaper
import time
import difflib
from datetime import datetime, timezone, timedelta
from urllib.parse import urljoin
from config import TARGET_SITES, CHECK_INTERVAL_SECONDS, MONGO_URI, MONGO_DB_NAME, MONGO_COLLECTION_NAME
from pymongo import MongoClient
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from collections import deque
from concurrent.futures import ThreadPoolExecutor
from urllib.parse import urlparse, urlunparse
import re

# 설정
KST = timezone(timedelta(hours=9))
SCRIPT_START_TIME = datetime.utcnow().replace(tzinfo=timezone.utc).astimezone(KST)
#캐시 선언
recent_titles = deque(maxlen=100)
processed_urls = deque(maxlen=100)


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}

last_seen_urls = {
    f"{site['name']} - {site.get('category', '')}": None for site in TARGET_SITES
}

client = MongoClient(MONGO_URI)
db = client[MONGO_DB_NAME]
articles_collection = db[MONGO_COLLECTION_NAME]

def setup_driver():
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-dev-shm-usage")
    chrome_options.add_argument(f"user-agent={headers['User-Agent']}")
    chrome_options.add_argument("--log-level=3")
    chrome_options.add_experimental_option("excludeSwitches", ["enable-logging"])
    service = Service(ChromeDriverManager().install())
    return webdriver.Chrome(service=service, options=chrome_options)

def parse_chosunbiz_date(span_text):
    pattern = r'입력\s*(\d{4})\.(\d{2})\.(\d{2})\.?\s*(\d{2}):(\d{2})'
    match = re.search(pattern, span_text.strip())
    if match:
        year, month, day, hour, minute = match.groups()
        return datetime.strptime(f"{year}-{month}-{day} {hour}:{minute}", "%Y-%m-%d %H:%M")
    return None
import difflib
from collections import deque

# 최근 기사 제목 캐시
recent_titles = deque(maxlen=100)

def is_similar_title(new_title, threshold=0.9):
    for past_title in recent_titles:
        similarity = difflib.SequenceMatcher(None, new_title, past_title).ratio()
        if similarity >= threshold:
            print(f"⚠️ 제목 유사도 중복 판단 →")
            print(f"    ▸ 새로운 제목: {new_title}")
            print(f"    ▸ 유사한 제목: {past_title}")
            print(f"    ▸ 유사도: {similarity:.3f}")
            return True
    return False

def localize_to_kst(dt):
    if dt is None:
        return None
    if dt.tzinfo is None:
        return dt.replace(tzinfo=timezone.utc).astimezone(KST)
    return dt.astimezone(KST)

def clean_url(url):
    parsed = urlparse(url)
    return urlunparse(parsed._replace(query=""))

def fetch_article_details(url, site=None, driver=None):
    try:
        url = clean_url(url)  # ✨ URL 정리
        article = newspaper.Article(url, language='ko')
        article.download()
        article.parse()
        publish_time = article.publish_date

        if site and site['name'] == '조선비즈' and driver:
            driver.get(url)
            WebDriverWait(driver, 5).until(EC.presence_of_element_located((By.CSS_SELECTOR, "span.inputDate")))
            soup = BeautifulSoup(driver.page_source, 'html.parser')
            span = soup.select_one("span.inputDate")
            if span:
                parsed = parse_chosunbiz_date(span.text)
                if parsed:
                    publish_time = parsed

        publish_time = localize_to_kst(publish_time)

        return {
            'title': article.title,
            'text': article.text,
            'publish_time': publish_time,
            'url': url
        }

    except Exception as e:
        print(f"[ERROR] 기사 처리 중 오류: {url}\n  └ {e}")
        return None

def save_article_to_mongodb(article_data):
    try:
        articles_collection.insert_one(article_data)
        print(f"  [DB 저장] ({article_data['publisher']}) {article_data['title']}")
    except Exception as e:
        print(f"[ERROR] DB 저장 실패: {e}")

def get_latest_articles(site, driver=None):
    try:
        if not site.get('selector'):
            print(f"[ERROR] {site['name']} - {site.get('category', '')} → selector 누락")
            return []

        if site.get('dynamic'):
            if driver:
                driver.get(site['url'])
                WebDriverWait(driver, 10).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, site['selector']))
                )
                soup = BeautifulSoup(driver.page_source, 'html.parser')
            else:
                return []
        else:
            res = requests.get(site['url'], headers=headers, timeout=10)
            res.raise_for_status()
            soup = BeautifulSoup(res.text, 'html.parser')

        # ✅ 컨테이너 영역 안에서만 기사 추출
        if site.get("container_selector"):
            container = soup.select_one(site["container_selector"])
            if not container:
                print(f"[ERROR] {site['name']} → container_selector 영역을 찾을 수 없습니다.")
                return []
            links = container.select(site["selector"])
        else:
            links = soup.select(site["selector"])

        articles = []
        for a in links:
            href = a.get('href')
            title = a.get_text(strip=True)
            if not href or site['pattern'] not in href:
                continue
            full_url = urljoin(site['base_url'], href)
            articles.append({'title': title, 'url': full_url})

        return articles
    except Exception as e:
        print(f"[ERROR] 목록 수집 실패 ({site['name']}) → {e}")
        return []


def monitor_news(driver=None, static_only=False):
    print("\n[실시간 뉴스 모니터링 시작]")
    print(f"  기준 시간: {SCRIPT_START_TIME.strftime('%Y-%m-%d %H:%M:%S')}")
    first_run = True

    while True:
        # ✅ static_only 모드에 따라 분기
        static_sites = [s for s in TARGET_SITES if not s.get('dynamic')]
        dynamic_sites = [] if static_only else [s for s in TARGET_SITES if s.get('dynamic')]

        def fetch_articles(site):
            return (site, get_latest_articles(site))

        with ThreadPoolExecutor(max_workers=6) as executor:
            static_results = executor.map(fetch_articles, static_sites)

        results = list(static_results)

        if not static_only:
            results += [(site, get_latest_articles(site, driver)) for site in dynamic_sites]

        for site, article_list in results:
            site_key = f"{site['name']} - {site.get('category', '')}"
            if not article_list:
                continue

            # 무조건 article_list[0]만 기준 기사로 사용
            top_article = article_list[0]
            top_url = top_article['url']
            top_title = top_article['title']

            # 첫 루프는 기준만 설정
            if first_run:
                last_seen_urls[site_key] = top_url
                print(f"  🔹 [{site_key}] 초기 기준 기사 설정: {top_title}")
                continue

            # 이미 본 기사면 건너뜀
            if top_url == last_seen_urls[site_key]:
                continue

            # 제목 유사성으로 중복 판단
            if is_similar_title(top_title):
                continue

            # 세부 정보 파싱
            details = fetch_article_details(top_url, site=site, driver=driver)
            if not details or not details['publish_time']:
                continue

            pub_time = details['publish_time']
            if pub_time < SCRIPT_START_TIME:
                continue

            # DB 저장
            save_article_to_mongodb({
                "publisher": site['name'],
                "category": site.get('category', 'N/A'),
                "title": details['title'],
                "published_date": pub_time,
                "content": details['text'],
                "url": top_url
            })

            # 중복 방지 캐싱
            processed_urls.append(top_url)
            recent_titles.append(top_title)  # ✅ 제목 캐시 추가
            last_seen_urls[site_key] = top_url

            print(f"  ✅ 기준 기사 업데이트: {site_key} → {top_title}")


        first_run = False
        print(f"\n[{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] 다음 체크까지 {CHECK_INTERVAL_SECONDS}초 대기...")
        time.sleep(CHECK_INTERVAL_SECONDS)

if __name__ == "__main__":
    # ✅ 여기서 모드 설정
    STATIC_MODE = True  # True면 정적 사이트만, False면 전부

    driver = None
    if not STATIC_MODE:
        driver = setup_driver()

    try:
        monitor_news(driver=driver, static_only=STATIC_MODE)
    except KeyboardInterrupt:
        print("\n종료됨")
    finally:
        if driver:
            driver.quit()
        client.close()





[실시간 뉴스 모니터링 시작]
  기준 시간: 2025-07-24 14:07:20
  🔹 [서울경제 - 증권] 초기 기준 기사 설정: 현대차證, 올 상반기 순익 400억…반년 만에 지난해 연간 실적 '추월'
  🔹 [서울경제 - 경제] 초기 기준 기사 설정: 한은, 집중호우 피해 중소기업 지원…금융중개지원대출 300억 배정
  🔹 [서울경제 - 산업] 초기 기준 기사 설정: 李대통령, 오늘 이재용 만날 듯…재계와 연쇄 회동
  🔹 [서울경제 - 국제] 초기 기준 기사 설정: 관세청, 원산지표시위반 일제점검…671억상당 위반행위 적발
  🔹 [매일경제 - 경제] 초기 기준 기사 설정: 퍼시스그룹, 서울시 어린이병원에 1억원 상당 가구 기부대기·휴게공간에 퍼시스 소파 치료공간에 일룸 키즈 가구 배치퍼시스그룹이 어린이 치료환경 개선을 위해 서울시 어린이병원에 1억원 상당의 가구를 기부했다고 24일 밝혔다. 퍼시스그룹은 지난 10일 병원에 현물을 기부하는 방식으로 가구를 전달했다. 이번 기부는 어린이 환자들과 보호자들이 편안하고 안정된 환경에서 치료에 집중할 수 있도록 지원하기 위해 진행됐다.2025-07-24 14:03:1407.242025
  🔹 [매일경제 - 기업] 초기 기준 기사 설정: 퍼시스그룹, 서울시 어린이병원에 1억원 상당 가구 기부대기·휴게공간에 퍼시스 소파 치료공간에 일룸 키즈 가구 배치퍼시스그룹이 어린이 치료환경 개선을 위해 서울시 어린이병원에 1억원 상당의 가구를 기부했다고 24일 밝혔다. 퍼시스그룹은 지난 10일 병원에 현물을 기부하는 방식으로 가구를 전달했다. 이번 기부는 어린이 환자들과 보호자들이 편안하고 안정된 환경에서 치료에 집중할 수 있도록 지원하기 위해 진행됐다.2025-07-24 14:03:1407.242025
  🔹 [매일경제 - 국제] 초기 기준 기사 설정: ‘돈다발’ 들고 도망친 하마스 지도자 아내, 남편 죽었다는 소식에 한 일가자지구 전쟁을 촉발한 팔레스타인 무장정파 하마스 테러의 설계자인 야히야 신와르의 부인이 튀르키예에

### mark 2 kafka없이 돌아가는 버전


In [None]:
import requests
from bs4 import BeautifulSoup
import newspaper
import time
import difflib
from datetime import datetime, timezone, timedelta
from urllib.parse import urljoin, urlparse, urlunparse
from news_list import TARGET_SITES, CHECK_INTERVAL_SECONDS, MONGO_URI, MONGO_DB_NAME, MONGO_COLLECTION_NAME, STOCK_CODE
from pymongo import MongoClient
from collections import deque
from concurrent.futures import ThreadPoolExecutor, as_completed
from identify_company_module import identify_company  # 실제 모듈명에 맞게 수정

import re
maxlen= 100
# 설정
KST = timezone(timedelta(hours=9))
SCRIPT_START_TIME = datetime.utcnow().replace(tzinfo=timezone.utc).astimezone(KST)
recent_titles = deque(maxlen=maxlen)
processed_urls = deque(maxlen=maxlen)

session = requests.Session()
session.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
    'Referer': 'https://dealsite.co.kr/',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'ko,en-US;q=0.9,en;q=0.8',
    'Connection': 'keep-alive'

})


last_seen_urls = {
    f"{site['name']} - {site.get('category', '')}": None for site in TARGET_SITES
}

client = MongoClient(MONGO_URI)
db = client[MONGO_DB_NAME]
articles_collection = db[MONGO_COLLECTION_NAME]

# def is_similar_title(new_title, threshold=0.9):
#     for past_title in recent_titles:
#         similarity = difflib.SequenceMatcher(None, new_title, past_title).ratio()
#         if similarity >= threshold:
#             print(f"⚠️ 제목 유사도 중복 판단 →\n    ▸ 새로운 제목: {new_title}\n    ▸ 유사한 제목: {past_title}\n    ▸ 유사도: {similarity:.3f}")
#             return True
#     return False

def localize_to_kst(dt):
    if dt is None:
        return None
    if dt.tzinfo is None:
        return dt.replace(tzinfo=timezone.utc).astimezone(KST)
    return dt.astimezone(KST)

def clean_url(url):
    parsed = urlparse(url)
    return urlunparse(parsed._replace(query=""))

def fetch_article_details(url, site=None):
    try:
        #url = clean_url(url)
        article = newspaper.Article(url, language='ko')
        article.download()
        article.parse()
        publish_time = localize_to_kst(article.publish_date)

        return {
            'title': article.title,
            'text': article.text,
            'publish_time': publish_time,
            'url': url
        }

    except Exception as e:
        print(f"[ERROR] 기사 처리 중 오류 (건너뜀): {url}\n  └ {e}")
        return None

def save_article_to_mongodb(article_data):
    try:
        articles_collection.insert_one(article_data)
        print(f"  [DB 저장] ({article_data['publisher']}) {article_data['title']}")
    except Exception as e:
        print(f"[ERROR] DB 저장 실패: {e}")

def get_latest_articles(site):
    try:
        if not site.get('selector'):
            print(f"[ERROR] {site['name']} - {site.get('category', '')} → selector 누락")
            return []

        res = session.get(site['url'], timeout=10)
        if res.status_code == 403:
            print(f"[ERROR] {site['name']} 접근 거부됨 (403 Forbidden): {site['url']}")
            return []

        res.raise_for_status()
        soup = BeautifulSoup(res.text, 'html.parser')

        if site.get("container_selector"):
            container = soup.select_one(site["container_selector"])
            if not container:
                print(f"[ERROR] {site['name']} → container_selector 영역을 찾을 수 없습니다.")
                return []
            links = container.select(site["selector"])
        else:
            links = soup.select(site["selector"])

        articles = []
        for a in links:
            href = a.get('href')
            if not href or site['pattern'] not in href:
                continue

            # 언론사별로 제목 태그 분기 처리
            if site['name'] in ["매일경제", "헤럴드경제", "한겨레"]:
                if site['name'] == "매일경제":
                    title_tag = a.select_one("h3.news_ttl")
                elif site['name'] == "헤럴드경제":
                    title_tag = a.select_one("p.news_title")
                elif site['name'] == "한겨레":
                    title_tag = a.select_one("div.BaseArticleCard_title__TVFqt")
                if not title_tag:
                    continue
                title = title_tag.get_text(strip=True)
            else:
                title = a.get_text(strip=True)

            full_url = urljoin(site['base_url'], href)
            articles.append({'title': title, 'url': full_url})


        return articles
    except Exception as e:
        print(f"[ERROR] 목록 수집 실패 ({site['name']}) → {e}")
        return []

def monitor_news():
    print("\n[실시간 뉴스 모니터링 시작]")
    print(f"  기준 시간: {SCRIPT_START_TIME.strftime('%Y-%m-%d %H:%M:%S')}")
    first_run = True

    while True:
        with ThreadPoolExecutor(max_workers=8) as executor:
            futures = {executor.submit(get_latest_articles, site): site for site in TARGET_SITES if not site.get('dynamic')}

            for future in as_completed(futures):
                site = futures[future]
                try:
                    article_list = future.result()
                except Exception as e:
                    print(f"[ERROR] {site['name']} 처리 실패 → {e}")
                    continue

                site_key = f"{site['name']} - {site.get('category', '')}"
                if not article_list:
                    continue

                top_article = article_list[0]
                top_url = top_article['url']
                top_title = top_article['title']

                if first_run:
                    last_seen_urls[site_key] = top_url
                    print(f"  🔹 [{site_key}] 초기 기준 기사 설정: {top_title}")
                    continue

                # 1. 가장 상단 뉴스 URL이 이전과 동일하다면 skip
                if top_url == last_seen_urls[site_key]:
                    continue

                # # 2. 유사 제목 필터링
                # if is_similar_title(top_title):
                #     continue

                # 3. 뉴스 상세 정보 가져오기
                details = fetch_article_details(top_url, site=site)
                if not details or not details['publish_time']:
                    continue

                pub_time = localize_to_kst(details['publish_time'])
                if pub_time < SCRIPT_START_TIME:
                    continue

                if top_title in recent_titles or top_url in processed_urls:
                    continue

                recent_titles.append(top_title)
                processed_urls.append(top_url)

                # ✅ 관련 기업 태깅
                company_name, max_score, _ = identify_company(details['title'],details['text'])
                if company_name == "미국" or company_name == "코스피" or company_name == "다른기업" or company_name == "동점":
                    company_code = None
                else:
                    company_code = STOCK_CODE[company_name]

                # ✅ DB 저장
                save_article_to_mongodb({
                    "publisher": site['name'],
                    "category": site.get('category', 'N/A'),
                    "title": details['title'],
                    "published_date": pub_time,
                    "content": details['text'],
                    "url": top_url,
                    "company_tag": company_name,
                    "company_score": max_score,
                    "stock_code": company_code
                })


                last_seen_urls[site_key] = top_url  # ✅ 저장 성공 후에만 실행


                print(f"  ✅ 기준 기사 업데이트: {site_key} → {top_title}")

        first_run = False
        print(f"\n[{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}] 다음 체크까지 {CHECK_INTERVAL_SECONDS}초 대기...")
        time.sleep(CHECK_INTERVAL_SECONDS)

if __name__ == "__main__":
    try:
        monitor_news()
    except KeyboardInterrupt:
        print("\n종료됨")
    finally:
        client.close()


[실시간 뉴스 모니터링 시작]
  기준 시간: 2025-07-31 05:18:59
  🔹 [매일경제 - 경제] 초기 기준 기사 설정: [속보] 연준 2명 금리인하 주장하며 동결에 반대…32년만에 처음
  🔹 [매일경제 - 국제] 초기 기준 기사 설정: [속보] 트럼프 “한국, 관세 낮추는 제안…오늘 오후 만날 것”
  🔹 [매일경제 - 기업] 초기 기준 기사 설정: “AI 시대에 필요없는 2가지…‘경쟁과 암기’ 한국교육 대전환 절실”
  🔹 [서울경제 - 산업] 초기 기준 기사 설정: "20년 성장한 PEF 최대 위기…기업의 자금 수혈 역할도 봐달라"
  🔹 [서울경제 - 경제] 초기 기준 기사 설정: 구윤철, 韓시간 31일 밤 10시45분 美 베센트와 통상협의
  🔹 [서울경제 - 증권] 초기 기준 기사 설정: "20년 성장한 PEF 최대 위기…기업의 자금 수혈 역할도 봐달라"
  🔹 [서울경제 - 국제] 초기 기준 기사 설정: [속보] 파월 '9월 금리인하' 찬물 발언에…S&P·다우 하락 마감
  🔹 [매일경제 - 금융] 초기 기준 기사 설정: [포토] 주가조작 근절 합동대응단
  🔹 [연합뉴스 - 금융] 초기 기준 기사 설정: 연준 파월 의장 "현 금리 수준 적절…美 경제 발목 잡지 않아"(종합)
  🔹 [연합뉴스 - 경제] 초기 기준 기사 설정: 삼성전자, 오늘 2분기 성적표 공개…반도체 이익 1조원 못미칠까
  🔹 [연합뉴스 - 국제] 초기 기준 기사 설정: [2보] 뉴욕증시 '매파' 파월 회견에 약세 마감…다우 0.4%↓
  🔹 [연합뉴스 - 산업] 초기 기준 기사 설정: [사이테크+] "해저 9천532ｍ에서 화학반응으로 에너지 얻는 생물군집 발견"
  🔹 [한겨레 - 증권] 초기 기준 기사 설정: SK이노, 자회사 SK온·엔무브 합병…‘이차전지 사업 살리기’
  🔹 [한겨레 - 경제] 초기 기준 기사 설정: ‘미, 4천억 달러 투자 요구’ 보도까지…정부 막판 협상안 고심
  🔹 [이투데이 - 산업] 초기 기준 기사 설정: 여름휴가철 농축산물 할인

# 테스트 코드


In [9]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

headers = {
    'User-Agent': 'Mozilla/5.0'
}

def test_static_site(site_config):
    try:
        print(f"\n[테스트 시작] {site_config['name']} - {site_config.get('category', '')}")
        res = requests.get(site_config['url'], headers=headers, timeout=10)
        res.raise_for_status()

        soup = BeautifulSoup(res.text, 'html.parser')

        links = soup.select(site_config["selector"])
        found_articles = []

        for a in links:
            href = a.get('href')
            title = a.get_text(strip=True)
            if not href or site_config['pattern'] not in href:
                continue
            full_url = urljoin(site_config['base_url'], href)
            found_articles.append({'title': title, 'url': full_url})

        if not found_articles:
            print("❌ 실패: 기사 리스트를 찾지 못했습니다.")
        else:
            print(f"✅ 성공: {len(found_articles)}개의 기사 발견")
            for article in found_articles[:3]:
                print(f"  - {article['title']}")
                print(f"    {article['url']}")

    except Exception as e:
        print(f"❌ 오류 발생: {e}")

if __name__ == "__main__":
    test_config = {
    "name": "뉴시스 경제 최신",
    "category": "경제",
    "url": "https://www.newsis.com/economy/list/?cid=10400&scid=10401",  # 실제 사용하는 페이지 URL로 수정 가능
    "base_url": "https://www.newsis.com",
    "selector": "ul.articleList2 li p.tit a",  # 제목과 링크가 있는 <a> 태그
    "pattern": "/view/NISX",                   # 기사 본문 URL 패턴
    "dynamic": False
}








    test_static_site(test_config)



[테스트 시작] 뉴시스 경제 최신 - 경제
✅ 성공: 20개의 기사 발견
  - 분뇨에서 에너지로…정부, 가축분 고체연료 상업화 시동
    https://www.newsis.com/view/NISX20250724_0003265117
  - 행안장관 "소비쿠폰, 취약계층 노출 없도록"…현장 점검도(종합)
    https://www.newsis.com/view/NISX20250724_0003264976
  - 두산건설 위브 골프단, 26일 부산·인천서 재능 나눔행사
    https://www.newsis.com/view/NISX20250724_0003265087


In [None]:
import requests
from bs4 import BeautifulSoup

url = "https://www.fnnews.com/section/002001002002"

res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
print(soup.prettify()[:3000])  # HTML 일부 출력


In [1]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import re

# 연합뉴스 테스트 대상 URL (국제 뉴스)
TEST_URL = "https://www.yna.co.kr/international/all"
BASE_URL = "https://www.yna.co.kr"
PATTERN = "/view/AKR"
ARTICLE_SELECTOR = "a.tit-news"
IMAGE_SELECTOR = "figure.img-con01 img"  # 기본 이미지 선택자

session = requests.Session()
session.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36',
    'Referer': 'https://www.yna.co.kr',
})

def test_yna_image_extraction():
    res = session.get(TEST_URL, timeout=10)
    res.raise_for_status()
    soup = BeautifulSoup(res.text, "html.parser")

    articles = []
    links = soup.select(ARTICLE_SELECTOR)
    
    for a in links:
        href = a.get("href")
        if not href or PATTERN not in href:
            continue

        title = a.get_text(strip=True)
        full_url = urljoin(BASE_URL, href)

        # ✅ 이미지 추출
        img_url = None
        parent_container = a.find_parent(["li", "div", "figure"]) or a.find_parent()
        if parent_container:
            img_tag = parent_container.select_one(IMAGE_SELECTOR)
            if img_tag:
                if img_tag.has_attr("src") and img_tag["src"].strip():
                    img_url = img_tag["src"]
                elif img_tag.has_attr("data-src") and img_tag["data-src"].strip():
                    img_url = img_tag["data-src"]
                elif img_tag.has_attr("style"):
                    match = re.search(r"url\((.*?)\)", img_tag["style"])
                    if match:
                        img_url = match.group(1).strip('"').strip("'")

                if img_url:
                    img_url = urljoin(BASE_URL, img_url)

        # ✅ 백업: data-share-img 활용
        if not img_url:
            share_div = parent_container.select_one("div[class^='share-data-']")
            if share_div and share_div.has_attr("data-share-img"):
                img_url = share_div["data-share-img"]

        articles.append({
            "title": title,
            "url": full_url,
            "image": img_url if img_url else None
        })

    # 결과 출력
    for art in articles[:5]:  # 상위 5개 기사만 출력
        print(f"제목: {art['title']}")
        print(f"URL: {art['url']}")
        print(f"이미지: {art['image']}\n")

if __name__ == "__main__":
    test_yna_image_extraction()


제목: [관세타결] "美 6대교역국 韓, 25% 관세 모면"…외신 '극적타결' 조명(종합)
URL: https://www.yna.co.kr/view/AKR20250731096251075?section=international/all
이미지: https://img8.yna.co.kr/photo/ap/2025/07/31/PAP20250731106501009_P2.jpg

제목: Arm "자체 칩 설계 검토"…칩 생태계 재편 신호탄?(종합)
URL: https://www.yna.co.kr/view/AKR20250731028051091?section=international/all
이미지: https://img0.yna.co.kr/photo/reuters/2025/07/31/PRU20250731057501009_P2.jpg

제목: '열흘' 트럼프 통첩 받은 러, 키이우 대규모 공습…수십명 사상
URL: https://www.yna.co.kr/view/AKR20250731143400009?section=international/all
이미지: https://img5.yna.co.kr/etc/inner/KR/2025/07/31/AKR20250731143400009_01_i_P2.jpg

제목: 트럼프, 한밤 SNS로 캐나다·인도 등 관세 미타결국 거듭 압박
URL: https://www.yna.co.kr/view/AKR20250731143100009?section=international/all
이미지: https://img0.yna.co.kr/etc/inner/KR/2025/07/31/AKR20250731143100009_01_i_P2.jpg

제목: [게시판] '한-아프리카 스타트업 협력' 온라인 커뮤니티 오픈
URL: https://www.yna.co.kr/view/AKR20250731137300898?section=international/all
이미지: https://img1.yna.co.kr/etc/inner/KR/2025/07/31/AKR2025073113

In [10]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
import re
from news_list import TARGET_SITES

session = requests.Session()
session.headers.update({
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36'
})

def extract_images(site):
    try:
        res = session.get(site['url'], timeout=10)
        res.raise_for_status()
        soup = BeautifulSoup(res.text, 'html.parser')
        links = soup.select(site['selector'])

        print(f"\n[{site['name']}] 기사 {len(links)}개 발견 (상위 1개만 테스트)\n")

        for idx, a in enumerate(links[:1]):  # 상위 1개 기사만 테스트
            href = a.get('href')
            if not href or site['pattern'] not in href:
                continue

            title = a.get_text(strip=True)
            full_url = urljoin(site['base_url'], href)

            img_url = None

            # 매일경제 전용 처리
            if site['name'] == "매일경제":
                parent_container = a.find_parent('li', class_='news_node')
                if parent_container:
                    img_tag = parent_container.select_one('div.thumb_area > img')
                    if img_tag:
                        if img_tag.has_attr('data-src') and img_tag['data-src'].strip():
                            img_url = img_tag['data-src']
                        elif img_tag.has_attr('src') and img_tag['src'].strip():
                            img_url = img_tag['src']
                        img_url = urljoin(site['base_url'], img_url)
                # 매일경제 전용 처리 후 일반 로직은 타지 않음
            else:
                # 일반 이미지 추출 로직
                parent_container = a.find_parent(['li', 'div', 'article'])
                img_tag = None
                if parent_container:
                    img_tag = parent_container.select_one(site['image_selector'])
                if not img_tag:
                    img_tag = a.select_one('img')
                if not img_tag:
                    img_tag = soup.select_one(f"a[href='{href}'] img")
                if img_tag:
                    img_url = img_tag.get('data-src') or img_tag.get('src')
                    if img_url:
                        img_url = urljoin(site['base_url'], img_url)

            print(f"[{idx+1}] 제목: {title}")
            print(f"     URL: {full_url}")
            print(f"     이미지: {img_url if img_url else '이미지 없음'}\n")

    except Exception as e:
        print(f"[ERROR] 이미지 테스트 중 오류 ({site['name']}): {e}")

if __name__ == "__main__":
    for site in TARGET_SITES:
        extract_images(site)



[서울경제] 기사 15개 발견 (상위 1개만 테스트)

[1] 제목: 한국투자증권, 초고액자산가 대상 ‘라이프케어’ 서비스 출시
     URL: https://www.sedaily.com/NewsView/2GVKBHXUPC/GA01
     이미지: https://newsimg.sedaily.com/2025/07/31/2GVKBHXUPC_1_m.jpg


[서울경제] 기사 15개 발견 (상위 1개만 테스트)

[1] 제목: 2차전지 부진 속 철강 ‘깜짝 실적’…포스코홀딩스, 2분기 영업익 6070억
     URL: https://www.sedaily.com/NewsView/2GVKBZBLAT/GC01
     이미지: https://newsimg.sedaily.com/2025/07/31/2GVKBZBLAT_1_m.png


[서울경제] 기사 15개 발견 (상위 1개만 테스트)

[1] 제목: 조선업계 "한미 관세협상 타결 환영…조선 협력 위해 노력할 것"
     URL: https://www.sedaily.com/NewsView/2GVKBOND6F/GD01
     이미지: 이미지 없음


[서울경제] 기사 15개 발견 (상위 1개만 테스트)

[1] 제목: 미중 관세전쟁 먹구름 여전…中, 경제 전망 PMI 4개월째 '경기 둔화'
     URL: https://www.sedaily.com/NewsView/2GVKCDQIPN/GF02
     이미지: https://newsimg.sedaily.com/2025/07/31/2GVKCDQIPN_1_m.jpg


[매일경제] 기사 20개 발견 (상위 1개만 테스트)

[1] 제목: HDC현대산업개발, ‘따뜻한 지역사회’ 조성 프로그램HDC 심포니 교실 숲 등 환경교육  사회적가치 창출 프로그램 확대HDC현대산업개발이 지역사회와 함께 하는 사회공헌 활동을 이어가고 있다. 취약계층 지원부터 청소년 교육, 유기 동물보호까지 다양한 분야에서 실질적인 도움을 전할 예정이다. HDC현대산업개발의 사회공헌 활동은 단순한 

# DB 체크

In [None]:
from pymongo import MongoClient
import pandas as pd

MONGO_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'stock'
MONGO_COLLECTION_NAME = 'new_news'

client = MongoClient(MONGO_URI)
db = client[MONGO_DB_NAME]
articles_collection = db[MONGO_COLLECTION_NAME]

data = list(articles_collection.find())  # find()는 기본적으로 cursor를 반환
df = pd.DataFrame(data)


In [10]:
df = df.dropna(subset=["company_tag"])
df[df['company_tag'] == '카카오'].to_csv("kakao_news.csv", index = False, encoding='UTF-8-sig')


In [13]:
import pandas as pd
stock_code = pd.read_csv("상장기업98.csv", encoding='utf-8-sig')
select_columns = ['corp_name', 'stock_code']
stock_code = stock_code[select_columns]
corp_dict = dict(zip(stock_code['corp_name'], stock_code['stock_code']))
print(corp_dict)    

{'삼성전자': 5930, 'SK하이닉스': 660, 'LG에너지솔루션': 373220, '삼성바이오로직스': 207940, '현대자동차': 5380, '기아': 270, '셀트리온': 68270, '한화에어로스페이스': 12450, 'KB금융': 105560, 'NAVER': 35420, 'HD현대중공업': 329180, '신한지주': 55550, '현대모비스': 12330, '한화오션': 42660, '메리츠금융지주': 138040, 'POSCO홀딩스': 5490, '삼성물산': 28260, '크래프톤': 259960, '카카오': 35720, 'HMM': 11200, '삼성화재': 810, 'LG화학': 51910, '하나금융지주': 86790, '삼성생명': 32830, 'SK이노베이션': 96770, 'HD한국조선해양': 9540, '한국전력': 15760, '고려아연': 10130, '두산에너빌리티': 34020, 'KT&G': 33780, '삼성중공업': 10140, '삼성SDI': 6400, 'KT': 30200, 'SK텔레콤': 17670, '우리금융지주': 316140, 'SK스퀘어': 402340, '기업은행': 24110, 'HD현대일렉트릭': 267260, 'LG전자': 66570, '현대로템': 64350, '포스코퓨처엠': 3670, '카카오뱅크': 323410, 'LG': 3550, '하이브': 352820, '포스코인터내셔널': 47050, '삼성전기': 9150, 'SK': 34730, '삼성에스디에스': 18260, '유한양행': 100, '현대글로비스': 86280, '대한항공': 3490, 'SK바이오팜': 326030, '한국항공우주': 47810, 'HD현대마린솔루션': 443060, '삼양식품': 3230, '한화시스템': 272210, '한미반도체': 42700, '아모레퍼시픽': 90430, 'DB손해보험': 5830, 'S-Oil': 10950, 'LIG넥스원': 79550, 'HD현대': 267250, '한진칼