In [16]:
import requests
from bs4 import BeautifulSoup
import re

def extract_ytn_emails(url):
    try:
        # 1. 웹 페이지 요청
        response = requests.get(url)
        response.raise_for_status()  # 요청 실패 시 예외 발생

        # 2. HTML 파싱
        soup = BeautifulSoup(response.text, "html.parser")
        text = soup.get_text(separator=" ", strip=True)

        # 3. 정규식 패턴 정의
        # 형태: YTN  이름 (이메일)
        pattern = re.compile(r"YTN\s+([가-힣]+)\s*\(([\w\.-]+@[\w\.-]+)\)")

        # 4. 패턴 검색
        results = pattern.findall(text)

        # 5. 결과 출력
        extracted = []
        for name, email in results:
            extracted.append((name, email))

        return extracted

    except Exception as e:
        print("오류 발생:", e)
        return []

### 뉴스기사링크를 수집해서 리스트에 저장

In [17]:
# 필요한 라이브러리 설치
# pip install selenium webdriver-manager

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
import time

def get_ytn_news_links():
    # Chrome 옵션 설정 (창을 띄우지 않고 실행)
    chrome_options = Options()
    chrome_options.add_argument("--headless")  # 화면 안 띄움
    chrome_options.add_argument("--no-sandbox")
    chrome_options.add_argument("--disable-dev-shm-usage")

    # ChromeDriver 자동 설치 및 실행
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=chrome_options)
    
    try:
        url = "https://www.ytn.co.kr/"
        driver.get(url)
        
        # 충분히 여유를 두고 뉴스 목록 로딩 대기 (예: 5초)
        time.sleep(5)
        
        # 모든 <a> 태그 수집
        a_tags = driver.find_elements(By.TAG_NAME, "a")
        
        # /_ln/ 포함된 링크만 필터링
        news_links = []
        for a in a_tags:
            href = a.get_attribute("href")
            if href and "/_ln/" in href:
                news_links.append(href)
        
        # 중복 제거
        news_links = list(set(news_links))
        
        return news_links
    
    finally:
        driver.quit()


In [19]:
urls = get_ytn_news_links()
name_emails = []
for url in urls:
    data = extract_ytn_emails(url)
    if data:        
        name_emails.append(data)
        print(data)
print(f'추출된 데이터')        


[('김종욱', 'jwkim@ytn.co.kr')]
[('정유신', 'yusin@ytn.co.kr')]
[('이문석', 'mslee2@ytn.co.kr')]
[('권영희', 'kwonyh@ytn.co.kr')]
[('강민경', 'kmk0210@ytn.co.kr')]
[('김다연', 'kimdy0818@ytn.co.kr')]
[('차유정', 'chayj@ytn.co.kr')]
[('오승훈', '5win@ytn.co.kr')]
[('권영희', 'kwonyh@ytn.co.kr')]
[('정혜윤', 'jh0302@ytn.co.kr')]
[('이준엽', 'leejy@ytn.co.kr')]
[('권민석', 'minseok20@ytn.co.kr')]
[('최아영', 'cay24@ytn.co.kr')]
[('이종원', 'jongwon@ytn.co.kr')]
[('윤태인', 'ytaein@ytn.co.kr')]
[('김잔디', 'jandi@ytn.co.kr')]
[('임예진', 'imyj77@ytn.co.kr')]
[('나혜인', 'nahi8@ytn.co.kr')]
[('이경국', 'leekk0428@ytn.co.kr')]
[('부장원', 'boojw1@ytn.co.kr')]
[('배민혁', 'baemh0725@ytn.co.kr')]
[('김주영', 'kimjy0810@ytn.co.kr')]
[('신웅진', 'ujshin@ytn.co.kr')]
[('신윤정', 'yjshine@ytn.co.kr')]
[('유서현', 'ryush@ytn.co.kr')]
[('김종욱', 'jwkim@ytn.co.kr')]
[('유투권', 'r2kwon@ytn.co.kr')]
[('박정현', 'miaint3120@ytn.co.kr')]
추출된 데이터
