In [27]:
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from urllib.parse import urlparse, parse_qs # URL 쿼리 스트링 파싱을 위해 import
import os

# --- YTN 메인 메뉴 HTML 스니펫 (제공해주신 내용) ---
# 이 HTML을 파싱하여 카테고리 맵을 생성합니다.
ytn_menu_html_snippet = """
<ul class="menu">
					<li class="YTN_CSA_mainpolitics menu_election2025">
						<a href="https://www.ytn.co.kr/issue/election2025">대선2025</a>
					</li>
					<li class="YTN_CSA_mainpolitics ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0101">정치</a>
					</li>
					<li class="YTN_CSA_maineconomy ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0102">경제</a>
					</li>
					<li class="YTN_CSA_mainsociety ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0103">사회</a>
					</li>
					<li class="YTN_CSA_mainnationwide ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0115">전국</a>
					</li>
					<li class="YTN_CSA_mainglobal ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0104">국제</a>
					</li>
					<li class="YTN_CSA_mainscience ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0105">과학</a>
					</li>
					<li class="YTN_CSA_mainculture ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0106">문화</a>
					</li>
					<li class="YTN_CSA_mainsports ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0107">스포츠</a>
					</li>
					<li class="YTN_CSA_mainphoto ">
						<a href="https://star.ytn.co.kr">연예</a>
					</li>
					<li class="YTN_CSA_maingame ">
						<!--<a href="https://game.ytn.co.kr/news/list.php?mcd=0135">게임</a>-->
						<a href="https://game.ytn.co.kr">게임</a>
					</li>
					<li class="YTN_CSA_mainweather ">
						<a href="https://www.ytn.co.kr/weather/list_weather.php">날씨</a>
					</li>
					<li class="YTN_CSA_mainissue ">
						<a href="https://www.ytn.co.kr/news/main_issue.html">이슈</a>
					</li>
					<li class="YTN_CSA_mainyp ">
						<a href="https://www.ytn.co.kr/news/main_yp.html">시리즈</a>
					</li>
					<li class="YTN_CSA_mainreplay "><a href="https://www.ytn.co.kr/replay/main.html">TV프로그램</a></li>
				</ul>
"""

# --- 메뉴 HTML 파싱 및 카테고리 맵 생성 ---
ytn_menu_soup = BeautifulSoup(ytn_menu_html_snippet, 'html.parser')
ytn_category_map = {} # 카테고리 맵 초기화

# 메뉴 HTML에서 a 태그들을 찾습니다.
menu_links = ytn_menu_soup.select('ul.menu a')

for link in menu_links:
    href = link.get('href')
    text = link.get_text(strip=True)
    if href and text:
        parsed_url = urlparse(href)
        # URL 경로가 '/news/list.php'이고 쿼리 스트링에 'mcd' 파라미터가 있는 경우
        if parsed_url.path == '/news/list.php' and parsed_url.query:
            query_params = parse_qs(parsed_url.query)
            if 'mcd' in query_params and query_params['mcd'][0]:
                mcd_code = query_params['mcd'][0]
                ytn_category_map[mcd_code] = text # mcd 코드를 키로, 카테고리 이름을 값으로 저장
                # print(f"맵핑 추가: {mcd_code} -> {text}") # 디버깅용 출력

# 생성된 카테고리 맵 확인 (선택 사항)
print("--- 생성된 YTN 카테고리 맵 ---")
print(ytn_category_map)
print("-" * 30)


def classify_ytn_category_from_url(url, category_map):
    """
    YTN 기사 URL 경로를 분석하여 카테고리 코드를 추출하고 맵핑된 카테고리 이름을 반환합니다.
    생성된 category_map을 사용합니다.
    """
    try:
        parsed_url = urlparse(url)
        path = parsed_url.path # 예: '/_ln/0103_202505111017133914'
        path_segments = path.split('/')
        
        if '_ln' in path_segments:
            ln_index = path_segments.index('_ln')
            if ln_index + 1 < len(path_segments):
                # 예: '0103_202505111017133914'
                code_segment = path_segments[ln_index + 1]
                # 코드 세그먼트에서 첫 번째 '_' 이전 부분이 카테고리 코드입니다.
                code = code_segment.split('_')[0] if '_' in code_segment else code_segment

                # 생성된 category_map에서 코드를 찾아 카테고리 이름 반환
                return category_map.get(code, f"알 수 없는 카테고리 코드: {code}")

    except Exception as e:
        print(f"URL [{url}] 카테고리 분석 중 오류 발생: {e}")

    # 일치하는 패턴을 찾지 못하거나 오류 발생 시
    return "카테고리 분류 실패 (URL 패턴 불일치)"


def get_ytn_article_data(url, headers, category_map):
    """
    단일 YTN 기사 URL에서 제목, 본문, 카테고리를 추출하는 함수
    생성된 category_map을 인자로 받습니다.
    """
    news_title = "제목 추출 실패"
    news_body = "본문 추출 실패"
    news_category = "카테고리 추출 실패" # 초기 카테고리 상태

    print(f"Processing URL: {url}")

    try:
        # 1. 웹페이지 HTML 가져오기
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        html_content = response.text

        # --- 디버깅: 가져온 HTML을 파일로 저장 ---
        file_name_safe = re.sub(r'[^\w.-]', '_', urlparse(url).path.strip('/')).strip('_')
        if not file_name_safe: file_name_safe = urlparse(url).hostname or 'debug'
        debug_file_path = f"debug_ytn_html_{file_name_safe}.html"
        try:
            with open(debug_file_path, 'w', encoding='utf-8') as f:
                f.write(html_content)
            print(f"디버깅: 가져온 HTML 내용을 '{debug_file_path}' 파일로 저장했습니다.")
        except Exception as file_error:
            print(f"디버깅: HTML 파일 저장 중 오류 발생: {file_error}")
        # --- 디버깅 끝 ---

        # 2. BeautifulSoup으로 파싱
        soup = BeautifulSoup(html_content, 'html.parser')

        # --- 뉴스 제목 추출 (제공해주신 YTN 구조 반영) ---
        # h2 태그에 class 'news_title'를 찾고, 그 안의 span 텍스트를 가져옵니다.
        title_element_h2 = soup.find('h2', class_='news_title')

        if title_element_h2:
            title_element_span = title_element_h2.find('span')
            if title_element_span:
                news_title = title_element_span.get_text(strip=True)
                print(f"URL {url}: 제목 요소 (h2.news_title > span) 추출 성공.")
            else:
                 news_title = title_element_h2.get_text(strip=True) if title_element_h2.get_text(strip=True) else news_title
                 print(f"URL {url}: <h2 class='news_title'> 태그를 찾았으나 <span>이 없어 <h2> 텍스트 추출 시도.")
        else:
            print(f"URL {url}: 제목 요소를 찾지 못했습니다. (예상 선택자: h2.news_title)")


        # --- 뉴스 본문 추출 (제공해주신 div#CmAdContent.paragraph 구조 반영) ---
        # 본문 전체를 감싸는 div 요소를 찾습니다. id가 'CmAdContent'이고 class가 'paragraph'입니다.
        body_container = soup.find('div', id='CmAdContent', class_='paragraph')
        
        news_body = "본문 추출 실패"

        if body_container:
            # 불필요한 요소 (예: iframe 광고, 이미지 등) 제거
            for unnecessary_tag in body_container.find_all(['iframe', 'figure']):
                unnecessary_tag.extract()

            news_body_raw = body_container.get_text(separator='\n', strip=True)

            # 불필요한 내용 제거 및 정리 (YTN 기사 하단부 패턴 제거)
            cleaned_body = news_body_raw
            cleaned_body = re.sub(r'YTN\s*[^(\n)]+\s*\([^@]+\@[^)]+\)\s*\n*', '', cleaned_body, flags=re.MULTILINE)
            cleaned_body = re.sub(r'※\s*.*?\[메일\].*?\n*', '', cleaned_body, flags=re.DOTALL)
            cleaned_body = re.sub(r'\[저작권자\(c\).+?\]\n*', '', cleaned_body)

            news_body = re.sub(r'\n\s*\n', '\n\n', cleaned_body).strip()

            if news_body:
                print(f"URL {url}: 본문 요소 (div#CmAdContent.paragraph) 추출 성공.")
            else:
                print(f"URL {url}: 본문 컨테이너는 찾았으나, 유효한 텍스트 내용이 없습니다 (정리 후 빈 내용).")
                news_body = "본문 내용 없음"

        else:
            print(f"URL {url}: 본문 전체 컨테이너 요소를 찾지 못했습니다. (예상 선택자: div#CmAdContent.paragraph)")

        # --- 뉴스 카테고리 추출 (URL 경로 분석 - 생성된 맵 사용) ---
        # 생성된 ytn_category_map을 classify_ytn_category_from_url 함수에 전달
        news_category = classify_ytn_category_from_url(url, category_map)
        if news_category == "카테고리 분류 실패 (URL 패턴 불일치)" or news_category.startswith("알 수 없는 카테고리 코드"):
             print(f"URL {url}: URL 구조 분석으로 카테고리 추출/분류 실패: {news_category}")
        else:
             print(f"URL {url}: URL 구조 분석으로 카테고리 '{news_category}' 추출 성공.")

    except requests.exceptions.RequestException as e:
        print(f"URL {url}: 웹페이지를 가져오는 중 오류 발생: {e}")
        # 요청 실패 시 제목, 본문, 카테고리는 초기 실패 값 유지

    except Exception as e:
        print(f"URL {url}: 데이터 처리 중 예외 발생: {e}")
        # 데이터 처리 중 오류 발생 시 해당 값들은 초기 실패 값 유지
        if news_category == "카테고리 추출 실패": # 오류 발생했더라도 카테고리라도 추출 시도
             news_category = classify_ytn_category_from_url(url, category_map) # 맵을 전달

    # 최종 추출 결과 반환
    return {
        'URL': url,
        '제목': news_title,
        '본문': news_body,
        '카테고리': news_category
    }

# --- 크롤링할 YTN 뉴스 기사 URL 목록 ---
# **크롤링하려는 실제 YTN 기사 URL들을 여기에 입력하세요.**
news_urls_to_crawl = [
    "https://www.ytn.co.kr/_ln/0103_202505111017133914", # 사회 기사 (이전 문제 URL)
    "https://www.ytn.co.kr/_ln/0101_202505111041094921", # 정치 기사 (제목/본문 구조 제공해주신 URL)
     # 예시: 과학 기사
    # 여기에 크롤링하려는 다른 실제 YTN 기사 URL들을 추가하세요
    # "실제 YTN 기사 URL 1",
    # "실제 YTN 기사 URL 2",
    # ...
]

# User-Agent 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

# 추출된 데이터를 저장할 리스트
extracted_data_list = []

# 각 URL에 대해 크롤링 및 데이터 추출 반복
for url in news_urls_to_crawl:
    # 카테고리 맵을 get_ytn_article_data 함수에 전달
    article_data = get_ytn_article_data(url, headers, ytn_category_map)
    extracted_data_list.append(article_data)
    print("-" * 30) # 구분선 출력

print("\n모든 URL 처리 완료.")
# --- 추출된 데이터를 Pandas DataFrame으로 변환 ---
df_news = pd.DataFrame(extracted_data_list)

# --- Pandas DataFrame 출력 설정 변경 (본문 전체 보이도록) ---
pd.set_option('display.max_colwidth', None) # 특정 열의 최대 너비를 무제한으로 설정
pd.set_option('display.max_rows', None) # 표시할 최대 행 수를 무제한으로 설정 (데이터가 많으면 출력 부담)
# pd.set_option('display.width', 1000) # 콘솔 창 너비를 넓게 설정 (본문 전체가 한 줄에 보이게 할 때 필요)

# DataFrame 출력
print("\n--- 추출된 뉴스 데이터 (DataFrame) ---")
print(df_news)

# 추출된 데이터를 CSV 파일 등으로 저장 (선택 사항)
# df_news.to_csv('ytn_news_data.csv', index=False, encoding='utf-8-sig')

# 추출된 데이터를 Pandas DataFrame으로 변환
df_news = pd.DataFrame(extracted_data_list)

# DataFrame 출력
print("\n--- 추출된 뉴스 데이터 (DataFrame) ---")
print(df_news)


csv_file_name = 'ytn_news_data.csv'

try:
    # DataFrame을 CSV 파일로 저장 (인덱스 제외, 한글 인코딩 지정)
    df_news.to_csv(csv_file_name, index=False, encoding='utf-8-sig')
    print(f"\n데이터가 '{csv_file_name}' 파일로 성공적으로 저장되었습니다.")
except Exception as e:
    print(f"\nCSV 파일 저장 중 오류 발생: {e}")
# 추출된 데이터를 CSV 파일 등으로 저장 (선택 사항)
# df_news.to_csv('ytn_news_data.csv', index=False, encoding='utf-8-sig')


--- 생성된 YTN 카테고리 맵 ---
{'0101': '정치', '0102': '경제', '0103': '사회', '0115': '전국', '0104': '국제', '0105': '과학', '0106': '문화', '0107': '스포츠'}
------------------------------
Processing URL: https://www.ytn.co.kr/_ln/0103_202505111017133914
디버깅: 가져온 HTML 내용을 'debug_ytn_html_ln_0103_202505111017133914.html' 파일로 저장했습니다.
URL https://www.ytn.co.kr/_ln/0103_202505111017133914: 제목 요소 (h2.news_title > span) 추출 성공.
URL https://www.ytn.co.kr/_ln/0103_202505111017133914: 본문 요소 (div#CmAdContent.paragraph) 추출 성공.
URL https://www.ytn.co.kr/_ln/0103_202505111017133914: URL 구조 분석으로 카테고리 '사회' 추출 성공.
------------------------------
Processing URL: https://www.ytn.co.kr/_ln/0101_202505111041094921
디버깅: 가져온 HTML 내용을 'debug_ytn_html_ln_0101_202505111041094921.html' 파일로 저장했습니다.
URL https://www.ytn.co.kr/_ln/0101_202505111041094921: 제목 요소 (h2.news_title > span) 추출 성공.
URL https://www.ytn.co.kr/_ln/0101_202505111041094921: 본문 요소 (div#CmAdContent.paragraph) 추출 성공.
URL https://www.ytn.co.kr/_ln/0101_202505111041094921

In [28]:
import pandas as pd

In [29]:
pd.read_csv('ytn_news_data.csv')

Unnamed: 0,URL,제목,본문,카테고리
0,https://www.ytn.co.kr/_ln/0103_202505111017133914,부천 플라스틱 사출 공장에서 불...인명 피해 없어,오늘(11일) 아침 7시 반쯤 경기 부천시 삼정동에 있는 플라스틱 사출 공장에서 불이 나 30여 분 만에 꺼졌습니다.\n공장이 비어 있어 다친 사람은 없었지만 내부에 있던 사출 기계와 공구 등이 탔습니다.\n소방 당국은 재산 피해 규모와 정확한 화재 원인을 조사하고 있습니다.\n social@ytn.co.kr,사회
1,https://www.ytn.co.kr/_ln/0101_202505111041094921,"이재명 ""양곡법 개정""...농림축산식품 정책 발표","더불어민주당 이재명 대선 후보는 양곡관리법을 개정해 논 외에 타 작물 재배를 늘리고, 쌀과 식량작물 가격을 안정시키겠다고 공약했습니다.\n이 후보는 자신의 SNS에, 이 같은 내용을 중심으로 한 농림축산식품분야 정책을 발표했습니다.\n앞서 민주당은 쌀값이 기준가에서 폭락 또는 폭등할 경우 정부가 초과생산량을 매입하는 등 대책을 의무적으로 마련하도록 양곡법 개정안을 추진해 왔습니다.\n하지만 지난 2023년과 지난해에 두 차례에 걸쳐 정부가 재의요구권, 즉 거부권을 행사한 바 있습니다.\n이 후보는 선진국형 농가소득 보장 방안의 하나로 양곡법 개정을 약속하는 동시에, 공익직불금을 확대하고 농산물가격 안정제와 재해 국가 책임제, 필수농자재 국가 지원제를 도입하겠다 밝혔습니다.\n이어 기후위기 시대에 국민의 먹거리는 국가가 책임지겠다며 식량 자급률을 높이고 위기 경보 시스템을 구축해 기후 위기에 선제적으로 대응하겠다고 약속했습니다.\n또 대학생과 노동자에게 '천원의 아침밥'을, 미취업 청년에게 '먹거리 바우처'를 제공하겠다며 '임산부 친환경 농산물꾸러미', '초등학생 과일 간식 사업'의 국가 지원도 재개하겠다 덧붙였습니다.\n social@ytn.co.kr",정치
