## 🛜 필수 라이브러리 설치

In [1]:
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
from urllib.parse import urlparse, parse_qs
import os

In [2]:
# --- YTN 메인 메뉴 HTML 스니펫 (제공해주신 내용) ---
# 이 HTML을 파싱하여 카테고리 맵을 생성합니다.
ytn_menu_html_snippet = """
                <ul class="menu">
					<li class="YTN_CSA_mainpolitics menu_election2025">
						<a href="https://www.ytn.co.kr/issue/election2025">대선2025</a>
					</li>
					<li class="YTN_CSA_mainpolitics ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0101">정치</a>
					</li>
					<li class="YTN_CSA_maineconomy ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0102">경제</a>
					</li>
					<li class="YTN_CSA_mainsociety ">
						<a href="https://www.ytn
                        .co.kr/news/list.php?mcd=0103">사회</a>
					</li>
					<li class="YTN_CSA_mainnationwide ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0115">전국</a>
					</li>
					<li class="YTN_CSA_mainglobal ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0104">국제</a>
					</li>
					<li class="YTN_CSA_mainscience ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0105">과학</a>
					</li>
					<li class="YTN_CSA_mainculture ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0106">문화</a>
					</li>
					<li class="YTN_CSA_mainsports ">
						<a href="https://www.ytn.co.kr/news/list.php?mcd=0107">스포츠</a>
					</li>
					<li class="YTN_CSA_mainphoto ">
						<a href="https://star.ytn.co.kr">연예</a>
					</li>
					<li class="YTN_CSA_maingame ">
						<!--<a href="https://game.ytn.co.kr/news/list.php?mcd=0135">게임</a>-->
						<a href="https://game.ytn.co.kr">게임</a>
					</li>
					<li class="YTN_CSA_mainweather ">
						<a href="https://www.ytn.co.kr/weather/list_weather.php">날씨</a>
					</li>
					<li class="YTN_CSA_mainissue ">
						<a href="https://www.ytn.co.kr/news/main_issue.html">이슈</a>
					</li>
					<li class="YTN_CSA_mainyp ">
						<a href="https://www.ytn.co.kr/news/main_yp.html">시리즈</a>
					</li>
					<li class="YTN_CSA_mainreplay "><a href="https://www.ytn.co.kr/replay/main.html">TV프로그램</a></li>
				</ul>
"""

In [3]:
# --- 메뉴 HTML 파싱 및 카테고리 맵 생성 ---
ytn_menu_soup = BeautifulSoup(ytn_menu_html_snippet, 'html.parser')
ytn_category_map = {} # 카테고리 맵 초기화

In [4]:
# 메뉴 HTML에서 a 태그들을 찾습니다.
menu_links = ytn_menu_soup.select('ul.menu a')

for link in menu_links:
    href = link.get('href')
    text = link.get_text(strip=True)
    if href and text:
        parsed_url = urlparse(href)
        # URL 경로가 '/news/list.php'이고 쿼리 스트링에 'mcd' 파라미터가 있는 경우
        if parsed_url.path == '/news/list.php' and parsed_url.query:
            query_params = parse_qs(parsed_url.query)
            if 'mcd' in query_params and query_params['mcd'][0]:
                mcd_code = query_params['mcd'][0]
                ytn_category_map[mcd_code] = text # mcd 코드를 키로, 카테고리 이름을 값으로 저장
                # print(f"맵핑 추가: {mcd_code} -> {text}") # 디버깅용 출력

# 생성된 카테고리 맵 확인 (선택 사항)
print("--- 생성된 YTN 카테고리 맵 ---")
print(ytn_category_map)
print("-" * 30)

--- 생성된 YTN 카테고리 맵 ---
{'0101': '정치', '0102': '경제', '0103': '사회', '0115': '전국', '0104': '국제', '0105': '과학', '0106': '문화', '0107': '스포츠'}
------------------------------


In [5]:
def classify_ytn_category_from_url(url, category_map):
    """
    YTN 기사 URL 경로를 분석하여 카테고리 코드를 추출하고 맵핑된 카테고리 이름을 반환합니다.
    생성된 category_map을 사용합니다.
    """
    try:
        parsed_url = urlparse(url)
        path = parsed_url.path # 예: '/_ln/0103_202505111017133914'
        path_segments = path.split('/')
        
        if '_ln' in path_segments:
            ln_index = path_segments.index('_ln')
            if ln_index + 1 < len(path_segments):
                # 예: '0103_202505111017133914'
                code_segment = path_segments[ln_index + 1]
                # 코드 세그먼트에서 첫 번째 '_' 이전 부분이 카테고리 코드입니다.
                code = code_segment.split('_')[0] if '_' in code_segment else code_segment

                # 생성된 category_map에서 코드를 찾아 카테고리 이름 반환
                return category_map.get(code, f"알 수 없는 카테고리 코드: {code}")

    except Exception as e:
        print(f"URL [{url}] 카테고리 분석 중 오류 발생: {e}")

    # 일치하는 패턴을 찾지 못하거나 오류 발생 시
    return "카테고리 분류 실패 (URL 패턴 불일치)"

def get_ytn_article_data(url, headers, category_map):
    """
    단일 YTN 기사 URL에서 제목, 본문, 카테고리를 추출하는 함수
    생성된 category_map을 인자로 받습니다.
    """
    news_title = "제목 추출 실패"
    news_body = "본문 추출 실패"
    news_category = "카테고리 추출 실패" # 초기 카테고리 상태

    print(f"Processing URL: {url}")

    try:
        # 1. 웹페이지 HTML 가져오기
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        html_content = response.text

        # --- 디버깅: 가져온 HTML을 파일로 저장 ---
        file_name_safe = re.sub(r'[^\w.-]', '_', urlparse(url).path.strip('/')).strip('_')
        if not file_name_safe: file_name_safe = urlparse(url).hostname or 'debug'
        debug_file_path = f"debug_ytn_html_{file_name_safe}.html"
        try:
            with open(debug_file_path, 'w', encoding='utf-8') as f:
                f.write(html_content)
            print(f"디버깅: 가져온 HTML 내용을 '{debug_file_path}' 파일로 저장했습니다.")
        except Exception as file_error:
            print(f"디버깅: HTML 파일 저장 중 오류 발생: {file_error}")
        # --- 디버깅 끝 ---

        # 2. BeautifulSoup으로 파싱
        soup = BeautifulSoup(html_content, 'html.parser')

        # --- 뉴스 제목 추출 (제공해주신 YTN 구조 반영) ---
        # h2 태그에 class 'news_title'를 찾고, 그 안의 span 텍스트를 가져옵니다.
        title_element_h2 = soup.find('h2', class_='news_title')

        if title_element_h2:
            title_element_span = title_element_h2.find('span')
            if title_element_span:
                news_title = title_element_span.get_text(strip=True)
                print(f"URL {url}: 제목 요소 (h2.news_title > span) 추출 성공.")
            else:
                 news_title = title_element_h2.get_text(strip=True) if title_element_h2.get_text(strip=True) else news_title
                 print(f"URL {url}: <h2 class='news_title'> 태그를 찾았으나 <span>이 없어 <h2> 텍스트 추출 시도.")
        else:
            print(f"URL {url}: 제목 요소를 찾지 못했습니다. (예상 선택자: h2.news_title)")


        # --- 뉴스 본문 추출 (제공해주신 div#CmAdContent.paragraph 구조 반영) ---
        # 본문 전체를 감싸는 div 요소를 찾습니다. id가 'CmAdContent'이고 class가 'paragraph'입니다.
        body_container = soup.find('div', id='CmAdContent', class_='paragraph')
        
        news_body = "본문 추출 실패"

        if body_container:
            # 불필요한 요소 (예: iframe 광고, 이미지 등) 제거
            for unnecessary_tag in body_container.find_all(['iframe', 'figure']):
                unnecessary_tag.extract()

            news_body_raw = body_container.get_text(separator='\n', strip=True)

            # 불필요한 내용 제거 및 정리 (YTN 기사 하단부 패턴 제거)
            cleaned_body = news_body_raw
            cleaned_body = re.sub(r'YTN\s*[^(\n)]+\s*\([^@]+\@[^)]+\)\s*\n*', '', cleaned_body, flags=re.MULTILINE)
            cleaned_body = re.sub(r'※\s*.*?\[메일\].*?\n*', '', cleaned_body, flags=re.DOTALL)
            cleaned_body = re.sub(r'\[저작권자\(c\).+?\]\n*', '', cleaned_body)

            news_body = re.sub(r'\n\s*\n', '\n\n', cleaned_body).strip()

            if news_body:
                print(f"URL {url}: 본문 요소 (div#CmAdContent.paragraph) 추출 성공.")
            else:
                print(f"URL {url}: 본문 컨테이너는 찾았으나, 유효한 텍스트 내용이 없습니다 (정리 후 빈 내용).")
                news_body = "본문 내용 없음"

        else:
            print(f"URL {url}: 본문 전체 컨테이너 요소를 찾지 못했습니다. (예상 선택자: div#CmAdContent.paragraph)")

        # --- 뉴스 카테고리 추출 (URL 경로 분석 - 생성된 맵 사용) ---
        # 생성된 ytn_category_map을 classify_ytn_category_from_url 함수에 전달
        news_category = classify_ytn_category_from_url(url, category_map)
        if news_category == "카테고리 분류 실패 (URL 패턴 불일치)" or news_category.startswith("알 수 없는 카테고리 코드"):
             print(f"URL {url}: URL 구조 분석으로 카테고리 추출/분류 실패: {news_category}")
        else:
             print(f"URL {url}: URL 구조 분석으로 카테고리 '{news_category}' 추출 성공.")

    except requests.exceptions.RequestException as e:
        print(f"URL {url}: 웹페이지를 가져오는 중 오류 발생: {e}")
        # 요청 실패 시 제목, 본문, 카테고리는 초기 실패 값 유지

    except Exception as e:
        print(f"URL {url}: 데이터 처리 중 예외 발생: {e}")
        # 데이터 처리 중 오류 발생 시 해당 값들은 초기 실패 값 유지
        if news_category == "카테고리 추출 실패": # 오류 발생했더라도 카테고리라도 추출 시도
             news_category = classify_ytn_category_from_url(url, category_map) # 맵을 전달

    # 최종 추출 결과 반환
    return {
        'URL': url,
        '제목': news_title,
        '본문': news_body,
        '카테고리': news_category
    }

In [37]:
# --- 크롤링할 YTN 뉴스 기사 URL 목록을 작성해주세요. ---
news_urls_to_crawl = [
    'http://ytn.co.kr/_ln/0103_202505111155162765'
]

In [38]:
# User-Agent 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}

In [39]:
# 추출된 데이터를 저장할 리스트
extracted_data_list = []

# 각 URL에 대해 크롤링 및 데이터 추출 반복
for url in news_urls_to_crawl:
    # 카테고리 맵을 get_ytn_article_data 함수에 전달
    article_data = get_ytn_article_data(url, headers, ytn_category_map)
    extracted_data_list.append(article_data)
    print("-" * 30) # 구분선 출력

print("\n모든 URL 처리 완료.")
# --- 추출된 데이터를 Pandas DataFrame으로 변환 ---
df_news = pd.DataFrame(extracted_data_list)

Processing URL: http://ytn.co.kr/_ln/0103_202505111155162765
디버깅: 가져온 HTML 내용을 'debug_ytn_html_ln_0103_202505111155162765.html' 파일로 저장했습니다.
URL http://ytn.co.kr/_ln/0103_202505111155162765: 제목 요소 (h2.news_title > span) 추출 성공.
URL http://ytn.co.kr/_ln/0103_202505111155162765: 본문 요소 (div#CmAdContent.paragraph) 추출 성공.
URL http://ytn.co.kr/_ln/0103_202505111155162765: URL 구조 분석으로 카테고리 '사회' 추출 성공.
------------------------------

모든 URL 처리 완료.


In [40]:
df_news

Unnamed: 0,URL,제목,본문,카테고리
0,http://ytn.co.kr/_ln/0103_202505111155162765,"검찰, '공천 개입 의혹' 김건희 정식 소환 통보",[앵커]\n정치 브로커 명태균 씨의 공천 개입 의혹을 수사하는 검찰이 김건희 여사에...,사회


In [41]:
df_news['본문'].to_list()[0]

"[앵커]\n정치 브로커 명태균 씨의 공천 개입 의혹을 수사하는 검찰이 김건희 여사에게 이번 주 소환 조사를 받으라고 정식 통보한 것으로 전해졌습니다.\n여러 차례 구두요청에 김 여사 측이 응하지 않자, 공식적으로 출석을 요구하고 나선 건데요.\n취재기자 연결합니다. 부장원 기자!\n자세한 소식 전해주시죠.\n[기자]\n명태균 씨를 고리로 한 공천개입 의혹을 수사하는 서울중앙지검 전담수사팀이 최근 김건희 여사 측에 출석 요구서를 보낸 것으로 파악됐습니다.\n공직선거법과 정치자금법 위반 혐의를 받는 피의자 신분으로, 검찰청사로 출석해 조사받으라고 소환을 공식 통보한 겁니다.\n검찰은 김 여사 측에 이번 주 중 하루 검찰청사에 출석할 것을 요구한 것으로 알려졌습니다.\n앞서 수사팀은 지난 2월, 창원지검으로부터 명 씨 사건을 넘겨받은 직후 김 여사 측에 여러 차례 대면 조사가 필요하다고 요청해왔습니다.\n하지만 김 여사 측이 별다른 응답을 내놓지 않으면서 일정 조율은 이뤄지지 못했습니다.\n여기다 최근 조기 대선 국면이 본격화하면서 선거 전 소환이 어려워진 것 아니냐는 관측도 나왔는데요,\n검찰은 이미 명 씨를 비롯한 의혹의 핵심 인물들로부터 충분한 진술과 물적 증거를 수집한 만큼,\n의혹의 정점인 김 여사에 대한 조사를 더는 미룰 수 없다고 판단하고 이번에 공식적인 출석 요구 절차에 나선 거로 보입니다.\n김 여사는 윤석열 전 대통령과 함께 지난 2022년 20대 대통령 선거 과정에서 명씨로부터 여론조사를 무상으로 제공 받고,\n그 대가로 그해 6월 국회의원 보궐선거에서 김영선 전 국민의힘 의원이 경남 창원 의창 선거구에 공천받도록 했다는 혐의를 받습니다.\n또, 같은 해 지방선거에서 국민의힘 포항시장 후보 공천에 개입하고, 지난해 총선을 앞두고 김상민 전 검사를 김 전 의원 선거구에 출마시키기 위해 영향력을 행사했다는 의혹도 있습니다.\n[앵커]\n조사가 초읽기에 들어간 모습인데요.\n만약 김 여사가 소환에 응한다면 처음으로 검찰청사에 나와 조사를 받게 되는 

In [42]:
from transformers import BertModel, BertTokenizer
import torch
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import nltk

# 문장 분리
nltk.download('punkt')
from nltk.tokenize import sent_tokenize

# 모델과 토크나이저 로드
tokenizer = BertTokenizer.from_pretrained('monologg/kobert')
model = BertModel.from_pretrained('monologg/kobert')
model.eval()

def get_sentence_embedding(sentence):
    inputs = tokenizer(sentence, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        outputs = model(**inputs)
        # [CLS] 토큰의 벡터 사용
        return outputs.last_hidden_state[:, 0, :].squeeze().numpy()

import kss  # 한국어 문장 분리기

def summarize(text, top_n=3):
    sentences = kss.split_sentences(text)
    embeddings = [get_sentence_embedding(sent) for sent in sentences]
    embeddings = np.array(embeddings)

    sim_matrix = cosine_similarity(embeddings, embeddings)
    scores = sim_matrix.sum(axis=1)

    ranked_sentences = [sent for _, sent in sorted(zip(scores, sentences), reverse=True)]
    return ranked_sentences[:top_n]


# 예시 사용
text = df_news['본문'].to_list()[0]
summary = summarize(text)
for i in summary:
    print(i, end=' ')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/janghongseo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'KoBertTokenizer'. 
The class this function is called from is 'BertTokenizer'.
  least_cost += word_cost
  from_pos_data.costs[idx]


출석 조사가 이뤄진다면 김 여사에 대해 제기된 의혹이 상당한 만큼 조사가 하루 안에 끝나지 않을 가능성도 점쳐집니다. 검찰은 지난해 7월 디올백 수수 의혹과 도이치모터스 주가조작 의혹과 관련해 김 여사를 대면 조사했는데요. 이 경우 검찰은 다시 소환을 통보하고, 정당한 사유 없이 계속해서 불응할 경우 체포영장을 발부받는 방안도 내부적으로 검토하는 것으로 알려졌는데요. 