## SummarEase
– `Summarize(요약)`와 `Ease(편리함)`를 합쳐, 
손쉬운 뉴스 요약 도구

**project_folder**<br>
├── SummarEase.ipynb     # Jupyter 노트북<br>
├── .env                 # Jupyter <br>
├── s                    # Phon <br>
├── r                    # 결들<br>
└── .ipynb_checkpoints/  # Jupyter 폴더

In [48]:
# 기본 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

# 설정
plt.rcParams['font.family'] = 'NanumGothic'  # 한글 폰트 설정 필요시 변경
plt.rcParams['figure.figsize'] = (10, 6)
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print("라이브러리 로드 완료!")



import feedparser   # RSS 뉴스 가져오기
import pandas as pd
from datetime import datetime

# 주요 언론사 RSS 피드
rss_feeds = {
    '조선일보': 'https://www.chosun.com/arc/outboundfeeds/rss/?outputType=xml',
    '동아일보': 'https://rss.donga.com/total.xml',
    '한겨레': 'https://www.hani.co.kr/rss/',
    'SBS': 'https://news.sbs.co.kr/news/SectionRssFeed.do?sectionId=01',
}

라이브러리 로드 완료!


In [20]:
def get_korean_news_from_rss(rss_url, source_name):
    try:
        feed = feedparser.parse(rss_url)
        articles = []
        
        for entry in feed.entries[:10]:  # 최신 10개만
            articles.append({
                'title': entry.title,
                'summary': entry.get('summary', ''),
                'link': entry.link,
                'published': entry.get('published', ''),
                'source': source_name
            })
        
        return articles
    except Exception as e:
        print(f"Error fetching {source_name}: {e}")
        return []

In [21]:
# 모든 언론사에서 뉴스 수집
all_articles = []
for source, rss_url in rss_feeds.items():
    articles = get_korean_news_from_rss(rss_url, source)
    all_articles.extend(articles)

df = pd.DataFrame(all_articles)
print(f"총 {len(df)}개 기사 수집")

총 40개 기사 수집


#### **수집된 데이터 확인**

In [22]:
# 데이터 기본 정보 확인
print("데이터 형태:", df.shape)
print("\n컬럼 정보:")
print(df.columns.tolist())
print("\n언론사별 기사 수:")
print(df['source'].value_counts())

데이터 형태: (40, 5)

컬럼 정보:
['title', 'summary', 'link', 'published', 'source']

언론사별 기사 수:
source
조선일보    10
동아일보    10
한겨레     10
SBS     10
Name: count, dtype: int64


In [23]:
# 첫 몇 개 기사 확인
print("\n=== 첫 5개 기사 미리보기 ===")
for i in range(min(5, len(df))):
    print(f"\n[{i+1}] {df.iloc[i]['source']}")
    print(f"제목: {df.iloc[i]['title']}")
    print(f"요약: {df.iloc[i]['summary'][:100]}...")
    print(f"발행일: {df.iloc[i]['published']}")


=== 첫 5개 기사 미리보기 ===

[1] 조선일보
제목: 화끈하고 시원한 부산의 맛… 밀면 최고는 어디?
요약: ...
발행일: Fri, 04 Jul 2025 15:31:00 +0000

[2] 조선일보
제목: ‘병역법 위반’ 송민호, 교통사고 당해…후유증 대비 병원行
요약: ...
발행일: Sat, 05 Jul 2025 03:48:34 +0000

[3] 조선일보
제목: 尹 전 대통령, 오전 9시 1분 내란특검 2차 소환 출석... 묵묵부답
요약: ...
발행일: Fri, 04 Jul 2025 23:58:28 +0000

[4] 조선일보
제목: 윤 前 대통령 오전 조사 종료 후 점심 식사 중... 오후 1시 7분 재개 예정
요약: ...
발행일: Sat, 05 Jul 2025 03:12:30 +0000

[5] 조선일보
제목: 로드FC 밴텀급 최강의 타격가 '제주짱' 양지용, 7월 27일 日 슈퍼 라이진4 출격
요약: [OSEN=홍지수 기자] 로드FC 밴텀급 최강의 타격가 ‘제주짱’ 양지용(29, 제주 팀더킹)이 일본 원정 경기에 나선다.양지용은 오는 7월 27일 일본 도쿄 사이타마 슈퍼 아레나...
발행일: Sat, 05 Jul 2025 03:41:00 +0000


#### **전처리**

In [24]:
# 결측치 및 중복 확인
print("결측치 확인:")
print(df.isnull().sum())

print(f"\n중복 기사 수: {df.duplicated(subset=['title']).sum()}")

# 중복 제거
df_clean = df.drop_duplicates(subset=['title'])
print(f"중복 제거 후: {len(df_clean)}개 기사")

# 빈 요약이나 제목 제거
df_clean = df_clean[df_clean['title'].str.len() > 0]
print(f"빈 제목 제거 후: {len(df_clean)}개 기사")

# 날짜 형식 정리 (가능한 경우)
df_clean['title_length'] = df_clean['title'].str.len()
df_clean['summary_length'] = df_clean['summary'].str.len()

print("\n기사 제목 길이 통계:")
print(df_clean['title_length'].describe())

결측치 확인:
title        0
summary      0
link         0
published    0
source       0
dtype: int64

중복 기사 수: 0
중복 제거 후: 40개 기사
빈 제목 제거 후: 40개 기사

기사 제목 길이 통계:
count    40.000000
mean     36.350000
std       6.526278
min      24.000000
25%      32.000000
50%      35.500000
75%      39.000000
max      53.000000
Name: title_length, dtype: float64


### 전체기사 내용 가져오기

In [25]:
import requests
from bs4 import BeautifulSoup
import time

def get_full_article_content(url, source):
    """각 언론사별로 전체 기사 내용 추출"""
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()
        
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # 언론사별 본문 추출 (간단한 예시)
        content = ""
        if '조선일보' in source:
            article = soup.find('div', class_='article-body') or soup.find('div', class_='news-text')
        elif '중앙일보' in source:
            article = soup.find('div', class_='article_body') or soup.find('div', id='article_body')
        elif '동아일보' in source:
            article = soup.find('div', class_='article_txt') or soup.find('section', class_='news_view')
        else:
            # 일반적인 방법
            article = soup.find('article') or soup.find('div', class_='content')
        
        if article:
            # 텍스트만 추출
            content = article.get_text(strip=True)
            content = ' '.join(content.split())  # 공백 정리
        
        return content[:2000] if content else ""  # 너무 길면 자르기
        
    except Exception as e:
        print(f"Error getting content from {url}: {e}")
        return ""

# 몇 개 기사만 테스트 (시간이 오래 걸릴 수 있음)
print("전체 기사 내용 가져오는 중... (시간이 걸릴 수 있습니다)")

# 처음 5개만 테스트
for i in range(min(5, len(df_clean))):
    url = df_clean.iloc[i]['link']
    source = df_clean.iloc[i]['source']
    
    full_content = get_full_article_content(url, source)
    df_clean.iloc[i, df_clean.columns.get_loc('summary')] = full_content if full_content else df_clean.iloc[i]['summary']
    
    time.sleep(1)  # 서버 부하 방지
    print(f"처리 완료: {i+1}/5")

전체 기사 내용 가져오는 중... (시간이 걸릴 수 있습니다)
처리 완료: 1/5
처리 완료: 2/5
처리 완료: 3/5
처리 완료: 4/5
처리 완료: 5/5


#### **뉴스 요약을 위한 데이터 준비**

In [35]:
# 요약 프로젝트용 데이터 형태로 정리
def prepare_for_summarization(df):
    # 필요한 컬럼만 선택
    summary_df = df[['title', 'summary', 'source']].copy()
    
    # 컬럼명 변경
    summary_df.columns = ['title', 'content', 'source']
    
    # 내용이 너무 짧은 기사 제외
    summary_df = summary_df[summary_df['content'].str.len() >= 100]
    
    # 간단한 요약 생성 (첫 2문장)
    def create_simple_summary(text):
        sentences = text.split('.')[:2]
        return '.'.join(sentences) + '.' if sentences else text[:100]
    
    summary_df['auto_summary'] = summary_df['content'].apply(create_simple_summary)
    
    return summary_df

In [36]:
# 데이터 준비
final_df = prepare_for_summarization(df_clean)
print(f"최종 데이터: {len(final_df)}개 기사")

최종 데이터: 25개 기사


In [37]:
# CSV로 저장
final_df.to_csv('korean_news_for_summarization.csv', index=False, encoding='utf-8-sig')
print("데이터 저장 완료: korean_news_for_summarization.csv")

데이터 저장 완료: korean_news_for_summarization.csv


In [38]:
# 샘플 데이터 확인
print("\n=== 최종 데이터 샘플 ===")
for i in range(min(3, len(final_df))):
    print(f"\n[{i+1}] {final_df.iloc[i]['source']}")
    print(f"제목: {final_df.iloc[i]['title']}")
    print(f"내용: {final_df.iloc[i]['content'][:200]}...")
    print(f"자동요약: {final_df.iloc[i]['auto_summary']}")


=== 최종 데이터 샘플 ===

[1] 조선일보
제목: 로드FC 밴텀급 최강의 타격가 '제주짱' 양지용, 7월 27일 日 슈퍼 라이진4 출격
내용: [OSEN=홍지수 기자] 로드FC 밴텀급 최강의 타격가 ‘제주짱’ 양지용(29, 제주 팀더킹)이 일본 원정 경기에 나선다.양지용은 오는 7월 27일 일본 도쿄 사이타마 슈퍼 아레나에서 개최되는 슈퍼 라이진4에 출전, 일본의 안도 타츠야(35)와 –61kg 밴텀급으로 대결한다.양지용은 로드FC 밴텀급을 대표하는 타격가다. 왼손잡이의 선수로 킥은 물론, 왼손...
자동요약: [OSEN=홍지수 기자] 로드FC 밴텀급 최강의 타격가 ‘제주짱’ 양지용(29, 제주 팀더킹)이 일본 원정 경기에 나선다.양지용은 오는 7월 27일 일본 도쿄 사이타마 슈퍼 아레나에서 개최되는 슈퍼 라이진4에 출전, 일본의 안도 타츠야(35)와 –61kg 밴텀급으로 대결한다.

[2] 조선일보
제목: 김호령 타격본능 깨운 꽃감독, 득타율 .429 거포유망주 붙잡고 왜 장시간 토크했나
내용: [OSEN=광주, 이선호 기자] "노력해서 더 강해져야 한다".지난 4일 광주-기아 챔피언스필드에서 이범호 감독이 롯데 자이언츠와 경기를 앞두고 펼친 훈련도중 외야수 김석환과 장시간 이야기를 나누었다. 진지한 표정으로 무언가를 당부하는 모습이었다. 새로운 투수를 상대하는데 앞서 경기를 준비하는데 더욱 심혈을 기울이라는 조언이었다. 김석환은 올해 달라진 모습...
자동요약: [OSEN=광주, 이선호 기자] "노력해서 더 강해져야 한다".지난 4일 광주-기아 챔피언스필드에서 이범호 감독이 롯데 자이언츠와 경기를 앞두고 펼친 훈련도중 외야수 김석환과 장시간 이야기를 나누었다.

[3] 조선일보
제목: 손흥민, 내년 1월 토트넘 떠난다? "프랭크 감독 방침이 손흥민 선택 앞당길 수 있다" 英 매체
내용: [OSEN=우충원 기자] 손흥민(33, 토트넘 홋스퍼)의 미래가 다시 안갯속으로 빠져들고 있다. 미국행, 사우디아라비아 리그 이적설에 이어 최근에는 2026 북중미

In [39]:
# 요약 모델링을 위한 기본 분석
print("=== 데이터 분석 결과 ===")
print(f"총 기사 수: {len(final_df)}")
print(f"평균 내용 길이: {final_df['content'].str.len().mean():.0f}자")
print(f"평균 제목 길이: {final_df['title'].str.len().mean():.0f}자")
print(f"언론사별 분포:")
print(final_df['source'].value_counts())

=== 데이터 분석 결과 ===
총 기사 수: 25
평균 내용 길이: 456자
평균 제목 길이: 38자
언론사별 분포:
source
동아일보    10
한겨레     10
조선일보     5
Name: count, dtype: int64


In [40]:
import os
from dotenv import load_dotenv
from langchain.llms import OpenAI
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain
from langchain.schema import HumanMessage, SystemMessage
import pandas as pd

In [41]:
# .env에서 환경변수 로드
load_dotenv()

# API 키 가져오기
api_key = os.getenv("OPENAI_API_KEY", "")

# 앞 5자리만 출력
print("Loaded API Key prefix:", api_key[:5])

Loaded API Key prefix: sk-pr


In [42]:
# LLM 초기화
from langchain.chat_models import ChatOpenAI

llm = ChatOpenAI(
    model="gpt-3.5-turbo",  # 또는 "gpt-4"
    temperature=0.3,
    max_tokens=1000
)

#### **관점별 요약 프롬프트 템플릿**

In [43]:
# 관점별 프롬프트 템플릿
perspective_prompts = {
    "경제전문가": """
    당신은 경제 전문가입니다. 다음 뉴스 기사를 경제적 관점에서 분석하고 요약해주세요.
    
    기사 내용:
    {article_text}
    
    다음 형식으로 답변해주세요:
    1. 경제적 핵심 포인트 (3문장 이내)
    2. 시장/산업에 미치는 영향
    3. 핵심 키워드 (5개)
    
    요약 길이: {length_constraint}
    """,
    
    "일반대중": """
    당신은 일반 대중을 위한 뉴스 해설자입니다. 다음 기사를 누구나 쉽게 이해할 수 있도록 요약해주세요.
    
    기사 내용:
    {article_text}
    
    다음 형식으로 답변해주세요:
    1. 한 줄 요약
    2. 상세 설명 (쉬운 용어 사용)
    3. 우리 생활에 미치는 영향
    4. 핵심 키워드 (3개)
    
    요약 길이: {length_constraint}
    """,
    
    "환경운동가": """
    당신은 환경 운동가입니다. 다음 뉴스 기사를 환경적 관점에서 분석하고 요약해주세요.
    
    기사 내용:
    {article_text}
    
    다음 형식으로 답변해주세요:
    1. 환경적 의미와 영향
    2. 지속가능성 관점에서의 평가
    3. 환경 보호를 위한 시사점
    4. 핵심 키워드 (5개)
    
    요약 길이: {length_constraint}
    """,
    
    "기술전문가": """
    당신은 기술 전문가입니다. 다음 뉴스 기사에서 기술 발전과 관련된 내용을 중심으로 요약해주세요.
    
    기사 내용:
    {article_text}
    
    다음 형식으로 답변해주세요:
    1. 기술적 핵심 내용
    2. 기술 트렌드와의 연관성
    3. 미래 기술 발전에 미치는 영향
    4. 핵심 기술 키워드 (5개)
    
    요약 길이: {length_constraint}
    """
}

#### **뉴스 요약 클래스 구현**

In [44]:
class NewsLensAI:
    def __init__(self, llm):
        self.llm = llm
        self.perspective_prompts = perspective_prompts
    
    def summarize_with_perspective(self, article_text, perspective="일반대중", 
                                 length_constraint="3문장 이내"):
        """
        관점과 길이 제약을 적용한 뉴스 요약
        """
        if perspective not in self.perspective_prompts:
            raise ValueError(f"지원하지 않는 관점입니다: {perspective}")
        
        # 프롬프트 생성
        prompt_template = self.perspective_prompts[perspective]
        prompt = prompt_template.format(
            article_text=article_text,
            length_constraint=length_constraint
        )
        
        # LLM 호출
        messages = [
            SystemMessage(content="당신은 전문적이고 정확한 뉴스 요약 전문가입니다."),
            HumanMessage(content=prompt)
        ]
        
        response = self.llm(messages)
        return response.content
    
    def extract_keywords_only(self, article_text, num_keywords=5):
        """
        키워드만 추출하는 함수
        """
        prompt = f"""
        다음 뉴스 기사에서 가장 중요한 키워드 {num_keywords}개를 추출해주세요.
        키워드는 쉼표로 구분하여 나열해주세요.
        
        기사 내용:
        {article_text}
        
        키워드:
        """
        
        messages = [HumanMessage(content=prompt)]
        response = self.llm(messages)
        return response.content.strip()
    
    def custom_summary(self, article_text, custom_instruction):
        """
        사용자 정의 요청에 따른 요약
        """
        prompt = f"""
        다음 지시사항에 따라 뉴스 기사를 요약해주세요:
        
        지시사항: {custom_instruction}
        
        기사 내용:
        {article_text}
        """
        
        messages = [HumanMessage(content=prompt)]
        response = self.llm(messages)
        return response.content

# 뉴스 요약 시스템 초기화
news_ai = NewsLensAI(llm)

실제 뉴스 데이터로 테스트

In [45]:
# 이전에 수집한 뉴스 데이터 로드
df = pd.read_csv('korean_news_for_summarization.csv', encoding='utf-8-sig')

# 테스트용 기사 선택
test_article = df.iloc[0]['content']  # 첫 번째 기사
test_title = df.iloc[0]['title']

print(f"테스트 기사 제목: {test_title}")
print(f"원본 길이: {len(test_article)}자")
print("="*50)


# 1. 다양한 관점에서 요약
perspectives = ["경제전문가", "일반대중", "환경운동가", "기술전문가"]

for perspective in perspectives:
    try:
        print(f"\n📋 **{perspective} 관점에서의 요약:**")
        summary = news_ai.summarize_with_perspective(
            test_article, 
            perspective=perspective,
            length_constraint="3문장 이내"
        )
        print(summary)
        print("-" * 30)
    except Exception as e:
        print(f"Error with {perspective}: {e}")

# 2. 길이별 요약 테스트
length_constraints = ["1문장으로", "50단어 이내로", "5문장으로"]

print(f"\n📏 **길이별 요약 (일반대중 관점):**")
for length in length_constraints:
    try:
        summary = news_ai.summarize_with_perspective(
            test_article,
            perspective="일반대중",
            length_constraint=length
        )
        print(f"\n{length}: {summary}")
    except Exception as e:
        print(f"Error with {length}: {e}")

테스트 기사 제목: 로드FC 밴텀급 최강의 타격가 '제주짱' 양지용, 7월 27일 日 슈퍼 라이진4 출격
원본 길이: 199자

📋 **경제전문가 관점에서의 요약:**
1. 양지용이 일본 원정 경기에 출전하여 로드FC 밴텀급 최강의 타격가로 활약할 예정이다.
2. 양지용의 활약은 로드FC와 국제 무에타이 시장에 홍보 효과를 줄 것으로 예상된다.
3. 양지용, 로드FC, 밴텀급, 일본 원정 경기, 무에타이.
------------------------------

📋 **일반대중 관점에서의 요약:**
1. '제주짱' 양지용이 일본 원정 경기에 출전한다.
   
2. '제주짱' 양지용이 7월 27일 일본에서 슈퍼 라이진4 대회에 참가하여 일본의 안도 타츠야와 경기를 벌인다. 양지용은 로드FC 밴텀급의 강력한 타격가로, 왼손잡이 선수로서 킥뿐만 아니라 왼손으로도 상대를 공격한다.

3. 양지용의 일본 원정 경기는 국내 무대를 넘어 국제 무대에서 우리나라 선수의 실력을 알리는 계기가 될 수 있으며, 관심을 끌어 국내 격투기 스포츠의 발전에 기여할 수 있다.

4. 제주짱, 로드FC, 밴텀급
------------------------------

📋 **환경운동가 관점에서의 요약:**
1. 환경적 의미와 영향: 양지용의 일본 원정 경기는 환경과는 직접적인 연관이 없으나, 스포츠 이벤트로 인한 교통량과 에너지 소비 등은 환경에 영향을 미칠 수 있다.
2. 지속가능성 관점에서의 평가: 스포츠 활동은 운동 선수들의 건강과 삶의 질을 향상시키지만, 이러한 이벤트가 지속가능한 방식으로 운영되어야 한다.
3. 환경 보호를 위한 시사점: 스포츠 이벤트 주최자들은 환경 보호를 고려한 지속가능한 행사 운영 방안을 모색해야 하며, 참가자들도 환경을 생각하며 활동하는 습관을 길러야 한다.

4. 핵심 키워드: 환경, 스포츠 이벤트, 지속가능성, 환경 보호, 참가자들
------------------------------

📋 **기술전문가 관점에서의 요약:**
1. 제주짱 양지용이 일본

### 대화형 인터페이스 구현

In [46]:
def interactive_news_summarizer():
    """
    대화형 뉴스 요약 시스템
    """
    print("🤖 뉴스 요약 AI에 오신 것을 환영합니다!")
    print("사용 가능한 관점:", list(perspective_prompts.keys()))
    
    while True:
        print("\n" + "="*50)
        
        # 기사 선택
        print(f"📰 사용 가능한 기사 목록:")
        for i, title in enumerate(df['title'].head(5)):
            print(f"{i+1}. {title[:50]}...")
        
        try:
            article_idx = int(input("\n기사 번호를 선택하세요 (1-5): ")) - 1
            selected_article = df.iloc[article_idx]['content']
            selected_title = df.iloc[article_idx]['title']
            
            print(f"\n선택된 기사: {selected_title}")
            
            # 관점 선택
            perspective = input(f"\n관점을 선택하세요 {list(perspective_prompts.keys())}: ")
            if perspective not in perspective_prompts:
                perspective = "일반대중"
            
            # 길이 제약
            length = input("길이 제약을 입력하세요 (예: 3문장 이내, 100단어 이내): ")
            if not length:
                length = "3문장 이내"
            
            # 요약 실행
            print("\n🔄 요약 생성 중...")
            summary = news_ai.summarize_with_perspective(
                selected_article, 
                perspective=perspective,
                length_constraint=length
            )
            
            print(f"\n📝 **{perspective} 관점 요약 결과:**")
            print(summary)
            
            # 계속할지 묻기
            continue_choice = input("\n다른 기사를 요약하시겠습니까? (y/n): ")
            if continue_choice.lower() != 'y':
                break
                
        except (ValueError, IndexError) as e:
            print("올바른 번호를 입력해주세요.")
        except KeyboardInterrupt:
            print("\n프로그램을 종료합니다.")
            break

# 대화형 시스템 실행
# interactive_news_summarizer()

### 배치 처리

In [47]:
def batch_summarize_news(df, perspectives=["일반대중"], length_constraint="3문장 이내"):
    """
    여러 뉴스를 한번에 요약하는 배치 처리 함수
    """
    results = []
    
    for idx, row in df.iterrows():
        article_summary = {
            'title': row['title'],
            'source': row['source'],
            'original_length': len(row['content'])
        }
        
        for perspective in perspectives:
            try:
                summary = news_ai.summarize_with_perspective(
                    row['content'],
                    perspective=perspective,
                    length_constraint=length_constraint
                )
                article_summary[f'{perspective}_요약'] = summary
                
            except Exception as e:
                article_summary[f'{perspective}_요약'] = f"Error: {e}"
        
        results.append(article_summary)
        print(f"처리 완료: {idx+1}/{len(df)}")
    
    return pd.DataFrame(results)

# 배치 요약 실행 (처음 3개 기사만)
batch_results = batch_summarize_news(
    df.head(3), 
    perspectives=["일반대중", "경제전문가"],
    length_constraint="2문장 이내"
)

# 결과 저장
batch_results.to_csv('news_summaries_batch.csv', index=False, encoding='utf-8-sig')
print("배치 요약 결과 저장 완료!")

처리 완료: 1/3
처리 완료: 2/3
처리 완료: 3/3
배치 요약 결과 저장 완료!


===============================================================================================

2025-07-03