In [8]:
# 필요한 라이브러리 설치
# !pip install transformers pandas torch gradio requests beautifulsoup4

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from bs4 import BeautifulSoup
import requests
import gradio as gr
import re

In [9]:
# 1. 기사 크롤링 함수
def extract_article_content(url):
    try:
        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
        soup = BeautifulSoup(response.text, 'html.parser')

        # 뉴스 사이트별 본문 CSS 셀렉터
        selectors = [
            "div#dic_area",  # 네이버 뉴스
            "div.article_body",  # 특정 뉴스 사이트
            "div#articleBodyContents",  # 다음 뉴스
            "article",  # 일반적인 <article> 태그
            "div.content",  # 기타 사이트
        ]

        for selector in selectors:
            content = soup.select_one(selector)
            if content and content.get_text(strip=True):
                return content.get_text(separator=" ", strip=True)
        
        return "기사를 읽을 수 없습니다. 링크를 확인하세요."
    except Exception as e:
        return f"오류 발생: {e}"

In [10]:
# 2. 전처리 함수
def preprocess_text(text):
    text = re.sub(r'\s+', ' ', text)  # 연속된 공백 제거
    text = re.sub(r'[^\w\s]', '', text)  # 특수문자 제거
    return text.strip()[:512]  # 길이를 512로 제한

In [11]:
# 3. 모델 초기화 함수
def initialize_models():
    classifier_name = "bert-base-multilingual-cased"
    summarizer_name = "paust/pko-t5-base"

    # 분류 모델 초기화
    tokenizer = AutoTokenizer.from_pretrained(classifier_name)
    model = AutoModelForSequenceClassification.from_pretrained(classifier_name, num_labels=2)
    classifier = pipeline("text-classification", model=model, tokenizer=tokenizer)

    # 요약 모델 초기화
    summarizer = pipeline("summarization", model=summarizer_name, tokenizer=summarizer_name)
    
    return classifier, summarizer


In [12]:
# 4. 기사 분석 함수
def analyze_article(url):
    article_content = extract_article_content(url)
    if "오류 발생" in article_content or "기사를 읽을 수 없습니다" in article_content:
        return article_content, "분류 불가", "요약 불가", "분석 불가"

    article_content_clean = preprocess_text(article_content)
    classifier, summarizer = initialize_models()

    # 가짜 뉴스 판별
    try:
        classification_result = classifier(article_content_clean, return_all_scores=True)[0]
        label_scores = {res['label']: res['score'] for res in classification_result}
        classification = "진짜 뉴스" if label_scores.get("LABEL_0", 0) > label_scores.get("LABEL_1", 0) else "가짜 뉴스"
        
        # 판단 이유 생성
        fake_score = label_scores.get("LABEL_1", 0)
        true_score = label_scores.get("LABEL_0", 0)
        reason = (f"가짜 뉴스 확률: {fake_score:.2f}, "
                  f"진짜 뉴스 확률: {true_score:.2f}. "
                  f"모델의 신뢰도 점수를 기반으로 판단되었습니다.")
    except Exception as e:
        classification = f"분류 실패: {e}"
        reason = "분류에 실패하여 이유를 제공할 수 없습니다."

    # 기사 요약
    try:
        summary_result = summarizer(article_content_clean, max_length=150, min_length=50, do_sample=False)
        summary = summary_result[0]["summary_text"]
    except Exception as e:
        summary = f"요약 실패: {e}"

    return article_content, classification, summary, reason

In [13]:
# 5. Gradio 인터페이스 정의
def gradio_interface(url):
    article_content, classification, summary, reason = analyze_article(url)
    return article_content, classification, summary, reason

# Gradio 설정
interface = gr.Interface(
    fn=gradio_interface,
    inputs=gr.Textbox(label="기사 링크", placeholder="뉴스 링크를 입력하세요"),
    outputs=[
        gr.Textbox(label="기사 본문"),
        gr.Textbox(label="가짜 뉴스 여부"),
        gr.Textbox(label="요약된 내용"),
        gr.Textbox(label="판단 이유")
    ],
    title="가짜 뉴스 탐지 및 요약기",
    description="기사 링크를 입력하면 본문을 크롤링하고, 요약 및 가짜 뉴스 여부와 그 이유를 제공합니다."
)

In [14]:
# 실행
if __name__ == "__main__":
    interface.launch(share=True)

* Running on local URL:  http://127.0.0.1:7866
* Running on public URL: https://de9aa52d94438c850c.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Device set to use cpu
Device set to use cpu
