## 1. 필요 라이브러리 설치
- Newspaper3k와 Selenium을 사용하여 웹 스크래핑을 수행합니다.
- Chromium-browser와 ChromeDriver는 Selenium이 웹 컨텐츠를 효과적으로 스크랩할 수 있도록 합니다.
- OpenAI API와 Langchain을 사용하여 텍스트 생성을 수행합니다.
- Rouge-score는 생성된 텍스트의 품질을 평가하는 데 사용됩니다.


In [1]:
# Upgrade pip and install necessary Python libraries
!pip3 install --upgrade pip
!pip3 install --upgrade newspaper3k selenium chromedriver-autoinstaller webdriver-manager lxml_html_clean openai langchain langchain_openai rouge-score

# Download spaCy Korean model
!python3 -m spacy download ko_core_news_lg

!echo "Installation complete."


zsh:1: command not found: apt-get


zsh:1: command not found: apt-get
Collecting langchain
  Downloading langchain-0.2.2-py3-none-any.whl.metadata (13 kB)
Collecting langchain_openai
  Downloading langchain_openai-0.1.8-py3-none-any.whl.metadata (2.5 kB)
Collecting langchain-core<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_core-0.2.4-py3-none-any.whl.metadata (5.9 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.1-py3-none-any.whl.metadata (2.2 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.7.0-cp311-cp311-macosx_11_0_arm64.whl.metadata (6.6 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.74-py3-none-any.whl.metadata (13 kB)
Downloading langchain-0.2.2-py3-none-any.whl (973 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m973.6/973.6 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading langchain_openai-0.1.8-py3-none-any.whl (38 kB

# 2. 라이브러리 불러오기
웹 스크래핑 및 텍스트 생성에 필요한 라이브러리를 임포트합니다.

In [2]:
import requests
from bs4 import BeautifulSoup
from newspaper import Article
from datetime import datetime
import pandas as pd
import numpy as np
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

In [3]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import (
    ChatPromptTemplate,
    MessagesPlaceholder,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.memory import ConversationSummaryBufferMemory
from langchain.chains import LLMChain
from langchain.memory import ConversationBufferMemory
from langchain_core.prompts import ChatPromptTemplate
import getpass
import os
from langchain_openai import ChatOpenAI
import pandas as pd
from langchain_core.output_parsers import StrOutputParser
from rouge_score import rouge_scorer
import re
import requests
import openai
from PIL import Image, ImageDraw, ImageFont


# 3 데이터 수집 및 전처리 - knowledge generation

## 1) 뉴스 URL 가져오기
- 네이버 뉴스에서 주어진 검색어로 뉴스 기사의 URL을 가져옵니다.

In [77]:
def get_news_urls(query):
    # 오늘 날짜 형식 생성
    #today = datetime.now().strftime('%Y.%m.%d.')
    #today_filter = datetime.now().strftime('%Y%m%d')
    today='24.06.06'
    today_filter='240606'

    # '1일' 필터를 적용한 검색 URL
    search_url = f"https://search.naver.com/search.naver?where=news&query={query}&sort=1&ds={today}&de={today}&nso=so%3Ar%2Cp%3Afrom{today_filter}to{today_filter}"

    response = requests.get(search_url, headers={'User-agent': 'Mozilla/5.0'})
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        
        news_urls = []
        for news_area in soup.find_all('div', class_='news_area'):
            # 기사 URL 추출
            title_element = news_area.find('a', class_='news_tit')
            # 날짜 정보 추출
            date_element = news_area.find('span', class_='info')
            
            if title_element and date_element and (today in date_element.text or '시간 전' in date_element.text or '분 전' in date_element.text):
                news_urls.append(title_element['href'])
        
        return news_urls
    else:
        print("Failed to fetch news URLs")
        return []

## 2)뉴스 기사 스크래핑
- 추출한 URL에서 뉴스 기사의 세부 정보를 스크래핑합니다.

In [78]:
def scrape_news_articles(news_urls):
    articles_data = []
    for url in news_urls:
        try:
            article = Article(url)
            article.download()
            article.parse()
            articles_data.append({
                'url': url,
                'title': article.title,
                'authors': article.authors,
                'publish_date': article.publish_date,
                'text': article.text
            })
        except Exception as e:
            print(f"Failed to scrape article from {url}: {e}")
    return articles_data


## 3)  메인 스크립트
- 뉴스 기사를 검색하고 스크래핑하여 데이터프레임으로 저장합니다. Selenium을 사용하여 추가 데이터를 수집합니다.



In [79]:
if __name__ == "__main__":
    queries = ["서울 지하철 파업", "서울 지하철 연착", "서울 지하철 지연", "서울 지하철 사고", "서울 지하철 연장"]
    all_articles_data = []
    for query in queries:
        news_urls = get_news_urls(query)
        articles_data = scrape_news_articles(news_urls)
        for article_data in articles_data:
            article_data['category'] = query.split(" ")[-1]
        all_articles_data.extend(articles_data)
    df = pd.DataFrame(all_articles_data)
    df = df.replace('', np.nan)

    # Selenium 설정 및 데이터 추가 수집
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--remote-debugging-port=9222')  # This can help avoid some common errors
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    
    for index, row in df.iterrows():
        if pd.isna(row['text']) or len(row['text']) < 200:
            try:
                driver.get(row['url'])
                try:
                    fetched_text = WebDriverWait(driver, 10).until(
                        EC.presence_of_element_located((By.ID, 'pnlContent'))
                    ).text
                except (NoSuchElementException, TimeoutException):
                    try:
                        fetched_text = WebDriverWait(driver, 10).until(
                            EC.presence_of_element_located((By.TAG_NAME, 'article'))
                        ).text
                    except (NoSuchElementException, TimeoutException):
                        try:
                            fetched_text = WebDriverWait(driver, 10).until(
                                EC.presence_of_element_located((By.CLASS_NAME, 'view_cont'))
                            ).text
                        except (NoSuchElementException, TimeoutException):
                            try:
                                fetched_text = WebDriverWait(driver, 10).until(
                                    EC.presence_of_element_located((By.CLASS_NAME, 'article_body'))
                                ).text
                            except (NoSuchElementException, TimeoutException):
                                try:
                                    fetched_text = WebDriverWait(driver, 10).until(
                                        EC.presence_of_element_located((By.CLASS_NAME, 'article-body'))
                                    ).text
                                except (NoSuchElementException, TimeoutException):
                                    fetched_text = ""
                df.at[index, 'text'] = fetched_text
            except Exception as e:
                print(f"Error fetching article from {row['url']}: {e}")
    
    driver.quit()


## 4) KBS 뉴스 제목 수정
Selenium을 사용하여 KBS 뉴스의 제목을 실제 제목으로 업데이트합니다.

In [80]:
chrome_options = Options()
chrome_options.add_argument('--headless')  # 창 없는 모드
chrome_options.add_argument('--no-sandbox')  # 샌드박스 사용 안 함
chrome_options.add_argument('--disable-dev-shm-usage')  # /dev/shm 사용 안 함
chrome_options.add_argument('--disable-gpu')  # GPU 가속 사용 안 함
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 이미지 로드 안 함

service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)
driver.set_page_load_timeout(30)  # 페이지 로딩 타임아웃 30초 설정

try:
    for index,row in df.iterrows():
        if row['title'] == 'KBS 뉴스':
            driver.get(row['url'])
            try:
                # 요소가 화면에 보일 때까지 기다린 후 해당 요소를 찾아 텍스트를 추출
                element = WebDriverWait(driver, 10).until(
                    EC.visibility_of_element_located((By.CSS_SELECTOR, "h4.headline-title"))
                    )
                real_title = element.text
                df.at[index, 'title'] = real_title  # 실제 제목으로 업데이트
            except (NoSuchElementException, TimeoutException, WebDriverException) as e:
                print(f"An error occurred for URL {row['url']}: {e}")
finally:
    driver.quit()  # 드라이버 종료

# 3. 데이터 확인

In [81]:
df.shape

(2, 6)

In [82]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2 entries, 0 to 1
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype                                
---  ------        --------------  -----                                
 0   url           2 non-null      object                               
 1   title         2 non-null      object                               
 2   authors       2 non-null      object                               
 3   publish_date  1 non-null      datetime64[ns, tzoffset(None, 32400)]
 4   text          2 non-null      object                               
 5   category      2 non-null      object                               
dtypes: datetime64[ns, tzoffset(None, 32400)](1), object(5)
memory usage: 228.0+ bytes


In [83]:
df.head(50)

Unnamed: 0,url,title,authors,publish_date,text,category
0,http://www.jnilbo.com/73831154967,출근길 지하철,[],NaT,"출근길 지하철. 2021년 12월 바쁜 출근길 아침, 서울 시내 지하철역에 한 무리...",지연
1,http://www.hansbiz.co.kr/news/articleView.html...,[이슈포커스] 물가 둔화 맞아?..장바구니 물가 언제쯤 안정되나,[],2024-06-06 06:00:00+09:00,내용요약 소비자물가 상승률 두달 연속 둔화\n\n반면 '밥상물가'는 여전히 고공행진...,연장


# 4. 데이터 선택 - knowledge selection
- publish_date의 null 값 처리를 위해 한번더 selenium 진행

In [84]:
!pip install spacy



In [85]:
!pip install scikit-learn



In [86]:
!python3 -m spacy download ko_core_news_lg

Collecting ko-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ko_core_news_lg-3.7.0/ko_core_news_lg-3.7.0-py3-none-any.whl (230.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m230.9/230.9 MB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ko_core_news_lg')


In [87]:
import spacy
import pandas as pd
import torch
from transformers import BertModel, BertTokenizer
from sklearn.metrics.pairwise import cosine_similarity

# Load the Korean model from spaCy
nlp = spacy.load('ko_core_news_lg')

# Load KoBERT model and tokenizer
tokenizer = BertTokenizer.from_pretrained('monologg/kobert')
model = BertModel.from_pretrained('monologg/kobert')

# Define related and action words
related_words = [
    "지하철", "교통", "운행", "노선", "승객", "출근", "전철", "메트로", "지하철역", "승강장", "지하철차량",
    "대중교통", "교통체계", "교통망", "환승", "전용차선"
]

action_words = [
    "파업", "지연", "연착", "중단", "정지", "혼잡", "운행지연", "운행중단", "서비스중단", "파업예고",
    "노동쟁의", "노조활동", "노사협상", "안전점검", "사고", "충돌", "부상", "사망", "운행변경",
    "노선변경", "시간표변경", "대체교통", "운행재개", "시위"
]

# Function to check dependency and entities
def check_dependency_and_entities(text):
    doc = nlp(text)
    for token in doc:
        if token.lemma_ in action_words:
            neighborhood = list(token.children) + list(token.ancestors) + list(token.subtree)
            for neighbor in neighborhood:
                if neighbor.lemma_ in related_words:
                    if any(child.dep_ == "neg" for child in neighbor.children):
                        continue
                    return True
                if neighbor.pos_ in ["ADP", "SCONJ"]:
                    connected_words = [child.lemma_ for child in neighbor.children]
                    if set(connected_words).intersection(related_words):
                        return True
    return False

# Function to get BERT embeddings
def get_bert_embedding(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

# Function to check topic relevance using BERT embeddings
def check_topics(text, reference_texts):
    text_embedding = get_bert_embedding(text)
    reference_embeddings = [get_bert_embedding(ref) for ref in reference_texts]
    similarities = [cosine_similarity(text_embedding, ref_emb)[0][0] for ref_emb in reference_embeddings]
    return max(similarities) > 0.8  # Adjusted threshold for relevance

# Load your dataframe (assuming df is already defined and has a 'text' column)
reference_texts = [
    "지하철 파업으로 인한 운행 중단",
    "지하철 사고 발생",
    "지하철 연착 문제",
    "지하철 노선 변경",
    "지하철 운행 재개",
    "지하철 서비스 중단",
    "지하철 안전 점검",
    "지하철 충돌 사고",
    "지하철 승객 혼잡",
    "지하철 출근 시간 문제",
    "지하철 노조 파업",
    "지하철 운행 변경",
    "지하철 대체 교통"
]

# Check if the document is relevant
def is_relevant_document(title):
    return check_dependency_and_entities(title) or check_topics(title, reference_texts)

# Assuming df is already defined and has a 'title' column
df['is_relevant'] = df['title'].apply(is_relevant_document)
df = df[df['is_relevant']]


In [88]:
# API 키가 저장된 파일 경로
api_key_file = 'api_key.txt'

# 파일에서 API 키를 읽어 환경 변수에 저장
with open(api_key_file, 'r') as file:
    api_key = file.read().strip()
    os.environ["OPENAI_API_KEY"] = api_key

# OpenAI API를 사용할 준비
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o")

In [89]:
df['indexed_title'] = df.index.astype(str) + ": " + df['title']
titles = "\n".join(df['indexed_title'].tolist())
prompt = f"""
해당 기사 중에서 핵심 주제가 지하철 파업, 지연, 연착, 사고, 노선 연장인 기사들만 뽑아서 행 인덱스 번호만 나열해줘:
{titles}
"""
newsprompt = ChatPromptTemplate.from_template(prompt)
output_parser = StrOutputParser()
newschain = newsprompt | llm | output_parser
news_output1 = newschain.invoke({"titles": titles})

In [90]:
news_output1

'0'

# 5. 데이터 추출 - knowledge injection

In [None]:
# 문자열을 리스트로 변환
indices = [int(x.strip()) for x in news_output1.split(',')]

# 유효한 인덱스만 필터링
valid_indices = [i for i in indices if i < len(df)]

# 데이터프레임에서 해당 행만 추출
df = df.iloc[valid_indices]

# 6. 텍스트 주입 - text injection

### 1) 지연/파업 템플릿 불러오기

In [None]:
template=pd.read_csv("template.csv")
delay_template=template.iloc[0,2]
strike_template=template.iloc[1,2]
timetable_template=template.iloc[2,2]

### 2) Text_generation 함수

In [None]:
def text_generation(source_content,category):
    #지연
    if category=="지연" or category =="연착":
        prompt_template=delay_template
        chain_lst=["지연/사고 일시","지연/사고 노선","지연/사고 이유"]
    #파업
    elif category=="파업":
        prompt_template=strike_template
        chain_lst=["파업 일시","파업 노선","파업 이유"]

    # 시간표변경
    elif category == "시간표 변경":
        prompt_template = timetable_template  
        
        # prompt_template을 바로 사용하여 결과 생성
        timeprompt = ChatPromptTemplate.from_template(prompt_template)
        timechain = LLMChain(llm=llm, prompt=timeprompt)
        response = timechain(source_content)
        return response["blogtext"]    

    
    prompt = ChatPromptTemplate(
    template=prompt_template,
    messages=[
    SystemMessagePromptTemplate.from_template(
    """Objective:
    Learn subway information through chaining and use that information to write a coherent and informative blog post using a template.
    Basic Setting
    Your name is Jitong.
    You are a subway information supporter and a Naver Blog Power Blogger.
    You are well-informed about information and value communication with readers.
    Your goal is to help subway users by providing accurate and practical information for convenient and safe subway use.
    
    Features and Activities
    You read the latest news related to subway """+ category+""", and write blog posts to accurately deliver these in a readable and high-quality manner to readers.
    You alleviate readers' inconveniences and speak empathetically through the blog, understanding the sentiments of subway users.
    
    Communication Style
    You use professional yet warm and easy-to-understand language.
    You emphasize the ability to explain things in a way that is accessible to all age groups.
    Your blog posts should end with the forms -어요, -이에요/예요, -(이)여요, -(이)요.
    
    Hallucination
    You always generate blog posts based on verifiable factual statements.
    You speak mainly about factual information related to subways and do not add information about subways on your own.
    """
    ),
    # The `variable_name` here is what must align with memory
    MessagesPlaceholder(variable_name="chat_history"),
    HumanMessagePromptTemplate.from_template("{question}")
    ]
    )
    
    memory = ConversationSummaryBufferMemory(llm=llm, max_token_limit=100,memory_key="chat_history", return_messages=True)
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    #정보학습
    conversation({"question":"subway strike information(article) :"+source_content+ " Just REVIEW subway " +category+ " information"})
    #정보학습 - 체이닝 : chain_lst -> 일시, 노선, 이유
    for i in chain_lst:
        r=conversation({"question":"Using the provided information \n write "+i+":"})
    #글작성 - 체이닝 -> 정확성
    conversation({"question":"블로그 글 작성해줘"})
    conversation({"question":"1. 뉴스기사의 내용을 학습해 2. 학습한 뉴스기사와 블로그글을 비교해 3.블로그 글에 틀린 정보가 있다면 수정해 뉴스기사: "+source_content+"블로그 글 :"})
    #글 작성 - 템플릿
    result=conversation({"question":prompt_template})
    memory.clear()
    return result["blogtext"]


# 템플릿 평가

### 📌 Metric 코드 - 키워드 & 요약문 버전 합침

In [None]:
def evaluate_blog_metric(title, date, article, category, blog_post):

    # Combine title, date, and article into a single news string
    news = f"""<뉴스 제목>: {title},
    <뉴스 생성일자>: {date},
    <뉴스 본문>: {article}"""

    # Determine keywords based on category
    if category == "지연" or category== "연착" :
        keywords = ["지연/사고 일시", "지연/사고 노선", "지연/사고 이유"]
    elif category == "파업 ":
        keywords = ["파업 일시", "파업 노선", "파업 이유"]
    else:
        keywords = ["시간표 변경 일시", "변경된 시간표", "변경 이유"]

    # Calculate the keyword-based metric
    matches = sum(1 for keyword in keywords if keyword in blog_post)
    rouge_keyword = matches / len(keywords)

    # Generate summaries for reference and generated content
    summarizer_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are talented at summarizing text without missing any important information."),
        ("user", "Read this article and summarize in 3-5 sentences ONLY in Korean. Article: {article}, Summary :")
    ])

    summarize_chain = summarizer_prompt | llm | output_parser
    reference = summarize_chain.invoke({"article": news})
    generated = summarize_chain.invoke({"article": blog_post})

    # Calculate the ROUGE score for summaries
    scorer = rouge_scorer.RougeScorer(['rouge1'], use_stemmer=True)
    rouge_summary = scorer.score(reference, generated)

    return rouge_keyword, rouge_summary['rouge1'].recall

### 📌 QGQA 코드

In [None]:
# QGQA를 위한 프롬프트 정의
# PROMPT1 - 뉴스 기반 질문 생성
qgqa_prompt_1 = ChatPromptTemplate.from_messages([
    ("system", """You are an AI trained to generate insightful questions from a given article."""),
    ("user", """
    1. Read the article about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    8. Create 2 questions to identify the main points of the news (date of the incident, subway line of the incident). The questions should be 5-way multiple choice questions where you have to choose one of the choices from 1 to 5. One of the options must be “Unknown” and the selection for the “Date of Event” question must be in the format 2018년 3월 18일. Hint is provided with every questions

    <Example Question>: 'Where did the subway incident occur? (1) Gangnam Station (2) Seongsu Station (3) Suyu Station (4) Ankguk Station (5) Unknown)',
    <Example Hint>:''
    News Article= {input}
    """),
    ("system", """Generate 2 questions. All should be in Korean ONLY.

Template:
Question1: {{}},
Hint1: {{}},
Question2: {{}},
Hint2: {{}}""")
])
qgqa_chain_1 = qgqa_prompt_1 | llm | output_parser


# PROMPT2 - 뉴스에 대해 답변 도출
qgqa_prompt_2 = ChatPromptTemplate.from_messages([
    ("system", """You read a news article and answer a question accurately based on what you read."""), # 페르소나 부여
    ("user", """
    You read a news article like this:
    1. Read the article about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    Then you answer a question accurately based on what you read.
    Example= “1번, 5번, 4번”,
    news= {input}
    Questions= {question}
    """),
    ("system", """"Template(MUST FOLLOW): Answer1: {{answer_1}}번, Answer2: {{answer_2}}번""")
])
qgqa_chain_2 = qgqa_prompt_2 | llm | output_parser


# PROMPT3 입력 - 블로그글에 대해 답변 도출
qgqa_prompt_3 = ChatPromptTemplate.from_messages([
    ("system", """You read a blog article and answer a question accurately based on what you read."""), # 페르소나 부여
    ("user", """
    You read a blog article like this:
    1. Read the blog about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    Then you answer a question accurately based on what you read.
    Example= “1번, 5번, 4번”,
    news= {input}
    Questions= {question}
    """),
    ("system", """"Template(MUST FOLLOW): Answer1: {{answer_1}}번, Answer2: {{answer_2}}번""")
])
qgqa_chain_3 = qgqa_prompt_3 | llm | output_parser


# evaluate_blog_qgqa 함수 정의
def evaluate_blog_qgqa(title, date, article, blog_post):

  # news = 제목 + 날짜 + 본문
  news = f"""<뉴스 제목>: {title},
  <뉴스 생성일자>: {date},
  <뉴스 본문>: {article}"""

  # qgqa
  question_list = qgqa_chain_1.invoke({"input": news})
  answer_list_news = qgqa_chain_2.invoke({"input": news, "question": question_list})
  answer_list_blog = qgqa_chain_3.invoke({"input": blog_post, "question": question_list})
  return answer_list_news == answer_list_blog, question_list, answer_list_news, answer_list_blog

### 📌G-EVAL 코드

In [None]:
df_eval=pd.read_csv("GEVAL.csv",index_col="Unnamed: 0")
eval_dic = {'Cosistency': df_eval.iloc[0,0], 'Human_Likeness':df_eval.iloc[1,0], 'Coherence':df_eval.iloc[1,0], 'Blog':df_eval.iloc[1,0], 'Fluency':df_eval.iloc[1,0]}
eval=[df_eval.iloc[0,0],df_eval.iloc[1,0],df_eval.iloc[2,0],df_eval.iloc[3,0],df_eval.iloc[4,0]]

In [None]:
def evaluate_blog(blog_post, evaluation_prompt, source=None):

    evaluation_result = ""

    # 정확성 이외 평가 (source 필요 없음)
    if source==None:
        prompt = ChatPromptTemplate.from_messages([
        ("system", evaluation_prompt),
        ("user", "{input}")
        ])
        chain=prompt|llm|output_parser
        evaluation_result = chain.invoke({"input": f"blog content: {blog_post}"})


    # 정확성 평가 (source 필요)
    if source is not None:
        prompt = ChatPromptTemplate.from_messages([
        ("system", evaluation_prompt),
        ("user", "{input}")
        ])
        chain = prompt | llm | output_parser
        evaluation_result=chain.invoke({"input": "blog content:"+blog_post+"article, source:"+source})
    return evaluation_result

## 📌 평가지표 코드 병합 및 적용

In [None]:
# 최종 평가 함수
def evaluation_total(title, date, article, category, blog_post):
    # news = 제목 + 날짜 + 본문
    news = f"""<뉴스 제목>: {title},
   <뉴스 생성일자>: {date},
   <뉴스 본문>: {article}"""

    # Step 1(메트릭)
    metric_result = evaluate_blog_metric(title, date, article, category, blog_post)
    if not metric_result[0] == 1:
        return f'Fail(Metric keyword: {metric_result[0]})'

    #if metric_result[1] < 0.2:
    #    return f'Fail(Metric summary: {metric_result[0]})'

    # Step 2(QGQA)
    qgqa_result = evaluate_blog_qgqa(title, date, article, blog_post)
    if qgqa_result[0] != True:
        return f'''Fail(QGQA: {qgqa_result[1]},
        {qgqa_result[2]},
         {qgqa_result[3]})'''

    # Step 3(G-EVAL)
    scores = []
    for i in list(eval_dic.items()):
        if i[0] == 'Cosistency':
            
            score = evaluate_blog(blog_post, i[1], source=news)
            pattern = r"Scores\(SCORE ONLY\): (\d+)"
            match = re.search(pattern, score)
            if match:
                consistency_score = int(match.group(1))
                scores.append(consistency_score)
            else:
                return "No Consistency score found."
        else:
            score = evaluate_blog(blog_post, i[1])
            pattern = r"Scores \(SCORE ONLY\): (\d+)"
            match = re.search(pattern, score)
            if match:
                scores_score = float(match.group(1))
                scores.append(scores_score)
            else:
                return "No Scores (SCORE ONLY) score found."

        if scores[0] <= 4:
            return 'Fail(G-EVAL: Accuracy)'
        if not all(score >= 3 for score in scores[1:5]):
            return 'Fail(G-EVAL: etc)'

    return True # 모든 조건 통과시 True

In [None]:
df

Unnamed: 0,url,title,authors,publish_date,text,category,is_relevant,indexed_title
1,https://www.redaily.co.kr/news/articleView.htm...,[소통열차] 열차가 지연되는 65가지 이유 (9),[],2024-06-05 11:37:35+09:00,김성호 동양대학교 초빙교수 / 철도경제\n\n[철도경제신문=김성호/동양대학교 초빙교...,지연,True,1: [소통열차] 열차가 지연되는 65가지 이유 (9)
7,https://www.nocutnews.co.kr/news/6156202?utm_s...,청량리-신내 연결 '면목선 경전철' 예타 통과…사업추진 가속도,[Cbs노컷뉴스 장규석 기자],,,사고,True,7: 청량리-신내 연결 '면목선 경전철' 예타 통과…사업추진 가속도
11,https://view.asiae.co.kr/article/2024060514595...,검단신도시 최중심 입지 ‘넥스티엘 애비뉴’ 주목,[],2024-06-05 15:05:00+09:00,최근 몇 년간 분양 시장이 위축된 상황 속에서도 핵심 입지에 위치한 곳들은 여전히 ...,연장,True,11: 검단신도시 최중심 입지 ‘넥스티엘 애비뉴’ 주목


In [None]:
# 최종 함수(evaluation_total) 적용 예시
title = df['title'][1]
date = df['publish_date'][1]
article = df['text'][1]
category = df['category'][1]
blog_post = result["blogtext"]

NameError: name 'result' is not defined

In [None]:
evaluation_total(title, date, article, category, blog_post)

# 이미지 및 카드뉴스 생성

### 📌 정보 추출

extract_info(text,category)
: 발행된 블로그 글과 글의 주제에 따라 날짜와 노선 정보 추출

In [None]:
def extract_info(text, category):
    # 전처리: **과 {{ }} 및 기타 기호 제거
    cleaned_text = re.sub(r'\*\*', '', text)
    cleaned_text = re.sub(r'\{\{|\}\}', '', cleaned_text)
    cleaned_text = re.sub(r': ', '', cleaned_text)
    cleaned_text = re.sub(r'- ', '', cleaned_text)

    if category == "delay":
        # 정규 표현식을 사용하여 지연 정보 추출
        date_pattern1 = r"지연/사고 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"지연/사고 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"지연/사고 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"지연/사고 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"지연/사고 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"지연/사고 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
    elif category == "strike":
        # 정규 표현식을 사용하여 파업 정보 추출
        date_pattern1 = r"파업 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"파업 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"파업 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"파업 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"파업 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"파업 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
    else:
        date_pattern1 = r"변경 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"변경 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"변경 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"변경 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"변경 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"변경 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"

    # 일시 추출
    date_match3 = re.search(date_pattern3, cleaned_text, re.DOTALL)
    if date_match3:
        dates = [date.strip() for date in date_match3.group(1).split('\n')]
    else:
        date_match1 = re.search(date_pattern1, cleaned_text)
        date_match2 = re.search(date_pattern2, cleaned_text)
        if date_match1:
            dates = [date_match1.group(1)]
        elif date_match2:
            dates = [date_match2.group(1)]
        else:
            dates = ["날짜 정보 없음"]
    
    # 노선 추출
    line_match3 = re.search(line_pattern3, cleaned_text, re.DOTALL)
    if line_match3:
        lines = [line.strip() for line in line_match3.group(1).split('\n')]
    else:
        line_match1 = re.search(line_pattern1, cleaned_text)
        line_match2 = re.search(line_pattern2, cleaned_text)
        if line_match1:
            lines = [line_match1.group(1)]
        elif line_match2:
            lines = [line_match2.group(1)]
        else:
            lines = ["노선 정보 없음"]

    # 리스트를 단일 문자열로 변환
    dates_str = ', '.join(dates)
    lines_str = ', '.join(lines)

    # 정보를 딕셔너리로 저장
    info = {
        "date": dates_str,
        "line": lines_str
    }

    return info

### 📌 카드뉴스 생성
- create_card_news(info,category) : 추출된 정보를 이용해 카드뉴스 생성
- make_card_news(text,category) : 정보 추출 및 카드뉴슷 생성

In [None]:
def create_card_news(info,category, width=1080, height=1080):
    # 배경 이미지 로드
    image_path = '이미지생성/지통이최종.png'  # 이미지 경로 설정
    image = Image.open(image_path)
    width, height = image.size
    draw = ImageDraw.Draw(image)


    # 폰트 설정
    font_path = "NanumSquareRoundOTFEB.otf"  # 폰트 경로를 적절하게 설정하세요
    title_font = ImageFont.truetype(font_path, 500)
    tail_font = ImageFont.truetype(font_path, 100)


    # content_font 크기 동적 설정
    content_text_length = max(len(info['date']), len(info['line']))
    print(content_text_length)
    if content_text_length >= 23:
        content_font_size = 150
    elif 19 <= content_text_length < 23:
        content_font_size = 180
    elif 10 <= content_text_length < 19:
        content_font_size = 300
    else:
        content_font_size = 400
        
    content_font = ImageFont.truetype(font_path, content_font_size)


    # 텍스트 그리는 함수
    def draw_text(x, y, text, font, fill="Black"):
        # 텍스트 박스 크기 측정
        text_width, text_height = draw.textbbox((0, 0), text, font=font)[2:]
        # 텍스트 그리기, x 위치를 중앙 조정
        draw.text((x - text_width / 2, y - text_height / 2), text, font=font, fill=fill)

    # 제목과 내용 텍스트 위치
    title_text = {"delay": "지하철 지연", "strike": "지하철 파업", "timetable": "시간표 변경"}.get(category, "정보")
    draw_text(width / 2, height * 0.2, title_text, title_font, fill="White")
    draw_text(width / 2, height * 0.55, info['date'], content_font, fill="Red")
    draw_text(width / 2, height * 0.75, info['line'], content_font, fill="Red")
    draw_text(width / 2, height * 0.925, '오늘의 지하철 소식통', tail_font, fill="White")

    # 텍스트 그리는 함수
    def draw_text(x, y, text, font, fill="White"):
        # 텍스트 박스 크기 측정
        text_width, text_height = draw.textbbox((0, 0), text, font=font)[2:]
        # 텍스트 그리기, x 위치를 중앙 조정
        draw.text((x - text_width / 2, y - text_height / 2), text, font=font, fill=fill)

    # 날짜 정보를 파일 이름으로 사용할 수 있는 형식으로 변환
    date_str = info['date'].replace(' ', '')

    # 이미지 저장 경로 설정 및 보기
    save_path = f"이미지생성/{category}_{date_str}_info.png"
    image.save(save_path)
    image.show()


    
        

In [None]:
# 정보 추출 후 카드뉴스 생성
def make_card_news(text,category):
    info = extract_info(text,category)
    create_card_news(info,category)
        

### 📌 이미지 생성
generate_image : dalle-3를 이용한 긴 글 이미지 생성
- 프롬프트 
1. 이미지 형식 : 사진 또는 만화
2. 문자 없이 생성
3. 배경은 한국
4. 인간에게 위협을 가하는 사진은 묘사 금지
5. 잔인하거나 해로운 장면은 묘사 금지

In [None]:
client= openai.OpenAI(api_key='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')

In [None]:
def generate_image(text, category, date, save_directory="이미지생성"):
    # 이미지 생성을 위한 프롬프트 설정
    prompt = f"""
            Create an image that looks like a real photograph or in a cartoon style based on the text you read.
            The image should not contain any numbers, letters, text, symbols, or characters. 
            All scenarios depicted occurred in South Korea. 
            The image should not depict any scenarios where humans are harmed, threatened, or have their bodies altered in any way. 
            Additionally, the image should not be grotesque or depict anything hateful or offensive: {text}
            """
    # 이미지 생성 요청
    response = client.images.generate(
        model="dall-e-3",
        prompt=prompt,
        size="1024x1024",
        quality="standard",
        n=1,
    )


    # 생성된 이미지의 URL 출력
    image_url = response.data[0].url
    print(image_url)

    # 날짜 정보에서 공백 제거
    date_str = date.replace(' ', '')

    # 이미지 저장 경로 설정
    save_path = f"{save_directory}/{category}_{date_str}_image.png"

    # 이미지 다운로드 및 저장
    response = requests.get(image_url, stream=True)
    if response.status_code == 200:
        with open(save_path, 'wb') as file:
            for chunk in response.iter_content(chunk_size=128):
                file.write(chunk)
        print(f"이미지 다운로드 완료: {save_path}")
    else:
        print(f"이미지 다운로드 실패. HTTP 상태코드: {response.status_code}") 


## 📌 최종 평가 후 이미지 생성

In [None]:
# 최종 평가 후 이미지 및 카드 뉴스 생성 함수
def evaluate_and_create_image(title, date, article, category, blog_post):
    result = evaluation_total(title, date, article, category, blog_post)
    if result == True :
        generate_image(blog_post,category,date)
        make_card_news(blog_post, category)

In [None]:
# evaluate_and_create_image 적용 예시
title = '"인천지하철서 20대 응급환자…시민·공사 직원 합심해 구해'
date = '2024.05.30 14:12'
article = """인천지하철 1호선 객실에서 응급 환자가 발생했지만, 시민과 인천교통공사의 신속한 조치로 소중한 생명을 구했습니다.

그제(28일) 밤 10시 9분쯤 인천교통공사 종합관제실 직원 김성준 씨는 인천1호선 동수역 승강장에 도착한 열차 기관사로부터 객실 안에서 20대 남성 응급환자가 발생했다는 긴박한 연락을 받았습니다.

김 관제사는 즉시 동수역 직원에게 구급장비를 갖고 정차 중인 열차에 출동해 환자를 구하도록 지시했고 때마침 해당 열차 객실에 타고 있던 30대 여성 간호사가 안내방송을 듣고 해당 칸으로 이동해 쓰러져있는 환자에게 심폐소생술을 실시했습니다.

이후 도착한 역 직원과 함께 자동제세동기(AED)를 사용해 응급조치를 실시했지만, 이후에도 상황이 위중하다고 판단해 환자를 승강장으로 이동시키지 않고 열차 안에서 환자 상태를 계속 살폈습니다.

이후 119구급대가 도착해 해당 환자를 병원으로 즉시 이송해 생명을 구했습니다.

인천교통공사는 응급환자에 대한 조치로 13분가량 열차가 지연됐지만, 안내방송과 승객들의 협조로 이와 관련해 단 한 건의 민원도 발생하지 않았다고 밝혔습니다.

인천 1, 2, 7호선 모든 역사에는 자동제세동기(AED)가 설치돼 있습니다.

인천교통공사는 승객의 생명을 구하는데 가장 큰 공을 세우고 홀연히 떠난 시민을 찾아서 감사패를 전달할 예정입니다.
""" # 본문
category = 'delay'
blog_post = """
**영웅들이 함께 만든 기적, 인천 지하철의 감동적인 이야기**

안녕하세요, 여러분의 출퇴근 메신저 지하철 온다의 '오.지.통 [오늘의 지하철 소식통]' 인사 드립니다!

**지연/사고 일시**
2024년 5월 28일 오후 10시 09분

**지연/사고 노선**
인천 1호선

**지연/사고 이유**
응급 환자 발생

**문의 사항 링크**
[인천교통공사 고객센터](https://www.ictr.or.kr/kr/customerService/customerService)

---

안녕하세요, 지하철 이용자 여러분! 오늘은 인천 지하철에서 일어난 감동적인 소식을 전해드리려고 해요. 바로 우리 모두가 히어로가 될 수 있는 순간을 보여준 이야기랍니다.

2024년 5월 28일 저녁 10시 09분, 인천 1호선을 타고 가던 중 한 20대 승객이 갑작스러운 응급 상황에 처하게 되었어요. 이때 승객들은 모두가 한마음이 되어 신속하게 대처했답니다. 특히 현장에 있던 한 간호사분이 바로 심폐소생술을 시작했고, 인천교통공사 직원들이 AED(자동 심장 충격기)를 사용하여 환자의 생명을 구했어요.

이 덕분에 환자는 무사히 병원으로 이송될 수 있었고, 전철은 13분 정도 지연되었지만, 아무도 불평하지 않았어요. 오히려 모든 승객들이 한마음으로 응원하고 지지하는 모습이 정말 인상적이었어요. 인천교통공사에서도 이번 일에 도움을 준 시민에게 감사의 뜻을 전할 예정이라고 해요.

이 사건을 통해 다시 한번 느낀 것은, 우리 모두가 조금만 관심을 가지고 배려하면 큰 기적을 만들 수 있다는 점이에요. 지하철을 이용하는 동안, 우리 주변에 무슨 일이 일어나고 있는지 한 번 더 살펴보는 것도 중요한 것 같아요.

---

오지통이 실시간으로 다양한 지하철 정보를 업데이트할 예정이니, 자주 방문해 주세요.
'지하철 온다'는 단 한 번의 터치로 자신의 위치에서 가장 가까운 지하철 역의 실시간 정보를 제공합니다.

🔽 지하철 온다 소개 보러가기
[지하철 온다 블로그](https://blog.naver.com/subway__onda/223258646349)

지하철 파업으로 아침마다 출근하기 힘드네요, 그렇죠? 그래도 모두 힘내서 파이팅해요!

여러분의 안전과 편안한 지하철 이용을 위해 항상 노력하는 오.지.통이었어요. 다음에 또 만나요!"""

In [None]:
evaluate_and_create_image(title, date, article, category, blog_post)

# 연습

In [None]:
input = title + date + article
blog_post = text_generation(input,category)
evaluate_and_create_image(title, date, article, category, blog_post)

In [None]:
evaluate_and_create_image(title, date, article, category, blog_post)