## 1. 필요 라이브러리 설치
- Newspaper3k와 Selenium을 사용하여 웹 스크래핑을 수행합니다.
- Chromium-browser와 ChromeDriver는 Selenium이 웹 컨텐츠를 효과적으로 스크랩할 수 있도록 합니다.
- OpenAI API와 Langchain을 사용하여 텍스트 생성을 수행합니다.
- Rouge-score는 생성된 텍스트의 품질을 평가하는 데 사용됩니다.


In [1]:
# Upgrade pip and install necessary Python libraries
!pip3 install --upgrade pip
!pip3 install --upgrade newspaper3k selenium chromedriver-autoinstaller webdriver-manager lxml_html_clean openai langchain langchain_openai rouge-score

# Download spaCy Korean model
!python3 -m spacy download ko_core_news_lg

!echo "Installation complete."

Collecting pip
  Downloading pip-24.0-py3-none-any.whl.metadata (3.6 kB)
Downloading pip-24.0-py3-none-any.whl (2.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.3
    Uninstalling pip-23.3:
      Successfully uninstalled pip-23.3
Successfully installed pip-24.0
Collecting chromedriver-autoinstaller
  Downloading chromedriver_autoinstaller-0.6.4-py3-none-any.whl.metadata (2.1 kB)
Collecting openai
  Downloading openai-1.33.0-py3-none-any.whl.metadata (21 kB)
Collecting langchain
  Downloading langchain-0.2.3-py3-none-any.whl.metadata (6.9 kB)
Collecting langchain_openai
  Downloading langchain_openai-0.1.8-py3-none-any.whl.metadata (2.5 kB)
Collecting langchain-core<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_core-0.2.5-py3-none-any.whl.metadata (5.8 kB)
Collecting langchain-t

# 2. 라이브러리 불러오기
웹 스크래핑 및 텍스트 생성에 필요한 라이브러리를 임포트합니다.

In [1]:
import requests
from bs4 import BeautifulSoup
from newspaper import Article
from datetime import datetime
import pandas as pd
import numpy as np
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By

In [2]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import (
    ChatPromptTemplate,
    MessagesPlaceholder,
    SystemMessagePromptTemplate,
    HumanMessagePromptTemplate,
)
from langchain.memory import ConversationSummaryBufferMemory
from langchain.chains import LLMChain
from langchain.memory import ConversationBufferMemory
from langchain_core.prompts import ChatPromptTemplate
import getpass
import os
from langchain_openai import ChatOpenAI
import pandas as pd
from langchain_core.output_parsers import StrOutputParser
output_parser = StrOutputParser()
from rouge_score import rouge_scorer
import re
import requests
import openai
from PIL import Image, ImageDraw, ImageFont


# 3 데이터 수집 및 전처리 - knowledge generation

## 1) 뉴스 URL 가져오기
- 네이버 뉴스에서 주어진 검색어로 뉴스 기사의 URL을 가져옵니다.

In [553]:
def get_news_urls(query):
    # 오늘 날짜 형식 생성
    #today = datetime.now().strftime('%Y.%m.%d.')
    #today_filter = datetime.now().strftime('%Y%m%d')
    today='24.06.06'
    today_filter='240606'

    # '1일' 필터를 적용한 검색 URL
    search_url = f"https://search.naver.com/search.naver?where=news&query={query}&sort=1&ds={today}&de={today}&nso=so%3Ar%2Cp%3Afrom{today_filter}to{today_filter}"

    response = requests.get(search_url, headers={'User-agent': 'Mozilla/5.0'})
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        
        news_urls = []
        for news_area in soup.find_all('div', class_='news_area'):
            # 기사 URL 추출
            title_element = news_area.find('a', class_='news_tit')
            # 날짜 정보 추출
            date_element = news_area.find('span', class_='info')
            
            if title_element and date_element and (today in date_element.text or '시간 전' in date_element.text or '분 전' in date_element.text):
                news_urls.append(title_element['href'])
        
        return news_urls
    else:
        print("Failed to fetch news URLs")
        return []

## 2)뉴스 기사 스크래핑
- 추출한 URL에서 뉴스 기사의 세부 정보를 스크래핑합니다.

In [554]:
def scrape_news_articles(news_urls):
    articles_data = []
    for url in news_urls:
        try:
            article = Article(url)
            article.download()
            article.parse()
            articles_data.append({
                'url': url,
                'title': article.title,
                'authors': article.authors,
                'publish_date': article.publish_date,
                'text': article.text
            })
        except Exception as e:
            print(f"Failed to scrape article from {url}: {e}")
    return articles_data


## 3)  메인 스크립트
- 뉴스 기사를 검색하고 스크래핑하여 데이터프레임으로 저장합니다. Selenium을 사용하여 추가 데이터를 수집합니다.



In [555]:
if __name__ == "__main__":
    queries = ["서울 지하철 파업", "서울 지하철 연착", "서울 지하철 지연", "서울 지하철 사고", "서울 지하철 연장"]
    all_articles_data = []
    for query in queries:
        news_urls = get_news_urls(query)
        articles_data = scrape_news_articles(news_urls)
        for article_data in articles_data:
            article_data['category'] = query.split(" ")[-1]
        all_articles_data.extend(articles_data)
    df = pd.DataFrame(all_articles_data)
    df = df.replace('', np.nan)

    # Selenium 설정 및 데이터 추가 수집
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--disable-gpu')
    chrome_options.add_argument('--remote-debugging-port=9222')  # This can help avoid some common errors
    service = Service(ChromeDriverManager().install())
    driver = webdriver.Chrome(service=service, options=chrome_options)
    
    for index, row in df.iterrows():
        if pd.isna(row['text']) or len(row['text']) < 200:
            try:
                driver.get(row['url'])
                try:
                    fetched_text = WebDriverWait(driver, 10).until(
                        EC.presence_of_element_located((By.ID, 'pnlContent'))
                    ).text
                except (NoSuchElementException, TimeoutException):
                    try:
                        fetched_text = WebDriverWait(driver, 10).until(
                            EC.presence_of_element_located((By.TAG_NAME, 'article'))
                        ).text
                    except (NoSuchElementException, TimeoutException):
                        try:
                            fetched_text = WebDriverWait(driver, 10).until(
                                EC.presence_of_element_located((By.CLASS_NAME, 'view_cont'))
                            ).text
                        except (NoSuchElementException, TimeoutException):
                            try:
                                fetched_text = WebDriverWait(driver, 10).until(
                                    EC.presence_of_element_located((By.CLASS_NAME, 'article_body'))
                                ).text
                            except (NoSuchElementException, TimeoutException):
                                try:
                                    fetched_text = WebDriverWait(driver, 10).until(
                                        EC.presence_of_element_located((By.CLASS_NAME, 'article-body'))
                                    ).text
                                except (NoSuchElementException, TimeoutException):
                                    fetched_text = ""
                df.at[index, 'text'] = fetched_text
            except Exception as e:
                print(f"Error fetching article from {row['url']}: {e}")
    
    driver.quit()


## 4) KBS 뉴스 제목 수정
Selenium을 사용하여 KBS 뉴스의 제목을 실제 제목으로 업데이트합니다.

In [556]:
chrome_options = Options()
chrome_options.add_argument('--headless')  # 창 없는 모드
chrome_options.add_argument('--no-sandbox')  # 샌드박스 사용 안 함
chrome_options.add_argument('--disable-dev-shm-usage')  # /dev/shm 사용 안 함
chrome_options.add_argument('--disable-gpu')  # GPU 가속 사용 안 함
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 이미지 로드 안 함

service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service, options=chrome_options)
driver.set_page_load_timeout(30)  # 페이지 로딩 타임아웃 30초 설정

try:
    for index,row in df.iterrows():
        if row['title'] == 'KBS 뉴스':
            driver.get(row['url'])
            try:
                # 요소가 화면에 보일 때까지 기다린 후 해당 요소를 찾아 텍스트를 추출
                element = WebDriverWait(driver, 10).until(
                    EC.visibility_of_element_located((By.CSS_SELECTOR, "h4.headline-title"))
                    )
                real_title = element.text
                df.at[index, 'title'] = real_title  # 실제 제목으로 업데이트
            except (NoSuchElementException, TimeoutException, WebDriverException) as e:
                print(f"An error occurred for URL {row['url']}: {e}")
finally:
    driver.quit()  # 드라이버 종료

# 3. 데이터 확인

In [557]:
df.shape

(10, 6)

In [558]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype                                
---  ------        --------------  -----                                
 0   url           10 non-null     object                               
 1   title         10 non-null     object                               
 2   authors       10 non-null     object                               
 3   publish_date  10 non-null     datetime64[ns, tzoffset(None, 32400)]
 4   text          10 non-null     object                               
 5   category      10 non-null     object                               
dtypes: datetime64[ns, tzoffset(None, 32400)](1), object(5)
memory usage: 612.0+ bytes


In [559]:
df.head(50)

Unnamed: 0,url,title,authors,publish_date,text,category
0,https://www.naeil.com/news/read/512728?ref=naver,물가급등세 꺾였다는데 장바구니 물가는 여전히 고공행진,[],2024-06-07 13:00:00+09:00,"체감물가 높은 ‘합리적 이유’ 있었다 외식물가, 3년 연속 전체물가 웃돌아 정부는 ...",지연
1,https://idsn.co.kr/news/view/1065574482523067,[7일 오늘의 사건사고 ①]경남 김해시 진례면 한 양계장서 화재 등,[],2024-06-07 10:35:05+09:00,​[매일안전신문=김진섭 기자]7일 경남 김해시 진례면 한 양계장에서 화재가 발생한 ...,사고
2,https://imnews.imbc.com/replay/2024/nw930/arti...,병원 건물 화재 50명 대피‥청량리역 대피 소동,[],2024-06-07 09:37:38+09:00,"전체재생\n\n◀ 앵커 ▶오늘 새벽 서울 금천구의 한 병원 건물에서 불이 나, 약 ...",사고
3,https://news.sbs.co.kr/news/endPage.do?news_id...,병원 건물서 한밤중 화재…환자·의료진 등 50여 명 대피,[조윤하 기자],2024-06-07 07:45:00+09:00,"<앵커>\n\n\n\n오늘(7일) 새벽 서울의 한 병원에서 불이 나, 환자와 의료진...",사고
4,http://news.lghellovision.net/news/articleView...,"또 미뤄진 5호선 연장, 무산 우려 확산",[],2024-06-07 15:42:58+09:00,[앵커]\n\n5월 중 발표 예정이던 서울 지하철 5호선 연장안이 지자체 간 합의 ...,연장
5,https://www.dailian.co.kr/news/view/1369420/?s...,"[단독] 김포·검단 5호선 연장 노선 ‘또’ 불발, 대광위 “연말까지는 한다”",[],2024-06-07 13:03:00+09:00,올해 1월 중재안 내놨는데…인천·김포 협의 지지부진 시민단체와 면담한 대광위원장 “...,연장
6,https://www.naeil.com/news/read/512728?ref=naver,물가급등세 꺾였다는데 장바구니 물가는 여전히 고공행진,[],2024-06-07 13:00:00+09:00,"체감물가 높은 ‘합리적 이유’ 있었다 외식물가, 3년 연속 전체물가 웃돌아 정부는 ...",연장
7,https://www.getnews.co.kr/news/articleView.htm...,수요자들 사로잡는 직주근접 아파트 '해링턴 스퀘어 신흥역',[],2024-06-06 09:20:24+09:00,최근 수도권은 물론 전국적으로 분양시장이 침체한 가운데에도 직주근접성이 우수한 단지...,연장
8,https://www.greened.kr/news/articleView.html?i...,경기북부 출퇴근길 단축...집값 들썩이나,[],2024-06-07 08:46:04+09:00,경기북부·서울 잇는 대중교통 확충\n\n고금리 탓 단기간 집값 상승 어려워\n\n서...,연장
9,https://www.dailian.co.kr/news/view/1368885/?s...,“6월 외식물가 어쩌나”…줄줄이 오름세 속 농산물·기름값 변수 여전,[],2024-06-07 06:46:00+09:00,소비자물가 둔화했지만 체감물가는 상승 공공요금‧국제유가 하반기 최대 복병 작용 물가...,연장


# 4. 데이터 선택 - knowledge selection
- publish_date의 null 값 처리를 위해 한번더 selenium 진행

In [4]:
!pip install spacy

Collecting spacy
  Downloading spacy-3.7.5-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (27 kB)
Collecting spacy-legacy<3.1.0,>=3.0.11 (from spacy)
  Downloading spacy_legacy-3.0.12-py2.py3-none-any.whl.metadata (2.8 kB)
Collecting spacy-loggers<2.0.0,>=1.0.0 (from spacy)
  Downloading spacy_loggers-1.0.5-py3-none-any.whl.metadata (23 kB)
Collecting murmurhash<1.1.0,>=0.28.0 (from spacy)
  Downloading murmurhash-1.0.10-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.0 kB)
Collecting cymem<2.1.0,>=2.0.2 (from spacy)
  Downloading cymem-2.0.8-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.4 kB)
Collecting preshed<3.1.0,>=3.0.2 (from spacy)
  Downloading preshed-3.0.9-cp311-cp311-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (2.2 kB)
Collecting thinc<8.3.0,>=8.2.2 (from spacy)
  Downloading thinc-8.2.4-cp311-cp311-manylinux_2_17_x86_

In [5]:
!pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.6/60.6 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.3/13.3 MB[0m [31m8.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hDownloading scipy-1.13.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (38.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m38.6/38.6 MB[0m [31m5.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hD

In [6]:
!python3 -m spacy download ko_core_news_lg

Collecting ko-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ko_core_news_lg-3.7.0/ko_core_news_lg-3.7.0-py3-none-any.whl (230.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m230.9/230.9 MB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Installing collected packages: ko-core-news-lg
Successfully installed ko-core-news-lg-3.7.0
[0m[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ko_core_news_lg')


In [563]:
import spacy
import pandas as pd
import torch
from transformers import BertModel, BertTokenizer
from sklearn.metrics.pairwise import cosine_similarity

# Load the Korean model from spaCy
nlp = spacy.load('ko_core_news_lg')

# Load KoBERT model and tokenizer
tokenizer = BertTokenizer.from_pretrained('monologg/kobert')
model = BertModel.from_pretrained('monologg/kobert')

# Define related and action words
related_words = [
    "지하철", "교통", "운행", "노선", "승객", "출근", "전철", "메트로", "지하철역", "승강장", "지하철차량",
    "대중교통", "교통체계", "교통망", "환승", "전용차선","사고",
]

action_words = [
    "파업", "지연", "연착", "중단", "정지", "혼잡", "운행지연", "운행중단", "서비스중단", "파업예고",
    "노동쟁의", "노조활동", "노사협상", "안전점검", "사고", "충돌", "부상", "사망", "운행변경",
    "노선변경", "시간표변경", "대체교통", "운행재개", "시위","대피"
]

# Function to check dependency and entities
def check_dependency_and_entities(text):
    doc = nlp(text)
    for token in doc:
        if token.lemma_ in action_words:
            neighborhood = list(token.children) + list(token.ancestors) + list(token.subtree)
            for neighbor in neighborhood:
                if neighbor.lemma_ in related_words:
                    if any(child.dep_ == "neg" for child in neighbor.children):
                        continue
                    return True
                if neighbor.pos_ in ["ADP", "SCONJ"]:
                    connected_words = [child.lemma_ for child in neighbor.children]
                    if set(connected_words).intersection(related_words):
                        return True
    return False

# Function to get BERT embeddings
def get_bert_embedding(text):
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)
    outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).detach().numpy()

# Function to check topic relevance using BERT embeddings
def check_topics(text, reference_texts):
    text_embedding = get_bert_embedding(text)
    reference_embeddings = [get_bert_embedding(ref) for ref in reference_texts]
    similarities = [cosine_similarity(text_embedding, ref_emb)[0][0] for ref_emb in reference_embeddings]
    return max(similarities) > 0.8  # Adjusted threshold for relevance

# Load your dataframe (assuming df is already defined and has a 'text' column)
reference_texts = [
    "지하철 파업으로 인한 운행 중단",
    "지하철 사고 발생",
    "지하철 연착 문제",
    "지하철 노선 변경",
    "지하철 운행 재개",
    "지하철 서비스 중단",
    "지하철 안전 점검",
    "지하철 충돌 사고",
    "지하철 승객 혼잡",
    "지하철 출근 시간 문제",
    "지하철 노조 파업",
    "지하철 운행 변경",
    "지하철 대체 교통"
]

# Check if the document is relevant
def is_relevant_document(title):
    return check_dependency_and_entities(title) or check_topics(title, reference_texts)

# Assuming df is already defined and has a 'title' column
df['is_relevant'] = df['title'].apply(is_relevant_document)
df = df[df['is_relevant']]


In [8]:
# API 키가 저장된 파일 경로
api_key_file = 'api_key.txt'

# 파일에서 API 키를 읽어 환경 변수에 저장
with open(api_key_file, 'r') as file:
    api_key = file.read().strip()
    os.environ["OPENAI_API_KEY"] = api_key

# OpenAI API를 사용할 준비
from langchain_openai import ChatOpenAI
llm = ChatOpenAI(model="gpt-4o")

In [17]:
df['indexed_text'] = df.index.astype(str) + ": " + df['text']
titles = "\n".join(df['indexed_text'].tolist())
prompt = f"""
해당 기사 중에서 핵심 주제가 지하철 파업, 지연, 연착, 사고, 노선 연장인 기사들만 뽑아서 행 인덱스 번호만 나열해줘:
{titles}
"""
newsprompt = ChatPromptTemplate.from_template(prompt)
newschain = newsprompt | llm | output_parser
news_output1 = newschain.invoke({"titles": titles})

NameError: name 'df' is not defined

In [566]:
news_output1

'1, 2, 3, 4, 8'

# 5. 데이터 추출 - knowledge injection

In [567]:
# 문자열을 리스트로 변환
indices = [int(x.strip()) for x in news_output1.split(',')]

# Step 2: Filter valid indices
valid_indices = [i for i in indices if i < len(df)]

# Step 3: Extract the corresponding rows from the DataFrame
df = df.iloc[valid_indices]

# Step 4: Reset the index of the resulting DataFrame
df = df.reset_index(drop=True)

# 6. 텍스트 주입 - text injection

### 1) 지연/파업 템플릿 불러오기

In [3]:
template=pd.read_csv("template.csv")
delay_template=template.loc[0,"template"]
strike_template=template.loc[1,"template"]
timetable_template=template.loc[2,"template"]
extension_template=template.loc[3,"template"]

### 2) Text_generation 함수

여러 뉴스기사 발행할때는 memory.clear() 필수

재작성 파이프라인을 만들기 위해 memory.clear 주석처리하였음. -06/08

In [4]:
def text_generation(source_content,category):
    #지연
    if category=="지연" or category =="연착" or category=="사고":
        prompt_template=delay_template
        chain_lst=["지연/사고 일시","지연/사고 노선","지연/사고 이유"]
    #파업
    elif category=="파업":
        prompt_template=strike_template
        chain_lst=["파업 일시","파업 노선","파업 이유"]

    #연장
    elif category =="연장":
        prompt_template=extension_template
        chain_lst=["연장 노선"]

    # 시간표변경
    elif category == "시간표 변경":
        prompt_template = timetable_template  
        
        # prompt_template을 바로 사용하여 결과 생성
        timeprompt = ChatPromptTemplate.from_template(prompt_template)
        timechain = LLMChain(llm=llm, prompt=timeprompt)
        response = timechain(source_content)
        return response["text"]    

    
    prompt = ChatPromptTemplate(
    template=prompt_template,
    messages=[
    SystemMessagePromptTemplate.from_template(
    """Objective:
    Learn subway information through chaining and use that information to write a coherent and informative blog post using a template.
    Basic Setting
    Your name is Jitong.
    You are a subway information supporter and a Naver Blog Power Blogger.
    You are well-informed about information and value communication with readers.
    Your goal is to help subway users by providing accurate and practical information for convenient and safe subway use.
    
    Features and Activities
    You read the latest news related to subway """+ category+""", and write blog posts to accurately deliver these in a readable and high-quality manner to readers.
    You alleviate readers' inconveniences and speak empathetically through the blog, understanding the sentiments of subway users.
    
    Communication Style
    You use professional yet warm and easy-to-understand language.
    You emphasize the ability to explain things in a way that is accessible to all age groups.
    Your blog posts should end with the forms -어요, -이에요/예요, -(이)여요, -(이)요.
    
    Hallucination
    You always generate blog posts based on verifiable factual statements.
    You speak mainly about factual information related to subways and do not add information about subways on your own.
    """
    ),
    # The `variable_name` here is what must align with memory
    MessagesPlaceholder(variable_name="chat_history"),
    HumanMessagePromptTemplate.from_template("{question}")
    ]
    )
    
    memory = ConversationSummaryBufferMemory(llm=llm, max_token_limit=100,memory_key="chat_history", return_messages=True)
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    #정보학습
    conversation({"question":"subway strike information(article) :"+source_content+ " Just REVIEW subway " +category+ " information"})
    #정보학습 - 체이닝 : chain_lst -> 일시, 노선, 이유
    for i in chain_lst:
        r=conversation({"question":"Using the provided information \n write "+i+":"})
    #글작성 - 체이닝 -> 정확성
    conversation({"question":"블로그 글 작성해줘"})
    conversation({"question":"1. 뉴스기사의 내용을 학습해 2. 뉴스 기사의 일시, 노선, 이유를 학습해 3. 학습한 뉴스기사와 블로그글을 비교해 4.블로그 글에 틀린 정보가 있다면 수정해 뉴스기사: "+source_content+"블로그 글 :"})
    #글 작성 - 템플릿
    result=conversation({"question":prompt_template})
    memory.clear()
    return result["text"],memory,prompt


# 템플릿 평가

### 📌 Metric 코드 - 키워드 & 요약문 버전 합침

In [5]:
def evaluate_blog_metric(title, date, article, category, blog_post):

    # Combine title, date, and article into a single news string
    news = f"""<뉴스 제목>: {title},
    <뉴스 생성일자>: {date},
    <뉴스 본문>: {article}"""

    # Determine keywords based on category
    if category == "지연" or category== "연착" or category=="사고":
        keywords = ["지연/사고 일시", "지연/사고 노선"]
    elif category == "파업 ":
        keywords = ["파업 일시", "파업 노선", "파업 이유"]
    elif category ==  "연장":
        keywords= ["연장 노선"]
    else:
        keywords = ["시간표 변경 일시", "변경된 시간표", "변경 이유"]

    # Calculate the keyword-based metric
    matches = sum(1 for keyword in keywords if keyword in blog_post)
    rouge_keyword = matches / len(keywords)

    # Generate summaries for reference and generated content
    summarizer_prompt = ChatPromptTemplate.from_messages([
        ("system", "You are talented at summarizing text without missing any important information."),
        ("user", "Read this article and summarize in 3-5 sentences ONLY in Korean. Article: {article}, Summary :")
    ])

    summarize_chain = summarizer_prompt | llm | output_parser
    reference = summarize_chain.invoke({"article": news})
    generated = summarize_chain.invoke({"article": blog_post})

    # Calculate the ROUGE score for summaries
    scorer = rouge_scorer.RougeScorer(['rouge1'], use_stemmer=True)
    rouge_summary = scorer.score(reference, generated)

    return rouge_keyword, rouge_summary['rouge1'].recall

### 📌 QGQA 코드

- 0608 수정 qgqa 오답일 경우 정답 추출

In [31]:
# QGQA를 위한 프롬프트 정의
# PROMPT1 - 뉴스 기반 질문 생성
qgqa_prompt_1 = ChatPromptTemplate.from_messages([
    ("system", """You are an AI trained to generate insightful questions from a given article."""),
    ("user", """
    1. Read the article about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    8. Create 2 questions to identify the main points of the news (date of the incident, subway line of the incident). The questions should be 5-way multiple choice questions where you have to choose one of the choices from 1 to 5. One of the options must be “Unknown” and the selection for the “Date of Event” question must be in the format 2018년 3월 18일. Hint is provided with every questions

    <Example Question>: 'Where did the subway incident occur? (1) Gangnam Station (2) Seongsu Station (3) Suyu Station (4) Ankguk Station (5) Unknown)',
    <Example Hint>:''
    News Article= {input}
    """),
    ("system", """Generate 2 questions. All should be in Korean ONLY.

Template:
Question1: {{}},
Hint1: {{}},
Question2: {{}},
Hint2: {{}}""")
])
qgqa_chain_1 = qgqa_prompt_1 | llm | output_parser


# PROMPT2 - 뉴스에 대해 답변 도출
qgqa_prompt_2 = ChatPromptTemplate.from_messages([
    ("system", """You read a news article and answer a question accurately based on what you read."""), # 페르소나 부여
    ("user", """
    You read a news article like this:
    1. Read the article about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    Then you answer a question accurately based on what you read.
    Example= “1번, 5번, 4번”,
    news= {input}
    Questions= {question}
    """),
    ("system", """"Template(MUST FOLLOW): Answer1: {{answer_1}}번, Answer2: {{answer_2}}번""")
])
qgqa_chain_2 = qgqa_prompt_2 | llm | output_parser


# PROMPT3 입력 - 블로그글에 대해 답변 도출
qgqa_prompt_3 = ChatPromptTemplate.from_messages([
    ("system", """You read a blog article and answer a question accurately based on what you read."""), # 페르소나 부여
    ("user", """
    You read a blog article like this:
    1. Read the blog about current Seoul subway news.
    2. Find out what is the main incident related with subway in the article.
    3. Find the date that this article was issued
    4. Find every date-related expression in the article.
    5. Compare 3 and 4, and find out the date the incident was occured.
    6. Find every expression related to line of subway in the article.
    7. Find out which line the incident is about.
    Then you answer a question accurately based on what you read.
    Example= “1번, 5번, 4번”,
    news= {input}
    Questions= {question}
    """),
    ("system", """"Template(MUST FOLLOW): Answer1: {{answer_1}}번, Answer2: {{answer_2}}번""")
])
qgqa_chain_3 = qgqa_prompt_3 | llm | output_parser

# evaluate_blog_qgqa 함수 정의
def evaluate_blog_qgqa(title, date, article, blog_post):
    
    # news = 제목 + 날짜 + 본문
    news = f"""<뉴스 제목>: {title},
    <뉴스 생성일자>: {date},
    <뉴스 본문>: {article}"""
    
    # qgqa
    question_list = qgqa_chain_1.invoke({"input": news})
    answer_list_news = qgqa_chain_2.invoke({"input": news, "question": question_list})
    answer_list_blog = qgqa_chain_3.invoke({"input": blog_post, "question": question_list})
    #Answer1: 3번 ->3 패턴
    pattern_answer2 = r"Answer2:\s*(\d+)번"
    pattern_answer1 = r"Answer1:\s*(\d+)번"
    # 번호 추출하기
    match_news_answer_date=re.search(pattern_answer1,answer_list_news).group(1).strip()
    match_news_answer_line=re.search(pattern_answer2,answer_list_news).group(1).strip()
    match_blog_answer_date=re.search(pattern_answer1,answer_list_blog).group(1).strip()
    match_blog_answer_line=re.search(pattern_answer2,answer_list_blog).group(1).strip()
    
    #정답 return True
    if (match_news_answer_date==match_blog_answer_date) and (match_news_answer_line==match_blog_answer_line):
        return True
    #모두 오답
    elif match_news_answer_date!=match_blog_answer_date and match_news_answer_line!=match_blog_answer_line:
        # 뉴스 답변 추출
        num1=int(match_news_answer_date)
        num2=num1+1
        # 동적으로 뉴스 답변 텍스트 추출
        pattern_q1 = r"Question1: '.*?\(1\)(.*?)\(2\)"
        match_q1 = re.search(pattern_q1, question_list, re.DOTALL)
        if match_q1:
            match_q1_text =match_q1.group(1).strip()
        else: #5번 답변일경우
            match_q1_text= "알수없음"
        num1=int(match_news_answer_line)
        num2=num1+1
        pattern_q2 = r"Question2: '.*?\(1\)(.*?)\(2\)"
        match_q2 = re.search(pattern_q2, question_list, re.DOTALL)
        if match_q2:
            match_q2_text = match_q2.group(1).strip()
        else: #5번
            match_q2_text= "알수없음"
        return "발생 일시 "+match_q1_text+" 발생 노선: "+match_q2_text
    #위치 오답, 시각 정답
    elif match_news_answer_line!=match_news_answer_line and match_blog_answer_date==match_news_answer_date:
        num1=int(match_news_answer_line)
        num2=num1+1
        pattern_q2 = r"Question2: '.*?\(1\)(.*?)\(2\)"
        match_q2 = re.search(pattern_q2, question_list, re.DOTALL)
        if match_q2:
            match_q2_text = match_q2.group(1).strip()
        else: #5번
            match_q2_text="알수없음"
        return match_q2_text
    #위치 정답, 시각 오답
    else:
        
        # 뉴스 답변 추출
        num1=int(match_news_answer_date)
        num2=num1+1
        # 동적으로 뉴스 답변 텍스트 추출
        pattern_q1 = r"Question1: '.*?\(1\)(.*?)\(2\)"
        match_q1 = re.search(pattern_q1, question_list, re.DOTALL)
        if match_q1:
            match_q1_text = match_q1.group(1).strip()
        else: #5번 답변일경우
            match_q1_text= " 알수없음"
        return match_q1_text

# 시연용 qgqa코드
 - 기존 코드는 재작성파이프라인을 위해 수정할 내용을 return하였음
 - 시연용 코드는 평가결과를 return함으로써 어디서 오류를 발견해서 평가결과 Fail인지 설명함

In [None]:
def evaluate_blog_qgqa(title, date, article, blog_post):
    
    # news = 제목 + 날짜 + 본문
    news = f"""<뉴스 제목>: {title},
    <뉴스 생성일자>: {date},
    <뉴스 본문>: {article}"""
    
    # qgqa
    question_list = qgqa_chain_1.invoke({"input": news})
    answer_list_news = qgqa_chain_2.invoke({"input": news, "question": question_list})
    answer_list_blog = qgqa_chain_3.invoke({"input": blog_post, "question": question_list})
    #Answer1: 3번 ->3 패턴
    pattern_answer2 = r"Answer2:\s*(\d+)번"
    pattern_answer1 = r"Answer1:\s*(\d+)번"
    # 번호 추출하기
    match_news_answer_date=re.search(pattern_answer1,answer_list_news).group(1).strip()
    match_news_answer_line=re.search(pattern_answer2,answer_list_news).group(1).strip()
    match_blog_answer_date=re.search(pattern_answer1,answer_list_blog).group(1).strip()
    match_blog_answer_line=re.search(pattern_answer2,answer_list_blog).group(1).strip()
    
    #정답 return True
    if (match_news_answer_date==match_blog_answer_date) and (match_news_answer_line==match_blog_answer_line):
        return True
    #모두 오답
    elif match_news_answer_date!=match_blog_answer_date and match_news_answer_line!=match_blog_answer_line:
        # 뉴스 답변 추출
        num1=int(match_news_answer_date)
        num2=num1+1
        # 동적으로 뉴스 답변 텍스트 추출
        pattern_q1 = r"Question1: '.*?\(1\)(.*?)\(2\)"
        match_q1 = re.search(pattern_q1, question_list, re.DOTALL)
        if match_q1:
            match_q1_text =match_q1.group(1).strip()
        else: #5번 답변일경우
            match_q1_text= "알수없음"
        num1=int(match_news_answer_line)
        num2=num1+1
        pattern_q2 = r"Question2: '.*?\(1\)(.*?)\(2\)"
        match_q2 = re.search(pattern_q2, question_list, re.DOTALL)
        if match_q2:
            match_q2_text = match_q2.group(1).strip()
        else: #5번
            match_q2_text= "알수없음"
        return f" 뉴스에서의 발생 일시:{match_q1_text},발생 노선:{match_q2_text}와 블로그 내용이 다릅니다."
    #위치 오답, 시각 정답
    elif match_news_answer_line!=match_news_answer_line and match_blog_answer_date==match_news_answer_date:
        num1=int(match_news_answer_line)
        num2=num1+1
        pattern_q2 = r"Question2: '.*?\(1\)(.*?)\(2\)"
        match_q2 = re.search(pattern_q2, question_list, re.DOTALL)
        if match_q2:
            match_q2_text = match_q2.group(1).strip()
        else: #5번
            match_q2_text="알수없음"
        return f"{뉴스에서의 발생 노선은 {match_q2_text}이지만
    #위치 정답, 시각 오답
    else:
        
        # 뉴스 답변 추출
        num1=int(match_news_answer_date)
        num2=num1+1
        # 동적으로 뉴스 답변 텍스트 추출
        pattern_q1 = r"Question1: '.*?\(1\)(.*?)\(2\)"
        match_q1 = re.search(pattern_q1, question_list, re.DOTALL)
        if match_q1:
            match_q1_text = match_q1.group(1).strip()
        else: #5번 답변일경우
            match_q1_text= " 알수없음"
        return match_q1_texta

### 📌G-EVAL 코드

In [33]:
df_eval=pd.read_csv("GEVAL.csv",index_col="Unnamed: 0")
eval_dic = {'Cosistency': df_eval.iloc[0,0], 'Human_Likeness':df_eval.iloc[1,0], 'Coherence':df_eval.iloc[1,0], 'Blog':df_eval.iloc[1,0], 'Fluency':df_eval.iloc[1,0]}
eval=[df_eval.iloc[0,0],df_eval.iloc[1,0],df_eval.iloc[2,0],df_eval.iloc[3,0],df_eval.iloc[4,0]]

# 기사 중 첫번째만 생성 및 평가

In [11]:
def evaluate_blog(blog_post, evaluation_prompt, source=None):

    evaluation_result = ""

    # 정확성 이외 평가 (source 필요 없음)
    if source==None:
        prompt = ChatPromptTemplate.from_messages([
        ("system", evaluation_prompt),
        ("user", "{input}")
        ])
        chain=prompt|llm|output_parser
        evaluation_result = chain.invoke({"input": f"blog content: {blog_post}"})


    # 정확성 평가 (source 필요)
    if source is not None:
        prompt = ChatPromptTemplate.from_messages([
        ("system", evaluation_prompt),
        ("user", "{input}")
        ])
        chain = prompt | llm | output_parser
        evaluation_result=chain.invoke({"input": "blog content:"+blog_post+"article, source:"+source})
    return evaluation_result

## 📌 평가지표 코드 병합 및 적용

In [47]:
# 최종 평가 함수
def evaluation_total(title, date, article, category, blog_post):
    # news = 제목 + 날짜 + 본문
    news = f"""<뉴스 제목>: {title},
   <뉴스 생성일자>: {date},
   <뉴스 본문>: {article}"""

    # Step 1(메트릭)
    metric_result = evaluate_blog_metric(title, date, article, category, blog_post)
    if not metric_result[0] == 1:
        return f'Fail(Metric keyword: {metric_result[0]})'

    #if metric_result[1] < 0.2:
    #    return f'Fail(Metric summary: {metric_result[0]})'


    # Step 2(QGQA)
    #  return answer_list_news == answer_list_blog, question_list, answer_list_news, answer_list_blog
    qgqa_result = evaluate_blog_qgqa(title, date, article, blog_post)
    #오답
    if type(qgqa_result)==type("abc"):
        return qgqa_result
    #정답
    else:
        pass
    # Step 3(G-EVAL)
    for i in list(eval_dic.items()):
        if i[0] == 'Cosistency':
            score = evaluate_blog(blog_post, i[1], source=news)
            pattern = r"Scores\(SCORE ONLY\): (\d+)"
            pattern_reason= r'Reason:(.*)'
            match = re.search(pattern, score)
            match_reason=re.search(pattern_reason, score, re.DOTALL)
            if match:
                consistency_score = int(match.group(1))
                reason=match_reason.group(1).strip()
                if consistency_score  <=4:
                    return f'정보 틀림 {reason}'
                else:
                    pass
            else:
                return "No Consistency score found."
        else:
            score = evaluate_blog(blog_post, i[1])
            pattern = r"Scores \(SCORE ONLY\): (\d+)"
            pattern_reason= r'Reason:(.*)'
            match = re.search(pattern, score)
            match_reason=re.search(pattern_reason, score, re.DOTALL)
            if match:
                scores_score = float(match.group(1))
                resaon=match_reason.group(1).strip()
                if scores_score>=3:
                    pass
                else:
                    return f"정보 틀림 {reason}"
            else:
                return "No Scores (SCORE ONLY) score found."
                
    return True # 모든 조건 통과시 True

# 이미지 및 카드뉴스 생성

### 📌 정보 추출

extract_info(text,category)
: 발행된 블로그 글과 글의 주제에 따라 날짜와 노선 정보 추출

In [82]:
def extract_info(text, category):
    # 전처리: **과 {{ }} 및 기타 기호 제거
    cleaned_text = re.sub(r'\*\*', '', text)
    cleaned_text = re.sub(r'\{\{|\}\}', '', cleaned_text)
    cleaned_text = re.sub(r': ', '', cleaned_text)
    cleaned_text = re.sub(r'- ', '', cleaned_text)

    if category == "지연" or category == "사고" or category =="연착":
        # 정규 표현식을 사용하여 지연 정보 추출
        date_pattern1 = r"지연/사고 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"지연/사고 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"지연/사고 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"지연/사고 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"지연/사고 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"지연/사고 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
    elif category == "파업":
        # 정규 표현식을 사용하여 파업 정보 추출
        date_pattern1 = r"파업 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"파업 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"파업 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"파업 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"파업 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"파업 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
    elif categoty == "연장":
        date_pattern1 = r"연장 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"연장 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"연장 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"연장 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"연장 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"연장 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
    else:
        date_pattern1 = r"변경 일시\s*\n\s*(.+?)(?:\r?\n|$)"
        line_pattern1 = r"변경 노선\s*\n\s*(.+?)(?:\r?\n|$)"
        date_pattern2 = r"변경 일시\s*(.+?)(?:\r?\n|$)"
        line_pattern2 = r"변경 노선\s*(.+?)(?:\r?\n|$)"
        date_pattern3 = r"변경 일시\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"
        line_pattern3 = r"변경 노선\s*\n\s*(.+?)(?=\n\n|\n\s*{{|\n\s*\*\*|$)"

    # 일시 추출
    date_match3 = re.search(date_pattern3, cleaned_text, re.DOTALL)
    if date_match3:
        dates = [date.strip() for date in date_match3.group(1).split('\n')]
    else:
        date_match1 = re.search(date_pattern1, cleaned_text)
        date_match2 = re.search(date_pattern2, cleaned_text)
        if date_match1:
            dates = [date_match1.group(1)]
        elif date_match2:
            dates = [date_match2.group(1)]
        else:
            dates = ["날짜 정보 없음"]
    
    # 노선 추출
    line_match3 = re.search(line_pattern3, cleaned_text, re.DOTALL)
    if line_match3:
        lines = [line.strip() for line in line_match3.group(1).split('\n')]
    else:
        line_match1 = re.search(line_pattern1, cleaned_text)
        line_match2 = re.search(line_pattern2, cleaned_text)
        if line_match1:
            lines = [line_match1.group(1)]
        elif line_match2:
            lines = [line_match2.group(1)]
        else:
            lines = ["노선 정보 없음"]

    # 리스트를 단일 문자열로 변환
    dates_str = ', '.join(dates)
    lines_str = ', '.join(lines)

    # 정보를 딕셔너리로 저장
    info = {
        "date": dates_str,
        "line": lines_str
    }

    return info


### 📌 카드뉴스 생성
- create_card_news(info,category) : 추출된 정보를 이용해 카드뉴스 생성
- make_card_news(text,category) : 정보 추출 및 카드뉴슷 생성

In [81]:
def create_card_news(info,category, width=1080, height=1080):
    # 배경 이미지 로드
    image_path = '이미지생성/지통이최종.png'  # 이미지 경로 설정
    image = Image.open(image_path)
    width, height = image.size
    draw = ImageDraw.Draw(image)


    # 폰트 설정
    font_path = "NanumSquareRoundOTFEB.otf"  # 폰트 경로를 적절하게 설정하세요
    title_font = ImageFont.truetype(font_path, 500)
    tail_font = ImageFont.truetype(font_path, 100)


    # content_font 크기 동적 설정
    content_text_length = max(len(info['date']), len(info['line']))
    print(content_text_length)
    if content_text_length >= 23:
        content_font_size = 150
    elif 19 <= content_text_length < 23:
        content_font_size = 180
    elif 10 <= content_text_length < 19:
        content_font_size = 200
    else:
        content_font_size = 400
        
    content_font = ImageFont.truetype(font_path, content_font_size)


    # 텍스트 그리는 함수
    def draw_text(x, y, text, font, fill="Black"):
        # 텍스트 박스 크기 측정
        text_width, text_height = draw.textbbox((0, 0), text, font=font)[2:]
        # 텍스트 그리기, x 위치를 중앙 조정
        draw.text((x - text_width / 2, y - text_height / 2), text, font=font, fill=fill)

    # 제목과 내용 텍스트 위치
    title_text = {"지연": "지하철 지연", "파업": "지하철 파업", "timetable": "시간표 변경", "사고": "지하철 사고", "연착": "지하철 연착","연장":"지하철 연장"}.get(category, "정보")
    draw_text(width / 2, height * 0.2, title_text, title_font, fill="White")
    draw_text(width / 2, height * 0.55, info['date'], content_font, fill="Red")
    draw_text(width / 2, height * 0.75, info['line'], content_font, fill="Red")
    draw_text(width / 2, height * 0.925, '오늘의 지하철 소식통', tail_font, fill="White")

    # 텍스트 그리는 함수
    def draw_text(x, y, text, font, fill="White"):
        # 텍스트 박스 크기 측정
        text_width, text_height = draw.textbbox((0, 0), text, font=font)[2:]
        # 텍스트 그리기, x 위치를 중앙 조정
        draw.text((x - text_width / 2, y - text_height / 2), text, font=font, fill=fill)

    # 날짜 정보를 파일 이름으로 사용할 수 있는 형식으로 변환
    date_str = info['date'].replace(' ', '')

    # 이미지 저장 경로 설정 및 보기
    save_path = f"이미지생성/{category}_{date_str}_info.png"
    image.save(save_path)
    image.show()


    
        

In [79]:
# 정보 추출 후 카드뉴스 생성
def make_card_news(text,category):
    info = extract_info(text,category)
    create_card_news(info,category)
        

### 📌 이미지 생성
generate_image : dalle-3를 이용한 긴 글 이미지 생성
- 프롬프트 
1. 이미지 형식 : 사진 또는 만화
2. 문자 없이 생성
3. 배경은 한국
4. 인간에게 위협을 가하는 사진은 묘사 금지
5. 잔인하거나 해로운 장면은 묘사 금지

In [16]:
client= openai.OpenAI(api_key='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')

In [17]:
def generate_image(text, category, date, save_directory="이미지생성"):
    # 이미지 생성을 위한 프롬프트 설정
    prompt = f"""
            Create an image that looks like a real photograph or in a cartoon style based on the text you read.
            The image should not contain any numbers, letters, text, symbols, or characters. 
            All scenarios depicted occurred in South Korea. 
            The image should not depict any scenarios where humans are harmed, threatened, or have their bodies altered in any way. 
            Additionally, the image should not be grotesque or depict anything hateful or offensive: {text}
            """
    # 이미지 생성 요청
    response = client.images.generate(
        model="dall-e-3",
        prompt=prompt,
        size="1024x1024",
        quality="standard",
        n=1,
    )


    # 생성된 이미지의 URL 출력
    image_url = response.data[0].url
    print(image_url)


    # 이미지 저장 경로 설정
    save_path = f"{save_directory}/{category}_{date_str}_image.png"

    # 이미지 다운로드 및 저장
    response = requests.get(image_url, stream=True)
    if response.status_code == 200:
        with open(save_path, 'wb') as file:
            for chunk in response.iter_content(chunk_size=128):
                file.write(chunk)
        print(f"이미지 다운로드 완료: {save_path}")
    else:
        print(f"이미지 다운로드 실패. HTTP 상태코드: {response.status_code}") 


## 📌 최종 평가 후 이미지 생성

In [43]:
# 최종 평가 후 이미지 및 카드 뉴스 생성 함수
def evaluate_and_create_image(title, date, article, category, blog_post):
    result = evaluation_total(title, date, article, category, blog_post)
    
    if result == True :
        generate_image(blog_post,category,date)
        make_card_news(blog_post, category)
    else:
        return result

In [598]:
df

Unnamed: 0,url,title,authors,publish_date,text,category,is_relevant,indexed_text
0,https://idsn.co.kr/news/view/1065574482523067,[7일 오늘의 사건사고 ①]경남 김해시 진례면 한 양계장서 화재 등,[],2024-06-07 10:35:05+09:00,​[매일안전신문=김진섭 기자]7일 경남 김해시 진례면 한 양계장에서 화재가 발생한 ...,사고,True,1: ​[매일안전신문=김진섭 기자]7일 경남 김해시 진례면 한 양계장에서 화재가 발...
1,https://imnews.imbc.com/replay/2024/nw930/arti...,병원 건물 화재 50명 대피‥청량리역 대피 소동,[],2024-06-07 09:37:38+09:00,"전체재생\n\n◀ 앵커 ▶오늘 새벽 서울 금천구의 한 병원 건물에서 불이 나, 약 ...",사고,True,"2: 전체재생\n\n◀ 앵커 ▶오늘 새벽 서울 금천구의 한 병원 건물에서 불이 나,..."
2,https://news.sbs.co.kr/news/endPage.do?news_id...,병원 건물서 한밤중 화재…환자·의료진 등 50여 명 대피,[조윤하 기자],2024-06-07 07:45:00+09:00,"<앵커>\n\n\n\n오늘(7일) 새벽 서울의 한 병원에서 불이 나, 환자와 의료진...",사고,True,"3: <앵커>\n\n\n\n오늘(7일) 새벽 서울의 한 병원에서 불이 나, 환자와 ..."
3,http://news.lghellovision.net/news/articleView...,"또 미뤄진 5호선 연장, 무산 우려 확산",[],2024-06-07 15:42:58+09:00,[앵커]\n\n5월 중 발표 예정이던 서울 지하철 5호선 연장안이 지자체 간 합의 ...,연장,True,4: [앵커]\n\n5월 중 발표 예정이던 서울 지하철 5호선 연장안이 지자체 간 ...
4,https://www.dailian.co.kr/news/view/1368885/?s...,“6월 외식물가 어쩌나”…줄줄이 오름세 속 농산물·기름값 변수 여전,[],2024-06-07 06:46:00+09:00,소비자물가 둔화했지만 체감물가는 상승 공공요금‧국제유가 하반기 최대 복병 작용 물가...,연장,True,9: 소비자물가 둔화했지만 체감물가는 상승 공공요금‧국제유가 하반기 최대 복병 작용...


In [35]:
# Extracting the required columns from the DataFrame
title = df['title'][3]
date = df['publish_date'][3]
article = df['text'][3]
category = df['category'][3]

# Convert the date (Timestamp) to a string
date_str = date.strftime('%Y-%m-%d %H:%M:%S')

# Concatenate the strings
input_str = title + date_str + article

# Assuming text_generation and evaluate_and_create_image functions are defined
blog_post = text_generation(input_str, category)
evaluate_and_create_image(title, date_str, article, category, blog_post)

NameError: name 'df' is not defined

In [606]:
evaluate_and_create_image(title, date, article, category, blog_post)

fail


## 실험

In [19]:
# evaluate_and_create_image 적용 예시
title = '서울버스 12년 만에 파업···아침 문자 1통으로 출근길은 혼란'
date = '2024.03.28 04:06'
article = """노사 협상 결렬…12년 만에 총파업

서울시, 출퇴근 시간 지하철 운행 증회

지난 27일 서울 시내의 한 공영차고지에 버스가 주차돼있다. 연합뉴스

서울시내버스 노조가 총파업에 돌입하면서 28일 첫차부터 버스 운행이 중단된다. 서울 지역 버스 파업은 12년 만의 일이다.

서울시버스노동조합(버스노조)과 서울시버스운송사업조합은 전날 오후 3시부터 서울 영등포구 서울지방노동위원회에서 마지막 조정회의를 열었다. 본조정은 노조 측이 제시한 합의 데드라인인 자정까지 성사되지 않아 결렬됐고, 새벽까지 사후조정에 들어갔으나 합의는 이루지 못했다.

핵심 쟁점은 임금 인상률이었다. 노조 측은 시급 12.7% 인상을 요구했으나 사측은 “과도하다”며 받아들이지 않았고, 공무원 임금 인상률 수준인 2.5%를 제시했다. 지노위에서 제시한 6.1% 조정안을 양측이 모두 거부하면서 협상은 결렬됐다.

노조 측이 총파업을 결의하며 협상장을 떠나면서 이날 오전 4시 첫차부터 서울시내 버스(7382대)의 97.6%에 해당하는 7210대가 운행을 멈췄다.

리니지M 사전예약 중
이에 따라 출근길 혼란은 불가피할 전망이다. 서울시는 이날 오전 6시쯤 “시내버스 파업으로 통근, 통학의 불편이 예상됩니다. 도시철도, 무료 셔틀버스, 택시 등 다른 교통수단을 이용해 주시기 바란다”는 재난안전문자를 발송하고 비상수송대책을 가동했다.

우선 파업이 종료될 때까지 지하철은 하루 총 202회를 증회한다. 출퇴근 주요 혼잡시간을 현행보다 연장해 열차 투입을 늘리고, 지하철 막차도 연장해 심야 이동을 지원한다. 오전 7~10시, 오후 6~9시 혼잡시간대 총 77회 운행이 늘어난다. 막차는 종착역 기준 익일 오전 2시까지 연장돼 총 125회 증회한다.

열차 지연과 혼잡이 발생하면 즉시 투입할 수 있도록 비상대기 전동차 14편성도 준비한다. 잠실역·사당역·구로디지털단지역·서울역·강남역 등 혼잡도가 높은 주요 역사 17곳에는 질서유지 인력이 배치될 예정이다.

서울 25개 자치구에서는 무료 셔틀버스를 운행한다. 운행이 중단된 시내버스 노선 중 마을버스가 다니지 않는 지역을 중심으로 지하철역까지 이동이 연계될 수 있도록 119개 노선에 480대가 투입된다. 서울 전역에서 총 4959회 운행되는 셔틀버스는 출퇴근 시간대인 오전 7~9시, 오후 5~7시 집중배차 된다.

또 승용차 함께 타기와 공공자전거 ‘따릉이’ 이용 안내도 강화한다.

서울시는 실무자 간 물밑 접촉을 이어가 노사 합의와 대중교통 정상 운영을 위해 총력을 다하는 한편 파업 장기화에도 대비한다. 시내 초·중·고등학교와 공공기관, 민간기업 등에 등교·출근시간을 1시간 조정해 줄 것을 요청해 이동 수요를 분산할 계획이다.



윤종장 서울시 도시교통실장은 “조속한 시일 내에 원만한 노사 합의를 도출하기 위해 노력할 것”이라며 “가용 가능한 모든 교통수단을 동원해 시민 불편을 최소화하겠다”고 밝혔다.
""" # 본문
category = '파업'

In [25]:
from langchain.callbacks import get_openai_callback

input_str = title + date + article
with get_openai_callback() as cb:
    # Assuming text_generation and evaluate_and_create_image functions are defined
    blog_post,memory,prompt = text_generation(input_str, category)
    
eval=evaluation_total(title, date, article, category, blog_post)
token_usage=cb



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Objective:
    Learn subway information through chaining and use that information to write a coherent and informative blog post using a template.
    Basic Setting
    Your name is Jitong.
    You are a subway information supporter and a Naver Blog Power Blogger.
    You are well-informed about information and value communication with readers.
    Your goal is to help subway users by providing accurate and practical information for convenient and safe subway use.
    
    Features and Activities
    You read the latest news related to subway 파업, and write blog posts to accurately deliver these in a readable and high-quality manner to readers.
    You alleviate readers' inconveniences and speak empathetically through the blog, understanding the sentiments of subway users.
    
    Communication Style
    You use professional yet warm and easy-to-understand language.
    You emphasize the ability to 

In [27]:
print(token_usage)

Tokens Used: 20525
	Prompt Tokens: 14741
	Completion Tokens: 5784
Successful Requests: 14
Total Cost (USD): $0.0


In [52]:
print(blog_post)

### 지하철 파업과 서울시의 대응: 출퇴근길 어쩌나!

#### 안녕하세요, 여러분의 출퇴근 메신저 지하철 온다의 '오.지.통 [오늘의 지하철 소식통]' 인사 드립니다!

최근 서울시에서 발생한 버스 파업으로 인해 많은 시민들이 출퇴근길에 큰 불편을 겪고 있어요. 저도 출근할 때마다 한숨이 절로 나왔답니다. 이번 글에서는 파업의 구체적인 내용과 서울시의 대응 방안, 그리고 여러분이 불편을 최소화할 수 있는 팁을 전해드릴게요.

#### 파업 일시
2023년 10월 1일

#### 파업 노선
서울시 전체 버스 노선

#### 파업 이유
임금 인상 문제로 인한 노동 쟁의

#### 문의 사항 링크
[서울시 교통정보센터](https://traffic.seoul.go.kr)

#### 서울시 버스 파업 상세 정보

2023년 10월 1일부터 서울시 버스 노조가 12년 만에 전면 파업에 돌입했어요. 이번 파업의 주된 이유는 임금 인상을 둘러싼 노동 쟁의입니다. 이에 따라 서울시의 모든 버스 노선이 운행을 멈추게 되었고, 많은 시민들이 출퇴근길에 큰 불편을 겪고 있습니다.

서울시는 시민들의 불편을 최소화하기 위해 여러 가지 긴급 교통 대책을 마련했어요. 우선, 지하철 운행을 대폭 늘리고, 무료 셔틀버스를 운영하고 있어요. 또한, 지하철 운행 시간을 연장하여 늦은 시간에도 이동이 가능하도록 했답니다. 더불어, 시민들에게는 카풀과 공공자전거 이용을 적극 권장하고 있어요.

#### 긴급 대응 방안

서울시는 시민들의 불편을 덜기 위해 아래와 같은 긴급 대응 방안을 시행 중이에요:

- **지하철 운행 증편**: 출퇴근 시간대에 지하철 운행 빈도를 높여 혼잡을 줄이고 있어요.
- **무료 셔틀버스 운행**: 주요 지하철역과 버스 노선 간 무료 셔틀버스를 배치해 이동 불편을 줄이고 있어요.
- **지하철 운행 시간 연장**: 파업 기간 동안 지하철 운행 시간을 연장해 늦은 시간에도 이동이 가능하도록 했어요.
- **카풀 및 공공자전거 이용 권장**: 시민들에게 카풀과 공공자

In [24]:
eval=evaluation_total(title, date, article, category, blog_post)
print(eval)

Fail(Metric keyword: 0.0)


In [48]:
with get_openai_callback() as cb:
    k=evaluate_and_create_image(title, date, article, category, blog_post)
print(cb)

Tokens Used: 6241
	Prompt Tokens: 5968
	Completion Tokens: 273
Successful Requests: 4
Total Cost (USD): $0.0


In [49]:
generate_image(blog_post,category,date)
make_card_news(blog_post, category)


'정보 틀림 The blog content discusses a subway strike starting on March 28, 2024, affecting all subway lines in Seoul due to failed wage negotiations. However, the article actually details a bus strike starting on March 28, 2024, not a subway strike, and includes specific measures the city is taking to mitigate the impact on commuters. Therefore, the blog content is logically false based on the provided article.'

In [22]:
token_usage

Tokens Used: 19965
	Prompt Tokens: 15099
	Completion Tokens: 4866
Successful Requests: 14
Total Cost (USD): $0.0

# 재작성 파이프라인 - 수동

In [46]:
# Concatenate the strings
from langchain.callbacks import get_openai_callback

input_str = title + date + article
with get_openai_callback() as cb:
    # Assuming text_generation and evaluate_and_create_image functions are defined
    blog_post,memory,prompt = text_generation(input_str, category)
    eval=evaluation_total(title, date, article, category, blog_post)
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    #QGQA오답
    if eval[0]=="F":
        result=conversation({"question":input('요청 사항:')+prompt_template})
print(result["text"])
print(cb)



[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mSystem: Objective:
    Learn subway information through chaining and use that information to write a coherent and informative blog post using a template.
    Basic Setting
    Your name is Jitong.
    You are a subway information supporter and a Naver Blog Power Blogger.
    You are well-informed about information and value communication with readers.
    Your goal is to help subway users by providing accurate and practical information for convenient and safe subway use.
    
    Features and Activities
    You read the latest news related to subway 지연, and write blog posts to accurately deliver these in a readable and high-quality manner to readers.
    You alleviate readers' inconveniences and speak empathetically through the blog, understanding the sentiments of subway users.
    
    Communication Style
    You use professional yet warm and easy-to-understand language.
    You emphasize the ability to 

NameError: name 'date_str' is not defined

In [165]:
with get_openai_callback() as cb:
    eval=evaluation_total(title, date, article, category, blog_post)
print(cb)

Tokens Used: 11269
	Prompt Tokens: 10287
	Completion Tokens: 982
Successful Requests: 10
Total Cost (USD): $0.0


# 재작성 파이프라인 -자동

In [166]:
print(eval)

True


# 오답만들기 28일->30일

In [167]:
blog_post="### 생명을 구한 지하철의 기적: 응급상황에서의 빠른 대처\n\n안녕하세요, 여러분의 출퇴근 메신저 지하철 온다의 '오.지.통 [오늘의 지하철 소식통]' 인사 드립니다!\n\n#### 지연/사고 일시\n2023년 5월 30일 10:09 PM\n\n#### 지연/사고 노선\n인천 지하철 1호선\n\n#### 지연/사고 이유\n20대 남성 응급상황 발생\n\n#### 문의 사항 링크\n[고객센터 바로가기](https://www.incheonmetro.co.kr/)\n\n여러분, 출퇴근길에 지하철을 타면서 응급상황이 발생하면 어떨지 상상해 보셨나요? 바로 어제, 인천 지하철 1호선에서 놀라운 일이 일어났어요. 20대 남성 승객이 갑작스러운 응급상황에 처했지만, 신속한 대처 덕분에 그의 생명을 구할 수 있었다고 해요.\n\n사건은 저녁 10시 9분경, 지하철 내에서 발생했어요. 이 남성은 갑자기 쓰러졌고, 이를 본 승객들과 인천교통공사 직원들이 즉시 도움의 손길을 내밀었어요. 특히 현장에 있던 한 간호사는 심폐소생술(CPR)을 시행했고, 지하철에 비치된 자동제세동기(AED)를 사용해 그의 상태를 안정시켰어요.\n\n응급상황이 발생한 지 13분 만에 모든 조치가 완료되었고, 다행히 남성은 무사히 회복될 수 있었어요. 이로 인해 열차가 지연되었지만, 승객들은 서로를 이해하고 협조하며 불평 없이 기다려 주었어요. 인천교통공사의 직원들도 빠르고 정확한 대응으로 큰 칭찬을 받았답니다.\n\n이번 사건을 통해 알 수 있었던 중요한 사실 중 하나는, 인천 지하철 모든 역에는 AED가 비치되어 있다는 점이에요. 이러한 응급장비가 얼마나 중요한 역할을 하는지 다시 한 번 깨닫게 되었어요. 여러분도 혹시 모를 상황을 대비해, 지하철 내 응급장비 위치를 미리 알아두는 것이 좋겠죠?\n\n지하철 이용객 여러분, 출퇴근길에 혹시라도 응급상황이 발생한다면 당황하지 마세요. 신속한 대처와 협조가 생명을 구할 수 있는 소중한 시간이 될 수 있답니다. 그리고 지하철 내에서 응급상황을 목격하신다면, 즉시 직원들에게 알리고, 주변의 도움을 받을 수 있도록 해 주세요.\n\n### 마무리 말\n오지통이 실시간으로 다양한 지하철 정보를 업데이트 할 예정이니, 자주 방문해 주세요. '지하철 온다'는 단 한 번의 터치로 자신의 위치에서 가장 가까운 지하철 역의 실시간 정보를 제공합니다.\n\n🔽 지하철 온다 소개 보러가기\n[지하철 온다](https://blog.naver.com/subway__onda/223258646349)\n\n여러분, 안전하고 편안한 지하철 이용하시길 바랄게요! 😊\n\n감사합니다!"

In [171]:
a=evaluate_blog_qgqa(title, date, article, blog_post)
print(a)

2024년 5월 28일


# 직접 오답으로 만들어서 if 가정하였음

In [None]:
if True:
    conversation = LLMChain(
        llm=llm,
        prompt=prompt,
        verbose=True,
        memory=memory
    )
    result=conversation({"question":f"뉴스 정보에 오답이 있어{a}로 고쳐줘 글 형식은,{prompt_template}"})
print(result["text"])

# 자연스럽게 오답이 나왔을 경우 재작성 파이프라인
- qgqa에서 오답 나왔을 경우만 구현,
- g-eval 오답나왔을 경우 구현 해야함

In [None]:
# Concatenate the strings
from langchain.callbacks import get_openai_callback

input_str = title + date + article
with get_openai_callback() as cb:
    #글 작성 시작
    # Assuming text_generation and evaluate_and_create_image functions are defined
    blog_post,memory = text_generation(input_str, category)
    eval=evaluation_total(title, date, article, category, blog_post)

    #재작성 파이프라인 시작
    # 만약 qgqa에서 오답일 경우
    if eval[0]=="F":
        conversation = LLMChain(
            llm=llm,
            prompt=prompt,
            verbose=True,
            memory=memory
        )
        result=conversation({"question":f"뉴스 정보에 오답이 있어{a}로 고쳐줘 글 형식은,{prompt_template}"})
    # 만약 GPT-평가에서 오답일 경우
    
print(result["text"])
print(cb)