### 원래 코드

In [None]:
!pip install beautifulsoup4 openpyxl requests pandas feedparser openai

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
from concurrent.futures import ThreadPoolExecutor
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
import openai
import re

# 기본 URL
base_url = "https://news.daum.net/breakingnews/digital?page="

# 오늘 날짜 가져오기
today = (datetime.today() - timedelta(days=1)).strftime('%Y%m%d')
#today = datetime.today().strftime('%Y%m%d') 12시에 날짜가 바껴 뉴스 사라짐

# 비어있는 DataFrame 생성
all_data = pd.DataFrame(columns=["Title", "Link"])

# 마지막 페이지 모르기에 첫 페이지에서 시작
response = requests.get(base_url + "1&regDate=" + today)
response.raise_for_status()  # 응답코드 200 아니면 오류 발생
soup = BeautifulSoup(response.text, 'html.parser')

# 10장 넘는 페이지 다시 확인해보기

# <span> tag 내부의 page 숫자들 추출
page_numbers = [int(tag.text) for tag in soup.select('.inner_paging .num_page') if tag.text.isdigit()]

# 마지막 페이지 찾기
last_page_number = max(page_numbers) if page_numbers else 1

# 페이지 돌면서 url 추출
for page in range(1, last_page_number + 1):
    # 페이지 별 오늘 날짜 뉴스 추출
    url = base_url + str(page) + "&regDate=" + today

    # 내용 가져오기
    response = requests.get(url)
    response.raise_for_status()
    soup = BeautifulSoup(response.text, 'html.parser')

    # news item 추출
    news_items = soup.select('.box_etc li > div.cont_thumb > strong.tit_thumb')

    # 제목, 링크 추출 후 df 추가
    for item in news_items:
        title = item.select_one('a.link_txt').text
        link = item.select_one('a.link_txt')['href']
        all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)

     # 다음 버튼 확인
    next_button = soup.select_one('.btn_page.btn_next')
    if next_button:
        page = last_page_number + 1  # 다음 버튼이 있으면 마지막 보이는 페이지 다음 페이지로 이동
    else:
        break  # 다음 버튼이 없으면 종료



# 뉴스 기사 본문 추출
def extract_article_content(url):
    with session.get(url) as response:
        soup = BeautifulSoup(response.text, 'html.parser')
        # <section> tag 내부 <p> tag 추출
        article_paragraphs = soup.select("div.article_view section p")
        article_text = '\n'.join([para.text for para in article_paragraphs])
        return article_text if article_text else ""

# url 링크 리스트만들기
links_to_scrape = all_data["Link"].tolist()

# 본문 내용이 많아 본문 추출은 병렬처리 사용
# requests요청 위한 session 사용
with requests.Session() as session:
    # requests 병렬 처리
    with ThreadPoolExecutor(max_workers=10) as executor:
        # 병렬 처리로 인해 순서가 다를 수 있으니 순서가 유지되도록 보장
        all_data["article"] = list(executor.map(extract_article_content, links_to_scrape))


#엑셀로 저장
all_data.to_excel('news.xlsx')


# OpenAI API 키 설정
openai.api_key = ''

# 엑셀 파일 불러오기
#file_path = "news.xlsx"
#data = pd.read_excel(file_path)
data = all_data

# 중요 뉴스 가져오기
def get_important_titles_for_chunk(chunk):
    titles = "\n".join(chunk)
    prompt_text = f"Given the following news titles, select the top 3 most important ones:\n{titles}\n\nTop 3 important news titles are:"
    response = openai.Completion.create(
        model="text-davinci-003", # 중요 뉴스는 TEXT GPT / 4 버전으로 사용할 수 있는지 / GPT 4 의 성능 / 4버전 텍스트 API가 있는지
        prompt=prompt_text,
        max_tokens = 200
        # 토큰 개수 어느정도 까지해야 짤리는지 안잘리는지 (최대치 계산 할 것)
        # 3.5 vs 4 vs text 요약 성능 어떤게 좋은지 roug ->
        # 같은 내용에 대해 한,영 뉴스 비교
    )
    important_titles = response.choices[0].text.strip().split("\n")
    return [re.sub(r"^\d+\.\s*", "", title) for title in important_titles]

# 10개씩 청크로 나누기
chunk_size = 10
chunks = [data['Title'][i:i+chunk_size].tolist() for i in range(0, len(data), chunk_size)]

all_important_titles = []
for chunk in chunks:
    all_important_titles.extend(get_important_titles_for_chunk(chunk))

# 최종적으로 원하는 숫자만큼 중요 기사 선택 (예: 상위 5개)
final_important_titles = all_important_titles[:5]

# 중요한 뉴스 제목에 해당하는 행들을 새로운 DataFrame으로 가져오기
important_news_df = data[data['Title'].isin(final_important_titles)]

print(important_news_df)


# 10개씩 나누는건 중요한 뉴스기사 놓칠 수 있다.
# 어떻게 뽑을 건지 수정해야함


# 뉴스 요약
def summarize_news(news_body):

    # 뉴스 본문을 요약하려면 사용자의 지시에 따라 대화를 정의
    conversation = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": f"주어진 기사를 짧게 요약해줘 한글로: {news_body}"}
    ]

    # 최대 토큰 개수 지정
    max_tokens = 100

    # api 요청
    response = openai.ChatCompletion.create(
        model="text-davinci-003", #TEXT 사용
        messages=conversation,
    )
    # 요약 추출
    summary = response["choices"][0]["message"]["content"]
    return summary

def main(news_body):
    # 뉴스 요약
    summary = summarize_news(news_body)
    print("Summary:")
    print(summary)
    return summary

# 뉴스 요약
summary_list = important_news_df['article'].apply(main)
important_news_df['summary']=summary_list

def extract_keywords_from_content(content):
    # 본문의 시작 부분과 끝 부분을 결합
    truncated_content = content[:600] + "\n...\n" + content[-600:]


    # 토큰 초과 때문에 처음과 끝 500자 만 잘라와서 핵심 키워드 추출
    # 요약문을 가지고 키워드 추출하면 될 것같다.

    prompt_text = f"주어진 뉴스 기사의 본문을 보고 핵심 키워드를 `핵심 키워드 : 축구, 이강인, 멘체스터 유나이티드' 와 같은 형태로 추출해줘. ###{truncated_content}###"

    # prompt msg 내용 수정 해야 할듯?
    # 뉴스 가져와서 요약시킨걸 문장을 넣어주면 될듯 ( 요약과 키워드 넣어주고 실행해보기 )


    response = openai.Completion.create(
        model="text-davinci-003",
        prompt=prompt_text,
        max_tokens=200  # 조절 가능
    )
    keywords = response.choices[0].text.strip().split(", ")
    keywords[0]=keywords[0].replace("핵심 키워드","")
    keywords[0]=keywords[0].replace(":","").strip()
    return keywords

# 각 본문에 대해 주요 키워드를 추출
keywords_list = important_news_df['article'].apply(extract_keywords_from_content)

# 새로운 DataFrame 생성
keywords_df = important_news_df.copy()

keywords_df['keywords']=keywords_list
print(keywords_df)

# 엑셀 파일로 저장
file_name = "gpt_news.xlsx"
keywords_df.to_excel(file_name, index=False)

# 데이터프레임의 내용을 HTML 형식으로 변환
email_content = keywords_df.to_html()

# DataFrame을 원하는 형태로 리스트로 변환
html_content = ""
for index, row in keywords_df.iterrows():
    title = row["Title"]
    link = row["Link"]
    summary = row["summary"]
    keyword = row["keywords"]

    # 하이퍼링크 추가
    title_with_link = f'<a href="{link}">{title}</a>'

    # 형식에 맞게 포맷팅
    formatted_item = f"<h2>제목 : {title_with_link}</h2><br>요약<br>{summary}<br>키워드: {keyword[:5]}<br>"

    html_content += formatted_item

# 이메일 설정
sender_email = ""
receiver_email = ""
password = ""
subject = "Today's Top 3 Important News Titles"

message = MIMEMultipart("alternative")
message["Subject"] = subject
message["From"] = sender_email
message["To"] = receiver_email
part = MIMEText(email_content, "html")
message.attach(part)

# 이메일 보내기
with smtplib.SMTP_SSL("smtp.naver.com", 465) as server:
    server.login(sender_email, password)
    server.sendmail(sender_email, receiver_email, message.as_string())


### 뉴스 링크 크롤링(페이지 수에 따른 유동적 크롤링 구현)

In [166]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime, timedelta
from concurrent.futures import ThreadPoolExecutor
import smtplib
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
import openai
import re

# 기본 URL
base_url = "https://news.daum.net/breakingnews/digital?page="

# 오늘 날짜 가져오기
today = (datetime.today() - timedelta(days=2)).strftime('%Y%m%d')
#today = datetime.today().strftime('%Y%m%d') #12시에 날짜가 바껴 뉴스 사라짐

# 비어있는 DataFrame 생성
all_data = pd.DataFrame(columns=["Title", "Link"])


# 10장 넘는 페이지 다시 확인해보기

#시작 페이지
page=1

# 페이지 돌면서 url 추출
while True:
    # 마지막 페이지 모르기에 첫 페이지에서 시작
    response = requests.get(base_url + f"{page}&regDate=" + today)
    response.raise_for_status()  # 응답코드 200 아니면 오류 발생
    soup = BeautifulSoup(response.text, 'html.parser')

    # <span> tag 내부의 page 숫자들 추출
    page_numbers = [int(tag.text) for tag in soup.select('.inner_paging .num_page') if tag.text.isdigit()]
    print("lists", page_numbers)
    # 마지막 페이지 찾기
    last_page_number = max(page_numbers) if page_numbers else 1
    print("last_num",last_page_number)
    for p in range(page, last_page_number + 1):
        # 페이지 별 오늘 날짜 뉴스 추출
        url = base_url + str(p) + "&regDate=" + today

        # 내용 가져오기
        response = requests.get(url)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, 'html.parser')

        # news item 추출
        news_items = soup.select('.box_etc li > div.cont_thumb > strong.tit_thumb')
        print(f"Crawling page {p}, found {len(news_items)} news items")

        # 제목, 링크 추출 후 df 추가
        for item in news_items:
            title = item.select_one('a.link_txt').text
            link = item.select_one('a.link_txt')['href']
            all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)

    print(f"Current all_data length: {len(all_data)}")

    # 다음 버튼 확인
    next_button = soup.select_one('.btn_page.btn_next')
    if next_button:
        page = last_page_number + 1  # 다음 버튼이 있으면 마지막 보이는 페이지 다음 페이지로 이동
    else:
        break  # 다음 버튼이 없으면 종료


lists [2, 3, 4, 5, 6, 7]
last_num 7
Crawling page 1, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 2, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 3, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 4, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 5, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 6, found 15 news items


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": t

Crawling page 7, found 4 news items
Current all_data length: 94


  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)
  all_data = all_data.append({"Title": title, "Link": link}, ignore_index=True)


In [167]:
all_data

Unnamed: 0,Title,Link
0,"[아시안게임] 조직위 ""스포츠는 우정의 다리…미래 새 장 열자""",https://v.daum.net/v/20230923231554156
1,"워헤이븐 유저 평가 ""전투는 최고, 밸런스 개선 필요""",https://v.daum.net/v/20230923224448968
2,"네이버 D2SF, 생성형 보컬 AI 스타트업 ‘오드아이’에 신규 투자",https://v.daum.net/v/20230923220124621
3,'로아사랑단' 카멘 레이드 최초 정복,https://v.daum.net/v/20230923215406485
4,[주간 돌발영상] 9월 넷째 주,https://v.daum.net/v/20230923204915912
...,...,...
89,"지금 지구의 건강상태는?...""심각한 고혈압 환자""",https://v.daum.net/v/20230923014014841
90,"美 반도체법 가드레일 확정...삼성·SK, 中생산능력 5% 제한",https://v.daum.net/v/20230923013403812
91,"정부, 美 반도체 가드레일에 “한국 기업 정상 경영 보장될 것”",https://v.daum.net/v/20230923004204641
92,"美상무부, 반도체법 가드레일 최종안 발표",https://v.daum.net/v/20230923003557609


### 기사 본문 크롤링(기존)


In [169]:
# 뉴스 기사 본문 추출
def extract_article_content(url):
    with session.get(url) as response:
        soup = BeautifulSoup(response.text, 'html.parser')
        # <section> tag 내부 <p> tag 추출
        article_paragraphs = soup.select("div.article_view section p")
        article_text = '\n'.join([para.text for para in article_paragraphs])
        return article_text if article_text else ""

# url 링크 리스트만들기
links_to_scrape = all_data["Link"].tolist()

# 본문 내용이 많아 본문 추출은 병렬처리 사용
# requests요청 위한 session 사용
with requests.Session() as session:
    # requests 병렬 처리
    with ThreadPoolExecutor(max_workers=10) as executor:
        # 병렬 처리로 인해 순서가 다를 수 있으니 순서가 유지되도록 보장
        all_data["article"] = list(executor.map(extract_article_content, links_to_scrape))


#엑셀로 저장
all_data.to_excel('news.xlsx')




### 주요 기사 선별(기존)

In [163]:
openai.api_key = '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'


In [164]:
# OpenAI API 키 설정

# 엑셀 파일 불러오기
#file_path = "news.xlsx"
#data = pd.read_excel(file_path)
data = all_data

# 중요 뉴스 가져오기
def get_important_titles_for_chunk(chunk):
    titles = "\n".join(chunk)
    prompt_text = f"Given the following news titles, select the top 3 most important ones:\n{titles}\n\nTop 3 important news titles are:"
    response = openai.Completion.create(
        model="text-davinci-003", # 중요 뉴스는 TEXT GPT / 4 버전으로 사용할 수 있는지 / GPT 4 의 성능 / 4버전 텍스트 API가 있는지
        prompt=prompt_text,
        max_tokens = 200
        # 토큰 개수 어느정도 까지해야 짤리는지 안잘리는지 (최대치 계산 할 것)
        # 3.5 vs 4 vs text 요약 성능 어떤게 좋은지 roug ->
        # 같은 내용에 대해 한,영 뉴스 비교
    )
    important_titles = response.choices[0].text.strip().split("\n")
    return [re.sub(r"^\d+\.\s*", "", title) for title in important_titles]

# 10개씩 청크로 나누기
chunk_size = 10
chunks = [data['Title'][i:i+chunk_size].tolist() for i in range(0, len(data), chunk_size)]

all_important_titles = []
for chunk in chunks:
    all_important_titles.extend(get_important_titles_for_chunk(chunk))

# 최종적으로 원하는 숫자만큼 중요 기사 선택 (예: 상위 5개)
final_important_titles = all_important_titles[:5]

# 중요한 뉴스 제목에 해당하는 행들을 새로운 DataFrame으로 가져오기
important_news_df = data[data['Title'].isin(final_important_titles)]

print(important_news_df)


# 10개씩 나누는건 중요한 뉴스기사 놓칠 수 있다.
# 어떻게 뽑을 건지 수정해야함

RateLimitError: ignored

### 주요 기사 선별 코드(실패...)

In [159]:
openai.api_key = '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'


def get_important_titles_for_chunk(data, chunk_indices):
    titles = "\n".join(data.loc[i, 'Title'] for i in chunk_indices)
    prompt_text = f"Given the following news titles, select the top 3 most important ones:\n{titles}\n\nTop 3 important news titles are:"

    response = openai.Completion.create(
        model="text-davinci-003",
        prompt=prompt_text,
        max_tokens=200
    )
    important_titles = response.choices[0].text.strip().split("\n")
    important_titles=[re.sub(r"^\d+\.\s*", "", title) for title in important_titles]

    important_indices = [index for index, title in zip(chunk_indices, important_titles) if title in data.loc[index, 'Title']]


    return important_indices



In [143]:
def chunk_data_by_length(data, max_length):
    chunks = []
    chunk = []
    length = 0

    for index, title in data.iterrows():
        title_length = len(title['Title'])
        if length + title_length <= max_length:
            chunk.append(index)
            length += title_length
        else:
            chunks.append(chunk)
            chunk = [index]
            length = title_length

    if chunk:
        chunks.append(chunk)

    return chunks


In [152]:
def iterative_refinement(data, max_prompt_length):
    important_indices = data.index.tolist()

    while important_indices:
        chunks = chunk_data_by_length(data.loc[important_indices], max_prompt_length)
        important_indices_chunk = []

        for chunk in chunks:
            important_indices_chunk.extend(get_important_titles_for_chunk(data, chunk))

        if not important_indices_chunk:
            break

        important_indices = important_indices_chunk

        if len(important_indices) == desired_important_count:
            break

        if len('\n'.join(data.loc[i, 'Title'] for i in important_indices_chunk)) <= max_prompt_length:
            break

    return important_indices


In [160]:
max_prompt_length=1800
desired_important_count=5
data = all_data
if len(data) <= desired_important_count:
    print("Total number of articles is less than or equal to the desired count of important articles. No need for further processing.")
    important_news_df = data  # as all the articles are deemed importan
else:
    final_important_indices = iterative_refinement(data, max_prompt_length)
    print(final_important_indices)


[967, 1132]


### 뉴스 요약(기존에서 모델만 변경)

In [165]:
all_data

Unnamed: 0,Title,Link,article
0,유튜브에 AI 접목...‘AI 크리에이터’ 시대 앞당긴다,https://v.daum.net/v/20230921233012510,【뉴욕(미국)=김미희 기자】 구글이 자체 생성형 인공지능(AI)을 동영상 플랫폼인 ...
1,"AI로 유튜브 콘텐츠, 배경음악, 더빙까지 '뚝딱'",https://v.daum.net/v/20230921233008508,【뉴욕(미국)=김미희 기자】 글로벌 동영상 플랫폼 ‘유튜브(YouTube)’가 생성...
2,[겜덕연구소] 또 죽었어?! 극악의 난도로 유저를 빡치게 만드는 회사 '프롬 소프트웨어',https://v.daum.net/v/20230921222101633,안녕하세요! [겜덕 연구소]를 운영하고 있는 조기자입니다. 이번에도 레트로 게임 전...
3,"“아이폰 사진, 삼성은 못 따라와?” 유명 연예인 빠지더니…충격 결과",https://v.daum.net/v/20230921221628584,\n[헤럴드경제=박영훈 기자] “사진은 아이폰이 최고라고?”\n유명 연예인들이 아이...
4,"액토즈소프트, 셩취게임즈 자회사와 '미르의 전설2·3' 中 독점 계약",https://v.daum.net/v/20230921221542578,"\n액토즈소프트는 지난 8월 위메이드 자회사 전기아이피와 중국에서 '미르의 전설2,..."
...,...,...,...
1170,"웹젠 뮤 오리진2, PVE+PVP 신규 컨텐츠 '어비스 영혼의 광장' 공개",https://v.daum.net/v/20230921013011887,"\n(MHN스포츠 이솔 기자) PVE와 PVP가 결합된, 압도적인 보상을 제공하는 ..."
1171,[오라클 클라우드월드 2023] 피터 자조윅 스페셜라이즈드 CIO “오라클 클라우드...,https://v.daum.net/v/20230921012705874,\n“오라클 클라우드는 경쟁사와 비교해 가격은 약 70%에 그치는 반면 성능이 뛰어...
1172,"정보 출처까지 한눈에…네이버, AI 검색 서비스 ‘큐:’ 선보여",https://v.daum.net/v/20230921000325273,네이버가 인공지능(AI) 검색 서비스 ‘큐(CUE):’를 20일 내놨다. 베타 테스...
1173,"정부, 플랫폼 자율규제 법제화 시동…“독과점엔 엄정 대응”",https://v.daum.net/v/20230921000306268,"\n 정부가 네이버, 카카오 등 플랫폼 기업의 자율 규제를 보장하는 입법을 추진한다..."


In [None]:
# 뉴스 요약
def summarize_news(news_body):

    # 뉴스 본문을 요약하려면 사용자의 지시에 따라 대화를 정의
    conversation = [
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": f"주어진 기사를 짧게 요약해줘 한글로: {news_body}"}
    ]

    # 최대 토큰 개수 지정
    max_tokens = 100

    # api 요청
    response = openai.ChatCompletion.create(
        model="text-davinci-003", #TEXT 사용
        messages=conversation,
    )
    # 요약 추출
    summary = response["choices"][0]["message"]["content"]
    return summary

def main(news_body):
    # 뉴스 요약
    summary = summarize_news(news_body)
    print("Summary:")
    print(summary)
    return summary

# 뉴스 요약
summary_list = important_news_df['article'].apply(main)
important_news_df['summary']=summary_list


In [177]:
all_data

Unnamed: 0,Title,Link,article
0,"[아시안게임] 조직위 ""스포츠는 우정의 다리…미래 새 장 열자""",https://v.daum.net/v/20230923231554156,\n(항저우=연합뉴스) 홍규빈 기자 = 2022 항저우 아시안게임 조직위원회가 올림...
1,"워헤이븐 유저 평가 ""전투는 최고, 밸런스 개선 필요""",https://v.daum.net/v/20230923224448968,\n넥슨 신작 '워헤이븐'이 지난 21일 글로벌 얼리 액세스를 시작한 가운데 국내 ...
2,"네이버 D2SF, 생성형 보컬 AI 스타트업 ‘오드아이’에 신규 투자",https://v.daum.net/v/20230923220124621,네이버 D2SF(D2 Startup Factory)가 생성형 보컬 AI 기술을 개발...
3,'로아사랑단' 카멘 레이드 최초 정복,https://v.daum.net/v/20230923215406485,\n스마일게이트 MMORPG '로스트아크' 최강 레이드 카멘 하드 퍼스트 클리어 공...
4,[주간 돌발영상] 9월 넷째 주,https://v.daum.net/v/20230923204915912,■ [돌발영상] 단식의 끝 \n■ [돌발영상] 혼자가 아니야 \n■ [돌발영상] 이...
...,...,...,...
89,"지금 지구의 건강상태는?...""심각한 고혈압 환자""",https://v.daum.net/v/20230923014014841,[앵커] \n만약 지구에 대해 사람처럼 건강검진을 한다면 어떤 결과가 나올까요? \...
90,"美 반도체법 가드레일 확정...삼성·SK, 中생산능력 5% 제한",https://v.daum.net/v/20230923013403812,(지디넷코리아=이나리 기자)미국 정부가 반도체지원법에 따라 자국 내에서 보조금을 받...
91,"정부, 美 반도체 가드레일에 “한국 기업 정상 경영 보장될 것”",https://v.daum.net/v/20230923004204641,"\n미국 정부가 ‘반도체 가드레일(안전장치)’을 최종 확정한 가운데, 정부는 중국에..."
92,"美상무부, 반도체법 가드레일 최종안 발표",https://v.daum.net/v/20230923003557609,\n[아이뉴스24 최상국 기자] 美 상무부가 22일 반도체과학법(CHIPS and ...


### 요약문 중심으로 키워드 요약(요금 부족으로 실행 불가)

In [181]:
def extract_keywords_from_content(content):
    # 본문의 시작 부분과 끝 부분을 결합
    truncated_content = content[:600] + "\n...\n" + content[-600:]


    # 토큰 초과 때문에 처음과 끝 500자 만 잘라와서 핵심 키워드 추출
    # 요약문을 가지고 키워드 추출하면 될 것같다.

    prompt_text = f"""아래의 예시 처럼 요약문을 보고 주요 키워드를 추출해줘
                        ###
                        아마존이 인공지능 기술 기업 앤트로픽(Anthropic)에 최대 40억 달러를 투자해 대화형 인공지능 기술 개발을 추진한다. 앤트로픽은 오픈AI의 전직 연구원들이 설립하였고, 클로드2(Claude 2) 챗봇 서비스를 제공한다. 이 투자를 통해 아마존은 클라우드 서버에서 사용자들이 자체 생성형 어플리케이션을 설계하고 실행할 수 있도록 확장할 계획이다.
                        ###
                        [아마존, 인공지능, 앤트로픽, 투자, 대화형 인공지능 기술]
                        ###
                    . ###{truncated_content}###"""

    # prompt msg 내용 수정 해야 할듯?
    # 뉴스 가져와서 요약시킨걸 문장을 넣어주면 될듯 ( 요약과 키워드 넣어주고 실행해보기 )


    response = openai.Completion.create(
        model="text-davinci-003",
        prompt=prompt_text,
        max_tokens=200  # 조절 가능
    )
    keywords = response.choices[0].text.strip().split(", ")
    keywords[0]=keywords[0].replace("핵심 키워드","")
    keywords[0]=keywords[0].replace(":","").strip()
    return keywords

# 각 본문에 대해 주요 키워드를 추출
keywords_list = important_news_df['article'].apply(extract_keywords_from_content)

# 새로운 DataFrame 생성
keywords_df = important_news_df.copy()

keywords_df['keywords']=keywords_list
print(keywords_df)

# 엑셀 파일로 저장
file_name = "gpt_news.xlsx"
keywords_df.to_excel(file_name, index=False)

RateLimitError: ignored

In [178]:
important_news_df

Unnamed: 0,Title,Link,article
0,유튜브에 AI 접목...‘AI 크리에이터’ 시대 앞당긴다,https://v.daum.net/v/20230921233012510,【뉴욕(미국)=김미희 기자】 구글이 자체 생성형 인공지능(AI)을 동영상 플랫폼인 ...
1,"AI로 유튜브 콘텐츠, 배경음악, 더빙까지 '뚝딱'",https://v.daum.net/v/20230921233008508,【뉴욕(미국)=김미희 기자】 글로벌 동영상 플랫폼 ‘유튜브(YouTube)’가 생성...
2,[겜덕연구소] 또 죽었어?! 극악의 난도로 유저를 빡치게 만드는 회사 '프롬 소프트웨어',https://v.daum.net/v/20230921222101633,안녕하세요! [겜덕 연구소]를 운영하고 있는 조기자입니다. 이번에도 레트로 게임 전...
3,"“아이폰 사진, 삼성은 못 따라와?” 유명 연예인 빠지더니…충격 결과",https://v.daum.net/v/20230921221628584,\n[헤럴드경제=박영훈 기자] “사진은 아이폰이 최고라고?”\n유명 연예인들이 아이...
4,"액토즈소프트, 셩취게임즈 자회사와 '미르의 전설2·3' 中 독점 계약",https://v.daum.net/v/20230921221542578,"\n액토즈소프트는 지난 8월 위메이드 자회사 전기아이피와 중국에서 '미르의 전설2,..."
