## 셀레니움 설정

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.by import By

driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()))

## URL 접속

In [None]:
driver.get('https://google.com')

## 네이버 증권 뉴스

In [None]:
driver.get('https://finance.naver.com/news/')

## X-Path / Tag Name으로 요소 가져오기

In [None]:
main_news = driver.find_element(By.XPATH, '//*[@id="newsMainTop"]/div/div[1]/div/div[1]')

In [None]:
main_news_list = main_news.find_elements(By.TAG_NAME, 'a')

In [None]:
for news in main_news_list:
    print(news.text)
    # get_attribute('href') 는 주소를 가져 옵니다
    print(news.get_attribute('href'))

## Selenium으로 뉴스기사 본문 긁어오기

In [None]:
url = news.get_attribute('href')
url

In [None]:
# url 접속
driver.get(url)
# 본문 수집
content = driver.find_element(By.CLASS_NAME, 'articleCont')
content.text

In [None]:
def get_content(url):
    # url 접속
    driver.get(url)
    # 본문 수집
    content = driver.find_element(By.CLASS_NAME, 'articleCont')
    return content.text

## 최신 뉴스기사 수집 후 본무 수집

In [None]:
# 네이버 뉴스 접속
driver.get('https://finance.naver.com/news/')
# 메인 뉴스기사 확인
main_news = driver.find_element(By.XPATH, '//*[@id="newsMainTop"]/div/div[1]/div/div[1]')
# 하위 링크 수집
main_news_list = main_news.find_elements(By.TAG_NAME, 'a')
# 뉴스기사 URL 수집
news_urls = []
for news in main_news_list:
    print(news.text)
    # get_attribute('href') 는 주소를 가져 옵니다
    print(news.get_attribute('href'))
    news_urls.append(news.get_attribute('href'))
    
news_contents = []
for news in news_urls:
    content = get_content(news)
    news_contents.append(content)

In [None]:
news_contents[0]

In [None]:
news_contents[1]

In [None]:
news_contents[2]

## ChatGPT로 주요 뉴스 요약

**API KEY 발급 방법**
- API KEY 신청 주소
- https://beta.openai.com/ 회원 가입 후
- https://beta.openai.com/account/api-keys
- create new key

In [None]:
import openai

openai.api_key = "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"

In [None]:
def ask_chatgpt(prompt):
    # 모델 엔진 선택
    model_engine = "text-davinci-003"

    # 맥스 토큰
    max_tokens = 1024

    # ChatGPT 요청 
    completion = openai.Completion.create(
        engine=model_engine,   
        prompt=prompt,          # 프롬프트
        max_tokens=max_tokens,  # 최대 단어수
        temperature=0.2,        # creativity
        top_p=1,
        frequency_penalty=0,
        presence_penalty=0,
    )
    return completion['choices'][0]['text']

In [None]:
# 프롬프트
prompt = f'''다음은 뉴스 기사의 본문이야. 뉴스기사의 본문 내용을 불렛포인트로 요약해줘.

{news_contents[2]}
'''

In [None]:
answer = ask_chatgpt(prompt)

In [None]:
print(answer)

## 전체 문서 요약

In [None]:
# 요약 결과
news_summary = []

for content in news_contents:
    # 프롬프트
    prompt = f'''다음은 뉴스 기사의 본문이야. 뉴스기사의 본문 내용을 불렛포인트로 요약해줘.

    {news_contents[2]}
    '''
    answer = ask_chatgpt(prompt)
    news_summary.append(answer)

In [None]:
import pandas as pd

In [None]:
df = pd.DataFrame({
    '뉴스링크': news_urls, 
    '요약': news_summary
})

In [None]:
df

In [None]:
# 파일로 저장
df.to_excel('뉴스요약.xlsx', index=False)