## 진행 과정

1. investing.com의 뉴스기사(본문) 크롤링.
2. chatgpt 에 요약 요청.
3. 요약을 한글로 변환.

## beautifulsoup4 + requests 로 크롤링 시도

- 시도를 해봤으나 사이트에서 requests + beautifulsoup4 를 사용한 크롤링 시도가 막혀 있어서 **사용이 불가**했습니다.

실행하기 위한 설치코드

In [1]:
# !pip install beautifulsoup4
# !pip install requests

요청을 위한 코드

In [4]:
import requests
from bs4 import BeautifulSoup as bs
from fake_useragent import UserAgent

# user-agent 설정
ua = UserAgent()
headers = {'User-Agent':str(ua.chrome)}

# 요청하고자 하는 샘플 뉴스기사 URL
url = 'https://www.investing.com/analysis/us-stock-market-has-plenty-of-reasons-to-rally-after-feds-decision-200634857'

# requests 요청
page = requests.get(url, headers=headers)
page

<Response [403]>

결과는 `403` response가 뜨는 것을 확인할 수 있습니다.

따라서, `selenium` 으로 크롤링을 진행하는 것으로 우회하도록 하겠습니다.

## Selenium 으로 크롤링

`Selenium` 설치 코드

In [5]:
# !pip install selenium

In [6]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By

# 크롬드라이버 셋팅
def set_chrome_driver(headless=True):
    options = webdriver.ChromeOptions()
    if headless:
        options.add_argument('headless')
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    return driver

`set_chrome_driver`는 chrome 드라이버를 셋업하는 함수입니다.

만약 로컬에 chromedriver가 존재하지 않으면 알아서 **올바른 버전을 다운로드** 진행하게 됩니다(이전에는 chromedriver를 직접 다운로드 했었어야 합니다).

In [7]:
# driver 설정
driver = set_chrome_driver(False)

# URL 요청
driver.get(url)

# aritivlePage는 신문기사의 본문입니다
article_page = driver.find_element(By.CLASS_NAME, 'articlePage')
article_page

[WDM] - Downloading: 100%|██████████████████| 8.06M/8.06M [00:00<00:00, 106MB/s]


<selenium.webdriver.remote.webelement.WebElement (session="a4fa69d4f1f80de5f07cbdc97e34d554", element="AC449BF17DE0A3BC31DE9506BBFB7525_element_131")>

아래의 코드를 실행하여 신문기사의 본문이 잘 크롤링 되었는지 확인합니다.

In [8]:
# 신문기사의 본문을 출력합니다.
print(article_page.text)

Francesco Casarella/Investing.com
Articles (49)
Follow
  US500
-0.70%
Markets are cautious ahead of the Fed
After a tumultuous 2022, many investors are waiting on the sidelines, holding cash and waiting to enter
With risk-off sentiment dominating and plenty of liquidity on the sidelines, markets could rally in the second half of the week
Yesterday, the S&P 500 closed lower. This is nothing new, considering the same thing happened the last three times Powell spoke.
S&P 500 Daily Chart
I don't expect any surprises. A 25bp hike and Powell maintaining his stance on fighting inflation ("we're improving, but it's not time to rest yet") is likely. As always, the markets are pricing in such a scenario.
In the meantime, while the focus is still on the recession and earnings (we will have a dedicated analysis as soon as the quarters are over), there are other situations worthy of consideration.
Cash Levels at All-Time Highs
After the sell-off in 2022, there is still a lot of liquidity on the sid

## OpenAI API 사용

**API KEY 발급 방법**
- API KEY 신청 주소
- https://beta.openai.com/ 회원 가입 후
- https://beta.openai.com/account/api-keys
- create new secret key

`openai` 라이브러리 설치코드

In [51]:
# !pip install openai

먼저 `openai` 라이브러리 import 후 **API KEY**를 설정 합니다.

In [9]:
import openai

# API 키 설정
# openai.api_key = "openai 키 입력"
openai.api_key = "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"

요약 및 긍/부정 감정 분석을 진행하는 프롬프트를 생성하여 출력 합니다.

In [20]:
# 프롬프트 (요약해줘 + 긍/부정 감정도 분석해줘)
prompt = f'''
Summarize and translate into Korean the paragraph below and interpret whether it is a positive or negative sentiment.

{article_page.text}
'''
print(prompt)


Summarize and translate into Korean the paragraph below and interpret whether it is a positive or negative sentiment.

Francesco Casarella/Investing.com
Articles (49)
Follow
  US500
-0.70%
Markets are cautious ahead of the Fed
After a tumultuous 2022, many investors are waiting on the sidelines, holding cash and waiting to enter
With risk-off sentiment dominating and plenty of liquidity on the sidelines, markets could rally in the second half of the week
Yesterday, the S&P 500 closed lower. This is nothing new, considering the same thing happened the last three times Powell spoke.
S&P 500 Daily Chart
I don't expect any surprises. A 25bp hike and Powell maintaining his stance on fighting inflation ("we're improving, but it's not time to rest yet") is likely. As always, the markets are pricing in such a scenario.
In the meantime, while the focus is still on the recession and earnings (we will have a dedicated analysis as soon as the quarters are over), there are other situations worthy 

`ChatGPT`에 요약을 요청합니다.

In [28]:
class ChatBot():
    def __init__(self, model='gpt-4'):
        self.model = model
        self.messages = []
        
    def ask(self, question):
        self.messages.append({
            'role': 'user', 
            'content': question
        })
        res = self.__ask__()
        return res
        
    def __ask__(self):
        completion = openai.ChatCompletion.create(
            # model 지정
            model=self.model,
            messages=self.messages
        )
        response = completion.choices[0].message['content']
        self.messages.append({
            'role': 'assistant', 
            'content': response
        })
        return response
    
    def show_messages(self):
        return self.messages
    
    def clear(self):
        self.messages.clear()

In [29]:
# 챗봇 인스턴스 생성
chatbot = ChatBot()

In [30]:
# 요약 및 번역 요청
print(chatbot.ask(prompt))

프란체스코 카사렐라/Investing.com 기자
- 미국 증시, 금리 인상 이후 반등할 수 있음
- 현금 보유 높아 투자 여력 충분
- 파월 연준 의장 발언 이후 S&P500 하락
- 기업들의 주식 매입 발표로 가격 지지 가능

2022년 벽둘러 진행된 투자자들은 현금을 들고 대기 태세를 유지하며 입장 기회를 찾고 있다. 위험 회피 정서가 높아지고 후반기에 시장이 반등할 수 있다. 어제 S&P 500 지수는 하락했다. 이것은 파월 연준 의장이 공개 발언을 한 후 3회 연속으로 일어난 일이다. 금리 인상을 25bp 예상하고 파월의 인플레이션 대응 입장이 달라지지 않을 것으로 예상한다. 현재 시장은 이미 부정적인 정서로 이루어져 있으며, 위험 회피 모드에 머물러 있다. 그러나 반등이 이어질 경우 짧은 매수와 새로운 매수의 상호 보강으로 인해 매입 광기가 발생할 수 있다. 이번 주는 FOMC의 금리 인상 규모 결정에 대한 것보다 더욱 시장의 후반 반응과 다음 주에 대한 것이 될 것이다.

해석: 이 기사는 정보 제공의 목적으로 작성되었으며, 매수자에게 자산 매입을 유도할 의도로 작성되지 않았습니다. 투자자의 판단하에 투자에 따르는 위험을 안는 것을 상기시켜드립니다.


## 함수 패키징

In [36]:
# 크롬드라이버 셋팅
def set_chrome_driver(headless=True):
    options = webdriver.ChromeOptions()
    if headless:
        options.add_argument('headless')
    options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36")
    driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
    return driver

# 뉴스 페이지 크롤링
def crawl_page(url):
    try:
        driver = set_chrome_driver(False)
        driver.get(url)
        # 요소 변경 가능
        article_page = driver.find_element(By.CLASS_NAME, 'articlePage')
        text = article_page.text
        driver.close()
    except NoSuchElementException:
        text = ""
    return text

# ChatGPT 요약
def summarize(text):
    # 챗봇 인스턴스 생성
    chatbot = ChatBot()
    # 프롬프트 (요약해줘 + 긍/부정 감정도 분석해줘)
    prompt = f'''
    Summarize and translate into Korean the paragraph below and interpret whether it is a positive or negative sentiment.

    {text}
    '''
#     print(prompt)
    return chatbot.ask(prompt)


# 최종 wrapper
def summarize_news(url):
    page = crawl_page(url)
    summarized = summarize(page)
    print('<주요내용>')
    print(summarized)
    return summarize

In [37]:
_ = summarize_news('https://www.investing.com/analysis/traders-send-wheat-prices-spiking-as-allied-tanks-aid-to-roll-into-ukraine-200634894')

<주요내용>
밀값이 한 달 만에 최고치인 거의 달루션다고 완전히 다 함으로써 시리즈 속 보 계속 되었어. 이 집중은 특별히 그동안 바꾼 시황 대해 은밀하게 한다. 미국주식시장에 비해서 커 어유 개입문 많이 주 발계 밀 호가에 도움 많이 준 상황이라고 이야기 함. 한편로, 주가의 추동에 따라 $7.666 당시 최고 수준에 이르는 것으로 보여져, 이것 간에 스탄스 무조건 변동하더라도 초기의 원래 취지로 돌아갈 수 있다는 우려가 지속적으로 이어졌는데요.

합동 협상 소식에 따르면 미국과 독일의 전차가 들어오면 전세계 밀 가격이 최근 한 달에 최고 수준을 추진하며, 소비자들은 재고량 안락감을 느낄 것으로 예상합니다.

그러나 전문가들은 밀 가격이 곧 다시 하락할 수 있다고 경고하고 있습니다. 이 같은 밀 시장의 불확실성은 미국과 독일전차의 효과성의 논쟁과 함께, 두 나라가 공격 적인 장갑차를 제공하기에 대한 망설임을 보여주었습니다.
결론적으로 긍정적인 감정이긴 하지만 주식 시장에 대한 불확실성도 있습니다.


## 더 나아가서

- top5(Most Popular) 신문기사의 링크를 크롤링 해온 뒤 이를 모두 요약+번역할 수 있도록 발전시킨 코드입니다.

먼저, investing.com의 Most Popular에 게재된 Top5 신문기사를 크롤링합니다.

In [38]:
# most popular news 의 신문기사 요소를 크롤링 합니다
top5 = set_chrome_driver(False)
# URL 요청
top5.get('https://www.investing.com/news/most-popular-news')
# 5개의 요소만 가져옵니다.
top5.find_element(By.CLASS_NAME, 'largeTitle').find_elements(By.CLASS_NAME, 'js-article-item')[:5]

[<selenium.webdriver.remote.webelement.WebElement (session="b8d0938ea9e54432c91551e6ac54857d", element="417D1E69F95B1A8123A220AFA1967D47_element_78")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b8d0938ea9e54432c91551e6ac54857d", element="417D1E69F95B1A8123A220AFA1967D47_element_39")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b8d0938ea9e54432c91551e6ac54857d", element="417D1E69F95B1A8123A220AFA1967D47_element_44")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b8d0938ea9e54432c91551e6ac54857d", element="417D1E69F95B1A8123A220AFA1967D47_element_47")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b8d0938ea9e54432c91551e6ac54857d", element="417D1E69F95B1A8123A220AFA1967D47_element_50")>]

크롤링 한 Top5 **신문기사의 URL을 추출**합니다.

In [39]:
# 5개의 신문기사 URL 만 추출 합니다.
top5_links = []

for link in top5.find_element(By.CLASS_NAME, 'largeTitle').find_elements(By.CLASS_NAME, 'js-article-item')[:5]:
    top5_links.append(link.find_element(By.CSS_SELECTOR, 'a').get_attribute('href'))
    
top5_links

['https://www.investing.com/news/economy/futures-edge-higher-tesla-gains-regional-banks-steady-3081081',
 'https://www.investing.com/news/economy/pacwest-withdrawals-debt-limit-talks-postponed--whats-moving-markets-3081009',
 'https://www.investing.com/news/stock-market-news/us-stocks-were-wobbling-amid-tepid-consumer-sentiment-3081457',
 'https://www.investing.com/news/stock-market-news/4-big-analyst-cuts-fox-stock-slips--on-wells-fargo-downgrade-3081169',
 'https://www.investing.com/news/commodities-news/oil-prices-recover-on-shortcovering-us-debt-ceiling-fears-weigh-3080753']

마지막으로, 이전에 생성한 `summarize_news` 함수를 활용하여 크롤링 + 요약 + 번역을 진행하고 결과를 확인합니다.

In [40]:
# 5개의 신문기사 링크에 대한 본문 크롤링+요약+번역 을 진행합니다.
top5_summarize = []

for link in top5_links:
    output = summarize_news(link)
    top5_summarize.append(output)
    print()

<주요내용>
(롤터) 미국 소비자 심리가 6개월 만에 최저치를 기록하자 주요 금융 시장 지수는 하락세를 보였으며 엘론 머스크가 트위터 사장으로 새롭게 부임한 것에 따른 테슬라 주가의 초기 상승에도 불구하고 하락했다. 소비심리가  급격한 금리 인상으로 인해 경제 성장에 부진을 가져온 것으로 나타났다. 하지만 이 주 중 가격은 다소 둔화되었으며 주간 실업수당 청구건수는 1년 반 만의 최고인 반면, 미 연방준비제도의 금리 인상 중단에 베팅을 올리며 페이스를 보였다. 이와 관련해 미국 투자전략 전문가 스티브 와이에트는 "소비자가 보수적으로 변하거나 인플레이션이 소비자들이 지출을 할 수 없을 정도까지 이르렀는지 불확실할 경우 큰 걱정거리가 됩니다."라고 말했다.

긍정적인 면은 없으며 부정적인 감정이 지배적입니다.

<주요내용>
투자주자들은 최근 인플레이션 및 고용 데이터가 미 연준의 금리 인상 정책을 멈추게 만들 것인지에 대한 판단을 내리고 있다. 미국 생산자 가격 상승이 2년여 만에 가장 낮은 수준으로 둔화된 것으로 드러났으며, 실업수당 청구건수도 약간 증가했다. 이번 주 데이터들이 금리 인상이 가져온 결과대로라면 상태가 개선되어 다음 회의에서 금리 인상을 중단할 것으로 예상된다. 그러나 미국의 정치적 대결이야말로 연준의 금리 인상을 좀더 복잡하게 만들 수 있다. 외신에서는 벽오를 밀린 정치 문제로 인해 대한 상황이 재건될 수 있음을 시사.

 요약 및 해석 : 연준의 시사점에 대한 투자주와의 판단이 있음.
 긍정적인 정서이다.

<주요내용>
미국 주식은 인플레이션의 둔화 및 예상보다 약한 경기 여파를 소화하면서 위축된 상태였다. 다우 존스 산업 평균지수는 80포인트(0.2%) 하락, S&P 500은 0.3% 내림, 나스닥 컴퍼짓은 0.5% 하락한 상태였다. 이번주 발표된 데이터에 따르면 소비자와 생산자 가격이 모두 움켜쥐는 것으로 나타났다. 실업 수당 청구는 예상보다 더 높았으며, 소비자 경기 여론은 예상보다 훨씬 약한 상태였다. 미시건 대학의 5월 소비자 여론은

APIError: Bad gateway. {"error":{"code":502,"message":"Bad gateway.","param":null,"type":"cf_bad_gateway"}} 502 {'error': {'code': 502, 'message': 'Bad gateway.', 'param': None, 'type': 'cf_bad_gateway'}} {'Date': 'Fri, 12 May 2023 18:31:53 GMT', 'Content-Type': 'application/json', 'Content-Length': '84', 'Connection': 'keep-alive', 'X-Frame-Options': 'SAMEORIGIN', 'Referrer-Policy': 'same-origin', 'Cache-Control': 'private, max-age=0, no-store, no-cache, must-revalidate, post-check=0, pre-check=0', 'Expires': 'Thu, 01 Jan 1970 00:00:01 GMT', 'Server': 'cloudflare', 'CF-RAY': '7c64b4078d88a7e1-ICN', 'alt-svc': 'h3=":443"; ma=86400, h3-29=":443"; ma=86400'}