1. 네이버증권 실시간 속보 뉴스 가져와서 DB에 저장
- 2줄 뉴스, 신문사, 날짜를 읽어온다
- DB: news.db, 테이블명: 날짜 (ex.20240127)

In [None]:
# 코랩에서 실행시 pyMySQL을 먼저 설치해야 한다
!pip install JPype1
!pip install konlpy
!pip install pyMySQL
!pip install -U finance-datareader

In [4]:
# import packages
import os
import numpy as np
import pandas as pd
import FinanceDataReader as fdr
import konlpy
from konlpy.tag import Okt
import pymysql
from os import replace
import requests
from tqdm.notebook import tqdm
from datetime import datetime
from sqlalchemy import create_engine
import ast
from os import replace
from bs4 import BeautifulSoup

In [None]:
# ########################################################################
# 네이버증권 실시간 속보 뉴스 크롤링 가져오기
# 기간 입력 예: 시작날짜(20231101), 종료날짜(20240119)
# 출력: GCP Maria DB 로 저장 , DB 이름: news.db, 날짜별 테이블로 저장
# ########################################################################

# -- ex_news_onePage() ---------------------------------------------------
# 한 페이지에 있는 뉴스 가져오기: 페이지당 20개 뉴스 있음
# 가져오는 항목: 2줄 요약 summary, 신문사 press, 배포날짜 rdate
# BeautifulSoup 객체를 파라미터로 받기
def ex_news_onePage(soup):
  # 복사본 만들기
  soup_1 = soup
  # <dd class='articleSummary'> 태그 목록 만들기
  ddsum_list = soup_1.find_all('dd', attrs={"class": "articleSummary"})
  # 현재 페이지 전체 뉴스 저장을 위한 news_df 생성
  news_df = pd.DataFrame()
  # 제일 마지막 페이지에는 <dd class='articleSummary'> 태그 내용이 없음, 뉴스 있는 동안 반복
  if len(ddsum_list)>0:
    # <dd> 태그 목록에서 하나씩 꺼내기
    for ddsum in ddsum_list:
      # <dd> 와 </dd> 사이의 텍스트를 추출, 다른 태그 있을시 '^'구분해서 추출, 앞뒤 공백제거
      data_string = ddsum.getText('^').strip()
      # 추출한 문자열을 '^' 경계로 분리
      string_list = data_string.split('^')
      # 2줄 요약 news_summary 문자열 추출
      news_summary  = string_list[0].strip()
      # 신문사 press_name 문자열 추출
      press_name    = string_list[1].strip()
      # 배포날짜 release_date 문자열 추출
      release_date  = string_list[5].strip()
      # 추출한 위 3 항목을 DataFrame으로 저장
      temp_df = pd.DataFrame(data = [[news_summary,press_name,release_date]], columns=['summary','press','rdate'])
      # 현재 페이지 전체 뉴스를 위한 news_df에 추가
      news_df = pd.concat([news_df, temp_df], ignore_index=True)
  # 현재 페이지 전체 뉴스를 위한 news_df 반환
  return news_df
# -- ex_news_onePage() :END -----------------------------------------------------

# -- ex_news_oneDay() -----------------------------------------------------------
# 해당일 뉴스 전체를 가져오기: 페이지 1 부터 끝까지, 1일 10~50여개 페이지(페이지당 20개 뉴스 있음)
# 날짜 date 파라미터로 받아서, 네이버증권실시간속보 웹 페이지에 접속
# url: f"https://finance.naver.com/news/news_list.naver?mode=LSS2D&section_id=101&section_id2=258&date={날짜}&page={페이지번호}"
# 뉴스 가져올 날짜 date 파라미터로 받기
def ex_news_oneDay(date):
  # 파라미터 날짜 date 복사
  t_target = date
  # 페이지번호 초기화
  page_num = 0
  # 해당일 전체 뉴스 저장을 위한 데이터프레임 df_one_day_news 생성
  df_one_day_news = pd.DataFrame()
  # while True: 무한 반복문 사용, 날짜별로 뉴스 페이지 갯수가 다르므로 뉴스가 없을 때 반복 종료
  while True:
    # 페이지번호 1씩 증가
    page_num +=1
    # 크롤링 할 웹주소 URL, f-string 으로 날짜t_target, 페이지번호page_num 대입
    url_1= f"https://finance.naver.com/news/news_list.naver?mode=LSS2D&section_id=101&section_id2=258&date={t_target}&page={page_num}"
    # 웹 request 위한 html 형식 설정
    html = requests.get(url_1, headers={"User-Agent": "Mozilla/5.0"\
    "(Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "\
    "Chrome/110.0.0.0 Safari/537.36"})
    # BeautifulSoup 으로 해당 웹페이지 읽어오기
    soup = BeautifulSoup(html.text, "lxml")
    # 해당 페이지의 뉴스 추출 함수 호출, 한 페이지 뉴스 저장 df_onepagenews
    df_onepagenews= ex_news_onePage(soup)
    # 해당 페이지에 뉴스가 있으면 당일 전체 뉴스 저장 df_one_day_news 에 추가
    if len(df_onepagenews)>0:
      df_one_day_news = pd.concat([df_one_day_news,df_onepagenews],ignore_index=True)
    # 해당 페이지에 뉴스가 더이상 없으면 반복 종료 break
    else:
      break
  # 해당일 전체 뉴스 df_one_day_news 반환
  return df_one_day_news
# -- ex_news_oneDay() :END--------------------------------------------------------

# -- newsDBsave() ----------------------------------------------------------------
# 추출한 일일 뉴스 데이터를 클라우드 MariaDB에 저장
# DB명: news.db, 테이블명: 날짜ddate
# 날짜ddate와 해당일 전체 뉴스 저장한 데이터프레임 news_all 을 파라미터로 받기
def newsDBsave(ddate, news_all):
  # 테이블 생성 및 연결
  # 구글클라우드 마리아DB연결 예)'mysql+pymysql://root:mypassword@localhost:1234/testdb'
  db_connection_path = 'mysql+pymysql://아이디:패스워드@호스트주소:포트번호/DB이름'
  db_connection = create_engine(db_connection_path)
  # DB 커넥션 생성
  conn = db_connection.connect()
  # 데이터프레임을 DB로 저장, 날짜 ddate를 테이블 명으로, 이미 있으면 덮어쓰기(replace)
  news_all.to_sql(ddate,conn,if_exists='replace')
  # DB 커밋
  conn.commit()
  # DB close
  conn.close()
# -- newsDBsave() :END-------------------------------------------------------------

# -- getNewsFromNaver() -----------------------------------------------------------
# 지정된 기간의 네이버증권실시간속보 뉴스 가져오기
# 날짜는 'YYYYMMDD'형식 문자열
# 시작날짜 startDate, 종료날짜 endDate 를 파라미터로 받기
def getNewsFromNaver(startDate,endDate):
  # 시작날짜 ddate 복사
  ddate = startDate
  # 종료 날짜까지 반복하기
  while pd.to_datetime(ddate).date() <= pd.to_datetime(endDate).date():
    # 해당일 전체 뉴스 가져오기
    news_all = ex_news_oneDay(ddate)
    # 해당일 전체 뉴스 DB에 저장하기
    newsDBsave(ddate, news_all)
    # 실행중 확인을 위한 날짜 화면 출력
    print(ddate)
    # 자동 날짜 증가 연산: 1일씩 증가
    dt_date = pd.to_datetime(ddate) + pd.DateOffset(days=1)
    # 다음 날짜 문자열 추출
    ddate= dt_date.strftime("%Y%m%d")
# -- getNewsFromNaver() :END--------------------------------------------------------



In [None]:
# --메인 함수 호출 ------------------------------------------------------------------
# 웹 크롤링으로 뉴스 가져올 기간을 파라미터로 넘기기
# 예) 시작날짜 '20240117', 종료날짜 '20240119'인 경우
# getNewsFromNaver('20240117','20240119') 로 함수 호출

getNewsFromNaver('20240203','20240216')

# 오늘 현재 시점 now 하루 뉴스 가져오기 하려면 아래 함수 호출
#datetime.now().strftime('%Y%m%d')
#getNewsFromNaver(datetime.now().strftime('%Y%m%d'), datetime.now().strftime('%Y%m%d'))
# --메인 함수 호출 :END--------------------------------------------------------------