In [3]:
import os
import requests
from bs4 import BeautifulSoup
from datetime import datetime, timedelta
from dateutil import parser
import pandas as pd
import re

# 절대경로로 csv 파일 저장 (디렉토리 경로 수정 필요)
PATH = 'C:\\Education\\teamproject\\final_prioject\\news'


def crawler(company_code, start_date, end_date, df_result=None):
    page = 1
    
    while True:
        url = f'https://finance.naver.com/item/news_news.nhn?code={company_code}&page={page}'
        source_code = requests.get(url).text
        html = BeautifulSoup(source_code, "lxml")
        
        titles = html.select('.title')
        title_result = [title.get_text(strip=True) for title in titles]
        
        links = html.select('.title')
        link_result = ['https://finance.naver.com' + link.find('a')['href'] for link in links]
        
        dates = html.select('.date')
        date_result = [date.get_text(strip=True) for date in dates]
        
        # 문자열 형식의 날짜를 datetime으로 변환
        converted_dates = []
        for date_str in date_result:
            try:
                # dateutil.parser.parse를 사용하여 날짜를 자동으로 파싱
                converted_date = parser.parse(date_str).date()
                converted_dates.append(converted_date)
            except ValueError:
                print(f"Ignoring invalid date: {date_str}")
        
        # 결과를 DataFrame으로 만들기
        result = {"날짜": converted_dates, "기사제목": title_result, "링크": link_result}
        df_page = pd.DataFrame(result)
        df_page = df_page[(df_page['날짜'] >= start_date) & (df_page['날짜'] <= end_date)]
        
        if df_result is None:
            df_result = df_page
        else:
            df_result = pd.concat([df_result, df_page], ignore_index=True)
        
        if not df_page.empty:
            print(f"다운 받고 있습니다 - {company_code} 페이지 {page} ------")
            page += 1
        else:
            print(f"{company_code}의 더 이상 뉴스가 없습니다.")
            break

    return df_result

def convert_to_code(df_codes, start_date, end_date):
    df_result = None

    for index, row in df_codes.iterrows():
        company_code = row['종목코드']
        df_result = crawler(company_code, start_date, end_date, df_result)

    if df_result is not None and not df_result.empty:
        df_result.to_csv(f'{PATH}\\all_news.csv', mode='w', encoding='utf-8-sig', index=False)
        print("종목별 뉴스 데이터를 all_news.csv 파일로 저장했습니다.")
    else:
        print("뉴스 데이터가 없습니다.")

def main():
    info_main = input("="*50+"\n"+"실시간 뉴스기사 다운받기."+"\n"+" 시작하시려면 Enter를 눌러주세요."+"\n"+"="*50)
    
    # 종목코드를 모두 포함한 데이터프레임 생성
    df_codes = pd.read_csv(f'{PATH}\\stocklistcode.csv')
    
    end_date = input("종료 날짜(YYYY.MM.DD 또는 YYYYMMDD) 입력: ")
    
    try:
        end_date = datetime.strptime(end_date.replace('.', ''), '%Y%m%d').date()
    except ValueError:
        print("잘못된 날짜 형식입니다. 'YYYY.MM.DD' 또는 'YYYYMMDD' 형식으로 다시 입력해주세요.")
        return
    
    # 현재 날짜로부터 1년 6개월 전의 날짜 계산
    start_date = datetime.now() - timedelta(days=int(1.8*365/2))
    
    # 디렉토리가 없으면 생성
    if not os.path.exists(PATH):
        os.makedirs(PATH)

    print(start_date.date(), end_date)
    convert_to_code(df_codes, start_date.date(), end_date)

if __name__ == "__main__":
    main()


2023-03-07 2024-01-20
60310의 더 이상 뉴스가 없습니다.
54620의 더 이상 뉴스가 없습니다.
13720의 더 이상 뉴스가 없습니다.
다운 받고 있습니다 - 311690 페이지 1 ------
다운 받고 있습니다 - 311690 페이지 2 ------
다운 받고 있습니다 - 311690 페이지 3 ------
다운 받고 있습니다 - 311690 페이지 4 ------
다운 받고 있습니다 - 311690 페이지 5 ------
다운 받고 있습니다 - 311690 페이지 6 ------
다운 받고 있습니다 - 311690 페이지 7 ------
다운 받고 있습니다 - 311690 페이지 8 ------
311690의 더 이상 뉴스가 없습니다.
11150의 더 이상 뉴스가 없습니다.
23460의 더 이상 뉴스가 없습니다.
56730의 더 이상 뉴스가 없습니다.
590의 더 이상 뉴스가 없습니다.
16610의 더 이상 뉴스가 없습니다.
25440의 더 이상 뉴스가 없습니다.
68790의 더 이상 뉴스가 없습니다.
4840의 더 이상 뉴스가 없습니다.
다운 받고 있습니다 - 241520 페이지 1 ------
241520의 더 이상 뉴스가 없습니다.
다운 받고 있습니다 - 155660 페이지 1 ------
155660의 더 이상 뉴스가 없습니다.
69730의 더 이상 뉴스가 없습니다.
다운 받고 있습니다 - 180400 페이지 1 ------
다운 받고 있습니다 - 180400 페이지 2 ------
다운 받고 있습니다 - 180400 페이지 3 ------
다운 받고 있습니다 - 180400 페이지 4 ------
다운 받고 있습니다 - 180400 페이지 5 ------
다운 받고 있습니다 - 180400 페이지 6 ------
다운 받고 있습니다 - 180400 페이지 7 ------
다운 받고 있습니다 - 180400 페이지 8 ------
다운 받고 있습니다 - 180400 페이지 9 ------
다운 받고 있습니다 - 180400 페

KeyboardInterrupt: 