In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import datetime
import time

# Excel 파일에서 기업명 읽기
def get_company_list(file_path):
    df = pd.read_excel(file_path, header=None)  # 첫 번째 열에서 회사명 읽기
    company_list = df[0].tolist()
    return company_list

# 뉴스 크롤링 함수
def crawl_news_for_company(company_name, start_date, end_date):
    news_data = []
    current_date = start_date
    while current_date <= end_date:
        page_num = 1
        while True:
            url = f"https://search.hankyung.com/search/news?query={company_name}&sort=DATE%2FDESC%2CRANK%2FDESC&period=DATE&area=title&sdate={current_date.strftime('%Y.%m.%d')}&edate={current_date.strftime('%Y.%m.%d')}&page={page_num}"
            response = requests.get(url)
            response.encoding = 'utf-8'  # 인코딩을 utf-8로 설정
            soup = BeautifulSoup(response.text, 'html.parser')

            # 뉴스 제목과 날짜 찾기
            articles = soup.select("ul.article > li")
            if not articles:
                break  # 다음 페이지에 데이터가 없으면 종료

            for article in articles:
                title_tag = article.select_one("em.tit")
                date_tag = article.select_one("span.date_time")
                if title_tag and date_tag:
                    title = title_tag.text.strip()
                    date = date_tag.text.strip()
                    news_data.append({"Title": title, "Date": date})

            # 다음 페이지로 이동
            page_num += 1
            time.sleep(3)  # 요청 간격 조절

        current_date += datetime.timedelta(days=1)  # 날짜 간격 이동

    return news_data

# 결과 저장 및 실행 함수
def main(file_path, start_date, end_date):
    company_list = get_company_list(file_path)
    for company in company_list:
        print(f"{company} 뉴스 크롤링 중...")
        news_data = crawl_news_for_company(company, start_date, end_date)
        news_df = pd.DataFrame(news_data)
        if not news_df.empty:
            news_df.to_csv(f"{company}_daily_news_titles.csv", index=False, encoding="utf-8-sig")
            print(f"{company} 뉴스 저장 완료!")
        else:
            print(f"{company} 관련 뉴스 없음.")

if __name__ == "__main__":
    # 검색 기간 설정
    start_date = datetime.date(2023, 7, 1)
    end_date = datetime.date(2024, 6, 30)

    # 기업명 목록이 포함된 엑셀 파일 경로
    file_path = "/content/drive/MyDrive/남은거.xlsx"  # 해당 파일 경로에 맞게 수정

    main(file_path, start_date, end_date)
    print("모든 크롤링 작업 완료!")


현대차 뉴스 크롤링 중...
현대차 뉴스 저장 완료!
기아 뉴스 크롤링 중...
기아 뉴스 저장 완료!
현대모비스 뉴스 크롤링 중...
현대모비스 뉴스 저장 완료!
한온시스템 뉴스 크롤링 중...
한온시스템 뉴스 저장 완료!
한국타이어앤테크놀로지 뉴스 크롤링 중...
한국타이어앤테크놀로지 뉴스 저장 완료!
HL만도 뉴스 크롤링 중...
HL만도 뉴스 저장 완료!
현대위아 뉴스 크롤링 중...
현대위아 뉴스 저장 완료!
에스엘 뉴스 크롤링 중...
에스엘 뉴스 저장 완료!
금호타이어 뉴스 크롤링 중...
금호타이어 뉴스 저장 완료!
명신산업 뉴스 크롤링 중...
명신산업 뉴스 저장 완료!
삼성전자 뉴스 크롤링 중...
삼성전자 뉴스 저장 완료!
SK하이닉스 뉴스 크롤링 중...
SK하이닉스 뉴스 저장 완료!
삼성SDI 뉴스 크롤링 중...
삼성SDI 뉴스 저장 완료!
삼성전기 뉴스 크롤링 중...
삼성전기 뉴스 저장 완료!
삼성에스디에스 뉴스 크롤링 중...
삼성에스디에스 뉴스 저장 완료!
엘앤에프 뉴스 크롤링 중...
엘앤에프 뉴스 저장 완료!
LG이노텍 뉴스 크롤링 중...
LG이노텍 뉴스 저장 완료!
모든 크롤링 작업 완료!
