In [13]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime, timedelta
import time

def get_news_titles(query, date):
    base_url = "https://search.naver.com/search.naver"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
    }
    params = {
        "where": "news",
        "query": query,
        "sm": "tab_opt",
        "sort": "0",  # 관련도순 정렬
        "pd": "3",  # 기간 설정
        "ds": date,  # 시작 날짜
        "de": date,  # 종료 날짜
        "start": 1,  # 첫 페이지
    }
    titles = []
    page = 1
    while True:
        try:
            print(f"Fetching page {page} for date {date}...")
            params["start"] = (page - 1) * 10 + 1  # 페이지 계산
            response = requests.get(base_url, headers=headers, params=params)
            print(params["start"], response.status_code)
            if response.status_code != 200:
                print(f"HTTP 요청 실패: {response.status_code}")
                break
            # HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            # 뉴스 제목 추출
            news_items = soup.select(".news_tit")  # 제목 링크에 해당하는 클래스
            if not news_items:
                print("더 이상 뉴스가 없습니다.")
                break
            for item in news_items:
                title = item.get("title")
                if title:
                    titles.append(title)
            # 다음 페이지로 이동
            page += 1
            # 네이버 뉴스 검색은 최대 400개 기사만 제공
            if page > 40:
                print("최대 페이지 제한 도달.")
                break
        except Exception as e:
            print(f"페이지 {page} 크롤링 중 에러 발생: {e}")
            break
    return titles
def save_daily_news(query, start_date, end_date):
    print(start_date)
    print(end_date)
    for date in range(5, 32):
        print(date)
        start_date = f"2024.07.{date}"
        end_date = f"2024.07.{date}"

        current_date = datetime.strptime(start_date, "%Y.%m.%d")
        end_date = datetime.strptime(end_date, "%Y.%m.%d")
        while current_date <= end_date:
            date_str = current_date.strftime("%Y.%m.%d")
            titles = get_news_titles(query, date_str)
            # 날짜별 JSON 파일 저장
            output_file = f"./data/news_titles_{date_str}.json"
            with open(output_file, "w", encoding="utf-8") as file:
                json.dump(titles, file, ensure_ascii=False, indent=4)
            print(f"{len(titles)}개의 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")
            # 다음 날짜로 이동
            current_date += timedelta(days=1)
        time.sleep(2)
def merge_json_files(start_date, end_date, output_file):
    current_date = datetime.strptime(start_date, "%Y.%m.%d")
    end_date = datetime.strptime(end_date, "%Y.%m.%d")
    all_titles = []
    while current_date <= end_date:
        date_str = current_date.strftime("%Y.%m.%d")
        input_file = f"news_titles_{date_str}.json"
        try:
            with open(input_file, "r", encoding="utf-8") as file:
                titles = json.load(file)
                all_titles.extend(titles)
        except FileNotFoundError:
            print(f"파일 '{input_file}'을(를) 찾을 수 없습니다.")
        current_date += timedelta(days=1)
    # 모든 제목을 하나의 JSON 파일로 저장
    with open(output_file, "w", encoding="utf-8") as file:
        json.dump(all_titles, file, ensure_ascii=False, indent=4)
    print(f"모든 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")
# 실행
query = "아시아나항공"
start_date = "2024.07.05"
end_date = "2024.07.05"

# 날짜별 JSON 파일 저장
save_daily_news(query, start_date, end_date)
# 모든 JSON 파일 병합
# merge_json_files(start_date, end_date, "all_asiana_news_titles.json")

2024.07.05
2024.07.05
5
Fetching page 1 for date 2024.07.05...
1 200
Fetching page 2 for date 2024.07.05...
11 200
Fetching page 3 for date 2024.07.05...
21 200
Fetching page 4 for date 2024.07.05...
31 200
더 이상 뉴스가 없습니다.
21개의 뉴스 제목이 './data/news_titles_2024.07.05.json' 파일에 저장되었습니다.
6
Fetching page 1 for date 2024.07.06...
1 200
Fetching page 2 for date 2024.07.06...
11 200
더 이상 뉴스가 없습니다.
7개의 뉴스 제목이 './data/news_titles_2024.07.06.json' 파일에 저장되었습니다.
7
Fetching page 1 for date 2024.07.07...
1 200
Fetching page 2 for date 2024.07.07...
11 200
Fetching page 3 for date 2024.07.07...
21 200
Fetching page 4 for date 2024.07.07...
31 200
더 이상 뉴스가 없습니다.
28개의 뉴스 제목이 './data/news_titles_2024.07.07.json' 파일에 저장되었습니다.
8
Fetching page 1 for date 2024.07.08...
1 200
Fetching page 2 for date 2024.07.08...
11 200
Fetching page 3 for date 2024.07.08...
21 200
Fetching page 4 for date 2024.07.08...
31 200
Fetching page 5 for date 2024.07.08...
41 200
Fetching page 6 for date 2024.07.08...
51 403
HTTP 요청 

In [6]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime, timedelta

def get_news_titles(query, date):
    base_url = "https://search.naver.com/search.naver"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
    }
    params = {
        "where": "news",
        "query": query,
        "sm": "tab_opt",
        "sort": "0",  # 관련도순 정렬
        "pd": "3",  # 기간 설정
        "ds": date,  # 시작 날짜
        "de": date,  # 종료 날짜
        "start": 1,  # 첫 페이지
    }
    titles = []
    page = 1
    while True:
        try:
            print(f"Fetching page {page} for date {date}...")
            params["start"] = (page - 1) * 10 + 1  # 페이지 계산

            if params["start"] > 90:
                print("최대 페이지 제한 도달.")
                break

            response = requests.get(base_url, headers=headers, params=params)
            print(params["start"], response.status_code)
            if response.status_code != 200:
                print(f"HTTP 요청 실패: {response.status_code}")
                break
            # HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            # 뉴스 제목 추출
            news_items = soup.select(".news_tit")  # 제목 링크에 해당하는 클래스
            if not news_items:
                print("더 이상 뉴스가 없습니다.")
                break
            for item in news_items:
                title = item.get("title")
                if title:
                    titles.append(title)
            # 다음 페이지로 이동
            page += 1
            # 네이버 뉴스 검색은 최대 900개 기사만 제공
            if page > 40:
                print("최대 페이지 제한 도달.")
                break
        except Exception as e:
            print(f"페이지 {page} 크롤링 중 에러 발생: {e}")
            break
    return titles

def save_daily_news(query, start_date, end_date):
    current_date = datetime.strptime(start_date, "%Y.%m.%d")
    end_date = datetime.strptime(end_date, "%Y.%m.%d")
    while current_date <= end_date:
        date_str = current_date.strftime("%Y.%m.%d")
        titles = get_news_titles(query, date_str)
        # 날짜별 JSON 파일 저장
        output_file = f"./data/news_titles_{date_str}.json"
        with open(output_file, "w", encoding="utf-8") as file:
            json.dump(titles, file, ensure_ascii=False, indent=4)
        print(f"{len(titles)}개의 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")
        # 다음 날짜로 이동
        current_date += timedelta(days=1)

def merge_json_files(start_date, end_date, output_file):
    current_date = datetime.strptime(start_date, "%Y.%m.%d")
    end_date = datetime.strptime(end_date, "%Y.%m.%d")
    all_titles = []
    while current_date <= end_date:
        date_str = current_date.strftime("%Y.%m.%d")
        input_file = f"news_titles_{date_str}.json"
        try:
            with open(input_file, "r", encoding="utf-8") as file:
                titles = json.load(file)
                all_titles.extend(titles)
        except FileNotFoundError:
            print(f"파일 '{input_file}'을(를) 찾을 수 없습니다.")
        current_date += timedelta(days=1)
    # 모든 제목을 하나의 JSON 파일로 저장
    with open(output_file, "w", encoding="utf-8") as file:
        json.dump(all_titles, file, ensure_ascii=False, indent=4)
    print(f"모든 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")

# 실행
query = "아시아나항공"
start_date = "2024.07.02"
end_date = "2024.07.02"
# 날짜별 JSON 파일 저장
save_daily_news(query, start_date, end_date)
# 모든 JSON 파일 병합
# merge_json_files(start_date, end_date, "all_asiana_news_titles.json")


Fetching page 1 for date 2024.07.02...
1 200
Fetching page 2 for date 2024.07.02...
11 200
Fetching page 3 for date 2024.07.02...
21 200
Fetching page 4 for date 2024.07.02...
31 200
Fetching page 5 for date 2024.07.02...
41 200
Fetching page 6 for date 2024.07.02...
51 200
Fetching page 7 for date 2024.07.02...
61 200
Fetching page 8 for date 2024.07.02...
71 403
HTTP 요청 실패: 403
70개의 뉴스 제목이 './data/news_titles_2024.07.02.json' 파일에 저장되었습니다.


In [14]:
import requests
from bs4 import BeautifulSoup
import json
from datetime import datetime, timedelta
def get_news_titles(query, date):
    base_url = "https://search.naver.com/search.naver"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36',
    }
    params = {
        "where": "news",
        "query": query,
        "sm": "tab_opt",
        "sort": "0",  # 관련도순 정렬
        "pd": "3",  # 기간 설정
        "ds": date,  # 시작 날짜
        "de": date,  # 종료 날짜
        "start": 1,  # 첫 페이지
    }
    titles = []
    page = 1
    while True:
        try:
            print(f"Fetching page {page} for date {date}...")
            params["start"] = (page - 1) * 10 + 1  # 페이지 계산
            response = requests.get(base_url, headers=headers, params=params)
            if response.status_code != 200:
                print(f"HTTP 요청 실패: {response.status_code}")
                break
            # HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            # 뉴스 제목 추출
            news_items = soup.select(".news_tit")  # 제목 링크에 해당하는 클래스
            if not news_items:
                print("더 이상 뉴스가 없습니다.")
                break
            for item in news_items:
                title = item.get("title")
                if title:
                    titles.append(title)
            # 다음 페이지로 이동
            page += 1
            # 네이버 뉴스 검색은 최대 400개 기사만 제공
            if page > 40:
                print("최대 페이지 제한 도달.")
                break
        except Exception as e:
            print(f"페이지 {page} 크롤링 중 에러 발생: {e}")
            break
    return titles
def save_daily_news(query, start_date, end_date):
    current_date = datetime.strptime(start_date, "%Y.%m.%d")
    end_date = datetime.strptime(end_date, "%Y.%m.%d")
    while current_date <= end_date:
        date_str = current_date.strftime("%Y.%m.%d")
        titles = get_news_titles(query, date_str)
        # 날짜별 JSON 파일 저장
        output_file = f"news_titles_{date_str}.json"
        with open(output_file, "w", encoding="utf-8") as file:
            json.dump(titles, file, ensure_ascii=False, indent=4)
        print(f"{len(titles)}개의 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")
        # 다음 날짜로 이동
        current_date += timedelta(days=1)
def merge_json_files(start_date, end_date, output_file):
    current_date = datetime.strptime(start_date, "%Y.%m.%d")
    end_date = datetime.strptime(end_date, "%Y.%m.%d")
    all_titles = []
    while current_date <= end_date:
        date_str = current_date.strftime("%Y.%m.%d")
        input_file = f"news_titles_{date_str}.json"
        try:
            with open(input_file, "r", encoding="utf-8") as file:
                titles = json.load(file)
                all_titles.extend(titles)
        except FileNotFoundError:
            print(f"파일 '{input_file}'을(를) 찾을 수 없습니다.")
        current_date += timedelta(days=1)
    # 모든 제목을 하나의 JSON 파일로 저장
    with open(output_file, "w", encoding="utf-8") as file:
        json.dump(all_titles, file, ensure_ascii=False, indent=4)
    print(f"모든 뉴스 제목이 '{output_file}' 파일에 저장되었습니다.")
# 실행
query = "아시아나항공"
start_date = "2024.07.09"
end_date = "2024.07.09"
# 날짜별 JSON 파일 저장
save_daily_news(query, start_date, end_date)
# 모든 JSON 파일 병합
# merge_json_files(start_date, end_date, "all_asiana_news_titles.json")

Fetching page 1 for date 2024.07.09...
Fetching page 2 for date 2024.07.09...
Fetching page 3 for date 2024.07.09...
Fetching page 4 for date 2024.07.09...
Fetching page 5 for date 2024.07.09...
Fetching page 6 for date 2024.07.09...
Fetching page 7 for date 2024.07.09...
더 이상 뉴스가 없습니다.
56개의 뉴스 제목이 'news_titles_2024.07.09.json' 파일에 저장되었습니다.
