collect_news_crawling.ipynb
1. 크롤링 타겟 URL 확인
2. 크롤링 함수 작성
3. 기간별 뉴스 수집
4. CSV 저장
5. Supabase 업로드

## 라이브러리 import

In [5]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime
import time

## 기본설정

In [6]:
# User-Agent 설정
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}

# BASE_URL = 'https://www.joongang.co.kr/realestate'
BASE_URL = 'https://www.joongang.co.kr/realestate/news'

# 검색 키워드
KEYWORDS = ['부동산', '아파트', '집값']


## 뉴스 크롤링 함수

In [30]:
# def crwl_joongang_realestate(start_page=1, end_page=5):
def crwl_joongang_realestate():
    """
    중앙일보 부동산 섹션 크롤링

    Parameters:
    - start_page: 시작 페이지 (1부터 시작)
    - end_page: 종료 페이지
    """

    all_news = []

    # for page in range(start_page, end_page + 1):
    #     if page == 1:
    #         url = BASE_URL
    #     else:
    #         url = f"{BASE_URL}?page={page}"
        
    
    try:
        response = requests.get(BASE_URL, headers=HEADERS, timeout=10)

        if response.status_code != 200:
            print(f"실패: {response.status_code}")
            # continue

        soup = BeautifulSoup(response.content, 'html.parser')

        # print(soup.select('h2.headline'))


        cards = soup.select('li.card')

        print(f"총 {len(cards)}개 카드 찾음!")

        
        news_list = []

        for card in cards:
            headline = card.select_one('h2.headline')
            date = card.select_one('p.date')
            link = card.select_one('a')

            if headline:  # 제목이 있을 때만
                news_list.append({
                    '제목': headline.get_text(strip=True),
                    '날짜': date.get_text(strip=True) if date else '',
                    'URL': link['href'] if link else ''
                })
    
    except Exception as e:
        print(e)

    for i, news in enumerate(news_list, 1):
        print(f"{i}. {news['제목']}")
        print(f"   날짜: {news['날짜']}")
        print(f"   URL: {news['URL']}")
        print()
    

In [31]:
crwl_joongang_realestate()

총 30개 카드 찾음!
1. 해외건설 수주 473억 달러, 11년 만에 최대…“체코 원전이 효자”
   날짜: 2026.01.09 11:48
   URL: https://www.joongang.co.kr/article/25396332

2. “규정 안 어겼다”더니…국토부 “무안공항 로컬라이저 규정 위반”
   날짜: 2026.01.09 00:43
   URL: https://www.joongang.co.kr/article/25396247

3. 서울 ‘국평’ 평균 분양가 19억 돌파…전국 평균은 7억
   날짜: 2026.01.09 00:01
   URL: https://www.joongang.co.kr/article/25396196

4. "제주항공 참사, 둔덕 없었으면 전원생존"…국토부 입장 바꿨다
   날짜: 2026.01.08 18:18
   URL: https://www.joongang.co.kr/article/25396161

5. 지난달 서울 ‘국평’ 분양가 19억원…전국도 7억 돌파
   날짜: 2026.01.08 15:11
   URL: https://www.joongang.co.kr/article/25396082

6. 불장 송파의 미묘한 변화…서잠실→동잠실로 중심축 이동하나
   날짜: 2026.01.07 18:53
   URL: https://www.joongang.co.kr/article/25395884

7. “서울 아파트 살래”…작년 서울 원정투자 외지인 4년 만에 최다
   날짜: 2026.01.07 15:33
   URL: https://www.joongang.co.kr/article/25395800

8. 굴포천역 남측 도심 공공주택 복합사업 본격화
   날짜: 2026.01.07 14:53
   URL: https://www.joongang.co.kr/article/25395775

9. 인천∼자카르타 노선에 티웨이…대한항공·아시아나 대체사 선정
   날짜: 2026.01.06 11:44
   URL: https://www.j