# 구글 뉴스 페이지별 크롤링

이 노트북은 구글 뉴스에서 특정 키워드에 대한 여러 페이지의 뉴스를 크롤링하는 예제를 보여줍니다.


In [1]:
import sys
from pathlib import Path

# 프로젝트 루트 디렉토리를 Python 경로에 추가
project_root = Path.cwd().parent
sys.path.append(str(project_root))

from src.crawler.google_news import GoogleNewsCrawler


## 특정 페이지 크롤링 테스트


In [2]:
# 크롤러 인스턴스 생성
crawler = GoogleNewsCrawler()

# '우크라' 키워드의 2페이지 기사 제목 가져오기
keyword = "우크라"
page_num = 2
time_period = "d"  # 지난 1일

print(f"'{keyword}' 키워드의 {page_num}페이지 뉴스 검색 중...")
articles = crawler.get_news_titles_by_page(keyword, page_num, time_period)

print(f"\n=== 검색 결과: {len(articles)}개 기사 ===")
for i, article in enumerate(articles, 1):
    print(f"{i}. {article['title']}")
    print(f"   출처: {article['source']}")
    print(f"   시간: {article['published_time']}")
    print()


2025-06-07 22:56:53,247 - src.crawler.google_news - INFO - '우크라' 키워드의 2페이지 검색 중...


'우크라' 키워드의 2페이지 뉴스 검색 중...


2025-06-07 22:56:53,914 - src.crawler.google_news - INFO - '우크라' 2페이지에서 10개 기사 발견



=== 검색 결과: 10개 기사 ===
1. 러, 우크라에 보복 공습…트럼프 "우크라 푸틴에 공격 빌미 제공
   출처: 머니투데이
   시간: 13시간 전
test {'title': '러, 우크라에 보복 공습…트럼프 "우크라 푸틴에 공격 빌미 제공', 'content': "러시아와 우크라이나 전쟁이 다시 격해지고 있다. 우크라이나의 대규모 드론(무인기) 공격 '거미줄 작전'에 당한 러시아가 우크라이나에 향한 보복 공습에 나섰고,...", 'link': 'https://news.mt.co.kr/mtview.php?no=2025060709301236735', 'source': '머니투데이', 'published_time': '13시간 전', 'keyword': '우크라', 'page': 2}

2. 티타늄 갑옷 입은 ‘삼성 갤럭시S25 울트라’, 우크라 병사 목숨 구했다
   출처: 매일경제
   시간: 6시간 전
test {'title': '티타늄 갑옷 입은 ‘삼성 갤럭시S25 울트라’, 우크라 병사 목숨 구했다', 'content': '러시아와 전쟁 중인 우크라이나의 한 병사가 삼성전자의 갤럭시 S25 울트라 스마트폰 덕분에 생명을 구한 사연이 전해졌다. 6일(현지시간) 우크라이나의 IT전문 매체...', 'link': 'https://www.mk.co.kr/news/business/11336545', 'source': '매일경제', 'published_time': '6시간 전', 'keyword': '우크라', 'page': 2}

3. “우크라전 반대” 첫 난민 인정 러시아인…2심서 판단 뒤집혀
   출처: 동아일보
   시간: 7시간 전
test {'title': '“우크라전 반대” 첫 난민 인정 러시아인…2심서 판단 뒤집혀', 'content': '국내에서 처음으로 소송을 통해 우크라이나 전쟁에 반대한다는 이유로 난민 지위를 인정 받았던 러시아인이 2심에서는 패소했다.7일 법조계에 따르면 서울고법 행정9-3...', 'link': 'https://w

## 여러 페이지 크롤링


In [3]:
# 여러 페이지에서 뉴스 수집
keyword = "삼성전자"
max_pages = 3

print(f"'{keyword}' 키워드로 최대 {max_pages}페이지까지 검색...")
all_articles = crawler.get_multiple_pages(keyword, max_pages, "d")

print(f"\n총 {len(all_articles)}개 기사를 수집했습니다.")

# 페이지별 통계
from collections import Counter
page_counts = Counter([article['page'] for article in all_articles])
print("\n페이지별 기사 수:")
for page in sorted(page_counts.keys()):
    print(f"  {page}페이지: {page_counts[page]}개")

# 처음 5개 기사만 출력
print(f"\n=== 처음 5개 기사 ===")
for i, article in enumerate(all_articles[:5], 1):
    print(f"{i}. [{article['page']}페이지] {article['title']}")
    print(f"   출처: {article['source']}")
    print()


2025-06-07 22:58:43,387 - src.crawler.google_news - INFO - '삼성전자' 키워드의 1페이지 검색 중...


'삼성전자' 키워드로 최대 3페이지까지 검색...


2025-06-07 22:58:44,008 - src.crawler.google_news - INFO - '삼성전자' 1페이지에서 10개 기사 발견
2025-06-07 22:58:44,009 - src.crawler.google_news - INFO - '삼성전자' 키워드의 2페이지 검색 중...
2025-06-07 22:58:44,510 - src.crawler.google_news - INFO - '삼성전자' 2페이지에서 10개 기사 발견
2025-06-07 22:58:44,511 - src.crawler.google_news - INFO - '삼성전자' 키워드의 3페이지 검색 중...
2025-06-07 22:58:44,875 - src.crawler.google_news - INFO - '삼성전자' 3페이지에서 10개 기사 발견



총 30개 기사를 수집했습니다.

페이지별 기사 수:
  1페이지: 10개
  2페이지: 10개
  3페이지: 10개

=== 처음 5개 기사 ===
1. [1페이지] 우크라 병사 갤럭시폰에 박힌 파편…“갑옷처럼 날 보호해줘”
   출처: 조선일보

2. [1페이지] 삼성전자, 갤럭시 워치 수면 무호흡 기능 유럽 CE 승인 획득
   출처: NSP통신

3. [1페이지] 삼성 덕분에 포탄파면 막았다"…우크라 병사 생명 살린 갤럭시25
   출처: 머니투데이

4. [1페이지] 방탄 '삼성폰' 또 우크라 병사 구했다…"믿기 어려울 정도
   출처: 한국경제

5. [1페이지] 2030년 '2.3조' 중남미시장 정조준" 삼성전자, 멕시코서 '비스포크 AI가전' 선봬
   출처: NBN NEWS



In [4]:
for i, article in enumerate(all_articles, 1):
    print(f"{i}. [{article['page']}페이지] {article['title']}")
    print(f"   출처: {article['source']}")
    print()

1. [1페이지] 우크라 병사 갤럭시폰에 박힌 파편…“갑옷처럼 날 보호해줘”
   출처: 조선일보

2. [1페이지] 삼성전자, 갤럭시 워치 수면 무호흡 기능 유럽 CE 승인 획득
   출처: NSP통신

3. [1페이지] 삼성 덕분에 포탄파면 막았다"…우크라 병사 생명 살린 갤럭시25
   출처: 머니투데이

4. [1페이지] 방탄 '삼성폰' 또 우크라 병사 구했다…"믿기 어려울 정도
   출처: 한국경제

5. [1페이지] 2030년 '2.3조' 중남미시장 정조준" 삼성전자, 멕시코서 '비스포크 AI가전' 선봬
   출처: NBN NEWS

6. [1페이지] SK하이닉스, 33년만에 삼성전자 제치고 D램시장 1위 등극...주가 연고점 '갱신
   출처: 글로벌이코노믹

7. [1페이지] “우크라 군인 살린 삼성전자 스마트폰… 티타늄 케이스가 파편 막아”
   출처: 천지일보

8. [1페이지] 갤럭시 스마트폰은 갑옷? 또 목숨 구했다…우크라이나 전장서 '갑옷' 된 갤럭시 S25 울트라
   출처: 뉴스스페이스

9. [1페이지] SK하이닉스에 D램 1위 내준 삼성전자, 글로벌 전략회의서 '묘수' 나올까?
   출처: 아시아타임즈

10. [1페이지] 삼성전자, 1030세대 사로잡은 `포토 어시스트 AI` 사용 2배 급증
   출처: 지피코리아

11. [2페이지] 6만전자 돌파?"…삼성전자 개미들 '들썩
   출처: 뉴시스

12. [2페이지] 티타늄 갑옷 입은 ‘삼성 갤럭시S25 울트라’, 우크라 병사 목숨 구했다
   출처: 매일경제

13. [2페이지] 거의 갑옷 수준이잖아?"…우크라 병사 살린 삼성 스마트폰
   출처: 아시아경제

14. [2페이지] “우크라 병사 살린 삼성 갤럭시폰…티타늄 케이스가 파편 막았다”
   출처: 서울경제

15. [2페이지] 보고도 눈을 의심"…삼성폰 전쟁 속 목숨까지 구했다, '대박
   출처: 네이트 뉴스

16. [2페이지] 삼성전자, 하반기 사업 전략 논의 위한 글로벌 전략회의 개최
   출처: 잡포스트

17