In [1]:
import requests
import csv
import time
import os

In [2]:
from dotenv import load_dotenv
load_dotenv()

True

In [None]:
# 네이버 검색 API 설정
CLIENT_ID = os.environ.get("CLIENT_ID")
CLIENT_SECRET = os.environ.get("CLIENT_SECRET")
BASE_URL = 'https://openapi.naver.com/v1/search/news.json'

# 검색 파라미터
results_per_request = 100   # 한 번 요청당 가져올 최대 기사 수 (최대 100)
max_results_per_year = 1000 # 연도별 최대 기사 수

# 검색 키워드 리스트
keywords = [
    "금융 사기", "보이스피싱", "스미싱", "파밍", "대출 사기",
    "카드 사기", "인터넷 사기", "은행 사기", "사이버 금융사기",
    "피싱 사기", "불법 대출", "신용카드 도용", "계좌 도용",
    "주식 사기", "가상화폐 사기", "코인 사기", "투자 사기",
    "폰지 사기", "불법 투자 권유", "금융 사기 범죄","전자 금융 사기"
]


# 결과 저장 리스트
articles = []

In [None]:
def get_news(query, start, year):
    """네이버 검색 API를 사용하여 뉴스 데이터 가져오기"""
    headers = {
        'X-Naver-Client-Id': CLIENT_ID,
        'X-Naver-Client-Secret': CLIENT_SECRET
    }
    params = {
        'query': f"{query}",
        'display': results_per_request,
        'start': start,
        'sort': 'date'
    }
    response = requests.get(BASE_URL, headers=headers, params=params)

    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error {response.status_code}: {response.text}")
        return None

In [None]:
# 데이터 수집
for keyword in keywords:
    print(f"[{year}] 키워드 '{keyword}'로 데이터 수집 시작...")
    for start in range(1, max_results_per_year + 1, results_per_request):
        data = get_news(keyword, start, year)
        if data and 'items' in data:
            for item in data['items']:
                articles.append({
                    "keyword": keyword,
                    "title": item['title'],
                    "link": item['link'],
                    "description": item['description'],
                    "pubDate": item['pubDate']
                })
        else:
            break  # 더 이상 결과가 없으면 중단

        time.sleep(0.1)

[2025] 키워드 '금융 사기'로 데이터 수집 시작...
[2025] 키워드 '보이스피싱'로 데이터 수집 시작...
[2025] 키워드 '스미싱'로 데이터 수집 시작...
[2025] 키워드 '파밍'로 데이터 수집 시작...
[2025] 키워드 '대출 사기'로 데이터 수집 시작...
[2025] 키워드 '카드 사기'로 데이터 수집 시작...
[2025] 키워드 '인터넷 사기'로 데이터 수집 시작...
[2025] 키워드 '은행 사기'로 데이터 수집 시작...
[2025] 키워드 '사이버 금융사기'로 데이터 수집 시작...
[2025] 키워드 '피싱 사기'로 데이터 수집 시작...
[2025] 키워드 '불법 대출'로 데이터 수집 시작...
[2025] 키워드 '신용카드 도용'로 데이터 수집 시작...
[2025] 키워드 '계좌 도용'로 데이터 수집 시작...
[2025] 키워드 '주식 사기'로 데이터 수집 시작...
[2025] 키워드 '가상화폐 사기'로 데이터 수집 시작...
[2025] 키워드 '코인 사기'로 데이터 수집 시작...
[2025] 키워드 '투자 사기'로 데이터 수집 시작...
[2025] 키워드 '폰지 사기'로 데이터 수집 시작...
[2025] 키워드 '불법 투자 권유'로 데이터 수집 시작...
[2025] 키워드 '금융 사기 범죄'로 데이터 수집 시작...
[2025] 키워드 '전자 금융 사기'로 데이터 수집 시작...


In [None]:
cnt = len(articles)

15150

In [None]:
# 데이터 저장
output_file = f'data/{cnt}_fraud_news.csv'

with open(output_file, mode='w', encoding='utf-8-sig', newline='') as file:
    writer = csv.DictWriter(file, fieldnames=["year", "keyword", "title", "link", "description", "pubDate"])
    writer.writeheader()
    writer.writerows(articles)

print(f"크롤링 완료: {len(articles)}개의 기사를 {output_file}에 저장했습니다.")

크롤링 완료: 15150개의 기사를 2025_fraud_news.csv에 저장했습니다.


- 수집 데이터 확인

In [12]:
import pandas as pd
df = pd.read_csv(output_file)
df.head()

Unnamed: 0,year,keyword,title,link,description,pubDate
0,2025,금융 사기,[브리프] 국민은행 신한은행 우리은행 농협은행 기업은행 外,http://www.biztribune.co.kr/news/articleView.h...,각종 <b>금융</b>사고와 <b>사기</b>위험으로부터 스마트폰을 안전하게 보호할...,"Thu, 17 Apr 2025 17:54:00 +0900"
1,2025,금융 사기,"하나<b>금융</b>, 발달장애 미술 공모전 '제4회 하나 아트버스' 시상식…NH농...",http://www.sisaon.co.kr/news/articleView.html?...,BUSAN <b>2025</b>'에도 전시될 예정이다. 박현주 NH농협은행 WM사업...,"Thu, 17 Apr 2025 15:58:00 +0900"
2,2025,금융 사기,[Who Is ?] 최병채 인카<b>금융</b>서비스 대표이사 회장,https://www.businesspost.co.kr/BP?command=arti...,"<b>2025</b>년 4월 <b>금융</b>권에 따르면, 금감원 보험<b>사기</...","Thu, 17 Apr 2025 08:34:00 +0900"
3,2025,금융 사기,내수침체 그림자 짙어져…‘재정정책 정상화’로 활력 불어 넣어야,https://n.news.naver.com/mnews/article/028/000...,<b>2025</b>년 예산안도 증가율을 3.2%로 억제했다. 경기가 나쁠 때일수록...,"Thu, 17 Apr 2025 06:02:00 +0900"
4,2025,금융 사기,모임통장-공항 스마트패스… 고객친화 <b>금융</b> 플랫폼,https://n.news.naver.com/mnews/article/020/000...,㈜신한은행의 신한 SOL뱅크가 ‘<b>2025</b> 국가산업대상’ 모바일뱅킹 부문...,"Thu, 17 Apr 2025 03:05:00 +0900"


In [13]:
df.tail()

Unnamed: 0,year,keyword,title,link,description,pubDate
15145,2025,전자 금융 사기,"SKT, 꿈의 보안으로 불리는 ‘양자암호통신’ 올해말 상용화",http://www.breaknews.com/sub_read.html?uid=506...,시 <b>금융 사기</b> 등을 주의할 필요성이 항상 존재한다. 그러나 양자암호 보...,"Fri, 28 Apr 2017 15:01:00 +0900"
15146,2025,전자 금융 사기,&quot;모바일 성장 덕에… 10년 내 신흥국 <b>금융</b> 서비스 이용자 1...,https://n.news.naver.com/mnews/article/018/000...,또한 인도는 2010년부터 생체인식 신분증 발급 프로젝트 ‘아드하르(aadhaar)...,"Thu, 22 Sep 2016 17:14:00 +0900"
15147,2025,전자 금융 사기,"[곽노필의 미래창]인공지능의 두 얼굴, 구원일까 위협일까",https://n.news.naver.com/mnews/article/028/000...,<b>전자</b>의 대표적인 주창자는 구글에서 인공지능 개발을 책임지고 있는 레이 ...,"Mon, 12 Sep 2016 10:45:00 +0900"
15148,2025,전자 금융 사기,"[이슈분석]은행, 핀테크 기업 출자 길 열린다…융합신산업 규제장벽 낮...",https://n.news.naver.com/mnews/article/030/000...,"출자 가능한 핀테크 업종은 △<b>전자금융</b>업(<b>전자</b>지급결제대행, ...","Wed, 06 May 2015 15:21:00 +0900"
15149,2025,전자 금융 사기,[미리보는 조간경제지]STX 지주회사도 살린다 外,http://www.etoday.co.kr/news/section/newsview....,멈추면 <b>금융사기</b> 의심 -PB센터 부자들은 지금 세무조사중 △기업·증권 ...,"Mon, 19 Aug 2013 20:15:00 +0900"
