In [None]:
from src.utils import naver_search
naver_search(query='',search_type="kin")

# 뉴스 : news
# 백과사전 : encyc
# 지식인 : kin




검색 중 예외 발생: HTTP Error 400: Bad Request


{}

In [5]:
import feedparser
from urllib.parse import quote
from typing import List, Dict, Optional


class GoogleNews:
    """
    구글 뉴스를 검색하고 결과를 반환하는 클래스입니다.
    """

    def __init__(self):
        """
        GoogleNews 클래스를 초기화합니다.
        base_url 속성을 설정합니다.
        """
        self.base_url = "https://news.google.com/rss"

    def _fetch_news(self, url: str, k: int = 3) -> List[Dict[str, str]]:
        """
        주어진 URL에서 뉴스를 가져옵니다.

        Args:
            url (str): 뉴스를 가져올 URL
            k (int): 가져올 뉴스의 최대 개수 (기본값: 3)

        Returns:
            List[Dict[str, str]]: 뉴스 제목과 링크를 포함한 딕셔너리 리스트
        """
        news_data = feedparser.parse(url)
        return [
            {"title": entry.title, "link": entry.link}
            for entry in news_data.entries[:k]
        ]

    def _collect_news(self, news_list: List[Dict[str, str]]) -> List[Dict[str, str]]:
        """
        뉴스 리스트를 정리하여 반환합니다.

        Args:
            news_list (List[Dict[str, str]]): 뉴스 정보를 포함한 딕셔너리 리스트

        Returns:
            List[Dict[str, str]]: URL과 내용을 포함한 딕셔너리 리스트
        """
        if not news_list:
            print("해당 키워드의 뉴스가 없습니다.")
            return []

        result = []
        for news in news_list:
            result.append({"url": news["link"], "content": news["title"]})

        return result

    def search_latest(self, k: int = 3) -> List[Dict[str, str]]:
        """
        최신 뉴스를 검색합니다.

        Args:
            k (int): 검색할 뉴스의 최대 개수 (기본값: 3)

        Returns:
            List[Dict[str, str]]: URL과 내용을 포함한 딕셔너리 리스트
        """
        url = f"{self.base_url}?hl=ko&gl=KR&ceid=KR:ko"
        news_list = self._fetch_news(url, k)
        return self._collect_news(news_list)

    def search_by_keyword(
        self, keyword: Optional[str] = None, k: int = 3
    ) -> List[Dict[str, str]]:
        """
        키워드로 뉴스를 검색합니다.

        Args:
            keyword (Optional[str]): 검색할 키워드 (기본값: None)
            k (int): 검색할 뉴스의 최대 개수 (기본값: 3)

        Returns:
            List[Dict[str, str]]: URL과 내용을 포함한 딕셔너리 리스트
        """
        if keyword:
            encoded_keyword = quote(keyword)
            url = f"{self.base_url}/search?q={encoded_keyword}&hl=ko&gl=KR&ceid=KR:ko"
        else:
            url = f"{self.base_url}?hl=ko&gl=KR&ceid=KR:ko"
        news_list = self._fetch_news(url, k)
        return self._collect_news(news_list)


In [7]:
news_tool = GoogleNews()
news_tool.search_latest(k=5)

[{'url': 'https://news.google.com/rss/articles/CBMickFVX3lxTE03RmdPSGM4QU9zSUthYkJfU0taTmdsdGQ4b21UNDFOZlFWWG41WUJPR0NVckhQUzFwR1l0SXBBQ190ZDBmSXdrejhpWTBpTS1UaHo5b0xWUDJDN1N3dnlQeDlsS0ZEM1prSDVTYXFSbElydw?oc=5',
  'content': '“윤석열 1인 인권 검찰”…수사팀 즉시항고 의견 또 무시 ‘포기 강행’ - 한겨레'},
 {'url': 'https://news.google.com/rss/articles/CBMiWkFVX3lxTE1ZZ09iNkZFb3p2b19IZ1p0TGlsbkFTS0FnZkhVbVlISl9BVmdoTHBib0xMOGVNeXdYc3VuZlh0blA2RkhMdmVsZ1kzaUNSXzVzRTltYXN0WkxNQdIBXEFVX3lxTE9KSDlKR3l1cV9Cdmh4UGpSYUlTTVZvVVR0S0w0TDlRTnlUZk8xdGprRUltazNlU2ZHenRYTVFFSTJtbnBzeTUySHAyZnNnX3VfRFRQTmtUY1haSmQy?oc=5',
  'content': '헌재, 최재해 감사원장·이창수 지검장 등 검사 3인 탄핵 전원일치로 기각 - 경향신문'},
 {'url': 'https://news.google.com/rss/articles/CBMid0FVX3lxTE1fcXNwRXEwOHRrWE1HSy1FRklYWkppR2hZNWhxenRkV01KdUJ0bXZKeW9SS3ZNWldFUEhyQ1ZjYTVKemNEUXVwVzRwYmZpVnNwN2lzNExaaVo5WmM4cTdiUzc1XzNGT1FuX0dhZlVHVURlc2V1bmJv0gFmQVVfeXFMTXVheVp2UENNaDRKWkVMRkxXc2cwQzVMR0ozNk5mX2phRmpaN2w3N0N2ZkVxck05Nm5JYkV6TmhQQzJwaHNVY3g3NnNqcS1tRGh4SVFLWUlUbG11cUxYSC0tdGVVcFRn?

In [2]:
import asyncio
from data_crawler import NaverCrawler

async def example():
    # 크롤러 초기화
    crawler = NaverCrawler()
    
    # 검색어와 결과 수 설정
    query = "인공지능"
    display = 5
    
    # 병렬 크롤링 실행
    results = await crawler.crawl_all(query, display)
    
    # 결과 저장
    filename = crawler.save_results(results)
    print(f"결과가 {filename}에 저장되었습니다.")

# 비동기 함수 실행
asyncio.run(example())

결과가 naver_search_results_20250313_222725.json에 저장되었습니다.


In [1]:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

"""
네이버 검색 결과에서 전체 내용을 추출하는 스크립트

네이버 검색 API를 통해 얻은 결과의 각 링크에서 전체 내용을 추출합니다.
"""

import os
import sys
from typing import Dict, List, Any, Optional
import json

# 현재 디렉토리를 sys.path에 추가하여 로컬 모듈을 가져올 수 있게 함


from src.utils import naver_search
from src.utils import fetch_contents_from_search_results_sync



def print_content(content: Dict[str, str], index: int = 0) -> None:
    """
    추출한 콘텐츠를 보기 좋게 출력합니다.
    
    Args:
        content (Dict[str, str]): 추출한 콘텐츠 정보
        index (int, optional): 결과 번호. 기본값은 0.
    """
    print(f"=== 결과 {index} ===")
    print(f"제목: {content['title']}")
    print(f"URL: {content['url']}")
    
    if 'question' in content:
        print("\n[질문]")
        print(content['question'])
    
    if 'answer' in content:
        print("\n[답변]")
        print(content['answer'][:300] + "..." if len(content.get('answer', '')) > 300 else content.get('answer', ''))
    
    if 'content' in content and content['content'] and 'answer' not in content:
        print("\n[내용]")
        print(content['content'][:300] + "..." if len(content.get('content', '')) > 300 else content.get('content', ''))
    
    if content.get('error'):
        print("\n[오류]")
        print(content['error'])
    
    print("\n" + "-" * 80 + "\n")


def save_to_json(contents: List[Dict[str, str]], filename: str) -> None:
    """
    추출한 콘텐츠를 JSON 파일로 저장합니다.
    
    Args:
        contents (List[Dict[str, str]]): 추출한 콘텐츠 목록
        filename (str): 저장할 파일명
    """
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(contents, f, ensure_ascii=False, indent=2)
    
    print(f"결과가 {filename} 파일에 저장되었습니다.")


def main() -> None:
    """
    메인 함수: 네이버 검색 결과에서 전체 내용을 추출하고 출력합니다.
    """
    # 검색어 및 검색 유형 설정
    query = input("검색어를 입력하세요: ") or "골절로 인한 통증 치료 방법"
    search_types = ["kin", "encyc", "blog", "news"]
    
    print(f"\n검색어: {query}")
    print("검색 유형 선택:")
    for i, s_type in enumerate(search_types, 1):
        print(f"{i}. {s_type}")
    
    try:
        choice = int(input("\n원하는 검색 유형 번호를 입력하세요 (기본: 1): ") or "1")
        search_type = search_types[choice - 1]
    except (ValueError, IndexError):
        search_type = "kin"
        print(f"잘못된 선택입니다. 기본값 '{search_type}'으로 진행합니다.")
    
    # 추출할 최대 항목 수 설정
    try:
        max_items = int(input("\n추출할 최대 항목 수를 입력하세요 (기본: 3): ") or "3")
    except ValueError:
        max_items = 3
        print(f"잘못된 값입니다. 기본값 {max_items}으로 진행합니다.")
    
    print(f"\n'{query}'에 대한 '{search_type}' 검색 결과에서 {max_items}개 항목의 내용을 추출합니다...\n")
    
    try:
        # 네이버 검색 API 호출
        search_results = naver_search(query=query, search_type=search_type)
        
        # 검색 결과가 없는 경우
        if not search_results.get('items'):
            print(f"'{query}'에 대한 검색 결과가 없습니다.")
            return
        
        # 검색 결과에서 전체 내용 추출
        contents = fetch_contents_from_search_results_sync(search_results, max_items=max_items)
        
        # 결과 출력
        for i, content in enumerate(contents, 1):
            print_content(content, i)
        
        # JSON 파일로 저장
        save_to_json(contents, f"naver_{search_type}_results.json")
        
    except Exception as e:
        print(f"오류가 발생했습니다: {str(e)}")


if __name__ == "__main__":
    main() 


검색어: 골절통증
검색 유형 선택:
1. kin
2. encyc
3. blog
4. news
잘못된 선택입니다. 기본값 'kin'으로 진행합니다.

'골절통증'에 대한 'kin' 검색 결과에서 3개 항목의 내용을 추출합니다...

=== 결과 1 ===
제목: 4개 답변
URL: https://kin.naver.com/qna/detail.naver?d1id=7&dirId=70120&docId=480717404&qb=6rOo7KCI7Ya17Kad&enc=utf8

[답변]
갈비뼈골절통증이 심하면 일단은 진통제 받아서 드시는방법밖에는 없어요일주일정도 드시면 대부분은 불편한정도지 심하게 아픈경우는 없긴한데 그래도 회복이 더딘분들은약 드시면서 따로 빠른 회복을 위해서 뼈에좋은 영양제나 식품도 챙기세요이게 별게아닌듯해도 회복에 많은 도움이 됩니다뼈도 더 튼튼하게 해주고 ...갈비뼈가 다른 뼈부분과 다르게 깁스나 어떤 치료를 하긴 힘들지만 다행히도 회복력도 다른곳보다는빠른편이라 평소 생활하시면서 무거운물건 안들고 일상생활하실때 최대한 무리 없이 활동을 하시면좋은데요 간단한 팁을 드리자면 허리보호대 같은거나갈비...

--------------------------------------------------------------------------------

=== 결과 2 ===
제목: 2개 답변
URL: https://kin.naver.com/qna/detail.naver?d1id=7&dirId=70119&docId=479485491&qb=6rOo7KCI7Ya17Kad&enc=utf8

[답변]
안녕하세요. 대한의사협회·네이버 지식iN 상담의사 김옥선 입니다.​현재 질문자님의 상태를 살펴보지 못했기 때문에정확한 안내를 도와드리기 어렵습니다.​중족골 골절 수술을 하신 상황이라면,수술 후 회복을 위해 재활 운동 치료를시행해 주셔야 하는데요.​재활 치료의 목적은 다치기 전의 기능을최대한 되찾기 위해 진행하는 것이며,수술 후 약해질 수 있는 부위를 강하게 해서재발을 방지