# 1. Naver Open API 접속해서 검색 하기

## (1) Naver developers 사이트 접속 (검색 API 사용 등록)

- client_id 생성
- client_secret 생성

## (2) request로 호출하기

- request = urllib.request.Request(url)
- request.add_header("X-Naver-Client-Id",client_id)
- request.add_header("X-Naver-Client-Secret",client_secret)
- response = urllib.request.urlopen(request)

In [1]:
import os
import sys
import urllib.request

client_id = "YOUR_CLIENT_ID" # Naver에서 등록하여 받은 ID
client_secret = "YOUR_CLIENT_SECRET" # Naver에서 등록하여 받은 ID

# encText = urllib.parse.quote("검색할 단어")
encText = urllib.parse.quote("축구 아시안컵")
url = "https://openapi.naver.com/v1/search/blog?query=" + encText # JSON 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{
	"lastBuildDate":"Wed, 13 Mar 2024 09:36:37 +0900",
	"total":117281,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"골장면 재방송 다시보기 한국 <b>축구 아시안컵<\/b> 8강전 호주전",
			"link":"https:\/\/blog.naver.com\/lune_etoile\/223340977073",
			"description":"2024년 02월 03일 호주 대한민국 하이라이트 골장면 재방송 다시보기 한국 <b>축구 아시안컵<\/b> 8강전 호주전... 한국 호주 축구 대한민국 호주 전적은 28전 8승 11무 9패로 그 동안 아시안컵에서 만났던 대결 상대 중... ",
			"bloggername":"일상",
			"bloggerlink":"blog.naver.com\/lune_etoile",
			"postdate":"20240201"
		},
		{
			"title":"<b>아시안컵<\/b> 한국 호주 8강 경기 한국<b>축구<\/b> 4강 진출 중국 일본... ",
			"link":"https:\/\/blog.naver.com\/jamjma98\/223342620090",
			"description":"&quot;역시 우리 캡틴 멋져&quot;라는 토트넘 팬들의 웅원 댓글이 많이 보였습니다. 한국<b>축구<\/b>의 <b>아시안컵<\/b> 4강 진출을 축하하며, 다음 4강 요르단과의 경기에서도 좋은 결과 있기를 바랍니다^^",
			"bloggername":"너구리 가족의 땅굴 밖 여행",
			"bloggerlink":"blog.naver.com\/jamjma98",
			"postdate":"20240203"
		},
		{
			"title":"한국 사우디아라비아 <b>축구 아시안컵<\/b> 중계 보러가기",
			"link":"https:\/\/blog.naver.com\/dydxodi333\/223338785754",
			"

# 2. Naver news 크롤링 하기

- 네이버 뉴스에서 월드컵 관련 기사 크롤링 해서 파일로 저장하기

## (1) 전체 작업 설계하기

1. 검색어 지정하기

        srcText = '월드컵'

2. 네이버 뉴스 검색하기

        getNaverSearch()

        (1) url 구성하기

            - url = base + node + srcText
        
        (2) url 접속과 검색 요청하기

            - urllib.request.urlopen()

        (3) 요청 결과를 응답 json으로 받기

            - json.load()

3. 응답 데이터를 정리하여 리스트에 저장하기

        getPostData()

4. 리스트를 JSON 파일로 저장하기

        json.dumps()


In [2]:
import os
import sys
import urllib.request
import datetime
import time
import json

def getRequestUrl(url):
    req = urllib.request.Request(url)
    req.add_header("X-Naver-Client-Id", client_id)
    req.add_header("X-Naver-Client-Secret", client_secret)

    try:
        response = urllib.request.urlopen(req)
        if response.getcode() == 200:
            print("[%s] Url Request Success" % datetime.datetime.now())            
            return response.read().decode('utf-8')
    except Exception as e:
        print(e)
        print("[%s] Error for URL : %s" %(datetime.datetime.now(), url))
        return None


def getNaverSearch(node, srcText, page_start, display):
    base = "https://openapi.naver.com/v1/search"
    node = "/%s.json" % node
    parameters = "?query=%s&start=%s&display=%s" %(urllib.parse.quote(srcText), page_start, display)

    url = base + node + parameters
    responseDecode = getRequestUrl(url)

    if (responseDecode == None):
        return None
    else:
        return json.loads(responseDecode)
    
def getPostData(post, jsonResult, cnt):
    title = post['title']
    description = post['description']
    org_link = post['originallink']
    link = post['link']

    pDate = datetime.datetime.strptime(post['pubDate'], '%a, %d %b %Y %H:%M:%S +0900')
    pDate = pDate.strftime('%Y-%m-%d %H:%M:%S')

    jsonResult.append({'cnt':cnt, 'title':title, 'description':description, 'org_link': org_link, 'link': org_link, 'pDate':pDate})
    return

def main():
    node = 'news' # 크롤링 대상
    srcText = input('검색어를 입력하세요: ')
    cnt = 0
    jsonResult = []

    jsonResponse = getNaverSearch(node, srcText, 1, 100)
    total = jsonResponse['total']

    while ((jsonResponse != None) and (jsonResponse['display'] != 0)):
        for post in jsonResponse['items']:
            cnt += 1
            getPostData(post, jsonResult, cnt)

        start = jsonResponse['start'] + jsonResponse['display']
        jsonResponse = getNaverSearch(node, srcText, start, 100)
    
    print('전체 검색 : %d 건' %total)

    with open('%s_naver_%s.json' % (srcText, node), 'w', encoding='utf8') as outfile:
        jsonFile = json.dumps(jsonResult, indent = 4, sort_keys = True, ensure_ascii = False)
        outfile.write(jsonFile)

    print('가져온 데이터 : %d 건' %(cnt))
    print('%s_naver_%s.json SAVED' %(srcText, node))

if __name__ == '__main__':
    main()

[2024-03-13 09:36:47.737917] Url Request Success
[2024-03-13 09:36:48.177267] Url Request Success
[2024-03-13 09:36:48.577647] Url Request Success
[2024-03-13 09:36:48.963468] Url Request Success
[2024-03-13 09:36:49.354346] Url Request Success
[2024-03-13 09:36:49.738675] Url Request Success
[2024-03-13 09:36:50.141246] Url Request Success
[2024-03-13 09:36:50.537306] Url Request Success
[2024-03-13 09:36:50.959019] Url Request Success
[2024-03-13 09:36:51.396382] Url Request Success
HTTP Error 400: Bad Request
[2024-03-13 09:36:51.711926] Error for URL : https://openapi.naver.com/v1/search/news.json?query=%EC%9D%B4%EA%B0%95%EC%9D%B8&start=1001&display=100
전체 검색 : 128421 건
가져온 데이터 : 1000 건
이강인_naver_news.json SAVED


### Naver 검색 url

- 뉴스 : https://openapi.naver.com/v1/search/news.json
- 블로그 : https://openapi.naver.com/v1/search/blog.json
- 카페 : https://openapi.naver.com/v1/search/cafearticle.json
- 영화 : https://openapi.naver.com/v1/search/movie.json
- 쇼핑 : https://openapi.naver.com/v1/search/shop.json

### 요청 변수

- query : 검색을 원하는 문자열이며 UTF-8로 인코딩한다
- start : 검색 시작 위치로 최대 1000까지 가능 (기본값 1)
- display : 검색 결과 출력 건수를 지정 10(기본값) ~ 100(최대값)

### 응답 변수
- items : 검색 결과로 title, originallink, link, description, pubData를 포함
- title : 검색 결과 문서의 제목
- link : 검색 결과 문서를 제공하는 네이버의 하이퍼텍스트 link
- originallink : 검색 결과 문서를 제공하는 언론사의 하이퍼텍스트 link
- description : 검색 결과 문서의 내용을 요약한 정보
- pubDate : 검색 결과 문서가 네이버에 제공된 시간
