## 네이버 검색 API 사용

- blog 및 전문자료 호출 방법이 동일
- bolg 검색만 대표로 예제 작성


- 네이버 개발자 센터에 개발자 등록
    - application 생성 (사용 API : 검색)
    - client_id 와 client_secret 두 값을 생성해어 얻어와야 함

![image.png](attachment:image.png)

In [1]:
import os
import sys
import urllib.request

In [2]:
## id와 key 변수에 저장

client_id = "STxhK23RTV2IJXshJ6F6"
client_secret = 'aeedTpXFb_'

In [3]:
## 검색어 설정 (utf-8로 인코딩)
## urllib.parse.quote
enc_text = urllib.parse.quote('강남역') ## quote를 통해 검색어 인코딩
enc_text

'%EA%B0%95%EB%82%A8%EC%97%AD'

## url
- 데이터 형태에 따라 2개의 url제공
- https://openapi.naver.com/v1/search/blog.xml
- https://openapi.naver.com/v1/search/blog.json (.json은 생략 가능)

In [4]:
url_base = 'https://openapi.naver.com/v1/search/blog?query=' #query=검색어

In [5]:
url = url_base + enc_text
url

'https://openapi.naver.com/v1/search/blog?query=%EA%B0%95%EB%82%A8%EC%97%AD'

## hearder 부착(id, key 전송)
- urllib.request.Request(url) : 전송 객체 생성
- Request.add_header(헤더) : 헤더 부착
- request.urlopen(request 객첵) : 요청

In [6]:
request = urllib.request.Request(url)

# 헤더 추가 (request에 필요한 요소 추가)
request.add_header('X-Naver-Client-Id', client_id)
request.add_header('X-Naver-Client-Secret', client_secret)

In [7]:
# 요청 후 응답
response = urllib.request.urlopen(request)

# 서버가 전송한 응답코드 확인
rescode = response.getcode()
rescode
## 응답코드 200번 정상 출력 

200

In [8]:
if (rescode==200):
    response_body = response.read() # 전송된 검색 data 읽어오기
    #print(response_body) # encoding 된 결과가 넘어옴
    print(response_body.decode('utf-8'))
else:
    print('Error Code : ' + rescode)

{
"lastBuildDate": "Mon, 09 Aug 2021 20:45:06 +0900",
"total": 1742349,
"start": 1,
"display": 10,
"items": [
{
"title": "<b>강남역</b> 데이트 맛집, 마마램",
"link": "https:\/\/blog.naver.com\/scoroom?Redirect=Log&logNo=222456820669",
"description": "캠핑장에서 돌아오고 남은 몇일의 여유를 즐기를 위해서 출동했다^^ <b>강남역</b> 데이트, 마마램 서울 강남구 도산대로 62길 11 (02-543-5310) 이번 캠핑에 양고기는 준비하지 않기도 했고, 양고기는 무엇보다 방문해서... ",
"bloggername": "Sweet Cozy Room",
"bloggerlink": "https://blog.naver.com/scoroom",
"postdate": "20210804"

},
{
"title": "재미가 있는 <b>강남역</b> 맛집 공유",
"link": "https:\/\/blog.naver.com\/jung111hee?Redirect=Log&logNo=222455247595",
"description": "감성타코 <b>강남역</b>점 감성그릴파히타 38000원 위치 : 서울 강남구 강남대로 406 지하1층 문의 : 02-565-8830 영업 : 11:30 - 22:00 마지막주문 21:00 제가 다녀온 감성타코는 <b>강남역</b>11번출구 바로 앞에 위치해있어요.... ",
"bloggername": "맛집멋집",
"bloggerlink": "https://blog.naver.com/jung111hee",
"postdate": "20210803"

},
{
"title": "<b>강남역</b> 스테이크 분위기 좋은 미도인",
"link": "https:\/\/blog.naver.com\/tw01554?Redirect=Log&logNo=222459401543",
"desc

In [9]:
## requests 패키지 사용 - 코드를 좀 간단하게 변경 
#(반환되는 request의 응답객체는 json 형식으로 바로 변환이 가능 (바로 딕셔너리 사용가능))

import requests #서버접속
from urllib.parse import urlparse #한글처리
import urllib.parse

keyword = urllib.parse.quote("강남역")
url ="https://openapi.naver.com/v1/search/blog?query="
url_fin = url+keyword

#get()안에 url과 headers를 포함 할 수 있음
result = requests.get(url_fin,
      headers={"X-Naver-Client-Id":"STxhK23RTV2IJXshJ6F6",
               "X-Naver-Client-Secret":"aeedTpXFb_"})

json_obj = result.json() # 한글처리와 data 형식을 json으로 변경할 수 있음

In [10]:
# items라는 리스트로 모든 정보를 가지고 있음
json_obj

{'lastBuildDate': 'Mon, 09 Aug 2021 20:45:55 +0900',
 'total': 1742349,
 'start': 1,
 'display': 10,
 'items': [{'title': '<b>강남역</b> 데이트 맛집, 마마램',
   'link': 'https://blog.naver.com/scoroom?Redirect=Log&logNo=222456820669',
   'description': '캠핑장에서 돌아오고 남은 몇일의 여유를 즐기를 위해서 출동했다^^ <b>강남역</b> 데이트, 마마램 서울 강남구 도산대로 62길 11 (02-543-5310) 이번 캠핑에 양고기는 준비하지 않기도 했고, 양고기는 무엇보다 방문해서... ',
   'bloggername': 'Sweet Cozy Room',
   'bloggerlink': 'https://blog.naver.com/scoroom',
   'postdate': '20210804'},
  {'title': '재미가 있는 <b>강남역</b> 맛집 공유',
   'link': 'https://blog.naver.com/jung111hee?Redirect=Log&logNo=222455247595',
   'description': '감성타코 <b>강남역</b>점 감성그릴파히타 38000원 위치 : 서울 강남구 강남대로 406 지하1층 문의 : 02-565-8830 영업 : 11:30 - 22:00 마지막주문 21:00 제가 다녀온 감성타코는 <b>강남역</b>11번출구 바로 앞에 위치해있어요.... ',
   'bloggername': '맛집멋집',
   'bloggerlink': 'https://blog.naver.com/jung111hee',
   'postdate': '20210803'},
  {'title': '<b>강남역</b> 스테이크 분위기 좋은 미도인',
   'link': 'https://blog.naver.com/tw01554?Redirect=Log&log

In [11]:
print(json_obj["lastBuildDate"])
print(json_obj['total'])
print(json_obj['start'])
print(json_obj['display'])


Mon, 09 Aug 2021 20:45:55 +0900
1742349
1
10


In [12]:
## json data 추출 : dict 처럼 변수 [key]
json_obj['items']

[{'title': '<b>강남역</b> 데이트 맛집, 마마램',
  'link': 'https://blog.naver.com/scoroom?Redirect=Log&logNo=222456820669',
  'description': '캠핑장에서 돌아오고 남은 몇일의 여유를 즐기를 위해서 출동했다^^ <b>강남역</b> 데이트, 마마램 서울 강남구 도산대로 62길 11 (02-543-5310) 이번 캠핑에 양고기는 준비하지 않기도 했고, 양고기는 무엇보다 방문해서... ',
  'bloggername': 'Sweet Cozy Room',
  'bloggerlink': 'https://blog.naver.com/scoroom',
  'postdate': '20210804'},
 {'title': '재미가 있는 <b>강남역</b> 맛집 공유',
  'link': 'https://blog.naver.com/jung111hee?Redirect=Log&logNo=222455247595',
  'description': '감성타코 <b>강남역</b>점 감성그릴파히타 38000원 위치 : 서울 강남구 강남대로 406 지하1층 문의 : 02-565-8830 영업 : 11:30 - 22:00 마지막주문 21:00 제가 다녀온 감성타코는 <b>강남역</b>11번출구 바로 앞에 위치해있어요.... ',
  'bloggername': '맛집멋집',
  'bloggerlink': 'https://blog.naver.com/jung111hee',
  'postdate': '20210803'},
 {'title': '<b>강남역</b> 스테이크 분위기 좋은 미도인',
  'link': 'https://blog.naver.com/tw01554?Redirect=Log&logNo=222459401543',
  'description': '<b>강남역</b> 스테이크 찾고 있다면 여기 어떨가 싶네용~ #<b>강남역</b>스테이크 #<b>강남역</b>대창덮밥 #<b>강남역</b>미도인 #미도인 #

In [12]:
for item in json_obj['items']:
    print(item.keys())

dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])
dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])


In [13]:
for item in json_obj['items']:
    print(len(item.keys()))

6
6
6
6
6
6
6
6
6
6


In [16]:
# title 제목 추출
for item in json_obj['items']:
    print(item['title'])

<b>강남역</b> 데이트 맛집, 마마램
재미가 있는 <b>강남역</b> 맛집 공유
<b>강남역</b> 스테이크 분위기 좋은 미도인
재료가 좋은 삼겹살 <b>강남역</b> 고기집
최고였던 <b>강남역</b> 고기집
인정했던 <b>강남역</b> 점심
극찬했던 <b>강남역</b> 돼지갈비 맛집
합격점줬던 <b>강남역</b> 고기집
대만족했던 <b>강남역</b> 고기집
<b>강남역</b> 데이트 _ 마마램 feat. 냄새가 1도 없는 양고기


In [17]:
# title 제목 추출
# 불용어 제거 (불필요한 내용)
for item in json_obj['items']:
    print(item['title'].replace('<b>','').replace('</b>',''))

강남역 데이트 맛집, 마마램
재미가 있는 강남역 맛집 공유
강남역 스테이크 분위기 좋은 미도인
재료가 좋은 삼겹살 강남역 고기집
최고였던 강남역 고기집
인정했던 강남역 점심
극찬했던 강남역 돼지갈비 맛집
합격점줬던 강남역 고기집
대만족했던 강남역 고기집
강남역 데이트 _ 마마램 feat. 냄새가 1도 없는 양고기


In [18]:
## 검색 결과 100개로 늘리기

keyword = "강남역"
url ="https://openapi.naver.com/v1/search/blog?query="
url_fin = url + keyword + '&display=100'

result = requests.get(url_fin,
      headers={"X-Naver-Client-Id":"STxhK23RTV2IJXshJ6F6",
               "X-Naver-Client-Secret":"aeedTpXFb_"})



In [19]:
#items를 제외한 4개의 key value 추출
json_obj = result.json()
print(json_obj["lastBuildDate"])
print(json_obj['total']) #전체 검색 개수
print(json_obj['start']) #반환되는 data의 시작 값, 기본 1
print(json_obj['display'])#반환되는 검색 data 개수, 기본 10


Mon, 09 Aug 2021 20:51:50 +0900
1742349
1
100


## 연습문제

In [None]:
## 원하는 검색어를 설정한 후 
## 글제목, 설명, 세부링크, 블로거명, 블로그 주소, 생성날짜를 추출해서 df로 저장
## 200개 data를 저장

![image-2.png](attachment:image-2.png)

In [20]:
keyword = urllib.parse.quote("올림픽")
url ="https://openapi.naver.com/v1/search/blog?query="
url_1 = url + keyword + "&display=100&start="

In [21]:
import pandas as pd
search_df = pd.DataFrame()

In [22]:
for i in range(2): #url 200개를 가져와서 range = 2 (100개씩 가져올 수 있음)
    start = i*100+1
    url_fin = url_1 + str(start)
#     print(url_fin)
    result = requests.get(url_fin, 
                          headers={"X-Naver-Client-Id":"STxhK23RTV2IJXshJ6F6", 
                                   "X-Naver-Client-Secret":"aeedTpXFb_"})
    
    json_obj = result.json()
    
    # 데이터 들어오는 확인하기 위한 코드
    print(json_obj["lastBuildDate"])
    print(json_obj['total'])
    print(json_obj['start'])
    print(json_obj['display'])
    
    for item in json_obj["items"] :
        item_dict = {}
        item_dict["title"] = item['title'].replace("<b>","").replace("</b>","")
        item_dict["link"] = item['link']
        item_dict["description"] = item['description'].replace("<b>","").replace("</b>","")
        item_dict["bloggername"] = item['bloggername'].replace("<b>","").replace("</b>","")
        item_dict["bloggerlink"] = item['bloggerlink']
        item_dict["p_Date"] = item["postdate"]
        search_df = search_df.append(item_dict,ignore_index=True)




Mon, 09 Aug 2021 20:52:11 +0900
3012650
1
100
Mon, 09 Aug 2021 20:52:11 +0900
3012650
101
100


In [23]:
json_obj

{'lastBuildDate': 'Mon, 09 Aug 2021 20:52:11 +0900',
 'total': 3012650,
 'start': 101,
 'display': 100,
 'items': [{'title': '한국 <b>올림픽</b>야구 동메달 결정전 예상(한국 VS 도미니카)',
   'link': 'https://blog.naver.com/peterfine?Redirect=Log&logNo=222460518074',
   'description': '<b>올림픽</b> 야구 대표팀은 일본과 미국에 연달아 패하며 도미니카와의 동메달 결정전에 나선다. 한국 대표팀 선수 개개인이 확실히 일본이나 미국에 비해 경쟁력이 떨어져 예상했던 결과다. 한국은 역대 <b>올림픽</b>에서... ',
   'bloggername': '사색하는 자유(Truth will set you free)',
   'bloggerlink': 'https://blog.naver.com/peterfine',
   'postdate': '20210807'},
  {'title': '김연경선수의 월드클래스 - <b>올림픽</b> 여자배구 4강팀 주장들과... ',
   'link': 'https://blog.naver.com/enikia?Redirect=Log&logNo=222462227989',
   'description': '국제 배구연맹 FIVB는 이번 <b>올림픽</b>의 가장 상징적인 포옹 MOST ICONIC HUG AT Tokyo2020이라고 표현. 동메달... 이렇게 한국 김연경, 브라질 나탈리, 세르비아 보스코비치, 미국 라슨 선수는 도쿄 <b>올림픽</b> 4강에... ',
   'bloggername': '니키연구소',
   'bloggerlink': 'https://blog.naver.com/enikia',
   'postdate': '20210808'},
  {'title': '2020도쿄<b>올림픽</b> SBS엔딩 ‘조용필-고독한 러너’',
   'li

In [24]:
search_df

Unnamed: 0,bloggerlink,bloggername,description,link,p_Date,title
0,https://blog.naver.com/jylee062700,블로그,드디어 16일간의 올림픽이 끝이 났다..! 재미없겠지만 잘 봐줘.. https://...,https://blog.naver.com/jylee062700?Redirect=Lo...,20210808,8월 8일 올림픽 최종 결산
1,https://blog.naver.com/dongi0508,Der Sinn des Lebens,여자배구 올림픽 일정 A조 세계랭킹 순위 한일전! 오늘 진짜 여러 빅매치들이 많이 ...,https://blog.naver.com/dongi0508?Redirect=Log&...,20210731,여자배구 올림픽 일정 A조 세계랭킹 순위 한일전!
2,https://blog.naver.com/beheaded,Golf for weekend warrior,"멋진 골프스윙과 흠잡을 데 없는 플레이로 이번 도쿄 올림픽을 빛내준 낼리코다 선수,...",https://blog.naver.com/beheaded?Redirect=Log&l...,20210808,올림픽 여자골프 금메달리스트 넬리코다 선수 골프클럽
3,https://blog.naver.com/mosfnet,기획재정부 경제e야기,영화 &lt;우리 생애 최고의 순간&gt;(이하 우생순)은 2004년 아테네 올림픽...,https://blog.naver.com/mosfnet?Redirect=Log&lo...,20210809,영화 &lt;우리 생애 최고의 순간&gt;으로 보는 올림픽 메달과 연금
4,https://blog.naver.com/shalacho,보미로그,도쿄 올림픽 야구 대표팀의 동메달 획득을 원하는 사람은 얼마나 될까요? 솔직히 말해...,https://blog.naver.com/shalacho?Redirect=Log&l...,20210807,[올림픽 야구] 세계 최강이라는 거품
...,...,...,...,...,...,...
195,https://blog.naver.com/mirr13,행복한 날(我 & 日) 만들기~*^^*,7.24.(토) - 오사카살이 358일째 어제 #Tokyo2020_올림픽 개막식이 ...,https://blog.naver.com/mirr13?Redirect=Log&log...,20210806,오사카생활 day.358 : 하루 늦게 보는 도쿄올림픽 개막식
196,https://blog.naver.com/nfripr,FUSION Together,세계인의 축제 올림픽의 열기가 뜨겁습니다. 코로나19라는 큰 위기 속에 치러지고 있...,https://blog.naver.com/nfripr?Redirect=Log&log...,20210805,"아름다운 경쟁과 협력, 과학기술 올림픽 &quot;ITER 프로젝트&quot;"
197,https://blog.naver.com/banaly,방바닥 블로그,"어제 저녁 식사를 하면서 TV를 봤는데, 올림픽 3m 다이빙 결승이 하고 있었다. ...",https://blog.naver.com/banaly?Redirect=Log&log...,20210804,올림픽 3m 다이빙 우하람 선수
198,https://blog.naver.com/sports_7330,대한체육회 공식 블로그,2020 도쿄올림픽이 11일차에 접어들었습니다. 순수하게 운동만을 바라보며 올림픽을...,https://blog.naver.com/sports_7330?Redirect=Lo...,20210802,[2020 도쿄올림픽] 가장 무거운 메달에 도전!: 역도
