## 네이버 OPEN API
### 인증 여부에 따라 구분
- 로그인 방식 오픈 API
- 비로그인 방식 오픈 API
    - HTTP 헤더에 클라이언트 아이디와 클라이언트 시크릿 값만 전송해 사용할 수 있는 오픈 API
    - 네이버 아이디로 로그인의 인증을 통한 접근 토큰을 획득할 필요가 없음
    - 검색, 공유하기, 지도, 캡차(이미지) 등의 오픈 API
- 개발자 센터에 개발자 등록 후
    - client_id 와 client_key를 발급받아 사용

In [1]:
# 네이버 검색 API는 블로그부터 전문자료까지 호출방법이 동일
# 블로그 검색 - 네이버 검색 Open API에서 제공하는 예제
import os
import sys
import urllib.request

In [2]:
# 네이버 검색 Open API 예제 - 블로그 검색
client_id = "pOdfwRraC5W55dxPeRPQ"
client_secret = "8jQTYZWryv"
encText = urllib.parse.quote("강남역")
url = "https://openapi.naver.com/v1/search/blog?query=" + encText # json 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
# 400 : 클라이언트 문제
# 500 : 서버문제
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{
	"lastBuildDate":"Fri, 29 Jul 2022 09:17:18 +0900",
	"total":1925407,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"매료됐던 <b>강남역<\/b> 고기집",
			"link":"https:\/\/blog.naver.com\/speednet05?Redirect=Log&logNo=222811527824",
			"description":"얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역<\/b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ",
			"bloggername":"열살",
			"bloggerlink":"https:\/\/blog.naver.com\/speednet05",
			"postdate":"20220714"
		},
		{
			"title":"<b>강남역<\/b>임플란트치과 상실된 부분을 수복하여",
			"link":"https:\/\/blog.naver.com\/alexkimhd?Redirect=Log&logNo=222822426691",
			"description":"<b>강남역<\/b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역<\/b>임플란트치과에서 개선할 수 있었어요.... ",
			"bloggername":"강남애프터치과의원 공식블로그",
			"bloggerlink":"https:\/\/blog.naver.com\/alexkimhd",
			"postdate":"20220721"
		},
		{
			"title":"후회없던 <b>강남역<\/b> 고기집 도마3",
			"link":"https:\/\/blog.naver.com\/artkal?Redirect=Log&logNo=2228229974

In [3]:
# requests 함수를 이용해서 요청
# header 구성이 간단함
import requests
from urllib.parse import urlparse # 한글처리
import urllib.parse

In [4]:
client_id = "pOdfwRraC5W55dxPeRPQ"
client_secret = "8jQTYZWryv"

keyword = urllib.parse.quote('강남역')
# 서버측으로 파라미터(요청변수)를 전달할 대 한글은 2바이트이므로 한바이트씩 분리해서 전달해야 함
# quote()는 한글을 통신data로 변경하는 역할을 함
# keyword

# 요청 URL
base_url = 'https://openapi.naver.com/v1/search/blog.json'
param = '?query=' + keyword
url = base_url + param
url

# 인증정보는 header에 포함
headers = {"X-Naver-Client-Id": client_id, 
           "X-Naver-Client-Secret" : client_secret}

# 요청
result = requests.get(url,headers=headers)
result

<Response [200]>

In [5]:
# result 파싱
# json으로 요청했으므로 json type으로 변환해서 추출
json_obj = result.json()
json_obj

{'lastBuildDate': 'Fri, 29 Jul 2022 09:17:18 +0900',
 'total': 1925407,
 'start': 1,
 'display': 10,
 'items': [{'title': '매료됐던 <b>강남역</b> 고기집',
   'link': 'https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824',
   'description': '얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역</b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ',
   'bloggername': '열살',
   'bloggerlink': 'https://blog.naver.com/speednet05',
   'postdate': '20220714'},
  {'title': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여',
   'link': 'https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691',
   'description': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역</b>임플란트치과에서 개선할 수 있었어요.... ',
   'bloggername': '강남애프터치과의원 공식블로그',
   'bloggerlink': 'https://blog.naver.com/alexkimhd',
   'postdate': '20220721'},
  {'title': '후회없던 <b>강남역</b> 고기집 도마3',
   'link': 'https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465',
   'description': '입

In [6]:
json_obj['lastBuildDate'] # 요청 후 검색한 시간
json_obj['total'] # 전체 검색 결과
json_obj['start'] # 갖고온 결과의 시작
json_obj['display'] # 몇개의 결과를 갖고 왔는지
len(json_obj['items'])

10

In [7]:
# 네이버 open API가 반환해준 검색 내용
json_obj['items'][0].keys()

dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])

In [8]:
# items에서 특성 속성값만 추출
for item in json_obj['items'] :
    print(item['title'].replace("<b>","").replace("</b>",""))

매료됐던 강남역 고기집
강남역임플란트치과 상실된 부분을 수복하여
후회없던 강남역 고기집 도마3
이맛이었던 강남역 고기집
강남역 카페 타르트 맛집 타르타르
강남역마사지 만족스러워요!
콜키지프리 가능한 강남역 레스토랑
맛 정말 좋았던 강남역 고기집 봉우이층집
놀라웠던 강남역 회식장소
가성비 좋은 강남역 고기집


In [9]:
for item in json_obj['items'] :
    print(item['title'].replace("<b>","").replace("</b>",""),item['link'])

매료됐던 강남역 고기집 https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824
강남역임플란트치과 상실된 부분을 수복하여 https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691
후회없던 강남역 고기집 도마3 https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465
이맛이었던 강남역 고기집 https://blog.naver.com/jinhot?Redirect=Log&logNo=222764742330
강남역 카페 타르트 맛집 타르타르 https://blog.naver.com/l4o8v6ez?Redirect=Log&logNo=222824664525
강남역마사지 만족스러워요! https://blog.naver.com/dasul119?Redirect=Log&logNo=222783258275
콜키지프리 가능한 강남역 레스토랑 https://blog.naver.com/eunji4620?Redirect=Log&logNo=222795995803
맛 정말 좋았던 강남역 고기집 봉우이층집 https://blog.naver.com/13qjrmadl?Redirect=Log&logNo=222763678031
놀라웠던 강남역 회식장소 https://blog.naver.com/papalagi2?Redirect=Log&logNo=222765186953
가성비 좋은 강남역 고기집 https://blog.naver.com/sia855?Redirect=Log&logNo=222764823644


### 검색 결과를 10개에서 100개로 늘리기
- 네이버의 검색 결과 기본 값 : 10
- 관련 요청 변수 : display(최대값 100)

In [10]:
client_id = "pOdfwRraC5W55dxPeRPQ"
client_secret = "8jQTYZWryv"

keyword = urllib.parse.quote('강남역')
# 서버측으로 파라미터(요청변수)를 전달할 대 한글은 2바이트이므로 한바이트씩 분리해서 전달해야 함
# quote()는 한글을 통신data로 변경하는 역할을 함
# keyword
num = 100
# 요청 URL
base_url = 'https://openapi.naver.com/v1/search/blog.json'
param = '?query=' + keyword + '&display=' + str(num) 
url = base_url + param
url

# 인증정보는 header에 포함
headers = {"X-Naver-Client-Id": client_id, 
           "X-Naver-Client-Secret" : client_secret}

# 요청
result = requests.get(url,headers=headers)
result

<Response [200]>

In [11]:
json_obj = result.json()
json_obj

{'lastBuildDate': 'Fri, 29 Jul 2022 09:17:19 +0900',
 'total': 1925407,
 'start': 1,
 'display': 100,
 'items': [{'title': '매료됐던 <b>강남역</b> 고기집',
   'link': 'https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824',
   'description': '얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역</b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ',
   'bloggername': '열살',
   'bloggerlink': 'https://blog.naver.com/speednet05',
   'postdate': '20220714'},
  {'title': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여',
   'link': 'https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691',
   'description': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역</b>임플란트치과에서 개선할 수 있었어요.... ',
   'bloggername': '강남애프터치과의원 공식블로그',
   'bloggerlink': 'https://blog.naver.com/alexkimhd',
   'postdate': '20220721'},
  {'title': '후회없던 <b>강남역</b> 고기집 도마3',
   'link': 'https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465',
   'description': '

In [12]:
len(json_obj['items'])

100

In [13]:
num = 0
for item in json_obj['items'] :
    num += 1
    print(num,".",item['title'].replace("<b>","").replace("</b>",""),item['link'])


1 . 매료됐던 강남역 고기집 https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824
2 . 강남역임플란트치과 상실된 부분을 수복하여 https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691
3 . 후회없던 강남역 고기집 도마3 https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465
4 . 이맛이었던 강남역 고기집 https://blog.naver.com/jinhot?Redirect=Log&logNo=222764742330
5 . 강남역 카페 타르트 맛집 타르타르 https://blog.naver.com/l4o8v6ez?Redirect=Log&logNo=222824664525
6 . 강남역마사지 만족스러워요! https://blog.naver.com/dasul119?Redirect=Log&logNo=222783258275
7 . 콜키지프리 가능한 강남역 레스토랑 https://blog.naver.com/eunji4620?Redirect=Log&logNo=222795995803
8 . 맛 정말 좋았던 강남역 고기집 봉우이층집 https://blog.naver.com/13qjrmadl?Redirect=Log&logNo=222763678031
9 . 놀라웠던 강남역 회식장소 https://blog.naver.com/papalagi2?Redirect=Log&logNo=222765186953
10 . 가성비 좋은 강남역 고기집 https://blog.naver.com/sia855?Redirect=Log&logNo=222764823644
11 . 가성비높은 강남역 모임장소 https://blog.naver.com/siver1024?Redirect=Log&logNo=222765155697
12 . 박수쳤던 강남역 점심 맛집 https://blog.naver.com/p03kiwon03?Redirect

### 호출 코드를 함수로 구현
- 네이버 API는 한번에 100개의 결과가 최대
- 100개 이상을 수집하려면 페이지(start)를 넘겨가면서 여러번 호출해야 함
- 함수로 구현해서 여러번 호출 시 사용
- get_api_result(keyword,display)
    - 검색어 설정
    - 최대 100개 내에서 검색 갯수 설정

In [14]:
def get_api_result(key, dis) :
    client_id = "pOdfwRraC5W55dxPeRPQ"
    client_secret = "8jQTYZWryv"

    keyword = urllib.parse.quote(key)
    num = dis
    # 요청 URL
    base_url = 'https://openapi.naver.com/v1/search/blog.json'
    param = '?query=' + keyword + '&display=' + str(num) 
    url = base_url + param
    # 인증정보는 header에 포함
    headers = {"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}

    # 요청
    result = requests.get(url,headers=headers)
    # json 변환
    json_obj = result.json()
    return json_obj

In [15]:
# 함수 테스트
res = get_api_result('시청',80)['items']
get_api_result('시청',80)['display']

80

In [16]:
res

[{'title': '숨어있던 부산<b>시청</b> 맛집',
  'link': 'https://blog.naver.com/yt2341?Redirect=Log&logNo=222791136992',
  'description': '지난 주말 휴가를 사용해서 부산으로 여행을 다녀오며 미리 알아둔 부산<b>시청</b> 맛집을 찾아갔어요.... 위치도 부산<b>시청</b>역에서 도보로 5분정도 소요되고 저녁에는 와인바처럼 이용하기도 좋겠더라고요. 좋은... ',
  'bloggername': '클로이 Chloe Blog',
  'bloggerlink': 'https://blog.naver.com/yt2341',
  'postdate': '20220627'},
 {'title': '부천<b>시청</b>pt 건강까지 챙겨본 과정',
  'link': 'https://blog.naver.com/999meg?Redirect=Log&logNo=222832877212',
  'description': '늦은감이 없지않지만 건강하게 하고싶다는 마음 하나로 pt를 알아보다가 [지엠짐] 부천<b>시청</b>pt를 만나게... 부천<b>시청</b>역 4번출구로 나와서 조금만 걸어가면 방문할 수 있기에 거리도 되게 가까웠고요. 집근처라... ',
  'bloggername': '푸딩',
  'bloggerlink': 'https://blog.naver.com/999meg',
  'postdate': '20220728'},
 {'title': '단골하고 싶은 제주 <b>시청</b> 맛집',
  'link': 'https://blog.naver.com/actor_pak?Redirect=Log&logNo=222784017445',
  'description': '며칠 전 제주에 살고있는 친구를 보러갔다가 동네에서 소문이 난 제주 <b>시청</b> 맛집을 들렸어요. 인증된... 제주<b>시청</b>에서 차로 5분정도 소요됐어요. 도로변 1층에 금색으로된 간판으로 초행길에도 수월하게... ',
 

### 함수 수정
- 시작페이지를 지정할 수 있게

In [17]:
def get_api_result(key, dis, start_num) :
    client_id = "pOdfwRraC5W55dxPeRPQ"
    client_secret = "8jQTYZWryv"

    keyword = urllib.parse.quote(key)
    num = dis
    start = start_num
    # 요청 URL
    base_url = 'https://openapi.naver.com/v1/search/blog.json'
    param = '?query=' + keyword + \
            '&display=' + str(num) + \
            '&start='+ str(start)
    
    url = base_url + param
    # 인증정보는 header에 포함
    headers = {"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}

    # 요청
    result = requests.get(url,headers=headers)
    # json 변환
    json_obj = result.json()
    return json_obj

In [18]:
get_api_result('겨울',100,201)

{'lastBuildDate': 'Fri, 29 Jul 2022 09:17:20 +0900',
 'total': 27129838,
 'start': 201,
 'display': 100,
 'items': [{'title': '<b>겨울</b>에 만나는 강원 2: 인제&amp;양구 가볼 만한 곳',
   'link': 'https://blog.naver.com/gogw1234?Redirect=Log&logNo=222657719919',
   'description': '곳  <b>겨울</b>에 만나는 강원도 2 1. 양구 한반도섬 한반도섬은 생태계 복원과 수질정화를 위해 조성된 국내 최대의 인공습지인 파로호 인공습지에 위치하고 있는데요~ 봄여름에는 푸르른 경관을 볼 수 있다면 <b>겨울</b>... ',
   'bloggername': '"VISIT GANGWON(비짓강원)" 강원관광 공식블로그',
   'bloggerlink': 'https://blog.naver.com/gogw1234',
   'postdate': '20220225'},
  {'title': '흥미로웠던 <b>겨울</b> 제주 갈만한곳',
   'link': 'https://blog.naver.com/jbm993?Redirect=Log&logNo=222599595426',
   'description': '흥미로웠던 <b>겨울</b> 제주 가볼만한곳 흥미로웠던 <b>겨울</b> 제주 가볼곳 공항에 도착했던 첫 날은 일정을 앞당겨 모슬포 운진항에서 출발하는 여객선을 타고 가파도를 다녀왔어요. 지난 봄 청보리가 익어갈때... ',
   'bloggername': '열씨미 카메라세상',
   'bloggerlink': 'https://blog.naver.com/jbm993',
   'postdate': '20211220'},
  {'title': '<b>겨울</b>쿨톤 연예인과 염색, 립 총정리!',
   'link': 'https://blog.naver.com/qmfosej?Redirect=L

In [19]:
# 검색어와 시작페이지, 추출개수를 전달받아서
# 검색결과에 대해 블로그 제목, 글 링크, 블로거이름을 출력하는 함수

- call_and_print(key,dis_num,start_num)
    - 검색결과에 대해 블로그 제목, 글 링크, 블로거이름을 출력하는 함수

In [20]:
def call_and_print(key,dis_num,start_num) :
    json_obj = get_api_result(key,dis_num,start_num)
    
    for item in json_obj['items'] :
        print(item['title'],item['link'],item['bloggername'])

In [21]:
call_and_print('하늘',100,201)

맛있는 디저트가 다양한 파주 문산 카페 서쪽<b>하늘</b> https://blog.naver.com/msr2818?Redirect=Log&logNo=222832503013 Moon_mom&apos;s daily life
반포동 고급빌라 서래마을 <b>하늘</b>바람 매매 https://blog.naver.com/rnrqjs1201?Redirect=Log&logNo=222803575557 ┟┩하이클래스공인중개사사무소
<b>하늘</b>맛집 계양산성과 계양산 https://blog.naver.com/chorok2800?Redirect=Log&logNo=222798310934 더기의 프랑스자수
여름엔 <b>하늘</b>로!, &quot;패러글라이딩&quot; vs 여름엔 강으로!, &quot;래프팅&quot; https://blog.naver.com/danyanggun?Redirect=Log&logNo=222832317749 대한민국 녹색쉼표, 단양
<b>하늘</b>엔 탑건 바다엔 한산, 시사회 평론가 호평 쏟아져. 한산...  https://coast.tistory.com/entry/%ED%95%98%EB%8A%98%EC%97%94-%ED%83%91%EA%B1%B4-%EB%B0%94%EB%8B%A4%EC%97%94-%ED%95%9C%EC%82%B0-%EC%8B%9C%EC%82%AC%ED%9A%8C-%ED%8F%89%EB%A1%A0%EA%B0%80-%ED%98%B8%ED%8F%89-%EC%8F%9F%EC%95%84%EC%A0%B8-%ED%95%9C%EC%82%B0-%ED%85%8C%EB%A7%88%EC%A3%BC-%EB%8C%80%EC%84%B1%EC%B0%BD%ED%88%AC-%EC%A3%BC%EA%B0%80%EC%83%81%EC%8A%B9 별그림자
트니트니, <b>하늘</b>이 간식주는 아이 d-908 https://blog.naver.com/borori20?Redirect=Log&logNo=222799794014 매일육아
국회의사당, <b>하늘</b> 구경, B

In [22]:
import pandas as pd
# data 추출 후 저장하는 함수
# def call_and_save(key,dis_num,start_num) :
#     json_obj = get_api_result(key,dis_num,start_num)
    
#     title = [item['title'] for item in json_obj['items']]
#     link = [item['link'] for item in json_obj['items']]
#     b_name = [item['bollgername'] for item in json_obj['items']]
    
#     return pd.DataFrame({'title':title,
#                         'link':title,
#                         'b_name':b_name,})
def call_and_save(key,dis_num,start_num) :
    json_obj = get_api_result(key,dis_num,start_num)
    
    title = [item['title'] for item in json_obj['items']]
    link=[item['link'] for item in json_obj['items']]
    b_name=[item['bloggername'] for item in json_obj['items']]
    
    return pd.DataFrame({'title':title,
                         'link' : link,
                         'b_name' : b_name})


In [23]:
call_and_save('시청',100,1)

Unnamed: 0,title,link,b_name
0,숨어있던 부산<b>시청</b> 맛집,https://blog.naver.com/yt2341?Redirect=Log&log...,클로이 Chloe Blog
1,부천<b>시청</b>pt 건강까지 챙겨본 과정,https://blog.naver.com/999meg?Redirect=Log&log...,푸딩
2,단골하고 싶은 제주 <b>시청</b> 맛집,https://blog.naver.com/actor_pak?Redirect=Log&...,Daddy 파크
3,부천<b>시청</b>역 맛집 청기와타운 중동점 부천 소고기 이제 여기로~!,https://blog.naver.com/codnjswhddn?Redirect=Lo...,하요하요! 8살1살 하하자매
4,제대로였던 춘천 <b>시청</b> 맛집,https://blog.naver.com/myskynature?Redirect=Lo...,유주의살찌는이유
...,...,...,...
95,<b>시청</b> 대도회관 탕탕이삼합 찐맛도리,https://blog.naver.com/yuji2774?Redirect=Log&l...,행복은 선택
96,신일전자 X CJ온스타일 최화정쇼 일정 안내 및 <b>시청</b> 인증 EVENT!,https://blog.naver.com/shinil1959?Redirect=Log...,신일 공식 블로그
97,[당첨자발표] 문경맛집 문경<b>시청</b>TV 유튜브여름휴가맞이 특별한...,https://blog.naver.com/mungyeongsi?Redirect=Lo...,문경시청 대표 블로그입니다.
98,[KINS 영상 <b>시청</b> 이벤트] 한국원자력안전기술원 영상 <b>시청</b...,https://blog.naver.com/kins20?Redirect=Log&log...,한국원자력안전기술원


In [24]:
list(range(1,402,100))

[1, 101, 201, 301, 401]

In [25]:
df_fin = pd.DataFrame()
for start in range(1,402,100) :
    df = call_and_save('시청',100,start)
    df_fin = pd.concat([df_fin,df],axis=0,ignore_index=True)

In [26]:
df_fin.shape

(500, 3)

In [27]:
df_fin.tail()

Unnamed: 0,title,link,b_name
495,<b>시청</b> 장미정원,https://blog.naver.com/yongkil306?Redirect=Log...,사람 살아가는 이야기.
496,광주<b>시청</b> 유튜브 구독자 5000명 돌파 기념 그리니 크리니 굿즈...,https://blog.naver.com/gjcityi?Redirect=Log&lo...,광주시 공식 블로그
497,"금강뷰 세종<b>시청</b> 카페 프리미엄 버블티, 더앨리 세종<b>시청</b>점",https://blog.naver.com/shally0107?Redirect=Log...,뚜의 행복찾기
498,부천 중동 임장(부천<b>시청</b> 근처),https://blog.naver.com/rosyirin?Redirect=Log&l...,행복共感
499,푸짐했던 속초 <b>시청</b> 맛집 소개,https://blog.naver.com/duvmfh0327?Redirect=Log...,깡다맘


In [28]:
df_fin.to_csv('./crawl_data/naver_blog_시청.csv')

### 뉴스 검색
- 블로그, 뉴스 검색 후 결과를 저장하는 함수 구성
- 블로그와 뉴스에 대한 url 변경되게 구성
- 두 검색에서 동일한 필드를 추출
    - title, link

In [29]:
def call_and_save(sel,key,dis_num,start_num) :
    json_obj = get_api_result(sel,key,dis_num,start_num)
    
    title = [item['title'] for item in json_obj['items']]
    link=[item['link'] for item in json_obj['items']]
    
    return pd.DataFrame({'title':title,
                         'link' : link,
                         'cate' : sel})

In [30]:
# 주어진 파라미터 값을 이용해서 네이버 API에 요청 응답을 받은 후
# json()파일로 변환 후 반환
def get_api_result(sel, key, dis, start_num) :
    client_id = "pOdfwRraC5W55dxPeRPQ"
    client_secret = "8jQTYZWryv"

    keyword = urllib.parse.quote(key)
    num = dis
    start = start_num
    # 요청 URL
    base_url = 'https://openapi.naver.com/v1/search/'+sel+'.json'
    param = '?query=' + keyword + \
            '&display=' + str(num) + \
            '&start='+ str(start)
    
    url = base_url + param
    # 인증정보는 header에 포함
    headers = {"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}

    # 요청
    result = requests.get(url,headers=headers)
    # json 변환
    json_obj = result.json()
    return json_obj

In [31]:
get_api_result('news','시청',10,1)

{'lastBuildDate': 'Fri, 29 Jul 2022 09:17:25 +0900',
 'total': 8979248,
 'start': 1,
 'display': 10,
 'items': [{'title': '&apos;놀면 뭐하니?&apos; 유재석, WSG워너비 콘서트 진행 &quot;유팔봉은…&quot;',
   'originallink': 'http://star.mk.co.kr/new/view.php?mc=ST&year=2022&no=668550',
   'link': 'https://n.news.naver.com/mnews/article/009/0004997888?sid=106',
   'description': '지난 7월 21일 장충체육관에서 진행된 콘서트에는 WSG워너비를 애정하는 <b>시청</b>자, 팬들이 자리를 가득 채웠다. 야광봉과 정성 어린 플래카드로 채워진 관객석을 본 멤버들과 대표들은 감격 또 감격했다고. 이들을... ',
   'pubDate': 'Fri, 29 Jul 2022 09:16:00 +0900'},
  {'title': '[투자뉴스7] 뜨거운 &apos;태양광&apos; 실적&amp;신작 &apos;애플&apos; 반등장 주인공은?',
   'originallink': 'https://news.mtn.co.kr/news-detail/2022072908241133389',
   'link': 'https://news.mtn.co.kr/news-detail/2022072908241133389',
   'description': '개장 직후 톡톡 튀는 종목 전략까지 최고의 증시 전문가들이 총출동해 <b>시청</b>자의 투자 안목을 높여 드립니다. 이 방송은 머니투데이방송 홈페이지( http://mtn.co.kr ) 및 케이블방송에서 라이브로 <b>시청</b>하실 수 있습니다.',
   'pubDate': 'Fri, 29 Jul 2022 09:16:00 +0900'},
  {'title': '[동정] 박상돈 천안시장'

In [32]:
df_fin = pd.DataFrame()

In [33]:
for start in range(1,402,100) :
    df = call_and_save('blog','시청',100,start)
    df_fin = pd.concat([df_fin,df],axis=0,ignore_index=True)

In [34]:
df_fin.head()
df_fin.tail()

Unnamed: 0,title,link,cate
495,<b>시청</b> 장미정원,https://blog.naver.com/yongkil306?Redirect=Log...,blog
496,광주<b>시청</b> 유튜브 구독자 5000명 돌파 기념 그리니 크리니 굿즈...,https://blog.naver.com/gjcityi?Redirect=Log&lo...,blog
497,"금강뷰 세종<b>시청</b> 카페 프리미엄 버블티, 더앨리 세종<b>시청</b>점",https://blog.naver.com/shally0107?Redirect=Log...,blog
498,부천 중동 임장(부천<b>시청</b> 근처),https://blog.naver.com/rosyirin?Redirect=Log&l...,blog
499,푸짐했던 속초 <b>시청</b> 맛집 소개,https://blog.naver.com/duvmfh0327?Redirect=Log...,blog


In [35]:
# df_fin.to_csv('./crawl_data/naver_news_blog_시청.csv')

### 연습문제
- 위 함수 
    - call_and_save, get_api_result 를 
    - 수집하고자 하는 총 갯수를 전달하면 해당 갯수만큼 데이터를 추출해서 df로 반환하도록 수정하시오.
    - call_and_save('news','시청',250) 으로 호출하면 
    - 뉴스에 대해 시청으로 검색한 결과 250개를 추출하여 df로 저장
    - 저장 필드는 title,link


In [36]:
import requests
import pandas as pd
from urllib.parse import urlparse # 한글처리
import urllib.parse


In [40]:
li = [1,2,3]
li2 = [3,4,5]
li = li+li2
li

[1, 2, 3, 3, 4, 5]

In [41]:
# data 추출 후 저장하는 함수
def call_and_save(sel,key,s_num) :
    title = []
    link = []
    
    page = s_num//100 # 호출 횟수
    rem = s_num%100 # 마지막 호출시 추출갯수
    
    # 검색 갯수가 100으로 나눠 떨어지지 않으면
    # 호출횟수 1 증가
    if rem != 0 :
        page += 1
    
    for p in range(0,page) :
        # 문서 검색 시작 번호 : 1,101,201,301...
        start_num = p * 100 + 1
        
        # 한번 요철시 응답받을 문서 갯수
        dis_num = 100
        
        if (rem != 0) and (p == page-1) :
            dis_num = rem
            
        json_obj = get_api_result(sel,key,dis_num,start_num)

        title += [item['title'] for item in json_obj['items']]
        link += [item['link'] for item in json_obj['items']]
    
    return pd.DataFrame({'title':title,
                         'link' : link,
                         'cate' : sel})
    return json_obj


In [42]:
def get_api_result(sel,key, dis,start_num) :
    client_id = "pOdfwRraC5W55dxPeRPQ"
    client_secret = "8jQTYZWryv"
    keyword = urllib.parse.quote(key)
    num = dis
    start = start_num
    # 요청 URL
    base_url = 'https://openapi.naver.com/v1/search/'+sel+'.json'
#     base_url = 'https://openapi.naver.com/v1/search/news.json'
    param ='?query='+keyword + \
            '&display='+ str(num) + \
            '&start='+ str(start)
    url = base_url + param
    # 인증정보는  header에 포함
    headers = {"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}
    # 요청
    result = requests.get(url,headers=headers)
    # json 변환
    json_obj = result.json()
    return json_obj


In [44]:
call_and_save('blog','여름',300)


Unnamed: 0,title,link,cate
0,<b>여름</b> 쿨매트 쾌적해요,https://blog.naver.com/sarasz?Redirect=Log&log...,blog
1,<b>여름</b>방학 백물상,https://blog.naver.com/110cm?Redirect=Log&logN...,blog
2,토퍼 매트리스 좋았던 <b>여름</b>침대패드 후기 (+크라운구스),https://blog.naver.com/hyerimelove?Redirect=Lo...,blog
3,클리오 더블 커버킬 마그넷 팩트 에어 모공커버 잘되는 <b>여름</b>쿠...,https://blog.naver.com/qmfosej?Redirect=Log&lo...,blog
4,<b>여름</b>이라 더우니 후딱 에그타르트 만들기. 쌀 타르트쉘 레시피...,https://blog.naver.com/young07080?Redirect=Log...,blog
...,...,...,...
295,"푸마키즈 팝캣 벨크로샌들, 아기<b>여름</b>샌들로 추천해요",https://blog.naver.com/ekstn26?Redirect=Log&lo...,blog
296,목요 일기 :: 와 이게 <b>여름</b>이라고,https://blog.naver.com/whekrk?Redirect=Log&log...,blog
297,아이랑 <b>여름</b>방학 가볼만한 곳 - 2022 한강페스티벌 <b>여름</b> 정보,https://blog.naver.com/enterside?Redirect=Log&...,blog
298,7월 셋째주 정원 #초록잔디가 예쁜 #<b>여름</b>정원,https://blog.naver.com/teria68?Redirect=Log&lo...,blog
