## 네이버 OPEN API
### 인증 여부에 따라 구분
- 로그인 방식 오픈 API
- 비로그인 방식 오픈 API
    - HTTP 헤더에 클라이언트 아이디와 클라이언트 시크릿 값만 전송해 사용할 수 있는 오픈 API
    - 네이버 아이디로 로그인의 인증을 통한 접근 토큰을 획득할 필요가 없음
    - 검색, 공유하기, 지도, 캡차(이미지) 등의 오픈 API
- 개발자 센터에 개발자 등록 후
    - client_id 와 client_key를 발급받아 사용


In [1]:
# 네이버 검색 API는 블로그부터 전문자료까지 호출방법이 동일함
# 블로그 검색 - 네이버 검색 open API에서 제공하는 예제
import os
import sys
import urllib.request

In [2]:
# 네이버 검색 API예제는 블로그를 비롯 전문자료까지 호출방법이 동일하므로 blog검색만 대표로 예제를 올렸습니다.
# 네이버 검색 Open API 예제 - 블로그 검색
client_id = "Gws_mfWFGASif4YXIHnc"
client_secret = "L7M6d0gJcn"
encText = urllib.parse.quote("강남역")
url = "https://openapi.naver.com/v1/search/blog?query=" + encText # json 결과
# url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # xml 결과
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
# rescode=200은 정상응답
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{
	"lastBuildDate":"Thu, 28 Jul 2022 15:56:26 +0900",
	"total":1925556,
	"start":1,
	"display":10,
	"items":[
		{
			"title":"매료됐던 <b>강남역<\/b> 고기집",
			"link":"https:\/\/blog.naver.com\/speednet05?Redirect=Log&logNo=222811527824",
			"description":"얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역<\/b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ",
			"bloggername":"열살",
			"bloggerlink":"https:\/\/blog.naver.com\/speednet05",
			"postdate":"20220714"
		},
		{
			"title":"<b>강남역<\/b>임플란트치과 상실된 부분을 수복하여",
			"link":"https:\/\/blog.naver.com\/alexkimhd?Redirect=Log&logNo=222822426691",
			"description":"<b>강남역<\/b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역<\/b>임플란트치과에서 개선할 수 있었어요.... ",
			"bloggername":"강남애프터치과의원 공식블로그",
			"bloggerlink":"https:\/\/blog.naver.com\/alexkimhd",
			"postdate":"20220721"
		},
		{
			"title":"후회없던 <b>강남역<\/b> 고기집 도마3",
			"link":"https:\/\/blog.naver.com\/artkal?Redirect=Log&logNo=2228229974

In [3]:
# requests 함수를 이용해서 요청
# header 구성이 간단함
import requests
from urllib.parse import urlparse # 한글처리


In [4]:
client_id = "Gws_mfWFGASif4YXIHnc"
client_secret = "L7M6d0gJcn"

keyword=urllib.parse.quote('강남역')
keyword

'%EA%B0%95%EB%82%A8%EC%97%AD'

In [5]:
# 서버측으로 파라미터(요청변수)를 전달할 때 한글은 2바이트이므로 한바이트씩 분리해
# 전달해야 함
# quote() 한글은 통신 data로 변경하는 역할을 함
# https://section.blog.naver.com/Search/Post.naver?pageNo=1&rangeType=ALL&orderBy=sim&keyword=
# %EA%B0%95%EB%82%A8%EC%97%AD (=강남역이 통신data로 변환됨)
# keyword
# 요청 URL
base_url='https://openapi.naver.com/v1/search/blog.json'
param='?query='+keyword
url=base_url+param
url

'https://openapi.naver.com/v1/search/blog.json?query=%EA%B0%95%EB%82%A8%EC%97%AD'

In [6]:
# 인증정보는 header에 포함
headers={"X-Naver-Client-Id": client_id, 
           "X-Naver-Client-Secret" : client_secret}
# 요청
result=requests.get(url,headers=headers)
result

<Response [200]>

In [7]:
# result 파싱
# json으로 요청했으므로 json type으로 변환해서 추출
json_obj=result.json()
json_obj

{'lastBuildDate': 'Thu, 28 Jul 2022 15:56:27 +0900',
 'total': 1925556,
 'start': 1,
 'display': 10,
 'items': [{'title': '매료됐던 <b>강남역</b> 고기집',
   'link': 'https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824',
   'description': '얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역</b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ',
   'bloggername': '열살',
   'bloggerlink': 'https://blog.naver.com/speednet05',
   'postdate': '20220714'},
  {'title': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여',
   'link': 'https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691',
   'description': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역</b>임플란트치과에서 개선할 수 있었어요.... ',
   'bloggername': '강남애프터치과의원 공식블로그',
   'bloggerlink': 'https://blog.naver.com/alexkimhd',
   'postdate': '20220721'},
  {'title': '후회없던 <b>강남역</b> 고기집 도마3',
   'link': 'https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465',
   'description': '입

In [8]:
json_obj['lastBuildDate'] # 요청 후 검색한 시간
json_obj['total'] # 전체 검색 결과
json_obj['start'] # 갖고온 결과의 시작
json_obj['display'] # 몇개의 결과를 갖고 왔는지

10

In [9]:
# 네이버 open api가 반환해준 검색 내용
json_obj['items'][0].keys()

dict_keys(['title', 'link', 'description', 'bloggername', 'bloggerlink', 'postdate'])

In [10]:
# item에서 특정 속성값만 추출
for item in json_obj['items']:
    print(item['title'])

매료됐던 <b>강남역</b> 고기집
<b>강남역</b>임플란트치과 상실된 부분을 수복하여
후회없던 <b>강남역</b> 고기집 도마3
이맛이었던 <b>강남역</b> 고기집
<b>강남역</b> 카페 타르트 맛집 타르타르
<b>강남역</b>마사지 만족스러워요!
콜키지프리 가능한 <b>강남역</b> 레스토랑
맛 정말 좋았던 <b>강남역</b> 고기집 봉우이층집
놀라웠던 <b>강남역</b> 회식장소
가성비 좋은 <b>강남역</b> 고기집


In [11]:
# item에서 특정 속성값만 추출(정형데이터로 추출)
for item in json_obj['items']:
    print(item['title'].replace('<b>','').replace('</b>',''),item['link'])

매료됐던 강남역 고기집 https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824
강남역임플란트치과 상실된 부분을 수복하여 https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691
후회없던 강남역 고기집 도마3 https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465
이맛이었던 강남역 고기집 https://blog.naver.com/jinhot?Redirect=Log&logNo=222764742330
강남역 카페 타르트 맛집 타르타르 https://blog.naver.com/l4o8v6ez?Redirect=Log&logNo=222824664525
강남역마사지 만족스러워요! https://blog.naver.com/dasul119?Redirect=Log&logNo=222783258275
콜키지프리 가능한 강남역 레스토랑 https://blog.naver.com/eunji4620?Redirect=Log&logNo=222795995803
맛 정말 좋았던 강남역 고기집 봉우이층집 https://blog.naver.com/13qjrmadl?Redirect=Log&logNo=222763678031
놀라웠던 강남역 회식장소 https://blog.naver.com/papalagi2?Redirect=Log&logNo=222765186953
가성비 좋은 강남역 고기집 https://blog.naver.com/sia855?Redirect=Log&logNo=222764823644


### 검색결과를 10개에서 100개로 늘리기
- 네이버의 검색 결과 기본값 : 10
- 관련 요청 변수 : display

In [12]:
# 서버측으로 파라미터(요청변수)를 전달할 때 한글은 2바이트이므로 한바이트씩 분리해
# 전달해야 함
# quote() 한글은 통신 data로 변경하는 역할을 함
# 요청 URL
num=100
base_url='https://openapi.naver.com/v1/search/blog.json'
param='?query='+keyword+'&display='+str(num)
url=base_url+param
url

# 인증정보는 header에 포함
headers={"X-Naver-Client-Id": client_id, 
           "X-Naver-Client-Secret" : client_secret}
# 요청 200이면 정상, 400이면 에러
result=requests.get(url,headers=headers)
result

<Response [200]>

In [13]:
json_obj=result.json()
json_obj

{'lastBuildDate': 'Thu, 28 Jul 2022 15:56:27 +0900',
 'total': 1925560,
 'start': 1,
 'display': 100,
 'items': [{'title': '매료됐던 <b>강남역</b> 고기집',
   'link': 'https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824',
   'description': '얼마 전 오랜만에 만난 지인들과 강남에 갔다 항정살로 유명한 <b>강남역</b> 고기집을 찾아갔어요. 생고기 못지 않게 수준급 육질이였고, 추가로 시킨 사이드메뉴까지 특별난 맛을 자랑한 곳이랍니다. 우리가 방문한... ',
   'bloggername': '열살',
   'bloggerlink': 'https://blog.naver.com/speednet05',
   'postdate': '20220714'},
  {'title': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여',
   'link': 'https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691',
   'description': '<b>강남역</b>임플란트치과 상실된 부분을 수복하여 치아상실은 여러가지의 원인이 있었어요. 사고나... 영구치가 탈락하고나면 다양한 문제가 생길 수 있기때문에 <b>강남역</b>임플란트치과에서 개선할 수 있었어요.... ',
   'bloggername': '강남애프터치과의원 공식블로그',
   'bloggerlink': 'https://blog.naver.com/alexkimhd',
   'postdate': '20220721'},
  {'title': '후회없던 <b>강남역</b> 고기집 도마3',
   'link': 'https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465',
   'description': '

In [14]:
# 검색결과 개수 100개 출력
len(json_obj['items'])

100

In [15]:
for item in json_obj['items'] :
    print(item['title'].replace("<b>","").replace("</b>",""),item['link'])

매료됐던 강남역 고기집 https://blog.naver.com/speednet05?Redirect=Log&logNo=222811527824
강남역임플란트치과 상실된 부분을 수복하여 https://blog.naver.com/alexkimhd?Redirect=Log&logNo=222822426691
후회없던 강남역 고기집 도마3 https://blog.naver.com/artkal?Redirect=Log&logNo=222822997465
이맛이었던 강남역 고기집 https://blog.naver.com/jinhot?Redirect=Log&logNo=222764742330
강남역 카페 타르트 맛집 타르타르 https://blog.naver.com/l4o8v6ez?Redirect=Log&logNo=222824664525
강남역마사지 만족스러워요! https://blog.naver.com/dasul119?Redirect=Log&logNo=222783258275
콜키지프리 가능한 강남역 레스토랑 https://blog.naver.com/eunji4620?Redirect=Log&logNo=222795995803
맛 정말 좋았던 강남역 고기집 봉우이층집 https://blog.naver.com/13qjrmadl?Redirect=Log&logNo=222763678031
놀라웠던 강남역 회식장소 https://blog.naver.com/papalagi2?Redirect=Log&logNo=222765186953
가성비 좋은 강남역 고기집 https://blog.naver.com/sia855?Redirect=Log&logNo=222764823644
가성비높은 강남역 모임장소 https://blog.naver.com/siver1024?Redirect=Log&logNo=222765155697
박수쳤던 강남역 점심 맛집 https://blog.naver.com/p03kiwon03?Redirect=Log&logNo=222786372904
흥이 절로났던 강남역 핫플 https://blog

### 호출코드를 함수로 구현
- 네이버 API는 한번에 100개의 결과가 최대
- 100개 이상을 수집하려면 페이지(start)를 넘겨가면서 여러번 호출해야함
- 함수로 구현해서 여러번 호출 시 사용
- get_api_result(keyword,display)

In [16]:
def get_api_result(keyword,dis):
    client_id = "Gws_mfWFGASif4YXIHnc"
    client_secret = "L7M6d0gJcn"
    num=dis
    # 요청 URL
    base_url='https://openapi.naver.com/v1/search/blog.json'
    param='?query='+keyword+'&display='+str(num)
    url=base_url+param
    url

    # 인증정보는 header에 포함
    headers={"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}
    # 요청 200이면 정상, 400이면 에러
    result=requests.get(url,headers=headers)
    # json 변환
    json_obj=result.json()
    return json_obj

In [17]:
# 함수테스트
get_api_result('여름',1000)

{'errorMessage': 'Invalid display value (부적절한 display 값입니다.)',
 'errorCode': 'SE02'}

In [18]:
res=get_api_result('여름',80)['items']
res

[{'title': '<b>여름</b> 쿨매트 쾌적해요',
  'link': 'https://blog.naver.com/sarasz?Redirect=Log&logNo=222829195261',
  'description': '비가 멈추고 갑자기 더워지면서 서둘러 <b>여름</b> 쿨매트 알아봐야 해서 마음이 바빴어요. 저희 집은 연세가... 제가 이번에 <b>여름</b> 쿨매트 검색하면서 제 나름의 여러 가지 기준을 세워놓고 많은 고민을 했다고... ',
  'bloggername': 'Merci',
  'bloggerlink': 'https://blog.naver.com/sarasz',
  'postdate': '20220726'},
 {'title': '토퍼 매트리스 좋았던 <b>여름</b>침대패드 후기 (+크라운구스)',
  'link': 'https://blog.naver.com/hyerimelove?Redirect=Log&logNo=222826606362',
  'description': '그동안 <b>여름</b> 침구를 따로 사지 않고 사계절 이불로 쓰고 있었기 때문에 이참에 <b>여름</b>침대패드도 싹 바꾸기로 했어요. 이전에 TV를 볼 때 허리가 아픈 게 매트리스 문제라는 걸 들은 적이 있어서 바꾸는 김에 침구를... ',
  'bloggername': '림냥의 일상생활♥',
  'bloggerlink': 'https://blog.naver.com/hyerimelove',
  'postdate': '20220724'},
 {'title': '클리오 더블 커버킬 마그넷 팩트 에어 모공커버 잘되는 <b>여름</b>쿠... ',
  'link': 'https://blog.naver.com/qmfosej?Redirect=Log&logNo=222829818007',
  'description': '많았는데욤,, <b>여름</b> 쿠션 팩트로로 쓰기 좋은 클리오 더블 커버킬 마그넷 팩트 에어가 한층 더 탄탄하게... <b>여름</b>에도 사용하기 좋은 글

In [19]:
get_api_result('여름',1000)

{'errorMessage': 'Invalid display value (부적절한 display 값입니다.)',
 'errorCode': 'SE02'}

### 함수 수정
   - 시작페이지를 지정할 수 있게

In [20]:
def get_api_result(keyword,dis,start_num):
    client_id = "Gws_mfWFGASif4YXIHnc"
    client_secret = "L7M6d0gJcn"
    keyword=urllib.parse.quote(keyword)
    num=dis
    start=start_num
    # 요청 URL
    base_url='https://openapi.naver.com/v1/search/blog.json'
    param='?query='+keyword+'&display='+str(num)+'&start='+str(start)
    url=base_url+param

    # 인증정보는 header에 포함
    headers={"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}
    # 요청 200이면 정상, 400이면 에러
    result=requests.get(url,headers=headers)
    
    # json 변환
    json_obj=result.json()
    return json_obj

In [21]:
get_api_result('겨울',100,201)

{'lastBuildDate': 'Thu, 28 Jul 2022 15:56:29 +0900',
 'total': 27133043,
 'start': 201,
 'display': 100,
 'items': [{'title': '호주 멜번 여행, 멜번 6월 옷차림, 호주 <b>겨울</b> 날씨, 멜번 카페 맛집',
   'link': 'https://blog.naver.com/without_wing?Redirect=Log&logNo=222791632029',
   'description': '지난번에 친구가 말해준대로 <b>겨울</b> 패딩 챙겨갔는데 진짜 잘했다 생각 들었음! 호주 <b>겨울</b>옷차림은 지난번에 얘기한 것 처럼 대중없다. 이번엔 어그 신은 남자도 봄.. 반면에 반바지 입고나온 남자도 봄. 아디다스... ',
   'bloggername': 'eternal nostalgia',
   'bloggerlink': 'https://blog.naver.com/without_wing',
   'postdate': '20220628'},
  {'title': '가야 봄여름가을<b>겨울</b> 부산 미분양 아파트 줍줍하세요',
   'link': 'https://blog.naver.com/zjft38777?Redirect=Log&logNo=222777321411',
   'description': '가야 봄여름가을<b>겨울</b> 부산 미분양 아파트 줍줍하세요 무주택자 분들은 부산미분양아파트 좋은... 그리고 가야 봄여름가을<b>겨울</b>의 건설사는 롯데, 현대, 삼성 등 메이저 건설사는 아니지만 근 30년간 부산에서... ',
   'bloggername': '친절한신소장',
   'bloggerlink': 'https://blog.naver.com/zjft38777',
   'postdate': '20220617'},
  {'title': '<b>겨울</b>에 만나는 강원 2: 인제&amp;양구 가볼 만한 곳',
   'link': 'https://

In [22]:
# 검색어와 시작페이지, 추출개수를 전달받아서
# 검색결과에 대해 블로그 제목, 글링크, 블러거이름을 출력하는 함수

- call_and_print(key,dis_num,start_num)
    - 검색결과에 대해 블로그 제목, 글 링크, 블러거 이름을 출력

In [23]:
import pandas as pd
# data를 추출 출력하는 함수
def call_and_print(key,dis_num,start_num):
    json_obj=get_api_result(key,dis_num,start_num)
    
    for item in json_obj['items']:
        print(item['title'],item['link'],item['bloggername'])

In [24]:
call_and_print('하늘',100,201)

기대이상 영종도 <b>하늘</b>도시 맛집 https://blog.naver.com/dk2fkd?Redirect=Log&logNo=222737113015 순덕이는 순덕순덕해
박노해 시집 너의 <b>하늘</b>을 보아 https://blog.naver.com/jangmi2954?Redirect=Log&logNo=222829231871 운동화,구두,명품,스니커즈,부츠,가방,카시트,유모차
<b>하늘</b>맛집 계양산성과 계양산 https://blog.naver.com/chorok2800?Redirect=Log&logNo=222798310934 더기의 프랑스자수
트니트니, <b>하늘</b>이 간식주는 아이 d-908 https://blog.naver.com/borori20?Redirect=Log&logNo=222799794014 매일육아
서울캠핑장 : 세 번째 캠핑. 제천 <b>하늘</b>뜨레 서울캠핑장 https://blog.naver.com/kimhjya?Redirect=Log&logNo=222809157261 구구네
경포해변(해수욕장) 모처럼 파란 <b>하늘</b> https://blog.naver.com/uock?Redirect=Log&logNo=222797026004 유쾌한 사진공작소
이 땅에서 약속의 땅 즉 새<b>하늘</b>과 새 땅에 들어가기 위해...  https://blog.naver.com/hiinyoun?Redirect=Log&logNo=222830810847 한사랑의 마음 두드리기
포켓몬스터 영화 - 기라티나와 <b>하늘</b>의 꽃다발 쉐이미 https://blog.naver.com/ssuminn?Redirect=Log&logNo=222816200878 My Place
<b>하늘</b>호수와 떠나는 중미&amp;콜롬비아, 에콰도르 34일 여행, 출발...  https://blog.naver.com/jy9218?Redirect=Log&logNo=222802689997 하늘호수의 세계여행
2022.2.1 오랫만의 파란 <b>하늘</b> https

In [25]:
# data를 추출 후 저장하는 함수
def call_and_save(key,dis_num,start_num):
    json_obj=get_api_result(key,dis_num,start_num)
    title=[item['title'] for item in json_obj['items']]
    link=[item['link'] for item in json_obj['items']]
    b_name=[item['bloggername'] for item in json_obj['items']]
    
    return pd.DataFrame({'title':title,'link':link,'b_name':b_name})

In [26]:
call_and_save('시청',100,1)

Unnamed: 0,title,link,b_name
0,숨어있던 부산<b>시청</b> 맛집,https://blog.naver.com/yt2341?Redirect=Log&log...,클로이 Chloe Blog
1,부천<b>시청</b>역 맛집 청기와타운 중동점 부천 소고기 이제 여기로~!,https://blog.naver.com/codnjswhddn?Redirect=Lo...,하요하요! 8살1살 하하자매
2,단골하고 싶은 제주 <b>시청</b> 맛집,https://blog.naver.com/actor_pak?Redirect=Log&...,Daddy 파크
3,제대로였던 춘천 <b>시청</b> 맛집,https://blog.naver.com/myskynature?Redirect=Lo...,유주의살찌는이유
4,만족스러운 서울 <b>시청</b> 맛집,https://blog.naver.com/lazuli83?Redirect=Log&l...,따뜻한게 좋아♡
...,...,...,...
95,[이벤트] 더위 날리는 &apos;아리아리 화순&apos; 영상 <b>시청</b> ...,https://blog.naver.com/cleanhwasun?Redirect=Lo...,화순군 공식블로그
96,<b>시청</b> 대도회관 탕탕이삼합 찐맛도리,https://blog.naver.com/yuji2774?Redirect=Log&l...,행복은 선택
97,신일전자 X CJ온스타일 최화정쇼 일정 안내 및 <b>시청</b> 인증 EVENT!,https://blog.naver.com/shinil1959?Redirect=Log...,신일 공식 블로그
98,[KINS 영상 <b>시청</b> 이벤트] 한국원자력안전기술원 영상 <b>시청</b...,https://blog.naver.com/kins20?Redirect=Log&log...,한국원자력안전기술원


In [27]:
df_fin=pd.DataFrame()
for start in range(1,402,100):
    df=call_and_save('시청',100,start)
    df_fin = pd.concat([df_fin,df],axis=0,ignore_index=True)

In [28]:
df_fin

Unnamed: 0,title,link,b_name
0,숨어있던 부산<b>시청</b> 맛집,https://blog.naver.com/yt2341?Redirect=Log&log...,클로이 Chloe Blog
1,부천<b>시청</b>역 맛집 청기와타운 중동점 부천 소고기 이제 여기로~!,https://blog.naver.com/codnjswhddn?Redirect=Lo...,하요하요! 8살1살 하하자매
2,단골하고 싶은 제주 <b>시청</b> 맛집,https://blog.naver.com/actor_pak?Redirect=Log&...,Daddy 파크
3,제대로였던 춘천 <b>시청</b> 맛집,https://blog.naver.com/myskynature?Redirect=Lo...,유주의살찌는이유
4,만족스러운 서울 <b>시청</b> 맛집,https://blog.naver.com/lazuli83?Redirect=Log&l...,따뜻한게 좋아♡
...,...,...,...
495,부천<b>시청</b>역 - 2022.7.25,https://blog.naver.com/soapdiary?Redirect=Log&...,롤라와 함께 con Lola
496,꽃게와 밥 / 부천 꽃게와 밥 / 부천 간장게장 맛집 / 부천<b>시청</b>...,https://blog.naver.com/shaki0909?Redirect=Log&...,히토미의 블로그
497,푸짐했던 속초 <b>시청</b> 맛집 소개,https://blog.naver.com/duvmfh0327?Redirect=Log...,깡다맘
498,"서울 지하철 50개 역명 공개 입찰 &apos;강남, <b>시청</b>역 이름 팝니...",https://blog.naver.com/apple0006175?Redirect=L...,WONDER VAPE 강남


In [29]:
df_fin.to_csv('crawl_data/naver_blog_시청.csv')

### 뉴스 검색
- 블로그, 뉴스 검색 후 결과를 저장하는 함수 구성
- 블로그와 뉴스에 대한 url 변경되게 구성
- 두 검색에서 동일한 필드 추출
    - title, link

In [35]:
# data를 추출 후 저장하는 함수
def call_and_save(sel,key,dis_num,start_num):
    json_obj=get_api_result(sel,key,dis_num,start_num)
    title=[item['title'] for item in json_obj['items']]
    link=[item['link'] for item in json_obj['items']]
    #b_name=[item['bloggername'] for item in json_obj['items']]
    
    return pd.DataFrame({'title':title,'link':link,'cate':sel})

In [36]:
def get_api_result(sel,keyword,dis,start_num):
    client_id = "Gws_mfWFGASif4YXIHnc"
    client_secret = "L7M6d0gJcn"
    keyword=urllib.parse.quote(keyword)
    num=dis
    start=start_num
    # 요청 URL
    base_url='https://openapi.naver.com/v1/search/'+sel+'.json'
    #base_url='https://openapi.naver.com/v1/search/news.json'
    
    param='?query='+keyword+'&display='+str(num)+'&start='+str(start)
    
    url=base_url+param

    # 인증정보는 header에 포함
    headers={"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}
    # 요청 200이면 정상, 400이면 에러
    result=requests.get(url,headers=headers)
    
    # json 변환
    json_obj=result.json()
    
    return json_obj

In [32]:
get_api_result('news','시청',10,100)

{'lastBuildDate': 'Thu, 28 Jul 2022 16:06:34 +0900',
 'total': 8978083,
 'start': 100,
 'display': 10,
 'items': [{'title': '고양시, 공동주택관리 업무 체크리스트 보급한다',
   'originallink': 'https://www.siminilbo.co.kr/news/newsview.php?ncode=1160286193161045',
   'link': 'https://www.siminilbo.co.kr/news/newsview.php?ncode=1160286193161045',
   'description': '▲ 사진제공=고양<b>시청</b> 25일 열린 간담회에는 대한주택관리사협회 고양지부 이명찬 지부장, 류금임 부지부장 등 관내 공동주택 관리사무소장을 비롯한 고양시 공동주택관리 관련부서장과 담당자 등 약 15명이 참여했다.... ',
   'pubDate': 'Thu, 28 Jul 2022 15:42:00 +0900'},
  {'title': '파주시, ‘50만 대도시 도약’ 수요포럼',
   'originallink': 'https://www.siminilbo.co.kr/news/newsview.php?ncode=1160289209470260',
   'link': 'https://www.siminilbo.co.kr/news/newsview.php?ncode=1160289209470260',
   'description': '자유롭게 <b>시청</b>할 수 있도록 유튜브 실시간 방송도 함께 진행했다. 이날 포럼에서 장인봉 교수는 50만... 한편 파주 수요포럼은 시민과 공직자가 각 분야의 저명한 전문가와 소통하는 공감 프로그램으로 파주<b>시청</b> 공식... ',
   'pubDate': 'Thu, 28 Jul 2022 15:42:00 +0900'},
  {'title': '강남구, 찾아가는 노인 심폐소생술 교육',
   'originallink':

In [40]:
df_fin=pd.DataFrame()
for start in range(1,402,100):
    df=call_and_save('blog','시청',100,start)
    df_fin = pd.concat([df_fin,df],axis=0,ignore_index=True)

In [43]:
df_fin.tail()

Unnamed: 0,title,link,cate
495,[부산/<b>시청</b>역/분식]... 떡볶이가 땡길 때 부산 신참떡볶이 <b>시청...,https://blog.naver.com/wjywjy0107?Redirect=Log...,blog
496,"대전 둔산동 마라탕 맛집, <b>시청</b>역 근처 &lt;마라공방&gt; 깨끗한...",https://blog.naver.com/heekyeung902?Redirect=L...,blog
497,푸짐했던 속초 <b>시청</b> 맛집 소개,https://blog.naver.com/duvmfh0327?Redirect=Log...,blog
498,꽃게와 밥 / 부천 꽃게와 밥 / 부천 간장게장 맛집 / 부천<b>시청</b>...,https://blog.naver.com/shaki0909?Redirect=Log&...,blog
499,부천<b>시청</b>역 - 2022.7.25,https://blog.naver.com/soapdiary?Redirect=Log&...,blog


In [44]:
df_fin.to_csv('./crawl_data/naver_news_시청.csv')

### 연습문제
- 위 함수 
    - call_and_save, get_api_result 를 
    - 수집하고자 하는 총 갯수를 전달하면 해당 갯수만큼 데이터를 추출해서 df로 반환하도록 수정하시오.
    - call_and_save('news','시청',250) 으로 호출하면 
    - 뉴스에 대해 시청으로 검색한 결과 250개를 추출하여 df로 저장
    - 저장 필드는 title,link


In [1]:
import requests
import pandas as pd
from urllib.parse import urlparse # 한글처리
import urllib.parse

In [5]:
li=[1,2,3]
li2=[3,4,5]
li=li+li2
li

[1, 2, 3, 3, 4, 5]

In [12]:
# data를 추출 후 저장하는 함수
def call_and_save(sel,key,s_num):
    title=[]
    link=[]
    
    page=s_num//100 # 호출 횟수
    rem=s_num&100 # 마지막 호출 시 추출 갯수
    
    # 검색 갯수가 100으로 나눠 떨어지지 않으면
    # 호출횟수 1 증가
    if rem!=0:
        page+=1
        
    for p in range(0,page):
        # 문서 검색 시작 번호 : 1, 101, 201, 301
        start_num = p*100+1
        # 한번 요청시 응답 받을 문서 갯수
        dis_num=100
        
        
        if (rem!=0)and(p==page-1):
            json_obj=get_api_result(sel,key,dis_num,start_num)

            title+=[item['title'] for item in json_obj['items']]
            link+=[item['link'] for item in json_obj['items']]
            #b_name=[item['bloggername'] for item in json_obj['items']]

    return pd.DataFrame({'title':title,'link':link,'cate':sel})

In [13]:
# 주어진 파라미터 값을 이용해서 네이버 API에 요청 응답을 받은 후
# json()파일로 변환 후 반환
def get_api_result(sel,keyword,dis,start_num):
    
    client_id = "Gws_mfWFGASif4YXIHnc"
    client_secret = "L7M6d0gJcn"
    keyword=urllib.parse.quote(keyword)
    num=dis
    start=start_num
    
    # 요청 URL
    base_url='https://openapi.naver.com/v1/search/'+sel+'.json'
    #base_url='https://openapi.naver.com/v1/search/news.json'
    
    param='?query='+keyword+'&display='+str(num)+'&start='+str(start)
    
    url=base_url+param

    # 인증정보는 header에 포함
    headers={"X-Naver-Client-Id": client_id, 
               "X-Naver-Client-Secret" : client_secret}
    # 요청 200이면 정상, 400이면 에러
    result=requests.get(url,headers=headers)
    
    # json 변환
    json_obj=result.json()
    
    return json_obj

In [14]:
call_and_save('blog','여름',250)

Unnamed: 0,title,link,cate
0,이투스북이 알려주는 고3 대비 [고2 <b>여름</b>방학 수학 공부법],https://blog.naver.com/etoosbook?Redirect=Log&...,blog
1,<b>여름</b>휴가룩 남성반팔티 MLB에서 면티 확인해,https://blog.naver.com/soenaaa?Redirect=Log&lo...,blog
2,다시 찾은 남해 임진성의 아름다운 <b>여름</b> 풍경,https://blog.naver.com/namhae_gun?Redirect=Log...,blog
3,"철길공원, 주인공원의 <b>여름</b>",https://blog.naver.com/tong_namgu?Redirect=Log...,blog
4,2022년 호두잉글리시 <b>여름</b> 이벤트 &apos;미오 등장&apos;,https://blog.naver.com/foryou1035?Redirect=Log...,blog
...,...,...,...
95,"푸마키즈 팝캣 벨크로샌들, 아기<b>여름</b>샌들로 추천해요",https://blog.naver.com/ekstn26?Redirect=Log&lo...,blog
96,목요 일기 :: 와 이게 <b>여름</b>이라고,https://blog.naver.com/whekrk?Redirect=Log&log...,blog
97,아이랑 <b>여름</b>방학 가볼만한 곳 - 2022 한강페스티벌 <b>여름</b> 정보,https://blog.naver.com/enterside?Redirect=Log&...,blog
98,7월 셋째주 정원 #초록잔디가 예쁜 #<b>여름</b>정원,https://blog.naver.com/teria68?Redirect=Log&lo...,blog
