## 카카오 Open Api를 연동한 이미지 수집

In [21]:
import requests
import json               # 파이썬 기본 모듈
import urllib             # 파이썬 기본 모듈(인코딩용)
import os
import datetime as dt
import pandas as pd       
from pandas import DataFrame

In [22]:
# 발급받은 API Key
api_key = "30a761afcc79bb6ade8491698aa45b78"

In [23]:
# 검색어
q ="윤아"

In [24]:
# 접근할 페이지번호(1~50)
page = 1

In [25]:
# 가져올 데이터 수(1~80)
size = 80

In [26]:
# 검색주소 샘플 --> 카카오 개발자가이드의 예시에 있음 : https://developers.kakao.com/docs/restapi/search#이미지-검색
url_tpl = "https://dapi.kakao.com/v2/search/image"

# 인터넷 주소에는 한글이나 공백이 포함될 수 없기 때문에 검색어에 대해 인코딩 처리를 수행해야 한다.
(아래에는 다음에서 파이썬으로 검색한 이미지의 예) - 즉 윤아로 검색하려면 '윤아'를 인코딩해줘야 함

(아래의 주소는 실제 다음에서 파이썬을 검색했을때의 예이다. 그런데 API로 검색해오려면 카카오 가이드에 따라서 가져와야 한다)

(카카오 API에서 검색한 결과는 다음에서 가져온 결과와 같을 것이다)

<파이썬>

https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=%ED%8C%8C%EC%9D%B4%EC%8D%AC

https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=파이썬


<윤아>

https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=%EC%9C%A4%EC%95%84

https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=윤아

In [27]:
params = {"page":page, "size":size, "query":q}
query = urllib.parse.urlencode(params)

In [28]:
# 최종 접속 주소
api_url = url_tpl + "?" + query
api_url

'https://dapi.kakao.com/v2/search/image?page=1&size=80&query=%EC%9C%A4%EC%95%84'

In [29]:
# 이미지가 저장될 폴더의 이름 만들기
datetime = dt.datetime.now().strftime("%y%m%d_%H%M%S")
dirname = "%s_%s" % (q, datetime)
dirname

'윤아_191019_174341'

In [30]:
# 폴더 생성하기
if not os.path.exists(dirname):
    os.mkdir(dirname)

In [32]:
# 접속 세션 만들기
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"

session = requests.Session()

# 인증키를 header에 포함시켜야 함 "kakaoAK" 뒤에 공백 추가 주의
session.headers.update({'User-agent':user_agent, 'referer':None, 'Authorization': 'KakaoAK ' + api_key})

# API에 접근하여 데이터 가져오기
r = session.get(api_url)

if r.status_code != 200:
    print("[%d Error] $s" % (r.status_code, r.reason))
    quit()
    
# 가져온 결과를 딕셔너리로 변환
r.encoding = "utf-8"
image_dict = json.loads(r.text)
image_dict

{'documents': [{'collection': 'news',
   'datetime': '2016-06-22T09:45:44.000+09:00',
   'display_sitename': '스타뉴스',
   'doc_url': 'http://v.media.daum.net/v/20160622094544061',
   'height': 780,
   'image_url': 'http://t1.daumcdn.net/news/201606/22/starnews/20160622094542196kodx.jpg',
   'thumbnail_url': 'https://search2.kakaocdn.net/argon/130x130_85_c/4W5hmQwOMUP',
   'width': 560},
  {'collection': 'news',
   'datetime': '2016-06-22T09:45:44.000+09:00',
   'display_sitename': '스타뉴스',
   'doc_url': 'http://v.media.daum.net/v/20160622094544061',
   'height': 780,
   'image_url': 'http://t1.daumcdn.net/news/201606/22/starnews/20160622094544282dipi.jpg',
   'thumbnail_url': 'https://search4.kakaocdn.net/argon/130x130_85_c/F6UYYAlIvrd',
   'width': 560},
  {'collection': 'news',
   'datetime': '2016-06-22T09:45:44.000+09:00',
   'display_sitename': '스타뉴스',
   'doc_url': 'http://v.media.daum.net/v/20160622094544061',
   'height': 780,
   'image_url': 'http://t1.daumcdn.net/news/201606/22/

In [33]:
# 딕셔너리 중에서 검색 결과에 해당하는 documents에 대한 부분을 DataFrame으로 변환
image_df = DataFrame(image_dict['documents'])
image_df

Unnamed: 0,collection,datetime,display_sitename,doc_url,height,image_url,thumbnail_url,width
0,news,2016-06-22T09:45:44.000+09:00,스타뉴스,http://v.media.daum.net/v/20160622094544061,780,http://t1.daumcdn.net/news/201606/22/starnews/...,https://search2.kakaocdn.net/argon/130x130_85_...,560
1,news,2016-06-22T09:45:44.000+09:00,스타뉴스,http://v.media.daum.net/v/20160622094544061,780,http://t1.daumcdn.net/news/201606/22/starnews/...,https://search4.kakaocdn.net/argon/130x130_85_...,560
2,news,2016-06-22T09:45:44.000+09:00,스타뉴스,http://v.media.daum.net/v/20160622094544061,780,http://t1.daumcdn.net/news/201606/22/starnews/...,https://search1.kakaocdn.net/argon/130x130_85_...,560
3,etc,2019-08-17T20:27:10.000+09:00,,https://www.fashionseoul.com/144899,598,https://www.fashionseoul.com/wp-content/upload...,https://search1.kakaocdn.net/argon/130x130_85_...,457
4,news,2015-07-08T08:00:01.000+09:00,헤럴드경제,http://v.media.daum.net/v/20150708080217621,764,http://t1.daumcdn.net/news/201507/08/ned/20150...,https://search2.kakaocdn.net/argon/130x130_85_...,540
...,...,...,...,...,...,...,...,...
75,blog,2014-11-21T01:42:00.000+09:00,네이버블로그,http://blog.naver.com/zfzf123123/220187412383,668,http://postfiles15.naver.net/20141121_206/zfzf...,https://search2.kakaocdn.net/argon/130x130_85_...,500
76,news,2016-12-16T11:17:04.000+09:00,전자신문,http://v.media.daum.net/v/20161216111704969,786,http://t1.daumcdn.net/news/201612/16/etimesi/2...,https://search3.kakaocdn.net/argon/130x130_85_...,549
77,news,2019-10-03T20:49:03.000+09:00,티브이데일리,http://v.media.daum.net/v/20191003204903388,987,https://t1.daumcdn.net/news/201910/03/tvdaily/...,https://search3.kakaocdn.net/argon/130x130_85_...,658
78,news,2017-11-07T20:13:03.000+09:00,티브이데일리,http://v.media.daum.net/v/20171107201303753,439,https://t1.daumcdn.net/news/201711/07/tvdaily/...,https://search3.kakaocdn.net/argon/130x130_85_...,658


In [34]:
# 저장되는 이미지 파일의 수를 카운트 하기 위한 변수
count = 0

# 이미지 주소에 대해서만 반복
for image_url in image_df['image_url']:
    # 카운트 증가
    count += 1
    
    # 파일이 저장될 경로 생성
    path = "%s/%04d.jpg" % (dirname,count)
    
    print( "[%s] >> %s" % (path, image_url))
    
    # 이미지 주소를 다운로드를 위해 stream 모드로 가져온다
    r = session.get(image_url, stream=True)
    
    # 에러 발생시 저장이 불가능하므로 건너뛰고 반복의 조건식으로 이동
    if r.status_code != 200:
        print("########> 저장실패")
        continue # 중간에 실패한 것이 생겨도 계속 가져오기 위해
    
    # 추출한 데이터를 저장
    # -> 'w' : 텍스트 쓰기 모드, 'wb' : 바이너리(이진값)
    with open(path, 'wb') as f:
        f.write(r.raw.read())
        print("------------> 저장성공")

[윤아_191019_174341/0001.jpg] >> http://t1.daumcdn.net/news/201606/22/starnews/20160622094542196kodx.jpg
------------> 저장성공
[윤아_191019_174341/0002.jpg] >> http://t1.daumcdn.net/news/201606/22/starnews/20160622094544282dipi.jpg
------------> 저장성공
[윤아_191019_174341/0003.jpg] >> http://t1.daumcdn.net/news/201606/22/starnews/20160622094543048bkhb.jpg
------------> 저장성공
[윤아_191019_174341/0004.jpg] >> https://www.fashionseoul.com/wp-content/uploads/2017/06/20170614_yoonna1.jpg
------------> 저장성공
[윤아_191019_174341/0005.jpg] >> http://t1.daumcdn.net/news/201507/08/ned/20150708080211445lyvj.jpg
------------> 저장성공
[윤아_191019_174341/0006.jpg] >> http://t1.daumcdn.net/news/201507/08/ned/20150708080202946bbpv.jpg
------------> 저장성공
[윤아_191019_174341/0007.jpg] >> http://t1.daumcdn.net/news/201603/28/tvdaily/20160328173103892hufu.jpg
------------> 저장성공
[윤아_191019_174341/0008.jpg] >> http://t1.daumcdn.net/news/201603/28/tvdaily/20160328173104109ejqm.jpg
------------> 저장성공
[윤아_191019_174341/0009.jpg] >> 