# 5-5. 카카오 OpenAPI를 연동한 이미지 수집
카카오개발자사이트에 로그인을 하고 난 후 발급받는 <b>REST API Key</b>를 사용하면 카카오 OpenAPI를 통해 다음에서 제공되는 검색 결과 수집 가능

API 연동에 필요한 스펙 => https://developers.kakao.com/docs/latest/ko/daum-search/dev-guide 에서 확인 가능
    
# #01. 기본 준비 단계
## 1) 필요한 패키지 가져오기

In [1]:
import requests
import json
import urllib  # 파이썬 기본 모듈(URL Encoding 기능 수행)
import os
import datetime as dt
import pandas as pd
from pandas import DataFrame

## 2) OpenAPI 연동키 정의

In [2]:
api_key = 'eb38037f1f136b77be6fc0feb0c13add'

## 3) 검색어 및 페이지 구현에 필요한 변수 준비

In [3]:
q = "소녀시대"      #검색어
page = 1           #접근할 페이지 번호(1-50)
size = 80          #가져올 데이터 수(1-80)

## 4) 이미지가 저장될 폴더의 이름 만들기
### 검색어 + 현재 날짜 형식의 폴더 이름 준비

In [5]:
datetime=dt.datetime.now().strftime('%y%m%d_%H%M%S')
dirname= '%s_%s' % (q, datetime)
dirname

'소녀시대_210302_105028'

### 폴더 생성하기

In [6]:
if not os.path.exists(dirname):
    os.mkdir(dirname)

## 5) 접속 세션 만들기

In [7]:
# 접속 세션 만들기
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.190 Safari/537.36"
session= requests.Session()

## 6) 세션의 HTTP 헤더 설정
카카오 OpenAPI는 인증키를 HTTP 헤더에 포함시켜 전달하도록 요구하고 있다.

`session.headers.update()` 함수를 사용하여 HTTP Header에 추가적인 정보를 포함시킬 수 있다.
> 인증키를 header에 포함시켜야 함 -> "KakaoAK" 뒤에 공백 추가 주의

In [8]:
session.headers.update({'User-agent':user_agent, 'referer':None, 'Authorization': 'KakaoAK '+api_key})

# #02. API 연동하기
## 1) API에 전달할 파라미터 인코딩
인터넷 주소에는 한글이나 공백이 포함될 수 없으므로 검색어에 대해 인코딩 처리를 수행해야 한다. <br>
한글 값이 포함된 변수들을 인코딩하기 위해 딕셔너리 형식으로 묶은 다음 `urllib.parse.urlencode()` 함수를 활용 -> 결과값 반환받음

In [9]:
params = {'page':page, 'size':size, 'query':q}
query = urllib.parse.urlencode(params)
query

'page=1&size=80&query=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80'

## 2) 최종 접속 주소 구성

In [10]:
url_tpl = 'https://dapi.kakao.com/v2/search/image'
api_url = url_tpl+'?'+query
api_url

'https://dapi.kakao.com/v2/search/image?page=1&size=80&query=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80'

## 3) API에 접근하여 데이터 가져오기

In [11]:
r = session.get(api_url)

# 결과 검사
if r.status_code != 200:
    print("[%d Error] %s" % (r.status_code, r.reason))
    quit()

## 4) 가져온 결과를 딕셔너리로 변환

In [12]:
r.encoding = 'utf-8'
image_dict = json.loads(r.text)
image_dict

{'documents': [{'collection': 'blog',
   'datetime': '2009-01-27T19:31:17.000+09:00',
   'display_sitename': 'Daum블로그',
   'doc_url': 'http://blog.daum.net/zltlddb1212/8',
   'height': 307,
   'image_url': 'http://cfs11.blog.daum.net/image/17/blog/2009/01/27/19/30/497ee1a6d08d4&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80....%E3%85%8B%E3%85%8B.jpg',
   'thumbnail_url': 'https://search3.kakaocdn.net/argon/130x130_85_c/G5dxT1RwwlX',
   'width': 500},
  {'collection': 'blog',
   'datetime': '2008-09-30T13:32:15.000+09:00',
   'display_sitename': 'Daum블로그',
   'doc_url': 'http://blog.daum.net/gss234/7417884',
   'height': 470,
   'image_url': 'http://cfs11.blog.daum.net/image/20/blog/2008/08/07/11/41/489a60c3e8690&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80%EB%A9%94%EC%9D%B4%ED%94%8C%EA%B1%B8.jpg',
   'thumbnail_url': 'https://search3.kakaocdn.net/argon/130x130_85_c/3917ddk5rrS',
   'width': 745},
  {'collection': 'blog',
   'datetime': '2007-11-27T17:25:18.000+09:00',
   'display_siten

## 5) DataFrame 생성
딕셔너리 중에서 검색 결과에 해당하는 documents에 대한 부분을 DataFrame으로 변환

In [14]:
image_df = DataFrame(image_dict['documents'])
image_df

Unnamed: 0,collection,datetime,display_sitename,doc_url,height,image_url,thumbnail_url,width
0,blog,2009-01-27T19:31:17.000+09:00,Daum블로그,http://blog.daum.net/zltlddb1212/8,307,http://cfs11.blog.daum.net/image/17/blog/2009/...,https://search3.kakaocdn.net/argon/130x130_85_...,500
1,blog,2008-09-30T13:32:15.000+09:00,Daum블로그,http://blog.daum.net/gss234/7417884,470,http://cfs11.blog.daum.net/image/20/blog/2008/...,https://search3.kakaocdn.net/argon/130x130_85_...,745
2,blog,2007-11-27T17:25:18.000+09:00,Daum블로그,http://blog.daum.net/20802800-_-/13960290,428,http://cfs10.blog.daum.net/image/12/blog/2007/...,https://search3.kakaocdn.net/argon/130x130_85_...,430
3,blog,2008-01-26T14:46:03.000+09:00,Daum블로그,http://blog.daum.net/autww/14750673,333,http://cfs7.blog.daum.net/image/32/blog/2008/0...,https://search3.kakaocdn.net/argon/130x130_85_...,500
4,blog,2007-12-12T10:42:53.000+09:00,Daum블로그,http://blog.daum.net/seokizzang/14994820,718,http://cfs7.blog.daum.net/image/28/blog/2007/1...,https://search1.kakaocdn.net/argon/130x130_85_...,520
...,...,...,...,...,...,...,...,...
75,blog,2008-09-30T13:32:15.000+09:00,Daum블로그,http://blog.daum.net/gss234/7417884,373,http://cfs11.blog.daum.net/image/12/blog/2008/...,https://search4.kakaocdn.net/argon/130x130_85_...,550
76,blog,2015-06-30T11:28:00.000+09:00,네이버블로그,http://blog.naver.com/milkmilk292/220405748171,389,http://postfiles8.naver.net/20150630_71/milkmi...,https://search3.kakaocdn.net/argon/130x130_85_...,550
77,blog,2008-06-01T11:10:39.000+09:00,Daum블로그,http://blog.daum.net/girlsyuri/4560799,401,http://cfs11.blog.daum.net/image/2/blog/2008/0...,https://search4.kakaocdn.net/argon/130x130_85_...,500
78,cafe,2015-05-03T21:37:46.000+09:00,Daum카페,http://cafe.daum.net/leegb49/OaX4/9,811,http://image.tvdaily.co.kr/upimages/gisaimg/20...,https://search1.kakaocdn.net/argon/130x130_85_...,540


## 6) 이미지 다운받기

In [15]:
# 저장되는 이미지 파일의 수를 카운트하기 위한 변수
count = 0

# 이미지 주소에 대해서만 반복
for image_url in image_df['image_url']:
    #카운트 증가
    count+=1
    
    # 파일이 저장될 경로 생성
    path="%s/%s_%04d.jpg" % (dirname, q, count)
    print("[%s] >> %s" % (path, image_url))
    
    # 예외처리 구문 적용
    try:
        # 이미지 주소를 다운로드하기 위해 stream 모드로 가져옴
        r = session.get(image_url, stream=True)
        
        # 에러 발생 시 저장이 불가능하므로 건너뛰고, 반복의 조건식으로 이동
        if r.status_code!=200:
            print("############### > 저장실패 (%d)" % r.status_code)
            continue
            
        # 추출한 데이터를 저장
        # -> 'w':텍스트쓰기모드, 'wb':바이너리(이진값) 쓰기 모드
        with open(path, 'wb') as f:
            f.write(r.raw.read())
            print('------------------> 저장성공')
    except:
        print('----------------> 저장실패')
        continue

[소녀시대_210302_105028소녀시대_0001.jpg] >> http://cfs11.blog.daum.net/image/17/blog/2009/01/27/19/30/497ee1a6d08d4&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80....%E3%85%8B%E3%85%8B.jpg
------------------> 저장성공
[소녀시대_210302_105028소녀시대_0002.jpg] >> http://cfs11.blog.daum.net/image/20/blog/2008/08/07/11/41/489a60c3e8690&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80%EB%A9%94%EC%9D%B4%ED%94%8C%EA%B1%B8.jpg
------------------> 저장성공
[소녀시대_210302_105028소녀시대_0003.jpg] >> http://cfs10.blog.daum.net/image/12/blog/2007/11/27/17/25/474bd46234cdf&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80.jpg
------------------> 저장성공
[소녀시대_210302_105028소녀시대_0004.jpg] >> http://cfs7.blog.daum.net/image/32/blog/2008/01/26/14/38/479ac7492da33&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80.(2).jpg
------------------> 저장성공
[소녀시대_210302_105028소녀시대_0005.jpg] >> http://cfs7.blog.daum.net/image/28/blog/2007/12/12/10/37/475f3af34da1e&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%802.jpg
------------------> 저장성공
[소녀시대_210302_105028

# #03. 반복문을 수행하면서 이미지 수집하기
OpenAPI에 전달하는 page 파라미터는 1부터 50 사이의 값을 전달할 수 있다. <br>
이를 통해 최대 한 페이지 당 최대 80건 씩 50페이지까지 검색 결과를 얻을 수 있다 = 최대 4000건

1~50 까지의 조건값 범위를 갖는 반복문 안에서 위의 <b>#02. API 연동하기</b>의 모든 코드를 구현하면서 page파라미터를 반복문 조건값으로 지정

In [17]:
# 저장되는 이미지 파일의 수를 카운트하기 위한 변수
count = 0

for page in range(1,10):
    params = {'page':page, 'size':size, 'query':q}
    query = urllib.parse.urlencode(params)
    #print(query)
    
    url_tpl = 'https://dapi.kakao.com/v2/search/image'
    api_url = url_tpl+'?'+query
    #print(api_url)
    
    r = session.get(api_url)
    
    if r.status_code != 200:
        print("[%d Error] %s" % (r.status_code, r.reason))
        quit()
    
    r.encoding = 'utf-8'
    image_dict = json.loads(r.text)
    #print(image_dict)
    
    image_df=DataFrame(image_dict['documents'])
    #print(image_df)
    
    # 이미지 주소에 대해서만 반복
    for image_url in image_df['image_url']:
        #카운트 증가
        count+=1

        # 파일이 저장될 경로 생성
        path="%s/%s_%04d.jpg" % (dirname, q, count)
        print("[%s] >> %s" % (path, image_url))

        # 예외처리 구문 적용
        try:
            # 이미지 주소를 다운로드하기 위해 stream 모드로 가져옴
            r = session.get(image_url, stream=True)

            # 에러 발생 시 저장이 불가능하므로 건너뛰고, 반복의 조건식으로 이동
            if r.status_code!=200:
                print("############### > 저장실패 (%d)" % r.status_code)
                continue

            # 추출한 데이터를 저장
            # -> 'w':텍스트쓰기모드, 'wb':바이너리(이진값) 쓰기 모드
            with open(path, 'wb') as f:
                f.write(r.raw.read())
                print('------------------> 저장성공')
        except:
            print('----------------> 저장실패')
            continue

[소녀시대_210302_105028/소녀시대_0001.jpg] >> http://cfs11.blog.daum.net/image/17/blog/2009/01/27/19/30/497ee1a6d08d4&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80....%E3%85%8B%E3%85%8B.jpg
------------------> 저장성공
[소녀시대_210302_105028/소녀시대_0002.jpg] >> http://cfs11.blog.daum.net/image/20/blog/2008/08/07/11/41/489a60c3e8690&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80%EB%A9%94%EC%9D%B4%ED%94%8C%EA%B1%B8.jpg
------------------> 저장성공
[소녀시대_210302_105028/소녀시대_0003.jpg] >> http://cfs10.blog.daum.net/image/12/blog/2007/11/27/17/25/474bd46234cdf&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80.jpg
------------------> 저장성공
[소녀시대_210302_105028/소녀시대_0004.jpg] >> http://cfs7.blog.daum.net/image/32/blog/2008/01/26/14/38/479ac7492da33&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%80.(2).jpg
------------------> 저장성공
[소녀시대_210302_105028/소녀시대_0005.jpg] >> http://cfs7.blog.daum.net/image/28/blog/2007/12/12/10/37/475f3af34da1e&filename=%EC%86%8C%EB%85%80%EC%8B%9C%EB%8C%802.jpg
------------------> 저장성공
[소녀시대_210302_1