# KUBiC Open API 사용자용 매뉴얼
#### 작성자 : 한동 통일빅데이터센터 자료팀 신지영 RA (21800409@handong.edu)

# KUBiC Open API란?
KUBiC Open API란 외부 개발자나 이용자가 KUBiC의 데이터에 접근할 수 있도록 정보의 연결고리 역할을 하는 서비스입니다. 저희 Open API는 KUBiC 웹 사이트에서 제공하고 있는 문서 데이터를 HTTP(GET)를 통해 이용할 수 있도록 하였습니다. 아래는 저희가 제공하는 데이터 및 서비스의 종류와 이용 방법입니다.


# Open API 제공 데이터 및 서비스
- 단순 검색(simple_search)
    - 키워드만으로 원하는 문서를 검색합니다. 해당 키워드를 문서 제목, 문서 내용, 문서 파일 내용에서 검색하여 결과를 모두 출력합니다.
- 상세 검색(detailed_search)
    - 문서 제목, 문서 내용, 작성일, 기관명, 분류 등에서 조건을 세워 검색할 수 있습니다.
- 내 보관함 내 검색(my_doc)
    - 내 보관함에 담아온 문서 중에서 상세 검색을 실행할 수 있습니다.

# 이용 방법
1. KUBiC(https://kubic.handong.edu)의 Open API 메뉴에서 활용을 신청하고 인증키(serviceKey)를 발급 받습니다.
2. 원하는 조건에 맞는 URL을 아래와 같이 생성합니다.
3. URL에 GET 요청을 보내 json data를 받아옵니다.
4. 받아온 json data를 이용하시면 됩니다.

# 상세 검색을 이용하는 요청&응답 예시
![Image](KUBiC_OpenAPI.jpg)

# 요청 변수 목록
- 단순 검색(simple_search)

|변수명(영문)|변수명(국문)|필수 여부|형식|샘플데이터|Default값(생략시)|
|:------:|:---:|:---:|:---:|:---:|:---:|
|serviceKey|인증키|Y|string| pP5JG2d-TZohr1sWMRVIwg |-|
|numOfCnt|검색할 최대 개수|N|int|500|100|
|rank|정렬기준|N|int|2(최신순)|1(정확도순)|
|keyword|검색할 키워드|Y|string|북한|--|

- 상세 검색(detailed_search) 또는 내 보관함 내 검색(my_doc)

|변수명(영문)|변수명(국문)|필수 여부|형식|샘플데이터|Default값(생략시)|
|:------:|:---:|:---:|:---:|:---:|:---:|
|serviceKey|인증키|Y|string| pP5JG2d-TZohr1sWMRVIwg |-|
|numOfCnt|검색할 최대 개수|N|int|500|100|
|rank|정렬기준|N|int|2(최신순)|1(정확도순)|
|keyword|검색할 키워드|N|string|북한|-|
|keyInTitle|제목 내 검색할 키워드|Y|string|북한|-|
|keyInBody|내용 내 검색할 키워드|N|string|정치|-|
|writer|작성자 검색|N|string|홍길동|-|
|startDate|작성일 기간시작점|N|YYYY-MM-DD|2018-09-17|현재로부터 2년 전|
|endDate|작성일 기간끝점|N|YYYY-MM-DD|2020-09-17|현재 날짜|
|institution|발행한 기관명|N|string|북한연구소|-|
|category|분류|N|string|정치|-|


# 응답 변수 목록

|변수명(영문)|변수명(국문)|
|:-----:|:---:|
|resultCode|결과 코드|
|resultMSG|결과 메시지|
|numOfContents|검색하려고 한 최대 개수|
|totalCount|검색된 자료 개수|
|rank|정렬 기준|
|title|제목|
|body|내용|
|writer|작성자|
|date|작성일|
|originalURL|원본 문서 링크|
|institution|발행 기관명|
|institutionURL|발행 기관 링크|
|category|분류|
|fileName|파일 이름|
|fileURL|첨부된 파일 링크|
|fileContent|파일 문서 내용|

# 예제 코드
## 원하는 문서들을 불러와서 data frame에 띄우기


In [1]:
!pip3 install pandas

import urllib.request as r
import urllib.parse as p
import json
import pandas as pd

URL = "https://kubic.handong.edu:15000/"

Collecting pandas
  Using cached https://files.pythonhosted.org/packages/c3/e2/00cacecafbab071c787019f00ad84ca3185952f6bb9bca9550ed83870d4d/pandas-1.1.5-cp36-cp36m-manylinux1_x86_64.whl
Collecting numpy>=1.15.4 (from pandas)
  Using cached https://files.pythonhosted.org/packages/45/b2/6c7545bb7a38754d63048c7696804a0d947328125d81bf12beaa692c3ae3/numpy-1.19.5-cp36-cp36m-manylinux1_x86_64.whl
Collecting python-dateutil>=2.7.3 (from pandas)
  Using cached https://files.pythonhosted.org/packages/36/7a/87837f39d0296e723bb9b62bbb257d0355c7f6128853c78955f57342a56d/python_dateutil-2.8.2-py2.py3-none-any.whl
Collecting pytz>=2017.2 (from pandas)
  Using cached https://files.pythonhosted.org/packages/d5/50/54451e88e3da4616286029a3a17fc377de817f66a0f50e1faaee90161724/pytz-2022.2.1-py2.py3-none-any.whl
Collecting six>=1.5 (from python-dateutil>=2.7.3->pandas)
  Using cached https://files.pythonhosted.org/packages/d9/5a/e7c31adbe875f2abbb91bd84cf2dc52d792b5a01506781dbcf25c91daf11/six-1.16.0-py2.py3-

### 사용자에 맞게 수정할 부분

In [11]:
# 아래 부분 수정해주세요!
# 검색 옵션을 입력해주세요
## 단순검색=simple_search
## 상세검색=detailed_search
## 내 보관함 검색=my_doc

search_option="simple_search" #detailed_search #my_doc

# 인증키를 입력해주세요
serviceKey = "(serviceKey)"

# 한 번에 출력할 문서 개수를 입력해주세요
numOfCnt = 20

# 검색할 키워드를 입력해주세요
keyword="북한"

### API에 값 요청 및 응답

In [3]:
import ssl

loginKey = "serviceKey="+serviceKey
request = "&numOfCnt="+p.quote(str(numOfCnt))+"&keyword="+p.quote(str(keyword))
URL_full = URL + search_option + "?" + loginKey + request

print("URL_full> " + URL_full)
context = ssl._create_unverified_context() # certificate error 뜨는 경우
response = r.urlopen(URL_full, context=context).read().decode('utf-8')

jsonArray = json.loads(response)

if jsonArray.get("header").get("resultCode") != 200:
    print("Error!!!")
    print(jsonArray.get("header"))
    quit()

items =jsonArray.get("body").get("contents")
# print("items>", items)

URL_full> https://kubic.handong.edu:15000/simple_search?serviceKey=handonglove123private&numOfCnt=20&keyword=%EB%B6%81%ED%95%9C


# 데이터 전체 확인

In [4]:
df = pd.DataFrame()
for item in items:
    dft = pd.DataFrame(data=item, index=[0])
    df = df.append(dft,ignore_index=True)
df

Unnamed: 0,title,writer,originalURL,institution,institutionURL,category,fileURL,fileName,fileContent,body,date
0,북한 사람이 들려주는 북한 이야기,장진성 저,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,http://unibook.unikorea.go.kr/libeka/elec/WebB...,북한 사람이 들려주는 북한 이야기,주제가 있는통일 강 좌 36장진성 (뉴포커스 대표) 북한 사람이 들려주는 북한 이야...,,
1,변하는 북한 변하지 않는 북한,고정식 저,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,http://unibook.unikorea.go.kr/libeka/elec/WebB...,변하는 북한 변하지 않는 북한,주 제 가있 는통 일강 좌30변 하 는 북 한 변 하 지 않 는 북 한 주제가 있는...,,
2,북한 주요인사 인물정보 2017 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,http://unibook.unikorea.go.kr/libeka/elec/WebB...,북한 주요인사 인물정보 2017 =북한 주요인물,2017인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,,
3,북한 핵실험 이후 북한 문제 해법,통일연구원 편,http://www.kinu.or.kr/www/jsp/prg/api/dlV.jsp?...,통일연구원,https://www.kinu.or.kr/main/kinuM,연구보고서-기타연구보고서,http://www.kinu.or.kr/pyxis-api/1/digital-file...,북한 핵실험 이후 북한 문제 해법,프로그램09:00～09:30 등록09:30～10:00 개회식개회사 : 서재진 통일연...,제1세션: 대북정책 회고와 과제ㅇ 6.15 남북공동선언 어떻게 볼 것인가?/ 김영호...,2009
4,북한 주요인사 인물정보 2012 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,http://unibook.unikorea.go.kr/libeka/elec/WebB...,북한 주요인사 인물정보 2012 =북한 주요인물,통일부 정세분석국 정치군사분석과 서울특별시 종로구 세종대로 209 정부중앙청사 41...,,
5,북한 주요인사 인물정보 2015 = 북한 주요인물,통일부 정세분석국 정치군사분석과,http://www.kinu.or.kr/brd/board/726/L/menu/382...,통일연구원,https://www.kinu.or.kr/main/kinuM,통일부 발간자료,http://www.kinu.or.kr/com/file/filedown?_ci=23...,북한 주요인사 인물정보 2015 = 북한 주요인물,2015인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,,2015-01-01
6,북한 주요인사 인물정보 2014 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,http://unibook.unikorea.go.kr/libeka/elec/WebB...,북한 주요인사 인물정보 2014 =북한 주요인물,2014인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,,
7,북한 핵실험 이후 북한 문제 해법,통일연구원,https://unibook.unikorea.go.kr/board/view?boar...,통일부,https://unibook.unikorea.go.kr/,통일문제 이해,https://unibook.unikorea.go.kr/files/32f6ca04-...,북한 핵실험 이후 북한 문제 해법.pdf,프로그램09:00～09:30 등록09:30～10:00 개회식개회사 : 서재진 통일연...,,2009
8,북한 신년공동사설,DPRK,http://knsi.org/knsi/kor/center/view.php?no=94...,코리아정책연구원,http://knsi.org/knsi/kor/index,정부자료,,,,원대한 포부와 신심에 넘쳐 더 높이 비약하자 오늘 우리는 선군의 기치밑에 우리 식 ...,2006-01-01
9,북한 정치범수용소,"이금순,김수암,이규창,홍예선,김경란.",http://www.kinu.or.kr/www/jsp/prg/api/dlV.jsp?...,통일연구원,https://www.kinu.or.kr/main/kinuM,연구보고서-기타연구보고서,http://www.kinu.or.kr/pyxis-api/1/digital-file...,북한 정치범수용소,(세원)통일연구원-정치범수용소.hwp 북한 정치범수용소인 쇄 2013년 1월발 행 ...,Ⅰ. 서론 1. 발간목적 2. 자료수집 방법 개요Ⅱ. 북한체제와 정치범수용소 1. ...,2013


# 부가기능1
Body와 FileContent의 길이를 확인할 수 있습니다.

In [7]:
def countLength(df):
    dft = pd.DataFrame(df, columns=['title','body','fileName','fileContent'])
    for i in dft.index:
        dft['bodyCount']=len(dft['body'][i]) if type(dft['body'][i])==str else 0
        dft['fileCount']=len(dft['fileContent'][i]) if type(dft['fileContent'][i])==str else 0
    return dft
countLength(df)

Unnamed: 0,title,body,fileName,fileContent,bodyCount,fileCount
0,북한 사람이 들려주는 북한 이야기,,북한 사람이 들려주는 북한 이야기,주제가 있는통일 강 좌 36장진성 (뉴포커스 대표) 북한 사람이 들려주는 북한 이야...,0,200
1,변하는 북한 변하지 않는 북한,,변하는 북한 변하지 않는 북한,주 제 가있 는통 일강 좌30변 하 는 북 한 변 하 지 않 는 북 한 주제가 있는...,0,200
2,북한 주요인사 인물정보 2017 =북한 주요인물,,북한 주요인사 인물정보 2017 =북한 주요인물,2017인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,0,200
3,북한 핵실험 이후 북한 문제 해법,제1세션: 대북정책 회고와 과제ㅇ 6.15 남북공동선언 어떻게 볼 것인가?/ 김영호...,북한 핵실험 이후 북한 문제 해법,프로그램09:00～09:30 등록09:30～10:00 개회식개회사 : 서재진 통일연...,0,200
4,북한 주요인사 인물정보 2012 =북한 주요인물,,북한 주요인사 인물정보 2012 =북한 주요인물,통일부 정세분석국 정치군사분석과 서울특별시 종로구 세종대로 209 정부중앙청사 41...,0,200
5,북한 주요인사 인물정보 2015 = 북한 주요인물,,북한 주요인사 인물정보 2015 = 북한 주요인물,2015인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,0,200
6,북한 주요인사 인물정보 2014 =북한 주요인물,,북한 주요인사 인물정보 2014 =북한 주요인물,2014인 물 정 보 북한 주요인사 [ 일러두기 ] ￮ 이 책은 북한의 보도나 간행...,0,200
7,북한 핵실험 이후 북한 문제 해법,,북한 핵실험 이후 북한 문제 해법.pdf,프로그램09:00～09:30 등록09:30～10:00 개회식개회사 : 서재진 통일연...,0,200
8,북한 신년공동사설,원대한 포부와 신심에 넘쳐 더 높이 비약하자 오늘 우리는 선군의 기치밑에 우리 식 ...,,,0,200
9,북한 정치범수용소,Ⅰ. 서론 1. 발간목적 2. 자료수집 방법 개요Ⅱ. 북한체제와 정치범수용소 1. ...,북한 정치범수용소,(세원)통일연구원-정치범수용소.hwp 북한 정치범수용소인 쇄 2013년 1월발 행 ...,0,200


# 부가기능2
제공된 URL을 통해 전체 내용을 불러올 수 있습니다.
리눅스 환경에서 지원 가능합니다.

In [8]:
# !pip3 install tika
from tika import parser

def readFileFromUrl(url):
    savename = 'temp.pdf'
    mem = r.urlopen(url).read()
    
    with open(savename, mode="wb") as f:
        f.write(mem)

    raw_data = parser.from_file(savename) 
    response = raw_data['content'].strip()
    return response

# test
#response = readFileFromUrl('http://unibook.unikorea.go.kr/libeka/elec/WebBook_data1/00222050/ebook/media/src.pdf')
#response

In [9]:
import warnings

def addFileContent2df(df,column_name):
    if column_name not in ['body', 'fileContent']:
        warnings.warn('no column')
        return df

#     column_name warning 추가
    dft = pd.DataFrame(df, columns=['title','body','fileContent','fileURL'])
    for i in df.index:
        try:
            url = df['fileURL'][i] if column_name == 'fileContent' else df['originalURL'][i]
            dft[column_name] = readFileFromUrl(url)
        except: continue
    return dft

df = addFileContent2df(df, 'fileContent')
df = addFileContent2df(df, 'body')
df = countLength(df)
df

Unnamed: 0,title,body,fileName,fileContent,bodyCount,fileCount
0,북한 사람이 들려주는 북한 이야기,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
1,변하는 북한 변하지 않는 북한,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
2,북한 주요인사 인물정보 2017 =북한 주요인물,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
3,북한 핵실험 이후 북한 문제 해법,제1세션: 대북정책 회고와 과제ㅇ 6.15 남북공동선언 어떻게 볼 것인가?/ 김영호...,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
4,북한 주요인사 인물정보 2012 =북한 주요인물,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
5,북한 주요인사 인물정보 2015 = 북한 주요인물,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
6,북한 주요인사 인물정보 2014 =북한 주요인물,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
7,북한 핵실험 이후 북한 문제 해법,,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
8,북한 신년공동사설,원대한 포부와 신심에 넘쳐 더 높이 비약하자 오늘 우리는 선군의 기치밑에 우리 식 ...,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
9,북한 정치범수용소,Ⅰ. 서론 1. 발간목적 2. 자료수집 방법 개요Ⅱ. 북한체제와 정치범수용소 1. ...,,<3230313920C0CEB9B0C1A4BAB828C3D6C1BE295F31383...,0,676935
