# KUBiC Open API 사용자용 매뉴얼
#### 작성자 : 한동 통일빅데이터센터 자료팀 신지영 RA (21800409@handong.edu)

# KUBiC Open API란?
KUBiC Open API란 외부 개발자나 이용자가 KUBiC의 데이터에 접근할 수 있도록 정보의 연결고리 역할을 하는 서비스입니다. 저희 Open API는 KUBiC 웹 사이트에서 제공하고 있는 문서 데이터를 HTTP(GET)를 통해 이용할 수 있도록 하였습니다. 아래는 저희가 제공하는 데이터 및 서비스의 종류와 이용 방법입니다.


# Open API 제공 데이터 및 서비스
- 단순 검색(simple_search)
    - 키워드만으로 원하는 문서를 검색합니다. 해당 키워드를 문서 제목, 문서 내용, 문서 파일 내용에서 검색하여 결과를 모두 출력합니다.
- 상세 검색(detailed_search)
    - 문서 제목, 문서 내용, 작성일, 기관명, 분류 등에서 조건을 세워 검색할 수 있습니다.
- 내 보관함 내 검색(my_doc)
    - 내 보관함에 담아온 문서 중에서 상세 검색을 실행할 수 있습니다.

# 이용 방법
1. KUBiC(https://kubic.handong.edu)의 Open API 메뉴에서 활용을 신청하고 인증키(serviceKey)를 발급 받습니다.
2. 원하는 조건에 맞는 URL을 아래와 같이 생성합니다.
3. URL에 GET 요청을 보내 json data를 받아옵니다.
4. 받아온 json data를 이용하시면 됩니다.

# 상세 검색을 이용하는 요청&응답 예시
![Image](KUBiC_OpenAPI.jpg)

# 요청 변수 목록
- 단순 검색(simple_search)

|변수명(영문)|변수명(국문)|필수 여부|형식|샘플데이터|Default값(생략시)|
|:------:|:---:|:---:|:---:|:---:|:---:|
|serviceKey|인증키|Y|string| pP5JG2d-TZohr1sWMRVIwg |-|
|numOfCnt|검색할 최대 개수|N|int|500|100|
|rank|정렬기준|N|int|2(최신순)|1(정확도순)|
|keyword|검색할 키워드|Y|string|북한|--|

- 상세 검색(detailed_search) 또는 내 보관함 내 검색(my_doc)

|변수명(영문)|변수명(국문)|필수 여부|형식|샘플데이터|Default값(생략시)|
|:------:|:---:|:---:|:---:|:---:|:---:|
|serviceKey|인증키|Y|string| pP5JG2d-TZohr1sWMRVIwg |-|
|numOfCnt|검색할 최대 개수|N|int|500|100|
|rank|정렬기준|N|int|2(최신순)|1(정확도순)|
|keyword|검색할 키워드|N|string|북한|-|
|keyInTitle|제목 내 검색할 키워드|Y|string|북한|-|
|keyInBody|내용 내 검색할 키워드|N|string|정치|-|
|writer|작성자 검색|N|string|홍길동|-|
|startDate|작성일 기간시작점|N|YYYY-MM-DD|2018-09-17|현재로부터 2년 전|
|endDate|작성일 기간끝점|N|YYYY-MM-DD|2020-09-17|현재 날짜|
|institution|발행한 기관명|N|string|북한연구소|-|
|category|분류|N|string|정치|-|


# 응답 변수 목록

|변수명(영문)|변수명(국문)|
|:-----:|:---:|
|resultCode|결과 코드|
|resultMSG|결과 메시지|
|numOfContents|검색하려고 한 최대 개수|
|totalCount|검색된 자료 개수|
|rank|정렬 기준|
|title|제목|
|body|내용|
|writer|작성자|
|date|작성일|
|originalURL|원본 문서 링크|
|institution|발행 기관명|
|institutionURL|발행 기관 링크|
|category|분류|
|fileName|파일 이름|
|fileURL|첨부된 파일 링크|
|fileContent|파일 문서 내용|

# 예제 코드
## 원하는 문서들을 불러와서 data frame에 띄우기


In [1]:
import urllib.request as r
import urllib.parse as p
import json
import pandas as pd

URL = "https://kubic.handong.edu:15000/"

### 사용자에 맞게 수정할 부분

In [2]:
# 아래 부분 수정해주세요!
# 검색 옵션을 입력해주세요
## 단순검색=simple_search
## 상세검색=detailed_search
## 내 보관함 검색=my_doc

search_option="simple_search" #detailed_search #my_doc

# 인증키를 입력해주세요
serviceKey = ""

# 한 번에 출력할 문서 개수를 입력해주세요
numOfCnt = 100

# 검색할 키워드를 입력해주세요
keyword="북한"

### API에 값 요청 및 응답

In [11]:
loginKey = "serviceKey="+serviceKey
request = "&numOfCnt="+p.quote(str(numOfCnt))+"&keyword="+p.quote(str(keyword))
URL_full = URL + search_option + "?" + loginKey + request

print("URL_full> " + URL_full)
response = r.urlopen(URL_full).read().decode('utf-8')

jsonArray = json.loads(response)

if jsonArray.get("header").get("resultCode") != 200:
    print("Error!!!")
    print(jsonArray.get("header"))
    quit()

items =jsonArray.get("body").get("contents")
# print("items>", items)

URL_full> https://kubic.handong.edu:15000/simple_search?serviceKey=handonglove123&numOfCnt=100&keyword=%EB%B6%81%ED%95%9C


# 데이터 전체 확인

In [12]:
df = pd.DataFrame()
for item in items:
    dft = pd.DataFrame(data=item, index=[0])
    df = df.append(dft,ignore_index=True)
df

Unnamed: 0,title,writer,originalURL,institution,institutionURL,category,fileName,body,date
0,변하는 북한 변하지 않는 북한,고정식 저,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,변하는 북한 변하지 않는 북한,,
1,북한 사람이 들려주는 북한 이야기,장진성 저,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,북한 사람이 들려주는 북한 이야기,,
2,북한 주요인사 인물정보 2012 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,북한 주요인사 인물정보 2012 =북한 주요인물,,
3,북한 주요인사 인물정보 2014 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,북한 주요인사 인물정보 2014 =북한 주요인물,,
4,북한 주요인사 인물정보 2017 =북한 주요인물,통일부 정세분석국 정치군사분석과 편,https://unibook.unikorea.go.kr/material/list?m...,통일부,https://unibook.unikorea.go.kr/,통일부 발간물,북한 주요인사 인물정보 2017 =북한 주요인물,,
...,...,...,...,...,...,...,...,...,...
95,"HRW, 북 ICBM 폭발 민간피해에 “북 정권 주민무시 사례”(RFA 2022. ...",관리자,http://www.nkforum.net/24/?q=YToyOntzOjEyOiJrZ...,북한인권전략포럼,http://www.nkforum.net,NGO 동향,,북한이 전날 김정은 총비서의 지도 아래 신형 대륙간탄도미사일(ICBM) '화성-17...,2022-04-02
96,선택이 아닌 필수: 남북정상회담과 북한인권',"김영호, 하태경",http://knsi.org/knsi/kor/center/view.php?no=45...,코리아정책연구원,http://knsi.org/knsi/kor/index,연구자료,,_김영호 I.서론 II.헬싱키 협정의 역사적 배경과 영향 III.동북아판 헬싱키 모...,2007-09-17
97,2012 북한 보건의료 연차보고서,관리자,http://www.nkhealth.net/board.php?var=view&cod...,북한보건의료네트워크,http://www.nkhealth.net/,발간자료,,'2012년 북한 보건의료 연차 보고서' □ 연차 보고서 목차 제 1장 북한 보건의...,2013-11-29
98,북한의 경제운용실태에 대한 연구,"차문석, 홍민",http://knsi.org/knsi/kor/center/view.php?no=43...,코리아정책연구원,http://knsi.org/knsi/kor/index,연구자료,,요약 서론 위기의 북한 경제 제1장 북한의 거시결제 실태 1.예산 및 재정과 무역 ...,2007-04-20


# 부가기능1
Body와 FileContent의 길이를 확인할 수 있습니다.

In [10]:
df = pd.DataFrame()
for item in items:
    dft = pd.DataFrame(data=item, index=[0], columns=['title','body','fileName','fileContent'])
    dft['bodyCount']=len(dft['body'][0]) if type(dft['body'][0])==str else 0
    dft['fileCount']=len(dft['fileContent'][0]) if type(dft['fileContent'][0])==str else 0
    df = df.append(dft,ignore_index=True)
df

Unnamed: 0,title,body,fileName,fileContent,bodyCount,fileCount
0,변하는 북한 변하지 않는 북한,,변하는 북한 변하지 않는 북한,,0,0
1,북한 사람이 들려주는 북한 이야기,,북한 사람이 들려주는 북한 이야기,,0,0
2,북한 주요인사 인물정보 2012 =북한 주요인물,,북한 주요인사 인물정보 2012 =북한 주요인물,,0,0
3,북한 주요인사 인물정보 2014 =북한 주요인물,,북한 주요인사 인물정보 2014 =북한 주요인물,,0,0
4,북한 주요인사 인물정보 2017 =북한 주요인물,,북한 주요인사 인물정보 2017 =북한 주요인물,,0,0
...,...,...,...,...,...,...
95,"HRW, 북 ICBM 폭발 민간피해에 “북 정권 주민무시 사례”(RFA 2022. ...",북한이 전날 김정은 총비서의 지도 아래 신형 대륙간탄도미사일(ICBM) '화성-17...,,,200,0
96,선택이 아닌 필수: 남북정상회담과 북한인권',_김영호 I.서론 II.헬싱키 협정의 역사적 배경과 영향 III.동북아판 헬싱키 모...,,,200,0
97,2012 북한 보건의료 연차보고서,'2012년 북한 보건의료 연차 보고서' □ 연차 보고서 목차 제 1장 북한 보건의...,,,200,0
98,북한의 경제운용실태에 대한 연구,요약 서론 위기의 북한 경제 제1장 북한의 거시결제 실태 1.예산 및 재정과 무역 ...,,,200,0


# 부가기능2
제공된 URL을 통해 전체 내용을 불러올 수 있습니다.
리눅스 환경에서 지원 가능합니다.

In [35]:
# ! pip install textract
!pip install pyhwp

import requests as r
import textract

def readFileFromUrl(url):
    savename = 'temp.pdf'
    mem = r.urlopen(url).read()
    
    with open(savename, mode="wb") as f:
        f.write(mem)
        
    response = textract.process("./temp.pdf")
        
readFileFromUrl('http://unibook.unikorea.go.kr/libeka/elec/WebBook_data1/00222050/ebook/media/src.pdf')
# response

Collecting pyhwp
  Downloading pyhwp-0.1b15.tar.gz (218 kB)


AttributeError: module 'requests' has no attribute 'urlopen'

Building wheels for collected packages: pyhwp
  Building wheel for pyhwp (setup.py): started
  Building wheel for pyhwp (setup.py): finished with status 'done'
  Created wheel for pyhwp: filename=pyhwp-0.1b15-py3-none-any.whl size=315443 sha256=190116c1583d9d259facf340142e08101daffc2e6394904b507b8b56cf507ee9
  Stored in directory: c:\users\cindy\appdata\local\pip\cache\wheels\00\f7\4d\ec5a2f465cb6f781c5582214b334756e0e033fd51e2e0fc040
Successfully built pyhwp
Installing collected packages: pyhwp
Successfully installed pyhwp-0.1b15


In [None]:
def addFileContent2df(df,column_name):
#     column_name warning 추가
    df = pd.DataFrame(columns=['title','body','fileContent'])
    for item in items:
        dft = pd.DataFrame(data=item, index=[0], columns=['title','body','fileContent'])
        url = item['fileURL'] if column_name == 'fileContent' else item['body']
        
        dft[column_name]=readFileFromUrl(url)
        dft['bodyCount']=len(dft['body'][0]) if type(dft['body'][0])==str else 0
        dft['fileCount']=len(dft['fileContent'][0]) if type(dft['fileContent'][0])==str else 0
        df = df.append(dft,ignore_index=True)
df

In [None]:
# df = addFileContent2df(df,'body')
df = addFileContent2df(df,'fileContent')


In [None]:
df