## Open API

### API란?
* Application Programming Interface의 약어입니다.
* 서로 다른 사양의 컴퓨터나 컴퓨터 프로그램이 데이터를 주고받을 수 있도록 하는 도구입니다.
* 예제에서는 사용자가 서울 열린데이터 광장의 서버에서 데이터를 요청할 수 있게 합니다.
* https://ko.wikipedia.org/wiki/API

### Open API
* Open API는 개발자라면 누구나 사용할 수 있도록 공개된 API를 의미합니다.
* 서울 열린데이터 광장에서는 Open API를 제공하여 사용자들이 데이터에 편리하게 접근할 수 있도록 하고 있습니다.

<html><head></head><body><font color = 'red'><strong>▶메타정보</strong></font><table border = '1'><tbody><tr><th scope = 'row' bgcolor = '#cccccc'>공공정보명</th><td>120상담정보</td><th scope = 'row' bgcolor = '#cccccc'>서비스명</th><td>서울시 다산콜센터 자주묻는질문 목록 조회</td></tr><tr><th scope = 'row' bgcolor = '#cccccc'>서비스설명</th><td colspan = '3'>서울시 및 자치구에서 수행하는 정책</td></tr></table></html>
  
  
    
* [오픈 API 이용안내> 이용안내 | 서울열린데이터광장](https://data.seoul.go.kr/together/guide/useGuide.do)
* https://data.seoul.go.kr/dataList/OA-1127/S/1/datasetView.do

## 라이브러리 로드

In [None]:
# read_xml 사용을 위해서는 pandas 1.3.5 이상의 버전을 사용해야 합니다.
# !pip install pandas -U

In [None]:
# pandas : 파이썬에서 사용할 수 있는 엑셀과 유사한 데이터분석 도구입니다.
# requests : 매우 작은 브라우저로 웹사이트의 내용과 정보를 불러옵니다.
# BeautifulSoup : request로 가져온 웹사이트의 html 태그를 찾기 위해 사용합니다.
import pandas as pd
import requests
from bs4 import BeautifulSoup as bs

In [None]:
# 판다스 버전을 확인합니다.
pd.__version__

In [None]:
# "서울시 다산콜센터 자주묻는질문 목록" 데이터의 메타정보를 담은 페이지를 url 변수에 담아줍니다.
# pd.read_html 을 통해 해당 URL의 table 정보를 읽어옵니다.
# DataFrame의 0행을 인덱스로 만듭니다.
# 행을 열으로, 열을 행으로 작성하여 바꾸어줍니다. pandas.DataFrame.transpose와 동일합니다.
api_document_url = "https://data.seoul.go.kr/dataList/OA-1127/S/1/datasetView.do"
# df_api_doc 

In [None]:
# df_api_doc 1행의 라이선스를 출력합니다.


## 수집할 URL

In [None]:
# 인증키 설정
# auth_key

In [None]:
# 발급받은 API 키를 auth_key 변수에 담아줍니다.
# 요청할 url에 API 키를 삽입하여 faq_url 변수에 담아줍니다.
faq_url = f"http://openAPI.seoul.go.kr:8088/{auth_key}/xml/SearchFAQService/1/999/F"

## HTTP 요청으로 목록 수집

```
<row>
<FAQ_TP>S</FAQ_TP>
<FAQ_SEQNO>289515</FAQ_SEQNO>
<FAQ_TP_NAME>서울시 업무매뉴얼</FAQ_TP_NAME>
<LCODE>22214335</LCODE>
<LCODE_NAME>수송및교통</LCODE_NAME>
<QUEST>차 없는 거리_종로</QUEST>
<UPDATE_YMDHMS>20200414143921</UPDATE_YMDHMS>
</row>
```

In [None]:
# API 키를 이용해 결과를 받아옵니다.
# result

## XML 데이터 해석

### XML이란?
* eXtensible Markup Language의 약어입니다.
* 인터넷 상에서 구조화된 데이터를 전송하기 위해 만들어진 형식입니다.
* XML은 주로 다른 종류의 시스템, 특히 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 하여 HTML의 한계를 극복할 목적으로 만들어졌습니다.
* https://ko.wikipedia.org/wiki/XML

In [None]:
# 변수 df_list_all에 pandas의 xml 읽어오기 기능을 이용해 result의 text를 읽어옵니다.
# df_list_all를 확인합니다.
# df_list_all

## 데이터 살펴보기

* 불러온 데이터를 살펴보겠습니다.
* CODE의 값이 INFO-000이면 정상적으로 정보를 받은 것입니다.

In [None]:
# df_list_all를 확인합니다.


* UPDATE_YMDHMS 변수는 이름으로 짐작할 때 정보가 업데이트 된 년, 월, 일, 시, 분, 초를 나타내는 시간 정보로 보여집니다.

## 데이터 전처리 계획

* list_total_count, CODE, MESSAGE는 request에 대한 정보가 담겨있는 열입니다.
* 나머지는 request한 요청에 대한 내용이 담겨있는 열입니다.
* 성질이 전혀 다른 열이 한 데이터프레임에 담겨 있어 결측치가 많이 생겼습니다.

* 현재 형태에서는 불필요한 NaN이나 None값이 불필요하게 많이 존재합니다.
* 정보의 종류의 따라 두 개의 데이터프레임으로 분리하겠습니다.
* list_total_count, CODE, MESSAGE는 request에 대한 상태를 나타내는 status 데이터프레임으로 분리하겠습니다.
* 나머지는 요청에 대한 내용을 담고 있는 content 데이터프레임으로 분리하겠습니다.

* FAQ_SEQNO와 LCODE 열은 각각 FAQ에 대한 코드명으로, 정수형으로 나타내는 것이 더 적절할 것 같습니다.
* UPDATE_YMDHMS 열은 보기 더 편해졌지만, 아직도 날짜 형태 데이터가 아니라 실수형 데이터입니다.
* UPDATE_YMDHMS를 날짜형 데이터로 바꿔주겠습니다.

## 데이터 전처리하기

In [None]:
# df_list_status 변수에 list_total_count, CODE, MESSAGE에서 필요한 정보만 담은 데이터프레임을 담습니다.
# df_list_status를 확인합니다.
# df_list_status

In [None]:
# df_list 변수에 나머지 열을 담은 데이터프레임을 담습니다.
# df_list 를 확인합니다.
# df_list 

In [None]:
# df_list 의 인덱스가 2부터 시작합니다. 인덱스를 초기화합니다.
# FAQ_SEQNO을 정수형 데이터로 변경합니다.
# LCODE를 정수형 데이터로 변경합니다.
# UPDATE_YMDHMS를 문자열 데이터로 변경하고 13번째 문자까지만 갖도록 slicing 합니다.
# UPDATE_YMDHMS를 pandas의 날짜 데이터 형식으로 변경합니다.
# df_list 를 확인합니다.
# df_list 

## 내용 수집 연습

* 서버에서 제공하는 sample code를 통해 FAQ 하나하나에 대한 정보를 불러오는 연습을 해보겠습니다.
* http://openapi.seoul.go.kr:8088/sample/xml/SearchDetailsFAQService/1/5/F/
* URL 에 들어가는 다음 문자의 의미입니다.
* F : FAQ
* S : 서울시 업무매뉴얼
* J : 자치구 업무매뉴얼

In [None]:
# 일련번호 289435를 faq_no 변수에 담아줍니다.
# 요청할 url에 일련번호 faq_no를 삽입하여 detail_url 변수에 담아줍니다.
faq_no = 289435
detail_url = f"http://openapi.seoul.go.kr:8088/sample/xml/SearchDetailsFAQService/1/5/F/{faq_no}"

In [None]:
# API 키를 이용해 결과를 받아옵니다.


In [None]:
# pandas의 xml 읽어오기 기능을 이용해 result의 text를 읽어오겠습니다.


## 특정 내용 읽어오기

* sample code를 통해 학습한 내용을 바탕으로 df_list의 첫 행에 해당하는 FAQ의 정보를 요청해보겠습니다.

In [None]:
# df_list의 첫 행에 해당하는 내용을 읽어오겠습니다.
# FAQ_TP에 df_list의 첫 행의 FAQ_TP의 값을 담아줍니다.
# FAQ_SEQNO df_list의 첫 행의 FAQ_SEQNO 값을 담아줍니다.
# FAQ_TP 
# FAQ_SEQNO

In [None]:
# FAQ_TP를 확인합니다.


In [None]:
# FAQ_SEQNO를 확인합니다.


In [None]:
# detail_url에 값을 요청할 url 정보를 담아줍니다.
detail_url = f'http://openAPI.seoul.go.kr:8088/{auth_key}/xml/SearchDetailsFAQService/1/1/{FAQ_TP}/{FAQ_SEQNO}/'

In [None]:
# API 키를 이용해 결과를 받아옵니다.


In [None]:
# pandas의 xml 읽어오기 기능을 이용해 result의 text를 읽어옵니다.


## 내용 수집 함수 만들기

* df_list 의 모든 열에 적용해야 하므로, 내용을 가져오는 함수를 작성하겠습니다.

In [None]:
# 특정 FAQ의 내용을 읽어오는 함수를 작성합니다.
def get_content(FAQ_SEQNO):
    '''FAQ_SEQNO로 ANSWER를 반환하는 함수
    '''
    

## 목록과 내용 합치기

In [None]:
# df_faq에 ANSWER 열을 추가합니다.
# df_faq

In [None]:
# df_faq["ANSWER"]

In [None]:
# df_faq를 확인합니다.


## 파일로 저장하기

In [None]:
# 저장할 파일명을 "seoul-120-API.csv"로 지정합니다.
file_name = 'seoul-120-API.csv'

In [None]:
# csv 파일로 저장합니다.


In [None]:
# 저장이 잘 되었는지 csv 파일로 읽어옵니다.
