## 다양한 Open API 사용하기

### 정부3.0 공공 데이터 포털 API 사용하기

* 공공 데이터 포털 가입하기
  - https://www.data.go.kr
  - 회원가입 -> 로그인 -> '한국환경공단_대기오염정보' 으로 검색 후, 해당 Open API 페이지로 이동
     > 공공 데이터 포털은 공인된 기관임에도 아쉽게도, 메뉴와 Open API 가 링크 등이 수시로 바뀌고 있습니다. 
  - 해당 API 에서 활용신청을 통해 인증키를 발급받은 후, 샘플코드 또는 페이지에 링크되어 있는 문서 또는 가이드를 기반으로 테스트 진행
  
   <img src="https://www.fun-coding.org/00_Images/governapi.png" />  
    

- JSON 이외에 XML 포멧으로 데이터를 다루는 경우도 많음
  - XML 관련 내용은 '다양한 데이터 읽기 - XML 파일' 참조

In [None]:
import requests

service_key = 'SbodTX2jEFoJXHp33uT4jeUkGQ6R10KeZq83Nv%2FdwJFHeilpd3RHVEBzjYggD24QEj2lSYWclol78T1h%2BKD%2B4g%3D%3D'
params = '&returnType=json&numOfRows=100&pageNo=1&sidoName=광주&ver=1.0'
open_api = 'http://apis.data.go.kr/B552584/ArpltnInforInqireSvc/getCtprvnRltmMesureDnsty?ServiceKey=' + service_key + params

res = requests.get(open_api)

data = res.json()

# print(data['response']['body']['items'])

for item in data['response']['body']['items']:
    print(item)

### 공공데이터포털 Open API 예제
- https://www.data.go.kr/data/15000581/openapi.do

In [None]:
# Python 샘플 코드 #


from urllib2 import Request, urlopen
from urllib import urlencode, quote_plus

url = 'http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSvc/getMsrstnAcctoRltmMesureDnsty'
queryParams = '?' + urlencode({ quote_plus('ServiceKey') : '서비스키', quote_plus('numOfRows') : '10', quote_plus('pageNo') : '1', quote_plus('stationName') : '종로구', quote_plus('dataTerm') : 'DAILY', quote_plus('ver') : '1.3' })

request = Request(url + queryParams)
request.get_method = lambda: 'GET'
response_body = urlopen(request).read()
print response_body

## 다양한 데이터 읽기 - XML

* XML(Extensible Markup Language)
  - 특정 목적에 따라 데이터를 태그로 감싸서 마크업하는 범용적인 포멧
  - 마크업 언어는 태그 등을 이용하여 데이터의 구조를 기술하는 언어의 한 가지
  - 가장 친숙한 마크업 언어가 HTML
  - XML은 HTML과 마찬가지로 데이터를 계층 구조로 표현
  - XML 기본 구조
  <pre>
  <태그 속성="속성값">내용</태그>
  </pre>

    - 태그와 속성은 특정 목적에 따라 임의로 이름을 정해서 사용

    - 다른 요소와 그룹으로 묶을 수도 있음

In [21]:
import requests
from bs4 import BeautifulSoup

service_key = 'WMV3wl%2BU%2BMG%2FOYQK3Wv99q1H79wjvVwIwHEjvrDV3K4gG2h9P1%2BKiB%2FFa1QoYI0yxBpJ3sm1L0OAEam9Rp2sbw%3D%3D'
params = '&numOfRows=10&pageNo=1&sidoName=서울&searchCondition=DAILY'
open_api = 'http://openapi.airkorea.or.kr/openapi/services/rest/ArpltnInforInqireSvc/getCtprvnRltmMesureDnsty?ServiceKey=' + service_key + params

res = requests.get(open_api)
soup = BeautifulSoup(res.content, 'html.parser')

data = soup.find_all('item')
for item in data:
    stationname = item.find('stationname')
    pm10grade = item.find('pm10grade')
    print (stationname.get_text(), pm10grade.get_text())

중구 1
한강대로 1
종로구 1
청계천로 
종로 1
용산구 1
광진구 1
성동구 1
강변북로 1
중랑구 1


## 정규표현식

In [3]:

import re               # 정규 표현식 라이브러리 임포트
string = "(Dave)"
re.sub('[^A-Za-z0-9]', '', string)    # 문자, 숫자가 아닌 데이터를 찾아서, '' 로 대체해라(삭제해라)



'Dave'

In [None]:
string.replace("(", '').replace(")", '')

In [2]:
import openpyxl
import re

regex = re.compile(' [A-Za-z]+\.')
# 엑셀파일 열기
work_book = openpyxl.load_workbook('train.xlsx')

# 현재 Active Sheet 얻기
work_sheet = work_book.active

# work_sheet.rows는 해당 쉬트의 모든 행을 객체로 가지고 있음
for each_row in work_sheet.rows:
    print (each_row[3].value)
    print (regex.findall(each_row[3].value))    

work_book.close()

ModuleNotFoundError: No module named 'openpyxl'

### 정규 표현식 패턴

In [5]:
# 패턴 만들기
pattern = re.compile('D.A')

In [6]:
# 패턴에 매칭되는지 여부 확인하기
pattern.search("DAA")

<re.Match object; span=(0, 3), match='DAA'>

In [7]:
pattern.search("D1A")

<re.Match object; span=(0, 3), match='D1A'>

In [8]:
pattern.search("D00A")

In [9]:
pattern.search("DA")

In [10]:
pattern.search("d0A")

In [11]:
pattern.search("d0A D1A 0111")

<re.Match object; span=(4, 7), match='D1A'>

In [12]:
# 찾고 바꾸기 (특정 패턴이 매칭되는 것을 찾아서, 다른 문자열로 바꾸기)
string = "DDA D1A DDA DA"

In [13]:
# re.sub(패턴, 바꿀데이터, 원본데이터)
re.sub('D.A', 'Dave', string)    # 문자, 숫자가 아닌 데이터를 찾아서, '' 로 대체해라(삭제해라)

'Dave Dave Dave DA'