# BusID -> Coordinate

## 1. urllib.parse
- URL을 구성 요소로 구문 분석
- URL 문자열을 구성요소(주소 지정 체계, 네트워크 위치, 경로 등)으로 분리  
- URL 문자열로 결합  
- "상대 URL"을 주어진 "기본 URL"에 따라 절대 URL로 변환하는 표준 인터페이스를 정의

**urlllib.parse 모듈은 다음 함수들을 정의**
- URL 구문 분석  
- <u>URL 인용(quoting)</u>  

**URL Quoting**  
`urllib.parse.quote(string, safe='/', encoding=None, errors=None) `
- 기본적으로 URL의 경로 섹션을 인용하기 위한 것  
- 문자열을 퍼센티지 이스케이프를 사용하는 문자열로 바꿔줌  
- safe Parm.은 encoding하지 않을 인자를 입력. **default값은 '/'**
- encoding Parm.은 encoding 방식을 입력. **default값은 'utf-8'**
- errors Parm.은 error를 발생시키는 방법을 입력. **default값은 quote()에서 'strict', unquote()에서 'replace'**

`urllib.parse.quote_plus(string, safe=' ', encoding=None, errors=None)`
- 기본적으로 urllib.parse.quote와 동일함  
- 띄어쓰기를 출력해주는 방식이 "%20" -> "+" 라는 차이가 있음

`urllib.parse.urlencode()`
- Get으로 요청 시에 사용하는 Parameters의 Request를 자동으로 생성

In [17]:
from urllib.parse import quote, quote_plus, unquote, urlencode

test_str = '이름은 Jaehwan'
print('{0}' .format(test_str))
print('quote:      {0}' .format(quote(test_str)))
print('quote_plus: {0}' .format(quote_plus(test_str)))

print('unquote:    {0}' .format(unquote(quote(test_str))))

params = {}
params['key01'] = 'value01'
params['key02'] = 'value02'
params = urlencode(params)
print('urlencode:  %s' %(params))

이름은 Jaehwan
quote:      %EC%9D%B4%EB%A6%84%EC%9D%80%20Jaehwan
quote_plus: %EC%9D%B4%EB%A6%84%EC%9D%80+Jaehwan
unquote:    이름은 Jaehwan
urlencode:  key01=value01&key02=value02


## 2. urllib.request
- URL요청 클래스/함수들 정의
- 데이터를 전송할 때 인코딩을 해서 바이너리 형태로 전송
- 존재하지 않는 페이지를 요청하면 에러를 출력
- 파이썬에 설치된 기본 모듈로써, 외부 통신이 안되는 경우에도 사용이 가능

`urlopen(url, data=None, cafile=None, capath=None, cadefault=False, context=None)`
- url: 문자열로 된 url이나 Request객체(urllib.request.Request 클래스로 인스턴트를 받음)
- data: Post방식으로 요청 시의 데이터
- timeout: 연결 시도에 대한 시간 초과 '초(seconds)'
- cafile, capath, cadefault: CA 인증서에 대한 인자
- context: ssl.SSLContext 객체

**반환 객체는 아래 함수를 지원**   
1. **geturl()**: 받아온 리소스의 url
2. **info()**: 패킷의 메타 데이터(헤더 등)
3. **getcode()**: 응답 패킷의 HTTP 상태 코드
4. **read()**: 받아온 데이터를 바이트형으로 출력
5. **read().decode()**: HTML 형식으로 출력
6. **readline()**: 받아온 데이터를 바이트형으로 한 줄씩 출력
7. **close()**: 연결 종료

> **urlopen의 일반적인 사용 예**   
`x = urlopen(요청 URL)   
x = urlopen(Request(요청 URL)`

> **요청 시 전송할 데이터를 지정하여 urlopen을 사용하는 예 (POST방식에 사용)**   
`x = urlopen(URL, data).  
x = urlopen(Requests(URL), data`


> **웹 페이지 내용 화면에 출력**   
`url = ''    
with urlopen(url) as x:    
    print(x.read())`
    
> **웹 서버로부터의 응답 정보 출력**   
`url = ''
with urlopen(url) as x:
    print(x.geturl()) #실제로 응답한 URL
    print(x.info()) #헤더 등과 같은 페이지의 메타 정보
    print(x.getcode()) #HTTP 응답코드`

`Request(url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)`
- url 요청을 추상화하기위한 클래스
- urllib.request.urlopen()함수의 인자로 넘겨주기 위해 url 요청을 인스턴트화
- **url**: 문자열로된 url
- **data**: 요청에 대한 추가 데이터의 객체를 지정하거나 None을 지정
- **headers**: 요청에 필요한 헤더를 넣어줌(Type: Dictionary)
- **origin_req_host**: 원본 트랙잭션의 요청 호스트를 지정. 기본 값은 URL을 요청한 호스트
- **unverifiable**: 요청에 대해 검증할 수 없는지의 여부(True/False)를 지정. 기본값은 False
- **method**: HTTP 요청 메소드가 들어감. 기본값은 GET이고 HEAD, POST 등을 지정

**반환 객체는 아래 함수와 변수를 지원**   
1. **Request.full_url**: 전달된 원본 URL
2. **Request.type**: URL Scheme을 담고있는 변수
3. **Request.host**: 요청된 URL의 호스트 부분을 담고있는 변수
4. **Request.origin_req_host**: 포트를 제외한 원래의 호스트 부분을 담고있는 변수
5. **Request.method**: 요청에 사용되는 HTTP 메소드를 설정하는 변수
6. **Request.get_method()**: 요청에 사용될 HTTP 메소드를 반환

In [18]:
from urllib.request import Request, urlopen

x = Request('https://blog.naver.com/')
with urlopen(x) as response:
    res_text = response.read()
    print(res_text)

b'\n\n\n\n<!DOCTYPE html>\n<html lang="ko">\n<head>\n    <meta http-equiv="X-UA-Compatible" content="IE=edge">\n    <base href="/home" />\n    <meta name="robots" content="noindex,nofollow"/>\n    <meta name="referrer" content="always"/>\n    <meta name="format-detection" content="telephone=no">\n    <link rel="shortcut icon" type="image/x-icon" href="https://section.blog.naver.com/favicon.ico?3"/>\n    \n\n\n\n\n \n\n\t\n\t\n\t\t<meta property="og:title" content="\xeb\x84\xa4\xec\x9d\xb4\xeb\xb2\x84 \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8"/>\n\t\t<meta property="og:image" content="https://blogimgs.pstatic.net/nblog/mylog/post/og_default_image_160610.png"/>\n\t\t<meta property="og:description" content="\xeb\x8b\xb9\xec\x8b\xa0\xec\x9d\x98 \xeb\xaa\xa8\xeb\x93\xa0 \xea\xb8\xb0\xeb\xa1\x9d\xec\x9d\x84 \xeb\x8b\xb4\xeb\x8a\x94 \xea\xb3\xb5\xea\xb0\x84"/>\n\t\n\n<meta property="me:feed:serviceId" content="blog" />\n\n    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />\n 

## 3. requests
- 데이터를 전송할 때 딕셔너리 형태로 전송
- 존재하지 않는 페이지를 요청해도 에러를 출력하지 않음
- URL에 쿼리 문자열을 수동으로 추가하거나 POST 데이터를 형식 인코딩할 필요가 없어 urllib.request보다 사용하기 쉬움
- GET/POST 여부에 관계없이 매개변수를 다시 인코딩할 필요가 없으며 dictionary을 인수로 사용하기만 하면 됌

In [19]:
import requests

response = requests.get('https://blog.naver.com/') # x 객체 생성 requests모듈의 get메서드로 URL을 받음
print(response.text)
print(response.status_code) # 상태코드 호출, URL을 잘 받았다면 200 출력





<!DOCTYPE html>
<html lang="ko">
<head>
    <meta http-equiv="X-UA-Compatible" content="IE=edge">
    <base href="/home" />
    <meta name="robots" content="noindex,nofollow"/>
    <meta name="referrer" content="always"/>
    <meta name="format-detection" content="telephone=no">
    <link rel="shortcut icon" type="image/x-icon" href="https://section.blog.naver.com/favicon.ico?3"/>
    




 

	
	
		<meta property="og:title" content="네이버 블로그"/>
		<meta property="og:image" content="https://blogimgs.pstatic.net/nblog/mylog/post/og_default_image_160610.png"/>
		<meta property="og:description" content="당신의 모든 기록을 담는 공간"/>
	

<meta property="me:feed:serviceId" content="blog" />

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <title>네이버 블로그</title>

    <link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/t.static.blog/section/versioning/section_ngapp-438711480_https.css" charset="UTF-8" />

    <script>
        var angularConfig = {"isDev":f

In [20]:
import requests
from urllib.parse import unquote

def getStationByRoute(busRouteId):
    url = 'http://ws.bus.go.kr/api/rest/busRouteInfo/getStaionByRoute'
    serviceKey = 'gjPavFovnjVJ7CFP7V%2FeNq3fwMNiW4GVn%2FNDcWSTJpqb1uII9BrKZJ8Vq2vZmYbm3ahPDMhFY7pF5e7jcfwy7w%3D%3D'

    params ={'serviceKey' : unquote(serviceKey), 'busRouteId' : busRouteId}
    response = requests.get(url, params=params)
    content = response.text
    print(content)

getStationByRoute(100100081)

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><ServiceResult><comMsgHeader/><msgHeader><headerCd>0</headerCd><headerMsg>정상적으로 처리되었습니다.</headerMsg><itemCount>0</itemCount></msgHeader><msgBody><itemList><arsId>21144</arsId><beginTm>04:30</beginTm><busRouteAbrv>506</busRouteAbrv><busRouteId>100100081</busRouteId><busRouteNm>506</busRouteNm><direction>을지로입구역.광교</direction><gpsX>126.937243894</gpsX><gpsY>37.4710002992</gpsY><lastTm>22:31</lastTm><posX>194449.3303962329</posX><posY>441293.6796528194</posY><routeType>3</routeType><sectSpd>0</sectSpd><section>0</section><seq>1</seq><station>120000043</station><stationNm>신성초등학교</stationNm><stationNo>21144</stationNo><transYn>N</transYn><fullSectDist>0</fullSectDist><trnstnid>101000141</trnstnid></itemList><itemList><arsId>21165</arsId><beginTm>04:30</beginTm><busRouteAbrv>506</busRouteAbrv><busRouteId>100100081</busRouteId><busRouteNm>506</busRouteNm><direction>을지로입구역.광교</direction><gpsX>126.9329498365</gpsX><gpsY>37.4698733592</gpsY><

## 4. BeautifulSoup & lxml
- BeautifulSoup: Scrapping
- lxml: 구문을 분석하기위한 파서

`find_all('tag',{'attrib':'value' ...})`
: 해당 조건에 맞는 모든 태그를 가져옴
`find('tag',{'attrib':'value' ...})`
: 해당 조건에 맞는 첫 번째 태그를 가져옴

In [24]:
import requests, bs4
from urllib.parse import unquote
import pandas as pd

url = 'http://ws.bus.go.kr/api/rest/busRouteInfo/getStaionByRoute'
serviceKey = 'gjPavFovnjVJ7CFP7V%2FeNq3fwMNiW4GVn%2FNDcWSTJpqb1uII9BrKZJ8Vq2vZmYbm3ahPDMhFY7pF5e7jcfwy7w%3D%3D'
busRouteId = 100100081

params ={'serviceKey' : unquote(serviceKey), 'busRouteId' : busRouteId}
response = requests.get(url, params=params)
content = response.text

## Columns Value ##
"""
StationList: null(List형)
busRouteId: 노선ID
busRouteNm: 노선명
seq: 순번
section: 구간ID
station: 정류소ID
stationNm: 정류소명
gpsX: 좌표X (WGS84)
gpsY: 좌표Y (WGS84)
direction: 진행방향
stationNo: 정류소고유번호
routeType: 노선유형
beginTm: 첫차시간
lastTm: 막차시간
posX: 좌표X (GRS80)
posY: 좌표Y (GRS80)
arsId: 정류소번호
transYn: 회차지여부
trnstnid: 회차지 ID
sectSpd: 구간속도
fullSectDist: 구간거리
"""

# content(type: xml) 문서를 lxml의 xml파서를 통해 BeautifulSoup 객체로 만들어줌
xml_obj = bs4.BeautifulSoup(content,'lxml-xml')
# 'itemList' tag를 찾아 나열
rows = xml_obj.findAll('itemList')

row_list = [] #행값
name_list = [] #열이름값
value_list = [] #데이터값

# xml안의 데이터 수집
for i in range(0, len(rows)):
    columns = rows[i].find_all()
    # 첫째 행 데이터 수집
    for j in range(0, len(columns)):
        if i == 0:
            # 컬럼 이름 값 저장
            name_list.append(columns[j].name)
        # 컬럼 각 데이터 값 저장
        value_list.append(columns[j].text)
    # 각 행의 value값 전체 저장
    row_list.append(value_list)
    # 데이터 리스트 값 초기화
    value_list=[]
    
# xml값 DataFrame으로 만들기
getStationByRoute = pd.DataFrame(row_list, columns=name_list)
#print(getStationByRoute)

# DataFrame을 CSV 파일로 저장
getStationByRoute.to_csv('getStationByRoute.csv', encoding='utf-8-sig')

    arsId beginTm busRouteAbrv busRouteId busRouteNm  direction  \
0   21144   04:30          506  100100081        506  을지로입구역.광교   
1   21165   04:30          506  100100081        506  을지로입구역.광교   
2   21166   04:31          506  100100081        506  을지로입구역.광교   
3   21167   04:32          506  100100081        506  을지로입구역.광교   
4   21168   04:33          506  100100081        506  을지로입구역.광교   
..    ...     ...          ...        ...        ...        ...   
95  21158   06:51          506  100100081        506    신림2동차고지   
96  21159   06:52          506  100100081        506    신림2동차고지   
97  21127   06:55          506  100100081        506    신림2동차고지   
98  21142   06:56          506  100100081        506    신림2동차고지   
99  21143   07:00          506  100100081        506    신림2동차고지   

              gpsX           gpsY lastTm                posX  ... routeType  \
0    126.937243894  37.4710002992  22:31   194449.3303962329  ...         3   
1   126.9329498365  37.4698733592  22

## 5. xml.etree.ElementTree
- xml을 처리하는 라이브러리
- xml형식의 파일을 파이썬으로 불러와서 파싱 및 데이터 처리하는데 사용

1. `import xml.etree.ElementTree as ET`
2. `doc = ET.parse('xml_test.xml')`   
: 데이터 파싱
3. `root = doc.getroot()`   
: 최상단 루트 태그

- **tag**: 해당 태그의 이름
- **text**: 해당 태그의 값
- **attrib**: 해당 노드의 attribute 맵 (key, value)

4. `country_tag = root.find("country")`   
: root 하위에 "country"와 일치하는 첫번째 태그를 찾아서 리턴. 없으면 None
5. `country_tags = root.findall("country")`   
: root 하위에 "country"와 일치하는 모든 태그를 리스트로 리턴
6. `country_text = root.findtext("country")`   
: root 하위에 "country"와 일치하는 첫번째 태그를 찾아서 해당 태그의 text를 리턴
7. `country_text = root.find("country").text`   
: findtext는 find().text와 동일

- **위 find함수들은 root의 자식들인 country태그들에 대해서만 탐색이 가능**
- **country의 자식들에 대해서는 root.find()로 탐색이 불가**
- **즉, 직전 자식들에 대해서만 탐색이 가능**
- **모든 자식에 대해 탐색하고싶다면, iter 함수 사용**

8. `for neighbor in root.iter("neighbor"): print neighbor.attrib`   
: root 태그에서도 iter("neighbor")만 모두 순회가 가능
9. `for child in root.iter(): print child.tag`   
: root 이하 모든 자식의 태그명을 프린트
10. `for country in root.iter("country"): print country.tag`   
: root 이하 country 태그들에 대해 태그명을 프린트

## Code

### 공공 데이터 포털
- Site URL : https://www.data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15000193
- getStationByRoute : 버스 ID를 입력 -> 정류장 정보가 출력(좌표)
    - **Query Params**
        0. ServiceKey: string(required)
            - Authentication
        1. busRouteId: string(required)
            - 버스 ID

Example
http://ws.bus.go.kr/api/rest/busRouteInfo/getStaionByRoute?ServiceKey=2lIiG4gjqJKjMZVcfTT84FUCIVngBh%2F5tvMeN3mn4l%2Bo1tdBCCSILUDK0o7IDXNXpmRyIkfYtzF3JLzZGe0wCg%3D%3D&busRouteId=100100081

In [22]:
from urllib.parse import urlencode, quote_plus, unquote
from urllib.request import Request, urlopen
import xml.etree.ElementTree as ET

def getStationByRoute(busRouteId):
    #API URL & Key
    Bus_url = 'http://ws.bus.go.kr/api/rest/busRouteInfo/getStaionByRoute'
    ServiceKey = unquote('gjPavFovnjVJ7CFP7V%2FeNq3fwMNiW4GVn%2FNDcWSTJpqb1uII9BrKZJ8Vq2vZmYbm3ahPDMhFY7pF5e7jcfwy7w%3D%3D')

    #Parameters
    params = {}
    params['ServiceKey'] = ServiceKey
    params['busRouteId'] = busRouteId
    
    #Request
    queryParams = '?' + urlencode(params)
    request = Request(Bus_url + queryParams)
    #request.get_method = lambda: 'GET'

    #Parsing
    with urlopen(request) as response:
        res_xml = ET.parse(response)

    #Select text and make list
    root = res_xml.getroot()
    msgBody = root.find("msgBody")
    gpsList = list()
    
    for itemList in msgBody.findall("itemList"):
        gpsX = itemList.find("gpsX").text
        gpsY = itemList.find("gpsY").text
        gps  = [gpsX, gpsY]
        gpsList.append(gps)
    
    return gpsList

if __name__ == "__main__":
    Coordi = getStationByRoute(100100081)
    print("========Bus Station's GPS Address======== ")
    for i in Coordi:
        print(i)

['126.937243894', '37.4710002992']
['126.9329498365', '37.4698733592']
['126.9318366773', '37.4678433767']
['126.931333', '37.465575']
['126.93169', '37.462487']
['126.929865', '37.458825']
['126.927725', '37.459955']
['126.92536', '37.461213']
['126.921921', '37.461102']
['126.919167', '37.461001']
['126.9193821951', '37.464124871']
['126.9196773902', '37.4652824875']
['126.92054078', '37.4666919669']
['126.9200167939', '37.4703996697']
['126.9195218742', '37.4722574159']
['126.9182055117', '37.47385703']
['126.9168479874', '37.4753427552']
['126.9156475816', '37.477054907']
['126.914797', '37.480922']
['126.9159413884', '37.4819058692']
['126.918618871', '37.4823672056']
['126.9208415344', '37.4827354653']
['126.9280626243', '37.483817804']
['126.9331482652', '37.4844524654']
['126.936125', '37.484533']
['126.9432468507', '37.482008544']
['126.9484610699', '37.4814828857']
['126.9542258337', '37.4828873794']
['126.9559128703', '37.4849010896']
['126.9581660971', '37.4877034434']
['12