#### 크롬 브라우저 개발자 도구를 이용한 웹 페이지 분석
  - 크롬 브라우저 `개발자 도구`를 이용하면 웹 페이지를 분석할 수 있음
  - 개발자 도구 탭에는 `Elements, Console, Sources, Network` 등이 있음
  - `Elements` 탭을 통해 어떤 태그가 쓰였는지 웹 페이지를 분석 후 데이터 수집 진행
  - `Network` 탭에서는 `Preserve log`를 체크한 뒤 분석 수행
    - Preserve log: 서버에 요청하는 기록을 모두 로깅
    - Hearders, Preview, Response 등의 Network 관련 상세 내용 확인 가능

#### HTTP method
  - HTTP(HyperText Transfer Protocol: HTML 문서, 리소스 등을 전송하는 프로토콜
  - Client <-> Server 
  - HTTP 요청(Request), 응답(Response)을 통해 통신
  - HTTP method(웹 데이터 크롤링에서는 GET, POST 두 방식이 많이 쓰임)
    - `GET`
      - 데이터 또는 값을 URL상에 포함하여 전달(Resource 요청에 사용)
      - ex) /test/demo_form.php?name1=value1&name2=value2 (출처: w3schools.com)
    - `POST`
      - 데이터를 Form에 포함하여 전달(로그인, 데이터 전송 등에 사용)
      - URL 상에 데이터나 값이 노출되지 않음
  - 웹 크롤링에서는 대부분 GET 방식을 활용

#### HTML elements
  - HTML 문서는 HTML 태그(tag)로 구성
  - <태그명 속성1="value1" 태그명 속성2="value2">Text, Value</태그명>
  - ex) `<a href="//choidslab.github.io">© 2020 Doo-Seop Choi</a>`
 


#### html 기본 구조
```
<html>
    <head>
        <title>웹 페이지 제목</title>
    </head>
    <body>
        <h1>Testing...<h2>
        <p>HTML 테스트 페이지</p>
    </body>
</html>```

#### Python requests 모듈 사용(HTTP 통신)
  - `requests` 모듈을 이용하여 HTTP 요청, 응답을 받을 수 있음
  - `requests.get()`, parameter로 URL 전달
  - `requests.post(url, data=)`, parameter로 URL과 data 전달

In [4]:
import requests
url = 'https://news.v.daum.net/v/20200610111322574'
result = requests.get(url) # URL에 대한 HTTP GET 방식 요청
print(result) # HTTP Response Status Code 200(정상처리) 확인

result.text # url 내용을 html 형태로 볼 수 있음

<Response [200]>


#### HTTP header 데이터 활용
  - header data 구성
  - header data 전달

In [8]:
url = 'https://news.v.daum.net/v/20200611053155249'
headers = { # dict를 활용하여 header를 구성하여 전달할 수 있음
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}

res = requests.get(url, headers=headers)
res.text

#### HTTP response
  - response 객체 
  - status_code
  - text 속성

In [17]:
url = 'https://news.v.daum.net/v/20200611053155249'
res = requests.get(url)
status_code = res.status_code
     
if status_code == 200:
    print(res.text)
else:
    print('status code error')

---

#### Open API를 활용한 json 데이터 추출(공공데이터)
  - 공공데이터 포털 활용(https://www.data.go.kr)
  - API 사용요청 및 Key 발급
  - API 문서 확인
  - API 테스트 및 개발



#### 공공데이터 포털 - 영문 관광 정보 서비스 데이터를 이용한 실습

#### Endpoint 확인 및 Key 발급
  - API가 서비스되는 서버 IP 또는 Domain 주소를 의미
  - API Key를 발급받아야 사용 가능하며 신규 발급 시 1시간이 지나야 API 사용 가능

In [30]:
endpoint = 'http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKey={}&numOfRows=10&pageSize=10&pageNo=1&MobileOS=ETC&MobileApp=AppTest'.format(serviceKey)
print(endpoint)

http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKey=D3JKJiremWtml5IxFVUslLwJqx%2FoQxysXaqDAlLawm5cXc%2BZ9jbl1tgt9wTlldwKm6tlIPUfymL%2FcZ7wVzmhfA%3D%3D&numOfRows=10&pageSize=10&pageNo=1&MobileOS=ETC&MobileApp=AppTest


In [39]:
serviceKey = '발급받은 API Key'

#### 응답 데이터를 json으로 받고 싶은 경우
  - Open API Key와 함께 제공되는 API 사용 문서를 확인 
  - 본 예제의 경우 Endpoint 주소 끝에 `&_type=json` 추가하면 json 형식의 데이터 응답

In [32]:
endpoint = 'http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKey={}&numOfRows=10&pageSize=10&pageNo=1&MobileOS=ETC&MobileApp=AppTest&_type=json'.format(serviceKey)
print(endpoint)

http://api.visitkorea.or.kr/openapi/service/rest/EngService/areaCode?serviceKey=D3JKJiremWtml5IxFVUslLwJqx%2FoQxysXaqDAlLawm5cXc%2BZ9jbl1tgt9wTlldwKm6tlIPUfymL%2FcZ7wVzmhfA%3D%3D&numOfRows=10&pageSize=10&pageNo=1&MobileOS=ETC&MobileApp=AppTest&_type=json


In [33]:
# Python 코드로 출력
res = requests.get(endpoint)
print(res.status_code)
print(res.text)

200
{"response":{"header":{"resultCode":"0000","resultMsg":"OK"},"body":{"items":{"item":[{"code":1,"name":"Seoul","rnum":1},{"code":2,"name":"Incheon","rnum":2},{"code":3,"name":"Daejeon","rnum":3},{"code":4,"name":"Daegu","rnum":4},{"code":5,"name":"Gwangju","rnum":5},{"code":6,"name":"Busan","rnum":6},{"code":7,"name":"Ulsan","rnum":7},{"code":8,"name":"Sejong","rnum":8},{"code":31,"name":"Gyeonggi-do","rnum":9},{"code":32,"name":"Gangwon-do","rnum":10}]},"numOfRows":10,"pageNo":1,"totalCount":17}}}


In [38]:
data = res.json() # json()함수를 이용하면 dict type으로 json 정보를 가져올 수 있음
data['response']['body']['items']['item']

[{'code': 1, 'name': 'Seoul', 'rnum': 1},
 {'code': 2, 'name': 'Incheon', 'rnum': 2},
 {'code': 3, 'name': 'Daejeon', 'rnum': 3},
 {'code': 4, 'name': 'Daegu', 'rnum': 4},
 {'code': 5, 'name': 'Gwangju', 'rnum': 5},
 {'code': 6, 'name': 'Busan', 'rnum': 6},
 {'code': 7, 'name': 'Ulsan', 'rnum': 7},
 {'code': 8, 'name': 'Sejong', 'rnum': 8},
 {'code': 31, 'name': 'Gyeonggi-do', 'rnum': 9},
 {'code': 32, 'name': 'Gangwon-do', 'rnum': 10}]