#### 크롬 브라우저 개발자 도구를 이용한 웹 페이지 분석
  - 크롬 브라우저 `개발자 도구`를 이용하면 웹 페이지를 분석할 수 있음
  - 개발자 도구 탭에는 `Elements, Console, Sources, Network` 등이 있음
  - `Elements` 탭을 통해 어떤 태그가 쓰였는지 웹 페이지를 분석 후 데이터 수집 진행
  - `Network` 탭에서는 `Preserve log`를 체크한 뒤 분석 수행
    - Preserve log: 서버에 요청하는 기록을 모두 로깅
    - Hearders, Preview, Response 등의 Network 관련 상세 내용 확인 가능

#### HTTP method
  - HTTP(HyperText Transfer Protocol: HTML 문서, 리소스 등을 전송하는 프로토콜
  - Client <-> Server 
  - HTTP 요청(Request), 응답(Response)을 통해 통신
  - HTTP method(웹 데이터 크롤링에서는 GET, POST 두 방식이 많이 쓰임)
    - `GET`
      - 데이터 또는 값을 URL상에 포함하여 전달(Resource 요청에 사용)
      - ex) /test/demo_form.php?name1=value1&name2=value2 (출처: w3schools.com)
    - `POST`
      - 데이터를 Form에 포함하여 전달(로그인, 데이터 전송 등에 사용)
      - URL 상에 데이터나 값이 노출되지 않음
  - 웹 크롤링에서는 대부분 GET 방식을 활용

#### HTML elements
  - HTML 문서는 HTML 태그(tag)로 구성
  - <태그명 속성1="value1" 태그명 속성2="value2">Text, Value</태그명>
  - ex) `<a href="//choidslab.github.io">© 2020 Doo-Seop Choi</a>`
 


#### html 기본 구조
```
<html>
    <head>
        <title>웹 페이지 제목</title>
    </head>
    <body>
        <h1>Testing...<h2>
        <p>HTML 테스트 페이지</p>
    </body>
</html>```

#### Python requests 모듈 사용(HTTP 통신)
  - `requests` 모듈을 이용하여 HTTP 요청, 응답을 받을 수 있음
  - `requests.get()`, parameter로 URL 전달
  - `requests.post(url, data=)`, parameter로 URL과 data 전달

In [4]:
import requests
url = 'https://news.v.daum.net/v/20200610111322574'
result = requests.get(url) # URL에 대한 HTTP GET 방식 요청
print(result) # HTTP Response Status Code 200(정상처리) 확인

result.text # url 내용을 html 형태로 볼 수 있음

<Response [200]>


#### HTTP header 데이터 활용
  - header data 구성
  - header data 전달

In [8]:
url = 'https://news.v.daum.net/v/20200611053155249'
headers = { # dict를 활용하여 header를 구성하여 전달할 수 있음
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36'
}

res = requests.get(url, headers=headers)
res.text

#### HTTP response
  - response 객체 
  - status_code
  - text 속성

In [16]:
url = 'https://news.v.daum.net/v/20200611053155249'
res = requests.get(url)
status_code = res.status_code
     
if status_code == 200:
    print(res.text)
else:
    print('status code error')

<!doctype html>
<html lang="ko">
 <head data-cloud-area="head"> 
  <style>
             @import url('//t1.daumcdn.net/harmony_static/cloud/page/2603111efaebe3b9879c7b3c1417b82fff251095.css');
            @import url('//t1.daumcdn.net/harmony_static/cloud/2020/06/01/components.cb4b7ebb5536aad570aa.css')
        </style> 
  <meta name="robots" content="noindex"> 
  <meta property="mccp:docId" content="jUOSGtnvN4"> 
  <meta property="og:site_name" content="다음 뉴스" data-cloud="pc_html_head_meta"> 
  <meta property="og:title" content="'QR 출입' 네이버는 되고 카톡은 안된다..왜?" data-cloud="pc_html_head_meta"> 
  <meta property="og:regDate" content="20200611053155" data-cloud="pc_html_head_meta"> 
  <meta property="og:description" content="정부가 10일부터 유흥주점 등 고위험 시설에 대해 QR코드 방식 전자출입명부를 가동하는 가운데, 카카오의 서비스 파트너 참여는 끝내 무산된 것으로 확인됐다. 방역 당국은 절대 다수가 쓰는 대중 서비스인 카카오톡에 QR코드를 넣어달라고 요청했지만, 카카오페이가 아닌 카카오톡 서비스엔 QR 코드를 제공하기 어렵다는 카카오와의 입장 차이를 좁히지 못해서다. 카카" data-cloud="pc_html_head_meta"> 
  <meta property="og:image" content="