# Crawling

## 학습목표
1. HTTP(HyperText Transport Protocol) 개념 이해
2. Crawling 개념 이해
3. BeautifulSoup module을 이용한 Crawling 이해 및 실제 적용

## 1. HTTP(HyperText Tranport Protocol)
### 1.1 프로토콜 : 네트워크 통신 규약

* 인터넷 프로토콜 : TCP 및 IP 프로토콜이 핵심, TCP/IP 프로토콜
* 이더넷: 네트워크 모듈
* IP 프로토콜 : 컴츄터 주소를 찾는 프로토콜
* TCP 프로토콜 : 컴퓨터간 신뢰성이 있는 데이터 전송을 지원하는 프로토콜

- form tag의 이해
    * form tag는 클라이언트에서 서버로 데이터 전송을 위해 사용.
    * form tag의 대표적인 사용 예로 로그인을 들수 있다.
        * Id와 password를 서버로 전송해야 하는데 이때 form data를 이용
    * form tag는 여러 속성을 가지고 있으나 제일 중요한 것은 아래 두 속성
        * action: 수신 대상
        * method: 전송 방식
            ```            
           1. <form action ="result.jsp" method="post">
           2. ....
           3. </form>
            
            ```
        * 위 코드를 예로 들면 form의 수신대상은 result.jsp이고, 전송방식은 post방식이다.

**- HTTP 프로토콜 : WWW(웹)상에서 문서 전송을 위한 프로토콜**
   - request(요청)/ response(응답)으로 구성
    
        * browser(클라이언트)가 요청하면 web server(서버)가 HTML 파일이나 다른 자원(이미지, 텍스트 등을)을 응답으로 전송
        * request의 형태에는 대표적으로 GET/ POST가 있음
            * <font color="Green">GET 방식</font> : 데이터 전달을 URL내에서 한다
                * ex:
                ```
                https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
                
                ```
            * <font color="Green">POST 방식</font> : 데이터 전송을 form 태그를 통해서 사용(클라이언트에 직접적으로 노출되지 않는다.)
                * ex: 
                ```
                ID, 비밀번호 전달의 경우
                
                ```

- 다시말해서 
    * GET은 쪽지에 적어서 보내기
    * POST는 보안가방안에 적어보내기 라고 생각하면된다.
        * 간단히 비교하면 아래와 같다

| **Method** | **속도** | **보안** | **전송량** |
|:-----------:|:---------:|:----------:|:---------:|
| GET  | 빠름 | 없음 | 제한적(255 Byts) |
| POST | 느림 | 있음 | 제한 없음 |       

### 2. Crawling 이란?
* Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    1. HTML 페이지를 **가져와서**, HTML/CSS등을 **파싱**하고, 필요한 데이터만 추출하는 기법
    2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터중 필요하만 데이터를 추출하는 기법
    3. **Selenium**등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법 

### 3. Crawling 예제
**3.1. BeautifulSoup 라이브러리를 활용한 초간단 예제**
   - HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
   - [BeautifulSoup 라이브러리 페이지](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
   - 설치방법(linux, Anaconda가 설치된 windows)
       - pip install bs4
   - [참고: BeautifulSoup 4 API Guide](http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html)

In [9]:
import requests
from bs4 import BeautifulSoup

# 1) requests 라이브러리를 활용한 HTML 페이지 요청
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출 할 수 있음
res = requests.get('http://v.media.daum.net/v/20170615203441266')
# print(res.content)

# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')
# print(soup)

# 3) 필요한 데이터 검색
title = soup.find('title')
# print(title)

# 4) 필요한 데이터 추출
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


**3.2. BeaufifulSoup 라이브러리 활용 주요 예제**
   - find()와 find_all() 메서드 사용법 이해하기
   - find() : 가장먼저 검색되는 태그 반환
   - find_all() : 전체 태그 반환

In [12]:
from bs4 import BeautifulSoup

html = """
<html> \
    <body> \
        <h1 id='title'>[1]크롤링 이란?</h1> \
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
        <p id='body' align='enter'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
    </body> \
</html>
"""

soup = BeautifulSoup(html, "html.parser")

#태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링 이란?</h1>
[1]크롤링 이란?
[1]크롤링 이란?


In [13]:
# 가장먼저 검색되는 태그를 반환
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것
