# Crawling

## 학습목표
1. HTTP(HyperText Transport Protocol) 개념 이해
2. Crawling 개념 이해
3. BeautifulSoup module을 이용한 Crawling 이해 및 실제 적용

## 1. HTTP(HyperText Tranport Protocol)
### 1.1 프로토콜 : 네트워크 통신 규약

* 인터넷 프로토콜 : TCP 및 IP 프로토콜이 핵심, TCP/IP 프로토콜
* 이더넷: 네트워크 모듈
* IP 프로토콜 : 컴츄터 주소를 찾는 프로토콜
* TCP 프로토콜 : 컴퓨터간 신뢰성이 있는 데이터 전송을 지원하는 프로토콜

- form tag의 이해
    * form tag는 클라이언트에서 서버로 데이터 전송을 위해 사용.
    * form tag의 대표적인 사용 예로 로그인을 들수 있다.
        * Id와 password를 서버로 전송해야 하는데 이때 form data를 이용
    * form tag는 여러 속성을 가지고 있으나 제일 중요한 것은 아래 두 속성
        * action: 수신 대상
        * method: 전송 방식
            ```            
           1. <form action ="result.jsp" method="post">
           2. ....
           3. </form>
            
            ```
        * 위 코드를 예로 들면 form의 수신대상은 result.jsp이고, 전송방식은 post방식이다.

**- HTTP 프로토콜 : WWW(웹)상에서 문서 전송을 위한 프로토콜**
   - request(요청)/ response(응답)으로 구성
    
        * browser(클라이언트)가 요청하면 web server(서버)가 HTML 파일이나 다른 자원(이미지, 텍스트 등을)을 응답으로 전송
        * request의 형태에는 대표적으로 GET/ POST가 있음
            * <font color="Green">GET 방식</font> : 데이터 전달을 URL내에서 한다
                * ex:
                ```
                https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
                
                ```
            * <font color="Green">POST 방식</font> : 데이터 전송을 form 태그를 통해서 사용(클라이언트에 직접적으로 노출되지 않는다.)
                * ex: 
                ```
                ID, 비밀번호 전달의 경우
                
                ```

- 다시말해서 
    * GET은 쪽지에 적어서 보내기
    * POST는 보안가방안에 적어보내기 라고 생각하면된다.
        * 간단히 비교하면 아래와 같다

| **Method** | **속도** | **보안** | **전송량** |
|:-----------:|:---------:|:----------:|:---------:|
| GET  | 빠름 | 없음 | 제한적(255 Byts) |
| POST | 느림 | 있음 | 제한 없음 |       

### 2. Crawling 이란?
* Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
    1. HTML 페이지를 **가져와서**, HTML/CSS등을 **파싱**하고, 필요한 데이터만 추출하는 기법
    2. Open API(Rest API)를 제공하는 서비스에 Open API를 호출해서, 받은 데이터중 필요하만 데이터를 추출하는 기법
    3. **Selenium**등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법 

### 3. Crawling 예제
**3.1. BeautifulSoup 라이브러리를 활용한 초간단 예제**
   - HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
   - [BeautifulSoup 라이브러리 페이지](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
   - 설치방법(linux, Anaconda가 설치된 windows)
       - pip install bs4
   - [참고: BeautifulSoup 4 API Guide](http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html)

In [22]:
import requests
from bs4 import BeautifulSoup

# 1) requests 라이브러리를 활용한 HTML 페이지 요청
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출 할 수 있음
res = requests.get('http://v.media.daum.net/v/20170615203441266')
# print(res.content)

# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')
# print(soup)

# 3) 필요한 데이터 검색
title = soup.find('title')
# print(title)

# 4) 필요한 데이터 추출
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


**3.2. BeaufifulSoup 라이브러리 활용 주요 예제**
   - find()와 find_all() 메서드 사용법 이해하기
   - find() : 가장먼저 검색되는 태그 반환
   - find_all() : 전체 태그 반환

In [12]:
from bs4 import BeautifulSoup

html = """
<html> \
    <body> \
        <h1 id='title'>[1]크롤링 이란?</h1> \
        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
        <p id='body' align='enter'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
    </body> \
</html>
"""

soup = BeautifulSoup(html, "html.parser")

#태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링 이란?</h1>
[1]크롤링 이란?
[1]크롤링 이란?


In [13]:
# 가장먼저 검색되는 태그를 반환
paragraph_data = soup.find('p')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [15]:
# 태그에 있는 id로 검색(javascript 예를 상기!)
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링 이란?</h1>
[1]크롤링 이란?
[1]크롤링 이란?


In [16]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1
paragraph_data = soup.find('p', class_='cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [17]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [19]:
# find_all() 관련된 모든 데이터를 리스트 형태로 추출하는 함수
paragraph_data = soup.find_all('p')

print(paragraph_data)
print(paragraph_data[0].string)
print(paragraph_data[1].get_text())

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>, <p align="enter" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달


* **String 검색**
    - 태그가 아닌 문자열 자체로 검색
    - 문자열, 정규표현식 등등으로 검색 가능
        - 문자열 검색의 경우 한 태그내의 문자열과 exact matching인 것만 추출
        - 이것이 의도한 경우가 아니라면 정규표현식 사용

In [30]:
import re

res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html5lib')


print(soup.find_all(string='오대석'))
print(soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))
print(soup.find_all(string='AI'))
print(soup.find_all(string=re.compile('AI'))[0])
# print(soup.find_all(string=re.compile('AI'))[0])
# print (soup.find_all(string=re.compile('AI')))

['오대석']
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']
[]
[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI | Daum 뉴스


**<font color="Green" size="4em">연습문제1</font>**
 1. 다음 사이트에서 링크가 되어 있는 모든 제목을 가져와서 출력합니다.
    http://media.daum.net/digital/
 
    X 참고코드: git 저장소에서 02_examples/crawling_seeko_title.py 를 참고 
    - 프로그래밍은 스스로 작성을 해야 합니다. 정 이해하기 어려울 때만 참고코드를 보시면 좋을 것 같습니다.
 

In [36]:
res = requests.get('http://media.daum.net/digital/')
soup = BeautifulSoup(res.content,'html.parser')
link_title = soup.find_all('ul', class_='gnb_comm')

for num in range(len(link_title)):
    print(link_title[num].get_text().strip())

홈
사회
정치
경제
국제
문화
선택됨IT
랭킹
연재
포토
TV


**3.2. Open API(Rest API)를 활용한 초간단 크롤링 실습**
#### Open API(Rest API)란?
   - **API** : Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
   - **Open API** : 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함)
   - **Rest API** : Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
       - 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)
       - [참고 - RestAPI란](http://hyunalee.tistory.com/1)
 

### API란

API를 통해 소스 및 데이터베이스는 접근하지 못하고 해당 프로그램을 사용할 수 있도록 기능을 제공하는 것.
보통 웹에서의 API는 데이터를 요청하고 응답하는게 전부이며, Wiki에서는 웹 API를 아래와 같이 정의
"웹 API는 웹 애플리케이션 개발에서 다른 서비스에 요청을 보내고 응답을 받기 위해 정의된 명세를 일컫는다."

In [None]:
Rest api 더 공부해야함

### REST API란
REST API는 크게 리소스, 메서드, 메시지로 이루어져 있다.
예, 

### JSON 이란

   * JavaScript Object Notation 줄임말
   * 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 ㅏㅁㄶ이 사용
       - Rest API가 주요한 예제
   * JSON 포맷 예 <br>
   { "id": "01", "language" : "Java", "edition" : "third", "author" : "Herbert Schildt" }
   <br>
   <br>
   { "key" : "value" }
   <br>
   <br>
   * 참고 (https://books.google.co.kr/books?id=euSiAwAAQBAJ&pg=PT1755&lpg=PT1755&dq=json+%EC%9E%A5%EC%A0%90&source=bl&ots=VjTIoOjbTK&sig=3t7MXA7g2CvEi8SyD0-GQVywzw0&hl=ko&sa=X&ved=0ahUKEwiwo8OvxJfWAhXDsJQKHYaBDpI4ChDoAQhVMAg#v=onepage&q=json%20%EC%9E%A5%EC%A0%90&f=false)

 출처: http://dpug.tistory.com/67#.WbycWshJaUk [퍼그의 전초기지]
   

**3.2.1. 네이버 검색 Open API를 이용한 크롤링 초간단 실습**
 - https://developers.naver.com/main/
 - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
   - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)

 - postman 설치 
     - (상세 가이드: http://www.a-mean-blog.com/ko/blog/Node-JS-API/_/API-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8-Postman-%EC%84%A4%EC%B9%98%EB%B0%8F-%EA%B0%84%EB%8B%A8-%EC%82%AC%EC%9A%A9%EB%B2%95)
   
   1. Chrome -> Postman 실행 (https://chrome.google.com/webstore/detail/postman/fhbjgbiflinjbdggehcddcbncdddomop/related)
   2. Sign Up in Postman
   3. Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
   4. Add X-Naver-Client-Id(key), <font color="Green">CsODwdUTyG9vOI1uIeIf</font>(value) into Headers
   5. Add X-Naver-Client-Secret(key), <font color="Green">YmIx0GW8JG</font>(value) into Headers
   6. Send
   ![postman.png](attachment:postman.png)

**3.2.1.1. urllib 라이브러리를 활용한 크롤링 코드**
  - 인터넷에 다양한 예제들이 urllib 또는 urllib2를 사용한 예제들이 많으므로, 익혀둘 필요가 있음

In [8]:
import urllib.request
import json


client_id = ''
client_key = ''

# 한글등 non-ASCII text를 URL에 넣을 수 있도록 "%" flowed by hexadecimal digits(16 진수)로 변경
# 16진수의 변환 이유는 URL은 ASCII 인코딩셋만 지원하기 때문임
encText = urllib.parse.quote_plus("스마트폰")
# print(encText)
# %EC%8A%A4%EB%A7%88%ED%8A%B8%ED%8F%B0 print문 출력 변환된형태

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=' + encText

# urllib.request.Request()는 HTTP Header 변경시에 사용함
# 네이버에서도 다음 HTTP Header 키를 변경해야하기 때문에 사용함
# HTTP Header 변경이 필요없다면, 바로 urllib.reqeust.rulopen()함수만 사용해도 됨
request = urllib.request.Request(naver_url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_key)

# rullib.reqeust.urlopen 메소드로 크롤링할 웹페이지를 가져옴
response = urllib.request.urlopen(request)

# getcode() 메서드로 HTTP응답상테 코드를 가져올 수 있음
rescode = response.getcode()
# print(rescode)

# HTTP 요청 응답이 정상적일 경우, 해당 HTML 데이터를 수신되었기 때문에 필요한 데이터 추출이 가능함
# HTTP 요청에 대한 정상응답일 경우, HTTP 응답 상태 코드 값이 200이 됩니다.
if(rescode == 200):
    # response.read() 메서드로 수신된 HTML 데이터를 가져올 수 있음
    response_body = response.read()
    
    # 네이버 Open API를 통해서 수신된 데이터가 JSON 포멧이기 때문에,
    # JSON 포멧 데이터를 파싱해서 사전데이터로 만들어 주는 json 라이브러리를 사용
    data = json.loads(response_body)
    
    # json.lodas() 메서드를 사용해서 data에 수신된 데이터를 사전 데이터로 분석해서 자동으로 만들어줌
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code:" + rescode)
    

&quot;손편지 그리워&quot;…감성 메마른 성탄 카드
<b>스마트폰</b> 등 모바일 기기와 앱 등 모바일 서비스가 생활 속에 자리 잡으면서 달라진 모습 중 하나다. 3일 오전 11시 30분께 찾은 대구 달서구 감삼동의 A대형마트에는 크리스마스 카드.. 빠른 전송·간편함 등 이유로 연하장... 


- [참고: 네이버 Open API HTTP 응답 상태 에러 코드 목록1](https://developers.naver.com/docs/common/openapiguide/#/errorcode.md)
- [참고: 일반적인 HTTP 응답 상태 코드](http://ooz.co.kr/260) 

Python requests 모듈 간단 정리

python에서  HTTP요청을 보내는 모듈인 requests를 간단하게 정리하고 자한다.

In [1]:
# 0. 기본적인 사용방법

import requests
url = 'http://www.tistory.com'
response = requests.get(url)
print(response)
code_res = response.status_code
# print(code_res)
text_res = response.text
# print(text_res)

<Response [200]>


응답 객체인 <font color="Red">res</font>를 통해서 내가 실제로 던진 URL이 뭔지 확인해보았다. 내가 준 URL과 파라미터를 requests 모듈이 엮어서 적절한 새로운 요청을 만든 것이다. 내가 직접 URL을 저렇게 타이핑하는 것보다 파라미터를 딕셔너리 형식으로 정리하고 requests모듈에 던져주는것이 훨씬 좋다고 생각한다.

**2. Post 요청할 때 data 전달법**
위의 내용과 같다, <font color="Red">params</font> 대신 <font color="red">data</font>라는 이름으로 주면 된다.

In [18]:
data = {'param1': 'value1', 'param2':'value2'}
res = requests.post(url, data=data)
print(res.text)

<!DOCTYPE html>
<html lang="ko">
<head>
	<meta charset="utf-8">
    <meta name="viewport" content="user-scalable=no, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, width=device-width">
	<meta property="og:url" content="http://www.tistory.com">
	<meta property="og:site_name" content="TISTORY">
	<meta property="og:title" content="TISTORY">
	<meta property="og:description" content="나를 표현하는 블로그를 만들어보세요.">
	<meta property="og:image" content="//t1.daumcdn.net/cssjs/icon/557567EA016E200001">
	<title>TISTORY</title>
	<link rel="shortcut icon" href="//t1.daumcdn.net/tistory_admin/static/top/favicon.ico">
			<link rel="stylesheet" href="//s1.daumcdn.net/svc/attach/U0301/cssjs/tistory-web-top/1512354172/static/css/pc/T.p.top.css">
		<link rel="apple-touch-icon" href="//i1.daumcdn.net/thumb/C180x180/?fname=http://cfile5.uf.tistory.com/image/241F093D5701E7380371B5">
    <link rel="apple-touch-icon" sizes="76x76" href="//i1.daumcdn.net/thumb/C76x76/?fname=http://cfile5.uf.tistory.com/image

조금 더 복잡한 구조로 POST요청을 해야할 때가 있다. 이럴 때는 위의 방법처럼 순진하게 주면 안된다. 우리가 인지하고 있는 그 딕셔너리의 구조를 유지하면서 문자열로 바꿔서 전달해줘야 하는데, python에서 이 노동을 해주는 것이 json모듈이다.

In [21]:
import requests, json

data = {'outer' : {'inner' : 'value'}}
res = requests.post(url, data=json.dumps(data))
res

<Response [200]>

**3. 헤더 추가, 쿠키 추가**
  - 별도의 헤더 옵션을 추가하고자 할 때는 <font color="red">headers</font> 옵션을, 쿠키를 심어서 요청을 보내고 싶으면 <font color="red">cookies</font> 옵션을 사용하면 된다.

In [25]:
headers = {'Content-Type': 'application/json; charset=utf-8'}
cookies = {'session_id': 'sorryidontcare'}
res = requests.get(url, headers=headers, cookies=cookies)

In [None]:
res.request # 내가 보낸 request 객체에 접근가능
res.status_code # 응답코드
res.raise_for_status() # 200 OK 코드가 아닌 경우 에러 발동
res.json() # json response일 경우 딕셔니리 타입으로 바로 변환.

resqust 공식 문서
http://docs.python-requests.org/en/master/user/quickstart/

**3.2.1.2. requests 라이브러리를 활용한 크롤링 코드(간결함, 권장)**
  - [참고: 기본적인 requests 라이브러리 활용 방법](http://dgkim5360.tistory.com/entry/python-requests)
  <br>
  <br>
  - request 라이브러리 개발자 keneeth Reitz의 커멘트
  > 파이썬 표준 urllib2 모듈은 필요한 HTTP 기능을 거의 제공하지만, 
  이제 너무 뒤떨어져 있습니다. 
  이 API는 과거에, 과거의 웹을 위해 만들어 졌습니다.
  urllib2를 사용하려면 정말 단순한 일 하나만 하려해도 할 일이 너무 많고, 
  심지어 메서드 오버라이드 까지 필요할 때도 있습니다.

In [30]:
import requests

client_id = ''
client_key = ''

# 별도 quote_plus() 메서등을 처리할 필요 없음. requests 객체가 알아서 해줌
naver_url = 'https://openapi.naver.com/v1/search/news.json?query=스마트폰'

header_params = {"X-Naver-Client-Id":client_id, "X-Naver-Client-Secret":client_key}

# headers = header_params는 header 변경시에만 필요하고, 그렇지 않으면 requests.get(원하는 URL) 만 해도 됨
response = requests.get(naver_url, headers = header_params)

#별도 json.loads() 라이브러리 메서드를 사용하지 않아도, requests 라이브러리에 있는 json()메서드로 간단히 처리 가능함
# print(response.json())
# print(response.text)

#HTTP 응답 코드는 status_code에 저장됨
if(response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code: " + response.status_code)

감정원, ‘적극행정 우수사례 경진대회’ 인사혁신처장 표창 수상
현재 한국감정원이 안정적으로 운영중인 ‘부동산거래 전자계약시스템’을 통해 종이가 아닌 태블릿PC, <b>스마트폰</b> 등의 전자기기로 온라인 부동산계약이 이뤄져 실거래 확정일자 자동신고, 계약서 안전 보관 등... 


**<font color="Green" size="4em">연습문제2</font>**
 1. 네이버 개발자 사이트 가입하고, X-Naver-Client-Id, X-Naver-Client-Secret 키 값을 할당받습니다.
 2. 위 두 가지 키로 네이버 검색 Open API를 사용해서 부동산 키워드로 검색 결과 중 상위 10개의 타이틀을 출력합니다.
    (참고코드는 3.2.1.1 절, 3.2.1.2 절을 보시면 되고, 해당 코드에서 일부만 수정하시면 됩니다.)
    
     - [네이버 개발자 사이트](https://developers.naver.com/main/)
     - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
     - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)

In [33]:
import requests

client_id = ''
client_key = ''

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=부동산'
header_params = {"X-Naver-Client-Id":client_id, "X-Naver-Client-Secret":client_key}
response = requests.get(naver_url, headers = header_params)


count = 0

if(response.status_code == 200):
    data = response.json()
    while count < 10:
        print(count, data['items'][count]['title'])
        count += 1
else:
    print("Error Code: " + response.status_code)

0 외국인 보유 토지 증가폭 둔화
1 한투증권, 부산·하남 투자 <b>부동산</b>펀드 6일까지 판매
2 [에경|분양핫클릭] 광명뉴타운 10년만의 새 아파트…GS건설·두산건설 '광명 ...
3 '더 내놔라' 그린벨트 해제지역, 벌써부터 '진통'
4 KTB證 경영권 분쟁에도 '김승유 그림자'
5 왜 한국에는 100년 된 상점이 없을까: 상업 젠트리피케이션 문제를 중심으로
6 [매경포럼] 이번 생에 암호화폐는 처음이라
7 교통·학군·행정 갖춘 '보령 명천 시티프라디움' 분양 중
8 청년우대 청약통장, 10년 모아도 소형 계약금 수준
9 한파 맞은 건설경기… 3개월만에 하락, 이달 전망도 ‘흐림’


### - 참고 CSS란? (HTML과 CSS의 차이)
   - CSS는 Cascading Style Sheets 약자로, <br><br>
   HTML, XHTML, XML 같은 문서의 스타일을 꾸밀 때 사용하는 시트 언어 입니다.<br><br>
   HTML로 문서의 뼈대를 만들면<br><br>
   CSS는 이 문서의 화장을 맡고 있는 셈인데요.<br><br>
   글꼴이나, 배경색 너비와 높이, 위치등을 지정하거나,<br><br>
   웹 브라우저, 스크린 크기, 장치에 따라서 화면을 다르게 표시될 수 있도록 지정할 수도 있습니다.
   
   <br><br><br><br>
   
   CSS는 1996년 12월 W3C(웹 문서 표준을 만드는 기관)이 도입했는데 <br><br>
   그전엔 HTML언어 하나로 문서의 뼈대도 만들고, 꾸밈도 같이 했습니다.<br><br>
   그러다 보니 HTML 문서를 수정할 떄 모든 문서를 하나씩 수정해야 하는 번거로움이 있었습니다.<br><br>
   CSS는 문서의 내용(content)과 표현(presentation)을 분리하여<br><br>
   CSS파일 <font color="RED">**하나**</font>만 수정하면 스타일에 해당하는 HTML문서가 <font color="red">**한번**</font>에 수정되는 엄청난 장점이 있습니다.

**[스타일을 꾸미는 법]**
<br><br>
스타일을 꾸는 방법은 세가지가 있는데요,
<br><br>
1. 속성처럼 style 적용
2. style tag를 사용
3. CSS파일을 별도로 만들어 HTML 문서에 연결
<br><br>
이중 여러 문서를 수정하기엔 2,3번이 좋으며, 그중에서도 3번으로 작성하는 것이 제일 좋다.

    1. HTML 문서 안에 style속성을 사용함(IN-LINE)
    <br><br>
    ```
    <html>
        <head>
            <title>안녕하세요</title>
        </head>
        
        <body>
            <h1 style="color:blue; text-align:center;"> CSS 첫강좌 </h1>
        </body>
    </html>
    ```
    <br><br>
    2. style태그를 사용함 (Internal)<br><br>
    ```
    <html>
        <head>
            <title>안녕하세요</title>
            <style type = "text/css">
                h1{
                color : blue;
                text-align:enter;
                }
            </style>            
        </head>
        
        <body>
            <h1> CSS 첫강좌 </h1>
        </body>
    </html>    
    ```
    <br><br>
    3. CSS파일을 별도로 만들어, HTML문서에 연결 시킴(External)
    <br><br>
        ㉠. 확장자 .css로 저장(예: test.css)
        ```
        h1{
        color : blue;
        text-align:center;
        }
        ```
        <br><br>
        ㉡. 확장자 .htm(.html?)으로 저장(예:main.htm)
        ```
        <html>
            <head>
                <title>안녕하세요</title>
                <link rel="stylesheet" style type = "text/css" href = "test.css/>
            </head>
        
            <body>
                <h1> CSS 첫강좌 </h1>
            </body>
        </html>
        ```

[CSS 작성법]
<br><br>
css 작성법은 다음과 같다.
<br><br>
selector { property : value; }<br>
선택자   {   속성   : 속성값; }
<br><br>

예문:
```
h1{
color : blue;
text-align:center;
}
```

html 작성 방법과 다르다는 점 유의해주세요!<br>
열고 닫기는 { } 를 사용하며<br>
하나의 속성값이 끝날때마다 세미콜론 ; 을 쓴다.<br><br>

중괄호를 연 후 태그를 밑에 쓰는 것은, 코드 작성 시 오류를 줄이기 위해서 이다.<br>
아래처럼 작성해도 틀린것은 아님
```
h1{ color:blue; text-align:center; }
```


### CSS 선택 문법 참고 내용

A CSS Selector is a combination of an element selector and a value which identifies the web element within a web page. 


** css select **
  - CSS 선택 문법을 이용하여 태그 검색
  - select 함수 사용
  - [CSS 선택 문법 참고](https://saucelabs.com/resources/articles/selenium-tips-css-selectors)

In [3]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

In [5]:
# 태그 검색
soup.find('title')

# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print(title)
print(title.get_text())

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>
잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [6]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [7]:
# 띄어쓰기 하위태그를 검색 할때 직계의 자식이 아니여도 상관없음
title = soup.select('html title')[0]
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [8]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 떄문에 에러 발생
title = soup.select('html > title')[0]
print(title.get_text())

IndexError: list index out of range

In [9]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [11]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print(type(body), len(body))
for p in body.find_all('p'):
    print(p.get_text())


<class 'bs4.element.Tag'> 3
내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기

In [13]:
# div 태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print(type(body), len(body))
for p in body.find_all('p'):
    pass

<class 'bs4.element.Tag'> 3
