# Crawling

## 학습목표
 1. HTTP(HyperText Transport Protocol) 개념 이해
 2. Crawling 개념 이해 
 2. BeautifulSoup module을 이용한 Crawling 이해 및 실제 적용

### 1. HTTP(HyperText Transport Protocol)
**1.1 프로토콜: 네트워크 통신 규약**
 - 인터넷 프로토콜: TCP 및 IP 프로토콜이 핵심, TCP/IP 프로토콜
 ![internet_protocol.png](attachment:internet_protocol.png)
 
 - 이더넷: 네트워크 모듈
 - IP 프로토콜: 컴퓨터 주소를 찾는 프로토콜
 - TCP 프로토콜: 컴퓨터간 신뢰성 있는 데이터 전송을 지원하는 프로토콜
![ethernet+IP+TCP.jpg](attachment:ethernet+IP+TCP.jpg)


* 수업시간 활용
![tcp](https://www.ardenstone.com/projects/seniorsem/reports/TCPheader.gif)

* 인터넷은 http 프로토콜을 사용한다! 


**- 웹 전체 시나리오 ** 
1. 사용자는 브라우저를 사용하여서 www.funcoding.xyz 같은 URL 입력을 통해서 웹페이지를 요청한다.
2. 사용자의 요청은 **TCP 패킷**으로 만들어지게 된다.
3. **TCP 패킷**은 **IP 패킷**으로 다시 만들어 지고
   **IP 패킷**에는 자신의 IP 주소와, 도착해야될 상대방의 IP 주소 정보가 넣어진다.
4. **IP 패킷**은 **이더넷 카드**로 보내어져서 Internet 으로 전송된다.
5. **이더넷 패킷**은 도착지의 컴퓨터 **이더넷 카드**로 전달된다.
<br><br>
6. **이더넷 카드**는 해당 데이터를 **IP 프로토콜 계층**에 보낸다.
7. **IP 프로토콜 계층**은 다시 **TCP 프로토콜 계층**으로 데이터를 보낸다.
8. **TCP 프로토콜 계층**은 누락된 데이터가 없는지 확인하고, 수신받은 데이터를 재조합핸 후 이 데이터를 **Application Layer**에 보낸다.
9. **Application Layer**에서 해당 데이터가 **HTTP 프로토콜**로 작성되어 있으면, **HTTP 프로토콜 규칙**에 준하여, 사용자가 요청한 웹페이지를 웹서버가 제공한다.
10. 웹서버가 제공한 웹페이지는 다시 **TCP 프로토콜 계층**으로 전송되어, **TCP 패킷**으로 바뀌고, 결국 **IP 패킷**으로 만들어지고, **이더넷 카드**에 보내진다.
<br><br>
11. 웹페이지는 요청된 컴퓨터에 수신되고, **이더넷 카드, IP 패킷, TCP 패킷, HTTP 패킷**으로 분석되어, 웹브라우저에 웹페이지가 전달된다.
12. 웹브라우저는 웹페이지 파일에 있는 HTML,CSS,javascript등을 **파싱(parsing)**하여, **렌더링** 작업을 거쳐 화면에 뿌려준다.

**참고1(TCP/IP 프로토콜): https://www.joinc.co.kr/w/Site/Network_Programing/Documents/IntroTCPIP**   
**참고2(렌더링이란): http://wit.nts-corp.com/2014/03/18/1116**


**- HTTP 프로토콜: WWW(웹)상에서 문서 전송을 위한 프로토콜 **
 - 1번 ) request(요청) /   2번 ) response(응답) 으로 구성
   - "browser(클라이언트)가 요청" 하면 "web server(서버)가 HTML 파일이나 다른 자원(이미지, 텍스트, 동영상 등)을 응답" 으로 전송
   - request의 형태에는 대표적으로 GET / POST 가 있음
   <br><br>
     - <font color="blue">GET 방식</font>  : 데이터 전달을 URL 내에서 함
       - https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0
       - ^ 빅데이터 검색한건데 get방식은 한글지원이 안되서 query=하단에 이렇게 나옴
       - 네이버 검색, 구글 검색 등
   <br><br>
     - <font color="blue">POST 방식</font> : 데이터 전송을 <form> 태그를 통해서 함(사용자에게 직접적으로 노출되지 않음)
       - 예) ID, 비밀번호 전달의 경우 -> get방식으로 하면 url에 id/pw가 다 노출됨
       - [참고 - FORM을 통해 데이터를 전달하는 POST 방식 기본 설명](http://cloudstudying.kr/lectures/72)
   <br><br>
 - browser는 응답을 렌더링하여 인간이 보기 쉬운 형태로 출력
 - [참고: HTTP 프로토콜 위키 페이지](https://en.wikipedia.org/wiki/Hypertext_Transfer_Protocol)

### 2. Crawling 이란?
  - Web상에 존재하는 Contents를 수집하는 작업 (프로그래밍으로 자동화 가능)
      1. HTML 페이지를 **가져와서**, HTML/CSS등을 **파싱**하고, 필요한 데이터만 추출하는 기법
      2. **Open API(Rest API)**를 제공하는 서비스에 Open API를 호출해서, 받은 데이터 중 필요한 데이터만 추출하는 기법
      3. **Selenium**등 브라우저를 프로그래밍으로 조작해서, 필요한 데이터만 추출하는 기법

### 3. Crawling 예제

**3.1. BeautifulSoup 라이브러리를 활용한 초간단 예제**
  - HTML의 태그를 파싱해서 필요한 데이터만 추출하는 함수를 제공하는 라이브러리
  - [BeautifulSoup 라이브러리 페이지](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
  - 설치 방법
    - pip install bs4
  - [참고: BeautifulSoup 4 API Guide](http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html)

In [5]:
import requests
from bs4 import BeautifulSoup

# 1) reqeusts 라이브러리를 활용한 HTML 페이지 요청 
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터를 추출할 수 있음
res = requests.get('http://v.media.daum.net/v/20170920174404522')

# print(res.content)
# 2) HTML 페이지 파싱 BeautifulSoup(HTML데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')

# 3) 필요한 데이터 검색
title = soup.find('title')

# 4) 필요한 데이터 추출
print(title.get_text())

필기 탈락자 떡하니 합격..채용비리 일상화된 금감원 | Daum 뉴스


**3.2. BeautifulSoup 라이브러리 활용 주요 예제**
  - find() 와 find_all() 메서드 사용법 이해하기
  - find() : 가장 먼저 검색되는 태그 반환
  - find_all() : 전체 태그 반환

In [12]:
from bs4 import BeautifulSoup

html = "<html> \
            <body> \
                <h1 id='title'>[1]크롤링이란?</h1> \
                <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
                <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
            </body> \
        </html>"

soup = BeautifulSoup(html, "html.parser")

# 태그로 검색 방법
title_data = soup.find('h1')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [9]:
# 가장 먼저 검색되는 태그를 반환
paragraph_data = soup.find('p') # 가장 먼저 발견된 것을 가져오고 그것으로 끝남

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [10]:
# 태그에 있는 id로 검색 (javascript 예를 상기!)
title_data = soup.find(id='title')

print(title_data)
print(title_data.string)
print(title_data.get_text())

<h1 id="title">[1]크롤링이란?</h1>
[1]크롤링이란?
[1]크롤링이란?


In [13]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법1

paragraph_data = soup.find('p', class_='cssstyle') #클래스언더바!

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [14]:
# HTML 태그와 CSS class를 활용해서 필요한 데이터를 추출하는 방법2
paragraph_data = soup.find('p', 'cssstyle')

print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>
웹페이지에서 필요한 데이터를 추출하는 것
웹페이지에서 필요한 데이터를 추출하는 것


In [15]:
# HTML 태그와 태그에 있는 속성:속성값을 활용해서 필요한 데이터를 추출하는 방법

'''html = "<html> \
            <body> \
                <h1 id='title'>[1]크롤링이란?</h1> \
                <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
                <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
            </body> \
        </html>'''



paragraph_data = soup.find('p', attrs = {'align': 'center'})
print(paragraph_data)
print(paragraph_data.string)
print(paragraph_data.get_text())

<p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>
파이썬을 중심으로 다양한 웹크롤링 기술 발달
파이썬을 중심으로 다양한 웹크롤링 기술 발달


In [17]:
# find_all() 관련된 모든 데이터를 리스트 형태로 추출하는 함수
paragraph_data = soup.find_all('p')

print(paragraph_data)
print(paragraph_data[0].get_text())
print(paragraph_data[1].get_text())

[<p class="cssstyle">웹페이지에서 필요한 데이터를 추출하는 것</p>, <p align="center" id="body">파이썬을 중심으로 다양한 웹크롤링 기술 발달</p>]
웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달


* **string 검색**
 - 태그가 아닌 문자열 자체로 검색
 - 문자열, 정규표현식 등등으로 검색 가능
   - 문자열 검색의 경우 한 태그내의 문자열과 exact matching인 것만 추출
   - 이것이 의도한 경우가 아니라면 정규표현식 사용

In [22]:
import re

res = requests.get('http://v.media.daum.net/v/20170518153405933')
soup = BeautifulSoup(res.content, 'html5lib')

print (soup.find_all(string='오대석')) # 스트링 함수를 써야하며, 정확히 일치해야함
print (soup.find_all(string=['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']))
print (soup.find_all(string='AI'))
print (soup.find_all(string=re.compile('AI'))[0])
print (soup.find_all(string=re.compile('AI'))) #ai들어간거 다나옴

['오대석']
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', '오대석']
[]
[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI | Daum 뉴스
['[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI | Daum 뉴스', '[이주의해시태그-#네이버-클로바]쑥쑥 크는 네이버 AI', "네이버가 최근 인공지능(AI) 비서 앱 '네이버-클로바(Clova)' 시범 버전을 공개했다.", '반면 다른 AI 비서는 응답하지 못했다.', '다른 AI 비서가 기기 기반인 경우가 많은 반면 앱 기반이라 접근성이 높다는 점도 장점이다.', "네이버가 최근 인공지능(AI) 비서 앱 '네이버-클로바(Clova)' 시범 버전을 공개했다. 업계 예상보다 한두달 이른 출시다. 네이버와 자회사 라인이 공동 개발한 오감형 AI 플랫폼 '클로바(Clova)'가 처음 적용됐다. 네이버가 그동안 축적한 음성인식, 번역, 추천 등 다양한 AI 기술이 활용됐다.", "'빅스비' '시리' 등 다른 AI 비서 서비스와 비교해 보니 한국어 이용자 의도에 가장 부합하는 결과를 제공했다. 클로바는 '최신 영화를 추천해 줘'라는 질문에 현재 극장에서 개봉 중인 영화를 보여줬다. 빅스비와 시리가 '공부를 더 해야겠어요' '토픽으로는 검색할 수 없어요' 등 모호한 대답을 한 것과 비교해 만족도가 높았다.", "'라라랜드 출연자가 누구야'라고 물으니 출연진을 모두 열거했다. 반면 다른 AI 비서는 응답하지 못했다. 검색 서비스 사업자의 강점이 잘 드러난다. 야구 결과를 물으면 한국 프로야구 결과를 우선 보여주는 것도 '한국화' 된 서비스라는 점이 느껴졌다. 다른 AI 비서가 기기 기반인 경우가 많은 반면 앱 기반이라 접근성이 높다는 점도 장점이다.", "3월 출시된 AI 대화형 엔진 '네이버아이(i)'와 차이점을 알기 위해 비교해 봤다. 클로바는 네이버i를 포함해 다양한 AI 알고리즘이 적용됐다. 네이버i가 검색 결과를 잘 제공하는 데 초점을 맞춘 반면 네이버-클로바는 스스로 판단하는 능력

**3.2. Open API(Rest API)를 활용한 초간단 크롤링 실습**
#### Open API(Rest API)란?
 - **API:** Application Programming Interface의 약자로, 특정 프로그램을 만들기 위해 제공되는 모듈(함수 등)을 의미
 - **Open API:** 공개 API라고도 불리우며, 누구나 사용할 수 있도록 공개된 API (주로 Rest API 기술을 많이 사용함) -> 해당 프로토콜이 웹이 있기때문에 누구나 사용~
 - **Rest API:** Representational State Transfer API의 약자로, HTTP프로토콜을 통해 서버 제공 기능을 사용할 수 있는 함수를 의미
   - 일반적으로 XML, JSON의 형태로 응답을 전달(원하는 데이터 추출이 수월)
   - [참고 - RestAPI란](http://hyunalee.tistory.com/1)

**JSON 이란?**
 - JavaScript Object Notation 줄임말
 - 웹환경에서 서버와 클라이언트 사이에 데이터를 주고 받을때 많이 사용
   - Rest API가 주요한 예제
 - JSON 포멧 예 <br> 속성:속성값, 속성:속성값 <br>
 { "id":"01", "language": "Java", "edition": "third", "author": "Herbert Schildt" }
 <br>
 <br>
 
 - 참고 (https://books.google.co.kr/books?id=euSiAwAAQBAJ&pg=PT1755&lpg=PT1755&dq=json+%EC%9E%A5%EC%A0%90&source=bl&ots=VjTIoOjbTK&sig=3t7MXA7g2CvEi8SyD0-GQVywzw0&hl=ko&sa=X&ved=0ahUKEwiwo8OvxJfWAhXDsJQKHYaBDpI4ChDoAQhVMAg#v=onepage&q=json%20%EC%9E%A5%EC%A0%90&f=false)

 출처: http://dpug.tistory.com/67#.WbycWshJaUk [퍼그의 전초기지]

**3.2.1. 네이버 검색 Open API를 이용한 크롤링 초간단 실습**
 - https://developers.naver.com/main/
 - [블로그 검색 가이드 문서](https://developers.naver.com/docs/search/blog/)
   - 네이버 Open API 이용신청 [참고](http://hnark.tistory.com/135)


   - postman 설치 <----------------요 툴을 한 번 사용해보자!!!!!!!! 집가서 깔아봐야지, url key secret 필요한데 키랑 시크릿은 각자 개발자등록해서 받자
     - (상세 가이드: http://www.a-mean-blog.com/ko/blog/Node-JS-API/_/API-%ED%85%8C%EC%8A%A4%ED%8A%B8-%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%A8-Postman-%EC%84%A4%EC%B9%98%EB%B0%8F-%EA%B0%84%EB%8B%A8-%EC%82%AC%EC%9A%A9%EB%B2%95)
   
   1. Chrome -> Postman 실행 (https://chrome.google.com/webstore/detail/postman/fhbjgbiflinjbdggehcddcbncdddomop/related)
   2. Sign Up in Postman
   3. Insert https://openapi.naver.com/v1/search/news.json?query=스마트 into GET
   4. Add X-Naver-Client-Id(key), <font color="blue">CsODwdUTyG9vOI1uIeIf</font>(value) into Headers
   5. Add X-Naver-Client-Secret(key), <font color="blue">YmIx0GW8JG</font>(value) into Headers
   6. Send
   ![postman.png](attachment:postman.png)

**3.2.1.1. urllib 라이브러리를 활용한 크롤링 코드**

In [37]:
import urllib.request # 리퀘스트를 보내고 받을 수 있는 라이브러리, 비슷한게 여러개 있음 3.2.1.2 참조
import json 

client_key = 'CsODwdUTyG9vOI1uIeIf'
client_secret = 'YmIx0GW8JG'

# 한글등 non-ASCII text를 URL에 넣을 수 있도록 "%" followed by hexadecimal digits 로 변경
# URL은 ASCII 인코딩셋만 지원하기 때문임


encText = urllib.parse.quote_plus("킹스맨2")
# print(encText)

naver_url = 'https://openapi.naver.com/v1/search/news.json?query=' + encText
            # ^ open api 주소 


# urllib.request.Request()는 HTTP Header 변경시에 사용함
# 네이버에서도 다음 HTTP Header 키를 변경해야하기 때문에 사용함
# HTTP Header 변경이 필요없다면, 바로 urllib.request.urlopen()함수만 사용해도 됩
request = urllib.request.Request(naver_url)
request.add_header("X-Naver-Client-Id",client_key)                      # key필요
request.add_header("X-Naver-Client-Secret",client_secret)               # secret필요

# urllib.request.urlopen 메세드로 크롤링할 웹페이지를 가져옴
response = urllib.request.urlopen(request)


# getcode() 메서드로 HTTP 응답 상태 코드를 가져올 수 있음
rescode = response.getcode()

# HTTP 요청 응답이 정상적일 경우, 해당 HTML 데이터를 수신되었기 때문에 필요한 데이터 추출이 가능함
# HTTP 요청에 대한 정상응답일 경우, HTTP 응답 상태 코드 값이 200이 됩니다.




if(rescode == 200):
    # response.read() 메서드로 수신된 HTML 데이터를 가져올 수 있음
    response_body = response.read()
    # 네이버 Open API를 통해서 수신된 데이터가 JSON 포멧이기 때문에, 
    # JSON 포멧 데이터를 파싱해서 사전데이터로 만들어주는 json 라이브러라를 사용
    data = json.loads(response_body)
    # json.loads() 메서드를 사용해서 data 에 수신된 데이터를 사전 데이터로 분석해서 자동으로 만들어줌
    print (data['items'][0]['title'])
    print (data['items'][0]['description'])
    
else:
    print("Error Code:" + rescode)

[포토엔HD] ‘첫 내한’ 콜린 퍼스 ‘레드카펫 시선 싹쓸이’
[ 영화 '<b>킹스맨</b>: 골든 서클'(감독 매튜 본) 내한 레드카펫 행사가 9월 20일 오후 서울 송파구 롯데월드타워 1층에서 열렸다. 이날 콜린 퍼스, 태런 에저튼, 마크 스트롱이 참석했다. 한편 영화 '<b>킹스맨</b>: 골든 서클'(이하... 


- [참고: 네이버 Open API HTTP 응답 상태 에러 코드 목록1](https://developers.naver.com/docs/common/openapiguide/#/errorcode.md)
- [참고: 일반적인 HTTP 응답 상태 코드](http://ooz.co.kr/260) 

**3.2.1.2. requests 라이브러리를 활용한 크롤링 코드 (간결함, 권장)**
  - [참고: 기본적인 requests 라이브러리 활용 방법](http://dgkim5360.tistory.com/entry/python-requests)
  
  - reqeusts 라이브러리 개발자 Keneeth Reitz 의 커멘트
  > 파이썬 표준 urllib2 모듈은 필요한 HTTP 기능을 거의 제공하지만, 이제 너무 뒤떨어져 있습니다. 이 API는 과거에, 과거의 웹을 위해 만들어졌습니다. urllib2를 사용하려면 정말 단순한 일 하나만 하려 해도 할 일이 너무 많고, 심지어 메서드 오버라이드까지 필요할 때도 있습니다.

In [36]:
import requests

client_key = 'CsODwdUTyG9vOI1uIeIf'
client_secret = 'YmIx0GW8JG'
# 별도 quote_plus() 메서드등 처리할 필요 없음. requests 객체가 알아서 해줌
naver_url = 'https://openapi.naver.com/v1/search/news.json?query=킹스맨2'

header_params = {"X-Naver-Client-Id":client_key, "X-Naver-Client-Secret":client_secret}
# headers= header_params 는 header 변경시에만 필요하고, 그렇지 않으면, requests.get(원하는 URL) 만 해도 됨
response = requests.get(naver_url, headers = header_params) 
# 위엔 주소만 만들었는데, 헤더에 넣을것을 요기에~

# 별도 json.loads() 라이브러리 메서드 사용하지 않아도, reqeusts 라이브러리에 있는 json() 메서드로 간단히 처리 가능함
# print(response.json())
# print(response.text)

# HTTP 응답 코드는 status_code 에 저장됨
if(response.status_code == 200):
    data = response.json()
    print(data['items'][0]['title'])
    print(data['items'][0]['description'])
else:
    print("Error Code:" + response.status_code)

[포토엔HD] ‘첫 내한’ 콜린 퍼스 ‘레드카펫 시선 싹쓸이’
[ 영화 '<b>킹스맨</b>: 골든 서클'(감독 매튜 본) 내한 레드카펫 행사가 9월 20일 오후 서울 송파구 롯데월드타워 1층에서 열렸다. 이날 콜린 퍼스, 태런 에저튼, 마크 스트롱이 참석했다. 한편 영화 '<b>킹스맨</b>: 골든 서클'(이하... 


* **css select**
 - CSS 선택 문법을 이용하여 태그 검색
 - select 함수 사용
 - [CSS 선택 문법 참고](https://saucelabs.com/resources/articles/selenium-tips-css-selectors)

In [38]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

In [39]:
# 태그 검색
soup.find('title')

# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print (title)
print (title.get_text())

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>
잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [40]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [41]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
title = soup.select('html title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [42]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생
# html 바로 밑에는 head가 있음 그래서 안됨!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!

title = soup.select('html > title')[0]
print (title.get_text())

IndexError: list index out of range

In [43]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print (title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


In [44]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색

# class는 .을 꼭! 

body = soup.select('.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

<class 'bs4.element.Tag'> 3
내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기

In [45]:
# div태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text())

<class 'bs4.element.Tag'> 3
내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기

In [46]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
# id일때는 #을 씀

container = soup.select('#harmonyContainer')
print (container)

[<div class="article_view" id="harmonyContainer">
<section dmcf-sid="ndxAvoEFLc">
<p dmcf-pid="nzrJ5KB3Cc" dmcf-ptype="general">내주 부동산 종합대책 발표</p>
<p dmcf-pid="ncFbmYUgSc" dmcf-ptype="general">집값 상승 노린 투기 분양 차단</p>
<p dmcf-pid="naDeB8j0HH" dmcf-ptype="general">LTVㆍDTI 규제 다시 강화할 듯</p>
<p dmcf-pid="ngfl6lJwwk" dmcf-ptype="general">저소득 실수요자 피해 우려도</p>
<figure class="figure_frm origin_fig" dmcf-pid="nYQ8LWIMpD" dmcf-ptype="figure">
<p class="link_figure"><img class="thumb_g" dmcf-mid="nkjJSoPdyb" dmcf-mtype="image" height="236" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/201706/15/hankooki/20170615044256378kzbd.jpg" width="330"/></p>
</figure>
<p dmcf-pid="n8guDAko3Z" dmcf-ptype="general">금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. </p>
<p dmcf-pid="nYPaCC

In [47]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
# div 태그에서 아티클 안에서 하모니~  // 여러개를 엮어서 쓸 수 있음

title = soup.select('div#mArticle  div#harmonyContainer')[0]
print (title.get_text())



내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도



금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기수요를 확실히 걸러낼 초강력 대책이 될 수 

In [48]:
import re

res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')
   
for link in links:
    # print (link) # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>
    # print (link['href']) # http://sports.media.daum.net/sports
    if re.search('http://\w+', link['href']):  # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 
        # 정규표현식 'http://\w+ : http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 
        
        print (link['href'])

http://sports.media.daum.net/sports
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=서울특별시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=수원시 권선구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=인천광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대구광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대전광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=광주광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=부산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울릉군날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=춘천시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=강릉시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=백령면날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=청주시 상당구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=전주시 완산구날씨
http://search.daum.net/searc

 - [참고: 정규표현식 재확인](http://devanix.tistory.com/296)

**<font color="blue" size="4em">연습문제1</font>**
 1. 다음 뉴스 경제란 뉴스 타이틀 추출하기
    - http://media.daum.net/economic/ 로 크롤링된 데이터 중 http:// 로 시작하는 링크를 다시 들어가서, title 태그 정보만 출력해보기
 

In [155]:
import re
import requests
from bs4 import BeautifulSoup

res = requests.get('http://media.daum.net/economic/')
[-------------------------------------------------]

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')
for link in links:
    if re.search('http://\w+', link['href']):  # 이 부분도 개선의 여지가 있어보입니다만...(고급)
    [-------------------------------------------------]
    [-------------------------------------------------]
    [-------------------------------------------------]    

http://v.media.daum.net/v/20170916130602430 北 축전에 조롱거리 된 싱가포르 첫 여성대통령 | Daum 뉴스
http://v.media.daum.net/v/20170916143016107 교육부 "집단 휴업 사립유치원, 감사 등 책임 묻겠다" | Daum 뉴스
http://v.media.daum.net/v/20170916011416365 G70 고급 세단 시장 도전장 .. 벤츠·BMW와 럭셔리 대결 | Daum 뉴스
http://v.media.daum.net/v/20170916080026736 [WEEKLY BIZ] 파산 직전의 철강회사는 어떻게 1년 만에 2조 흑자를 냈나 | Daum 뉴스
http://v.media.daum.net/v/20170916143005105 "일본 공짜 커피를 보고 발상을 전환하라" | Daum 뉴스
http://v.media.daum.net/v/20170916063044959 [토요정담]6년째 '으르렁' 대는 文·安의 악연..'되게 하는 힘'과 '안 되게 하는 힘' | Daum 뉴스
http://v.media.daum.net/v/20170909140103098 [장은석 기자의 호갱 탈출] 물 차고 시간 안 맞는 고급 손목시계, 환불·보상받을 수 있는 방법 있나요 | Daum 뉴스
http://v.media.daum.net/v/20170916140103841 [장은석 기자의 호갱 탈출] 게임 아이템 날아갔는데 환불되나요 | Daum 뉴스
http://v.media.daum.net/v/20170916134540719 [사진현장] 초조함, 기다림, 부르튼 발. 취업문 앞 청년들 | Daum 뉴스
http://v.media.daum.net/v/20170916033622124 사라지는 '뉴스테이'.. 힘 받는 '행복주택' | Daum 뉴스
http://v.media.daum.net/v/20170915185902464 연임 앞둔 윤종규 KB금융 회장 "행장 분리, 이사회와 논의" | Daum 뉴스
http:

* **CSS Selector 를 활용하는 팁**
 2. 네이버 부동산 매매 아파트 이름과 가격만 찾아보기
    - CSS Selector 를 활용하는 팁: Chrome F12(WINDOW) or Alt + Command + i(MAC) --> Copy Selector 참고
    ![capture.png](attachment:capture.png)

In [64]:
import re

res = requests.get('http://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1168000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=')

soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a.sale_title")
link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")
link_type = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.sale_type.bottomline > div")

for num in range(1, len(link_title)):
    print(link_title[num].get_text(), link_price[num].get_text(), link_type[num].get_text())


청담자이 190,000 매매
청담자이 240,000 매매
개포우성2차 180,000 매매
청담자이 190,000 매매
선경1,2차 225,000 매매
청담자이 190,000 매매
청담자이 190,000 매매
삼성힐스테이트1단지 80,000 매매
대치SK뷰 183,000 매매
청담자이 121,000 매매
논현동양파라곤 250,000 매매
대치SK뷰 183,000 매매
청담자이 170,000 매매
아이파크삼성 340,000 매매
청담자이 120,000 매매
대치SK뷰 165,000 매매
개포주공7단지 130,000 매매
역삼래미안 130,000 매매
청담자이 170,000 매매
청담래미안로이뷰 175,000 매매
청담자이 239,000 매매
청담자이 120,000 매매
은마 128,000 매매
논현동양파라곤 250,000 매매
래미안대치팰리스1단지 180,000 매매
삼성힐스테이트2단지 163,000 매매
청담자이 190,000 매매
도곡렉슬 175,000 매매
래미안그레이튼(진달래3차) 115,000 매매
청담자이 127,000 매매
청담자이 120,000 매매
청담자이 120,000 매매
청담자이 190,000 매매
청담자이 190,000 매매
은마 125,000 매매
아카데미스위트 125,000 매매
청담자이 127,000 매매
청담자이 190,000 매매
신현대(현대9,11,12차) 195,000 매매
청담자이 127,000 매매
청담휴먼스타빌 51,000 매매
역삼래미안 105,000 매매
래미안강남힐즈 110,000 매매
래미안강남힐즈 108,000 매매
역삼e-편한세상 140,000 매매
대치하나빌 128,000 매매
청담자이 230,000 매매
삼성힐스테이트2단지 165,000 매매


IndexError: list index out of range

**<font color="blue" size="4em">연습문제2</font>**
 1. 네이버 실시간검색어 20개 추출하기
    - Chrome 의 Copy Selector를 활용

In [188]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://www.naver.com/')
soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
link_title = soup.select([------------------------------------------])
for num in range(len(link_title)):
    [------------------------------------------]
    [------------------------------------------]


1 서현진
2 이건희
3 무한도전
4 태풍 독수리
5 황금빛내인생
6 청년경찰
7 보그맘
8 그것이 알고싶다
9 아는형님
10 소사이어티 게임 2
11 롤챔스 승강전
12 롯데시네마
13 메가박스
14 편성표
15 프로야구중계
16 태풍경로
17 스팀
18 테일즈런너
19 cj채용
20 아프리카티비


**<font color="blue" size="4em">실제 예제</font>**
 1. slack 메세지로 만들어보는 부동산 뉴스 (과제로 해당 코드를 설명해서 공유드리겠습니다.)

* slack api -> webhook -> 설정한 주소받고 random_url -> res 사이트로 가서 -> 제목정보 뽑아옴 -> ?근데 뭐가 간단하게 잘 안뽑혀서 소스를 봤더니 a helf, c0000000 사용해서 만듬 -> 날짜를 뽑으려고 생각함 -> ... - > 오늘날짜 -> datetime 이용 -> 리퀘스트 -> ... -> 링크보내는 방식 가르켜준 방식 따라서 데이터 보냄 -

In [67]:
from bs4 import BeautifulSoup
import datetime
import json

random_url = 'https://hooks.slack.com/services/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'
res = requests.get('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34')
soup = BeautifulSoup(res.content, 'html.parser')

link_titles = soup.find_all('a', class_='c0000000')
link_dates = soup.find_all('span', class_='ffth fs11 c807f7f')
today_date = datetime.date.today()
today_message = '오늘의 부동산 뉴스 [%s]' % str(today_date)
payload = {'text': today_message}
estate_info_message = json.dumps(payload)
requests.post(random_url, data=estate_info_message)

for num, link_title in enumerate(link_titles):
    if str(today_date) == link_dates[num].get_text():
        # estate_info = '<a herf=\"http://www.drapt.com/e_sale/%s\">%s</a>' % (link_title['href'], link_title.get_text())
        # Reference for creating a link: https://api.slack.com/incoming-webhooks
        estate_info = '%d] <http://www.drapt.com/e_sale/%s|%s>' % (num + 1, link_title['href'], link_title.get_text())
        payload = {'text': estate_info}
        estate_info_message = json.dumps(payload)
        requests.post(random_url, data=estate_info_message)