# 4. CSS Selector를 사용한 크롤링

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

<br>

## 4.1 태그 검색

In [3]:
soup.find('title')

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>

<br>

## 4.2 `soup.select('태그명')`

- `select` 함수는 리스트 형태로 전체 반환

In [4]:
# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]

print(title)
print(title.get_text())

<title>잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스</title>
잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


<br>

## 4.3 `soup.select('태그명 하위태그명')`

- `select` 함수 안에서 띄어쓰기가 있다면 하위 태그를 검색

In [5]:
title = soup.select('html head title')[0]

print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


<br>

- 이 때 바로 직계의 자식이 아니여도 관계 없음

In [6]:
title = soup.select('html title')[0]

print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


<br>

- `>`를 사용하는 경우 바로 아래의 자식만 검색

In [7]:
try:
    title = soup.select('html > title')[0]
    print(title.get_text())
except:
    print('Error')

Error


In [8]:
# 바로 아래 자식 검색
title = soup.select('head > title')[0]

print(title.get_text())

잔금대출에도 DTI 규제 적용 검토 | Daum 뉴스


<br>

## 4.4 `soup.select('.클래스명')`

- `.`은 태그의 클래스를 검색

In [9]:
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]

print(type(body), len(body))

<class 'bs4.element.Tag'> 3


In [10]:
body

<div class="article_view" data-translation-body="" id="harmonyContainer">
<section dmcf-sid="ndxAvoEFLc">
<p dmcf-pid="nzrJ5KB3Cc" dmcf-ptype="general">내주 부동산 종합대책 발표</p>
<p dmcf-pid="ncFbmYUgSc" dmcf-ptype="general">집값 상승 노린 투기 분양 차단</p>
<p dmcf-pid="naDeB8j0HH" dmcf-ptype="general">LTVㆍDTI 규제 다시 강화할 듯</p>
<p dmcf-pid="ngfl6lJwwk" dmcf-ptype="general">저소득 실수요자 피해 우려도</p>
<figure class="figure_frm origin_fig" dmcf-pid="nYQ8LWIMpD" dmcf-ptype="figure">
<p class="link_figure"><img class="thumb_g_article" dmcf-mid="nkjJSoPdyb" dmcf-mtype="image" height="236" src="https://t1.daumcdn.net/news/201706/15/hankooki/20170615044256378kzbd.jpg" width="330"/></p>
</figure>
<p dmcf-pid="n8guDAko3Z" dmcf-ptype="general">금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. </p>
<p dmcf-pid="nYPaCCRO1q" dmcf-ptype=

In [11]:
for p in body.find_all('p'):
    print(p.get_text())

내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기수요를 확실히 걸러낼 초강력 대책이 될 수 있다. 

<br>

- `div` 태그 중 class가 `article_view`인 태그 검색

In [12]:
body = soup.select('div.article_view')[0]

print(type(body), len(body))

<class 'bs4.element.Tag'> 3


In [13]:
for p in body.find_all('p'):
    print(p.get_text())

내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도

금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기수요를 확실히 걸러낼 초강력 대책이 될 수 있다. 

<br>

## 4.5 `soup.select("#아이디")`

- `#`은 아이디를 검색

In [14]:
container = soup.select('#harmonyContainer')

print(container)

[<div class="article_view" data-translation-body="" id="harmonyContainer">
<section dmcf-sid="ndxAvoEFLc">
<p dmcf-pid="nzrJ5KB3Cc" dmcf-ptype="general">내주 부동산 종합대책 발표</p>
<p dmcf-pid="ncFbmYUgSc" dmcf-ptype="general">집값 상승 노린 투기 분양 차단</p>
<p dmcf-pid="naDeB8j0HH" dmcf-ptype="general">LTVㆍDTI 규제 다시 강화할 듯</p>
<p dmcf-pid="ngfl6lJwwk" dmcf-ptype="general">저소득 실수요자 피해 우려도</p>
<figure class="figure_frm origin_fig" dmcf-pid="nYQ8LWIMpD" dmcf-ptype="figure">
<p class="link_figure"><img class="thumb_g_article" dmcf-mid="nkjJSoPdyb" dmcf-mtype="image" height="236" src="https://t1.daumcdn.net/news/201706/15/hankooki/20170615044256378kzbd.jpg" width="330"/></p>
</figure>
<p dmcf-pid="n8guDAko3Z" dmcf-ptype="general">금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. </p>
<p dmcf-pid="nYPaCCRO1q" dmcf-ptype

<br>

- `div` 태그 중 `id`가 `mArticle`인 태그의 하위 태그 중 아이디가 `harmonyContainer`인 태그 검색

In [15]:
title = soup.select('div#mArticle div#harmonyContainer')[0]

print(title.get_text())



내주 부동산 종합대책 발표
집값 상승 노린 투기 분양 차단
LTVㆍDTI 규제 다시 강화할 듯
저소득 실수요자 피해 우려도



금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다. 지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다. 앞으로 잔금대출에 DTI가 적용되면 소득 없는 사람이 입주 뒤 집값 상승을 노리고 분양시장에 뛰어드는 게 사실상 불가능해진다. 
금융당국 고위관계자는 15일 “잔금대출에도 DTI를 적용하는 방안을 검토 중”이라며 “다만 아직 최종 결론이 난 건 아니다”고 말했다. 정부는 내주 이 같은 내용을 포함한 부동산 종합 대책을 발표할 예정이다. 
정부가 잔금대출 DTI 적용 카드를 꺼내는 건, 집단대출을 잡지 않고선 과열된 주택시장을 진정시키기 어렵다는 판단에서다. 실제 정부는 지난해 잔금대출도 대출 초기부터 원리금을 함께 갚도록 하는 여신심사 가이드라인을 도입했지만 이렇다 할 효과를 거두지 못했다. 오히려 정부 대책에도 불구, 집단대출 증가액은 매달 늘어나는 추세인데 지난달엔 2조원으로 올 들어 최고치를 기록했다. 
아파트 분양 집단대출은 중도금과 잔금대출로 구분된다. 계약금 10%를 내면 입주 전까지 집값의 60%를 중도금 대출로 받을 수 있다. 중도금 대출은 건설사 보증으로 이뤄져 소득심사를 안 거친다. 잔금대출은 건설사가 아닌 집을 담보로 이뤄지는 대출이다. LTV 규제만 적용돼 소득이 없어도 집값의 70%까지 대출이 가능하다. 때문에 지금은 잔금대출로 집값의 70%를 대출받아 기존 중도금 대출을 갚고 나머지 20%만 본인 돈으로 충당하면 집을 살 수 있다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 입주 뒤 집값 상승을 노리는 투기수요를 확실히 걸러낼 초강력 대책이 될 수 

<br>

## 4.6 `soup.select('태그명[속성명]')`

- 태그명 다음 `[]` 안에 속성명을 입력하여 검색

In [None]:
import re

res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a 태그이면서 href 속성을 갖는 경우 탐색
# 리스트 타입으로 links 변수에 저장됨
links = soup.select('a[href]')

In [19]:
for link in links:
    # print(link)
    # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>

    # print (link['href']) 
    # http://sports.media.daum.net/sports

    # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 
    if re.search('http://\w+', link['href']):
        print(link['href'])

http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=서울특별시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=수원시 권선구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=인천광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대구광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=대전광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=광주광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=부산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울산광역시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=울릉군날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=춘천시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=강릉시날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=백령면날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=청주시 상당구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=전주시 완산구날씨
http://search.daum.net/search?w=tot&DA=23W&rtmaxcoll=Z8T&q=목포시날씨

<br>

## 4.7 CSS Selector SS Selector 활용 팁

네이버 부동산 매매 아파트 이름과 가격만 찾아보기

- 크롬 개발자 도구에서 태그 우클릭 > Copy > Copy Selector
- Copy Selector 시 일부 태그에 붙는 `:nth-child(#)`은 동일한 태그로 리스트가 있을 경우, 리스트 중 특정한 값만 가리킴
- 전체 리스트를 가져오는 경우에는 `:nth-child(#)`는 삭제할 필요가 있음

In [None]:
import re
import requests
from bs4 import BeautifulSoup

res = requests.get('https://land.naver.com/article/divisionInfo.nhn?rletTypeCd=A01&tradeTypeCd=A1&hscpTypeCd=A01%3AA03%3AA04&cortarNo=1168000000&articleOrderCode=&cpId=&minPrc=&maxPrc=&minWrrnt=&maxWrrnt=&minLease=&maxLease=&minSpc=&maxSpc=&subDist=&mviDate=&hsehCnt=&rltrId=&mnex=&siteOrderCode=&cmplYn=')

In [None]:
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
# a 태그이면서 href 속성 값이 특정한 값을 갖는 경우 탐색
#link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a.sale_title")
link_title = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.align_l.name > div > a")
#link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")
link_price = soup.select("#depth4Tab0Content > div > table > tbody > tr > td.num.align_r > div > strong")

In [24]:
for num in range(len(link_price)):
    print(link_title[num].get_text(), " - ", link_price[num].get_text())

개포주공1단지  -  275,000
개포주공1단지  -  200,000
래미안블레스티지  -  190,000
개포주공1단지  -  240,000
래미안블레스티지  -  230,000
개포주공1단지  -  275,000
개포주공1단지  -  210,000
개포주공1단지  -  190,000
개포주공1단지  -  210,000
청담자이  -  330,000
개포주공1단지  -  188,000
도곡쌍용예가  -  155,000
삼성한일  -  130,000
청담자이  -  325,000
개포주공1단지  -  240,000
청담자이  -  180,000
청담자이  -  295,000
청담래미안로이뷰  -  245,000
청담자이  -  173,000
청담자이  -  320,000
청담래미안로이뷰  -  245,000
논현동양파라곤  -  255,000
래미안블레스티지  -  330,000
래미안블레스티지  -  152,000
청담자이  -  320,000
래미안블레스티지  -  285,000
청담자이  -  173,000
청담자이  -  255,000
논현아펠바움2차  -  400,000
강남데시앙포레  -  130,000
마크힐스1,2단지  -  630,000
청담자이  -  325,000
래미안블레스티지  -  190,000
청담아이파크  -  240,000
래미안블레스티지  -  370,000
