## CSS selector & XPATH


* **css select**
 - CSS 선택 문법을 이용하여 태그 검색
 - select 함수 사용
 - [CSS 선택 문법 참고](https://saucelabs.com/resources/articles/selenium-tips-css-selectors)

In [None]:
import requests
from bs4 import BeautifulSoup
import re

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
# 태그 검색
soup.find('title')

In [None]:
# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print (title)
print (title.get_text())

In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print (title.get_text())


In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
title = soup.select('html title')[0]
print (title.get_text())

In [None]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생

# title = soup.select('html > title')[0]

In [None]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print (title.get_text())

In [None]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print("\n")
print("< class가 article_view인 태그 탐색 >")
print("*" * 50) 
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text()[:50])
    

In [None]:
# div태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print("\n")
print("< div태그 중 class가 article_view인 태그 탐색 >")
print("*" * 50) 
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text()[:50])

In [None]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
print("\n")
print("< div 태그 중 id가 harmonyContainer인 태그 탐색 >")
print("*" * 50) 
container = soup.select('#harmonyContainer')
print (container[:50])

In [None]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
print("\n")
print("< div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그 >")
print("*" * 50) 
title = soup.select('div#mArticle  div#harmonyContainer')[0]
print (title.get_text())


In [None]:
res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
print("*" * 70) 
links = soup.select('a[href]')

for n, link in zip(range(len(links)), links): 
    # print (link) # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>
    # print (link['href']) # http://sports.media.daum.net/sports
    if re.search('http://\w+', link['href']) and n % 100 == 0:  
        # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 , 뒤의 조건문은 출력문을 줄이기 위함 
        print (link['href'])