+++
title = "CSS selector & XPATH"
id = "Dev"
+++

## CSS selector & XPATH


#### **css select**
 - CSS 선택 문법을 이용하여 태그 검색
 - [CSS 선택 문법 참고](https://saucelabs.com/resources/articles/selenium-tips-css-selectors)
 - `#` : id 
 - `.`: class
 - `>`: 하위 
 
 
#### **XPATH** 
- `//` : 가장 상위 Element
- `.` : 현재 Element
- `*` : 조건에 맞는 앞부분의 하위 Element를 모두 살펴봄 ( css selector에서 한칸 띄기와 같음 )
- `/` : 바로 아래 요소 ( css selector에서 > 와 같음 )
- `element[조건]`
    - p[2] : p element의 두번째 element : index가 0이 아닌 1부터 시작
    - [@(attribute key)="(attribute value)"]
    - [@id="email"] : 아이디 값이 email인 element
    - [@class="pw"] : 클래스 값이 pw인 element
- `not`
    - not(조건) : 조건이 아닌 요소를 찾음

In [None]:
import requests
from bs4 import BeautifulSoup
import re

res = requests.get('http://v.media.daum.net/v/20170615203441266')
soup = BeautifulSoup(res.content, 'html.parser')

In [None]:
# 태그 검색
soup.find('title')

In [None]:
# select 함수는 리스트 형태로 전체 반환
title = soup.select('title')[0]
print (title)
print (title.get_text())

In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
title = soup.select('html head title')[0]
print (title.get_text())


In [None]:
# 띄어쓰기가 있다면 하위 태그를 검색
# 이때 바로 직계의 자식이 아니여도 관계없음
title = soup.select('html title')[0]
print (title.get_text())

In [None]:
# > 를 사용하는 경우 바로 아래의 자식만 검색
# 바로 아래 자식이 아니기 때문에 에러 발생

# title = soup.select('html > title')[0]

In [None]:
# 바로 아래 자식을 검색
title = soup.select('head > title')[0]
print (title.get_text())

In [None]:
# .은 태그의 클래스를 검색
# class가 article_view인 태그 탐색
body = soup.select('.article_view')[0]
print("\n")
print("< class가 article_view인 태그 탐색 >")
print("*" * 50) 
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text()[:50])
    

In [None]:
# div태그 중 class가 article_view인 태그 탐색
body = soup.select('div.article_view')[0]
print("\n")
print("< div태그 중 class가 article_view인 태그 탐색 >")
print("*" * 50) 
print (type(body), len(body))
for p in body.find_all('p'):
    print (p.get_text()[:50])

In [None]:
# div 태그 중 id가 harmonyContainer인 태그 탐색
print("\n")
print("< div 태그 중 id가 harmonyContainer인 태그 탐색 >")
print("*" * 50) 
container = soup.select('#harmonyContainer')
print (container[:50])

In [None]:
# div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그
print("\n")
print("< div태그 중 id가 mArticle 인 태그의 하위 태그 중 아이디가 article_title인 태그 >")
print("*" * 50) 
title = soup.select('div#mArticle  div#harmonyContainer')[0]
print (title.get_text())


In [None]:
res = requests.get('http://media.daum.net/economic/')

soup = BeautifulSoup(res.content, 'html.parser')

# a태그이면서 href 속성을 갖는 경우 탐색, 리스트 타입으로 links 변수에 저장됨
print("*" * 70) 
links = soup.select('a[href]')

for n, link in zip(range(len(links)), links): 
    # print (link) # <a class="link_services link_services2" href="http://sports.media.daum.net/sports">스포츠</a>
    # print (link['href']) # http://sports.media.daum.net/sports
    if re.search('http://\w+', link['href']) and n % 100 == 0:  
        # http:// 문자열 이후에 숫자 또는 문자[a-zA-Z0-9_]가 한 개 이상 있는 데이터와 매치됨 , 뒤의 조건문은 출력문을 줄이기 위함 
        print (link['href'])

#### Example

In [1]:
html = """<div class="production" id="product_24182">
    <a target="_blank" href="/productions/24182/selling">
        <div class="contents">
            <div class="name">[단독특가] Mary Bath Mat(규조토 발매트)_3colors_(칫솔꽂이/비누받침/트레이 추가)</div>
                    <div class="real_cost">25,800원</div>
                    <div class="discount">
                        63%
                    </div>
                    <div class="selling_cost">9,800원</div>
        </div>
</a>
        <div class="information_panel">
            <div class="scrappers">9.42K명 스크랩</div>
            <div class="viewers">469K명 조회</div>
        </div>
</div>
<div class="production" id="product_34960">
    <a target="_blank" href="/productions/34960/selling">
        <div class="image"></div>
        <div class="contents">
            <div class="name">[기간한정] 액자테이블 베스트 25종 모음전</div>
                    <div class="real_cost">20,900원</div>
                    <div class="discount">
                        29%
                    </div>
                    <div class="selling_cost">14,900원</div>
        </div>
</a>

        <div class="information_panel">
            <div class="scrappers">2.37K명 스크랩</div>
            <div class="viewers">119K명 조회</div>
        </div>
</div>
"""

In [None]:
# beautifulsoup version
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')

# CSS selector 
titles = soup.select(".name")
for t in titles:
    print(t.get_text())
    
r_prices = soup.select(".production > a > div.contents > div.real_cost")
for r in r_prices:
    print(r.get_text())
    
s_prices = soup.select(".production > a > div.contents > div.selling_cost")
for s in s_prices:
    print(s.get_text())
    
# XPATH with selenium
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://ohou.se/productions/feed?best=true&selling=true")
titles = driver.find_elements_by_xpath('//*[@class="production"]/a/div/div[1]')
for i, title in enumerate(titles):
    if i == 5 or i == 6:
        print(title.text)

r_prices = driver.find_elements_by_xpath('//*[@class="production"]/a/div/div[2]')
for i, r in enumerate(r_prices):
    if i == 5 or i == 6:
        print(r.text)

s_prices = driver.find_elements_by_xpath('//*[@class="production"]/a/div/div[4]')
for i, s in enumerate(s_prices):
    if i == 5 or i == 6:
        print(s.text)

driver.close()

In [2]:
# XPATH with scrapy 
import requests
from scrapy.http import TextResponse

req = requests.get('https://ohou.se/productions/feed?best=true&selling=true')
response = TextResponse(req.url, body=req.text, encoding='utf-8')

titles = response.xpath('//*[@class="production"]/a/div/div[1]/text()').extract()[:5]
scrappers = response.xpath('//*[@class="production"]/div/div[1]/text()').extract()[:5]
viewers = response.xpath('//*[@class="production"]/div/div[2]/text()').extract()[:5]
ranking = range(1, len(titles)+1)

# make a dataframe / 
today_house = pd.DataFrame({"titles" : titles, "scrappers" : scrappers, "viewers" : viewers }, index=ranking)
today_house

Unnamed: 0,scrappers,titles,viewers
1,1.06K명 스크랩,핸디형 터보 스팀다리미,126K명 조회
2,4.31K명 스크랩,하이브리드 라텍스 매트리스_S/SS/Q,714K명 조회
3,11.2K명 스크랩,[한정]보이드 11COLOR 호텔식 베딩 모음전,855K명 조회
4,8.31K명 스크랩,타이디Ⅱ 수납침대_2sizes,504K명 조회
5,4.33K명 스크랩,아이언 행거형 드레스룸/옷장 3colors,179K명 조회
