## CSS 선택자
- soup.select_one(선택자) : CSS 선택자로 요소 하나를 추출한다.
- soup.select(선택자) : CSS 선택자로 요소 여러 개를 리스트로 추출한다.

In [1]:
from bs4 import BeautifulSoup
import urllib.request as req
import re

In [2]:
#분석대상
html = """
<html><body>
<div id="meigen">
  <h1>위키북스 도서</h1>
  <ul class="items">
     <li>유니티 게임 이펙트 입문</li>
     <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>
     <li>모던 웹사이트 디자인의 정석</li>
  </ul>
</div>
</body></html>
"""

In [3]:
soup = BeautifulSoup(html, 'html.parser')

In [4]:
# CSS선택자로 필요한 부분 추출하기
h1 = soup.select_one("div#meigen > h1").text
h1

'위키북스 도서'

In [5]:
li_list = soup.select("div#meigen > ul.items > li")
li_list

[<li>유니티 게임 이펙트 입문</li>,
 <li>스위프트로 시작하는 아이폰 앱 개발 교과서</li>,
 <li>모던 웹사이트 디자인의 정석</li>]

In [6]:
for li in li_list:
    print(li.text)

유니티 게임 이펙트 입문
스위프트로 시작하는 아이폰 앱 개발 교과서
모던 웹사이트 디자인의 정석


## 위키백과 데이터 가져오기

In [13]:
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")

a_list = soup.select("#mw-content-text > div > ul > li > ul > li > a")

for a in a_list:
    name = a.string
    print("-",name)


- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤


In [8]:
html = """
<ul>
  <li><a href = "hoge.html">hoge</li>
  <li><a href = "https://example.com/fuga">fuga*</li>
  <li><a href = "https://example.com/foo">foo*</li>
  <li><a href = "https://example.com/aaa">aaa</li>
 </ul> 
"""

In [9]:
soup = BeautifulSoup(html, "html.parser")
soup


<ul>
<li><a href="hoge.html">hoge</a></li>
<li><a href="https://example.com/fuga">fuga*</a></li>
<li><a href="https://example.com/foo">foo*</a></li>
<li><a href="https://example.com/aaa">aaa</a></li>
</ul>

In [10]:
li = soup.find_all(href=re.compile("^https://"))
li

[<a href="https://example.com/fuga">fuga*</a>,
 <a href="https://example.com/foo">foo*</a>,
 <a href="https://example.com/aaa">aaa</a>]

In [11]:
for a in li :
    print(a.attrs['href'])

https://example.com/fuga
https://example.com/foo
https://example.com/aaa


## 문제
- 네이버 금융에서 환율정보 추출하기

In [26]:
url = "https://finance.naver.com/marketindex/?tabSel=exchange#tab_section"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

In [38]:

lists = soup.select('#select_to > option')
for list in lists:
    print(list.text+': '+list.attrs['value'])

대한민국 원 KRW: 1
대한민국 원 KRW: 1
미국 달러 USD: 1128.5
유럽연합 유로 EUR: 1284.63
일본 엔 JPY: 10.3083
중국 위안 CNY: 166.03
홍콩 달러 HKD: 143.85
대만 달러 TWD: 36.54
영국 파운드 GBP: 1475.23
오만 리알 OMR: 2931.17
캐나다 달러 CAD: 845.38
스위스 프랑 CHF: 1134.57
스웨덴 크로나 SEK: 125.17
호주 달러 AUD: 804.23
뉴질랜드 달러 NZD: 765.63
체코 코루나 CZK: 49.99
칠레 페소 CLP: 1.68
터키 리라 TRY: 213.17
몽골 투그릭 MNT: 0.43
이스라엘 세켈 ILS: 307.17
덴마크 크로네 DKK: 172.05
노르웨이 크로네 NOK: 131.8
사우디아라비아 리얄 SAR: 300.89
쿠웨이트 디나르 KWD: 3718.9
바레인 디나르 BHD: 2993.29
아랍에미리트 디르함 AED: 307.23
요르단 디나르 JOD: 1590.33
이집트 파운드 EGP: 63.08
태국 바트 THB: 35.58
싱가포르 달러 SGD: 830.6
말레이시아 링깃 MYR: 272.75
인도네시아 루피아 IDR: 0.0799
카타르 리얄 QAR: 309.96
카자흐스탄 텡게 KZT: 2.98
브루나이 달러 BND: 830.6
인도 루피 INR: 15.86
파키스탄 루피 PKR: 8.07
방글라데시 타카 BDT: 13.49
필리핀 페소 PHP: 21.4
멕시코 페소 MXN: 59.21
브라질 레알 BRL: 299.63
베트남 동 VND: 0.048600000000000004
남아프리카 공화국 랜드 ZAR: 81.57
러시아 루블 RUB: 17.07
헝가리 포린트 HUF: 4.04
폴란드 즈워티 PLN: 299.54


In [42]:
url = "https://movie.naver.com/movie/running/current.nhn"
res = req.urlopen(url)
soup = BeautifulSoup(res, 'html.parser')

In [110]:
lists = soup.select('#content > div.article > div:nth-of-type(1) > div.lst_wrap > ul > li')
i = 1
for list in lists:
    try:
        print('{:>2}위: {:>5}점 {:>5}% {:<50}'.format(i, list.select_one("div.star_t1 > a > span.num").string, list.select_one("dl.info_exp > dd > div.b_star > span.num").string, list.select_one("dt.tit > a").string))
        i += 1
    except:
        break
    

 1위:  8.95점 65.12% 극한직업                                              
 2위:  9.04점  9.47% 말모이                                               
 3위:  8.67점  4.38% 내안의 그놈                                            
 4위:  8.76점  3.68% 주먹왕 랄프 2: 인터넷 속으로                                 
 5위:  7.69점  2.09% 글래스                                               
 6위:  9.66점  1.17% 그린 북                                              
 7위:  9.46점  1.16% 보헤미안 랩소디                                          
 8위:  9.49점  1.11% 언더독                                               
 9위:  9.18점  0.92% 극장판 공룡메카드: 타이니소어의 섬                               
10위:  9.00점  0.86% 일일시호일                                             
11위:  9.12점  0.83% 가버나움                                              
12위:  9.10점  0.73% 몬스터 파크                                            
13위:  6.11점  0.51% 미래의 미라이                                           
14위:  7.88점  0.46% 그대 이름은 장미                                         
15위:  8.39점   0.4% 아