## 1-3 CSS 선택자
* CSS 선택자로 DOM 내부의 원하는 요소를 지정해서 추출하기 위해 CSS 선택자에 대해 자세히 알아보고자 한다.

### 이 장에서 배울 내용
* HTML의 구조를 확인하는 방법
* CSS 선택자

### 웹 브라우저로 HTML 구조 확인하기
* 구글 크롬의 경우 개발자 도구를 이용, F12 버튼 또는 마우스 오른쪽 버튼을 클릭하여 검사를 선택하면 뜸

#### 원하는 요소 선택하기
* 원하는 요소를 마우스를 이용해 선택한 후 오른쪽 마우스를 눌러 `[Copy>Copy selecor]`를 이용

### 위키 문헌에 공개되어 있는 윤동주 작가의 작품 목록 가져오기
* 위키문헌 (<https://ko.wikisource.org/wiki>) 에 공개되어 있는 윤동주의 작품목록을 가져오기
* 윤동주 위키 (<https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC)>
* 하늘과 바람과 시 부분을 선택한 후 오른쪽 마우스 이용해 copy selector로 카피하면 다음의 CSS 선택자가 카피됨
* `#mw-content-text > div > ul:nth-child(6) > li > b > a`
* nth-child(n) 은 n 번째 요소를 의미 즉 6번째 요소를 의미, #mw-content-text 내부에 있는 url 태그는 모두 작품과 관련된 태그. 따라서 따로 구분할 필요는 없으며 생략해도 됨. BeautifulSoup는 nth-child 지원하지 않음


In [11]:
from bs4 import BeautifulSoup 
import urllib.request as req
# 뒤의 인코딩 부분은 "저자:윤동주"라는 의미입니다.
# 따로 입력하지 말고 위키 문헌 홈페이지에 들어간 뒤에 주소를 복사해서 사용하세요.
url = "https://ko.wikisource.org/wiki/%EC%A0%80%EC%9E%90:%EC%9C%A4%EB%8F%99%EC%A3%BC"
res = req.urlopen(url)
soup = BeautifulSoup(res, "html.parser")
# #mw-content-text 바로 아래에 있는 
# ul 태그 바로 아래에 있는
# li 태그 아래에 있는
# a 태그를 모두 선택합니다.
a_list = soup.select("#mw-content-text   ul > li  a")
for a in a_list:
    name = a.string
    print("-", name)

- 하늘과 바람과 별과 시
- 서시
- 자화상
- 소년
- 눈 오는 지도
- 돌아와 보는 밤
- 병원
- 새로운 길
- 간판 없는 거리
- 태초의 아침
- 또 태초의 아침
- 새벽이 올 때까지
- 무서운 시간
- 십자가
- 바람이 불어
- 슬픈 족속
- 눈감고 간다
- 또 다른 고향
- 길
- 별 헤는 밤
- 흰 그림자
- 사랑스런 추억
- 흐르는 거리
- 쉽게 씌어진 시
- 봄
- 참회록
- 간(肝)
- 위로
- 팔복
- 못자는밤
- 달같이
- 고추밭
- 아우의 인상화
- 사랑의 전당
- 이적
- 비오는 밤
- 산골물
- 유언
- 창
- 바다
- 비로봉
- 산협의 오후
- 명상
- 소낙비
- 한난계
- 풍경
- 달밤
- 장
- 밤
- 황혼이 바다가 되어
- 아침
- 빨래
- 꿈은 깨어지고
- 산림
- 이런날
- 산상
- 양지쪽
- 닭
- 가슴 1
- 가슴 2
- 비둘기
- 황혼
- 남쪽 하늘
- 창공
- 거리에서
- 삶과 죽음
- 초한대
- 산울림
- 해바라기 얼굴
- 귀뚜라미와 나와
- 애기의 새벽
- 햇빛·바람
- 반디불
- 둘 다
- 거짓부리
- 눈
- 참새
- 버선본
- 편지
- 봄
- 무얼 먹구 사나
- 굴뚝
- 햇비
- 빗자루
- 기왓장 내외
- 오줌싸개 지도
- 병아리
- 조개껍질
- 겨울
- 트루게네프의 언덕
- 달을 쏘다
- 별똥 떨어진 데
- 화원에 꽃이 핀다
- 종시


#### CSS 선택자 알아보기
* CSS 선택자 참고 및 실습해보기 : <https://www.w3schools.com/cssref/css_selectors.asp>

선택자 기본서식

| 서식 | 설명 |
| --- | --- |
| * | 모든 요소를 선택 |
| <요소 이름> | 요소 이름을 기반으로 선택 |
| .<클래스 이름> | 클래스 이름을 기반으로 선택 |
|#<id 이름> | id 속성을 기반으로 선택 |

#### CSS 선택자로 추출 연습하기
* HTML 코드를 보고 특정 요소를 추출하는 프로그램 연습

``` html
<ul id="bible">
  <li id="ge">Genesis</li>
  <li id="ex">Exodus</li>
  <li id="le">Leviticus</li>
  <li id="nu">Numbers</li>
  <li id="de">Deuteronomy</li>
</ul>
```

* HTML에서 Numbers 요소를 추출하는 경우를 생각

In [13]:
from bs4 import BeautifulSoup 
fp = open("books.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")
# CSS 선택자로 검색하는 방법
sel = lambda q : print(soup.select_one(q).string)
sel("#nu")  #(※1)
sel("li#nu")  #(※2)
sel("ul > li#nu")  #(※3)
sel("#bible #nu")  #(※4)
sel("#bible > #nu")  #(※5)
sel("ul#bible > li#nu")  #(※6)
sel("li[id='nu']")  #(※7)
sel("li:nth-of-type(4)")  #(※8)
# 그 밖의 방법
print(soup.select("li")[3].string)   #(※9)
print(soup.find_all("li")[3].string) #(※10)

Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers
Numbers


1. id 속성이 nu 인것을 추출
1. 위의 방법에 li 태그 추출
1. ul 태그의 자식이라는 의미를 추가로 지정
1. id 속성을 사용해 #bible 아래의 #nu를 선택하기 한 것.
1. 위의 방법에 태그들이 직접적인 부모 자식 관계를 가지고 있다는 것을 나타냄
1. id가 bible인 ul 태그 바로 아래에 있는 id가 nu인 li 태그를 선택하는 것
1. 속성 검색을 사용해 id가 nu인 li 태그를 지정하는 것
1. 4번째 li 태그를 추출하는 것
1. select()와 find_all() 으로 `[3]`의 의미는 0부터 시작해서 4번째 요소를 추출한다는 의미임, select는 css 선택자도 포함시키는 것이 가능

#### CSS 선택자로 과일과 야채 선택해보기
* 조금 더 복잡한 HTML에서 원하는 요소를 추출해보기

```html
<html>
<body>
<div id="main-goods" role="page">
  <h1>과일과 야채</h1>
  <ul id="fr-list">
    <li class="red green" data-lo="ko">사과</li>
    <li class="purple" data-lo="us">포도</li>
    <li class="yellow" data-lo="us">레몬</li>
    <li class="yellow" data-lo="ko">오렌지</li>
  </ul>
  <ul id="ve-list">
    <li class="white green" data-lo="ko">무</li>
    <li class="red green" data-lo="us">파프리카</li>
    <li class="black" data-lo="ko">가지</li>
    <li class="black" data-lo="us">아보카도</li>
    <li class="white" data-lo="cn">연근</li>
  </ul>
</div>
<body>
</html>
```

In [14]:
from bs4 import BeautifulSoup 
fp = open("fruits-vegetables.html", encoding="utf-8")
soup = BeautifulSoup(fp, "html.parser")
# CSS 선택자로 추출하기
print(soup.select_one("li:nth-of-type(8)").string)  #(※1)
print(soup.select_one("#ve-list > li:nth-of-type(4)").string)  #(※2)
print(soup.select("#ve-list > li[data-lo='us']")[1].string)  #(※3)
print(soup.select("#ve-list > li.black")[1].string)  #(※4)
# find 메서드로 추출하기 ---- (※5)
cond = {"data-lo":"us", "class":"black"}
print(soup.find("li", cond).string)
# find 메서드를 연속적으로 사용하기 --- (※6)
print(soup.find(id="ve-list")
           .find("li", cond).string)

아보카도
아보카도
아보카도
아보카도
아보카도
아보카도


1. 모든 li 태그 중 8번째 요소를 추출하는 것
1. 야채를 나타내는 id가 ve-list인 요소 바로 아래에 있는 li 태그 중에 4번째 요소를 추출하는 것
1. select() 메소드를 사용해 id가 ve-list인 요소 바로 아래에 있는 li 태그 중에 data-lo 속성이 "us"인 것을 모두 추출하고, 그 중에서 `[1]` 인 두번째 요소를 선택하는 것. 현재 HTML에서는 data-li가 "us"인것은 파프라키와 아보카도 뿐이기 때문에 이 방법을 사용하는 것이 가능
1. select() 메서드를 사용해 class 소석이 "black"인 요소 가운데 `[1]`의 요소를 선택하는 것으로 class 속성이 "black" 인 것은 가지와 아보카드 뿐임
1. find() 메서드는 객체를 사용해 여러 개의 조건을 한번에 지정할 수 있음
1. find() 메서드를 두 번 조합해서 사용하는 방법으로 ve-list 다음 li까지 만족하는 걸 추출

#### 정규 표현식과 함께 조합하기
* BeautifulSoup의 기능으로 정규 표현식을 조합해 요소 추출이 가능. 
* 링크를 나타내는 a 태그 중에서 https 프로토콜로 통신하는 링크만 추출하고 싶다면 다음과 같은 코드를 사용하면 됨

In [15]:
from bs4 import BeautifulSoup 
import re # 정규 표현식을 사용할 때 --- (※1)
html = """
<ul>
  <li><a href="hoge.html">hoge</li>
  <li><a href="https://example.com/fuga">fuga*</li>
  <li><a href="https://example.com/foo">foo*</li>
  <li><a href="http://example.com/aaa">aaa</li>
</ul>
"""
soup = BeautifulSoup(html, "html.parser")
# 정규 표현식으로 href에서 https인 것 추출하기 --- (※2)
li = soup.find_all(href=re.compile(r"^https://"))
for e in li: print(e.attrs['href'])

https://example.com/fuga
https://example.com/foo
