# Beautiful Soup
> * HTML 및 XML 파일에서 데이터를 가져오기 위한 Python 라이브러리
> * parser를 통해서 구문 분석 트리를 탐색, 검색 및 수정하는 방법을 제공<br>
> _(Beautiful Soup 4.9.0 documentation)_

```python
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urloepn("index.html") as fp:
    soup = BeautifulSoup(fp, "html.parser")
```
* line1
    * bs4라는 모듈에서 BeautifulSoup이라는 함수를 import하고 이것은 BeautifulSoup이라는 이름으로 사용한다
* line2
    * urllib.request는 URL을 가져오기 위한 Python 모듈이다
    * urllib.request 모듈에서 urlopen 함수를 import하고 이를 urlopen이름으로 사용한다
* line3
    * "index.html"이라는 url을 가져와 fp변수에 넣어준다
* line4
    * BeautifulSoup은 최상의 parser를 이용해 html문서의 구문을 분석한다

In [21]:
# NAVER 메인페이지 document 구문 분석
from bs4 import BeautifulSoup
from urllib.request import urlopen
with urlopen('https://www.naver.com') as fp:
    soup = BeautifulSoup(fp, 'html.parser')
print(soup)


<!DOCTYPE html>
 <html data-dark="false" lang="ko"> <head> <meta charset="utf-8"/> <title>NAVER</title> <meta content="IE=edge" http-equiv="X-UA-Compatible"/> <meta content="width=1190" name="viewport"/> <meta content="NAVER" name="apple-mobile-web-app-title"> <meta content="index,nofollow" name="robots"> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="description"> <meta content="네이버" property="og:title"/> <meta content="https://www.naver.com/" property="og:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" property="og:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" property="og:description"> <meta content="summary" name="twitter:card"/> <meta content="" name="twitter:title"/> <meta content="https://www.naver.com/" name="twitter:url"/> <meta content="https://s.pstatic.net/static/www/mobile/edit/2016/0705/mobile_212852414260.png" name="twitter:image"/> <meta content="네이버 메인에서 다양한 정보와 유용한 컨텐츠를 만나 보세요" name="twitter:de

```python
soup.select('body a')
```
* select()를 사용해 html parser를 통해 분석한 document에서 매칭되는 element들을 모두 반환한다.

In [22]:
soup.select('body a')    # body태그 하위에서 a태그로 되어있는 모든 내용을 반환

[<a href="#newsstand"><span>뉴스스탠드 바로가기</span></a>,
 <a href="#themecast"><span>주제별캐스트 바로가기</span></a>,
 <a href="#timesquare"><span>타임스퀘어 바로가기</span></a>,
 <a href="#shopcast"><span>쇼핑캐스트 바로가기</span></a>,
 <a href="#account"><span>로그인 바로가기</span></a>,
 <a class="_3h-N8T9V" data-clk="dropbanner1b" href="https://whale.naver.com/banner/details/darkmode?=main&amp;wpid=RydDy7"></a>,
 <a class="_2aeXMlrb BMgpjddw" data-clk="dropdownload1b" href="https://installer-whale.pstatic.net/downloads/banner/RydDy7/WhaleSetup.exe" id="NM_whale_download_btn"><span style="background-color: #255ec8">다운로드</span></a>,
 <a class="special_logo_link" data-clk="top.spe" href="https://search.naver.com/search.naver?where=nexearch&amp;sm=top_brd&amp;fbm=0&amp;ie=utf8&amp;query=%EC%BD%94%EB%A1%9C%EB%82%98+%EA%B1%B0%EB%A6%AC%EB%91%90%EA%B8%B0+%EB%8B%A8%EA%B3%84" title="나중에 만나요">
 <img alt="나중에 만나요" class="special_img_fold" height="60" src="https://s.pstatic.net/static/www/mobile/edit/2021/0716/mobile_14492705305.png

In [36]:
soup.select('strong.elss.title')    # stopng태그 중 class가 title elss인 구문 가져오기

[<strong class="title elss">카페 7개 한다는 NRG 노유민, 실제 수입은</strong>,
 <strong class="title elss">70세 할머니가 "이 옷 입어봐" 코디 해줬더니…</strong>,
 <strong class="title elss">부사장 질문에 "그러게요, 어떡하죠?" 반문했더니…</strong>,
 <strong class="title elss">전자제품 한달간 써보고 구매하라고 했더니...</strong>,
 <strong class="title elss">보은 땅 비싼 값에 사들인 중국인들 정체가…'충격'</strong>,
 <strong class="title elss">도지코인에 3억 3천 몰빵했던 래퍼, 지금은...</strong>,
 <strong class="title elss">꽃 정기구독으로 연 매출 100억 대박 났죠</strong>,
 <strong class="title elss">"샤넬 쇼핑백 1만원에 팝니다" 당근에서 거래되는 이유</strong>,
 <strong class="title elss">“전 아버지의 얼굴을 한 번도 본 적이 없습니다”</strong>,
 <strong class="title elss">코딩만 잘해도 카카오 문턱 절반은 넘은 겁니다</strong>,
 <strong class="title elss">건당 수백만원…코로나로 뜬 '꿀알바' 뭐길래</strong>,
 <strong class="title elss">비주얼 값만 6000원대라는 여름 커피 신상의 정체</strong>,
 <strong class="title elss">마음 맞는 '온라인 동네친구' 소개했더니 매출이...</strong>,
 <strong class="title elss">요즘 SNS서 화제라는 관람차뷰 포토존은 어딜까</strong>,
 <strong class="title elss">'252% 경쟁률' 뚫고 들어간 LH직원 퇴직금 수준</strong>,
 <strong clas

위에 해본 실습들처럼 태그와 class의 공통된 특징을 이용한다면 가져오고 싶은 정보를 크롤링 해올 수 있다