## About Beautiful Soup
- HTML 혹은 XML파일에서 데이터를 가져오기 위한 Python Library입니다.

## Beautiful Soup 으로 html 데이터 가져오기

In [None]:
from bs4 import BeautifulSoup

In [None]:
page = open ("test.html", "r").read()
soup = BeautifulSoup(page, "html.parser")
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Very Simple HTML Code by PinkWink
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-time" id="first">
    Happy PinkWink
    <a href="http://www.pinkwink.kr" id="pw-link">
     PinkWink
    </a>
   </p>
   <p class="inner-text second-time" id="second">
    Happy Data Science
    <a href="http://www.python.org" id="pt-link">
     python
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    Data science is funny.
   </b>
  </p>
  <p class="outer-text">
   <b>
    All I need is Love.
   </b>
  </p>
 </body>
</html>


- open : 파일명과 함께 읽기(r)/쓰기(w) 속성을 지정
- html.parser : BeautifulSoup의 html을 읽는 엔진 중 하나(lxml도 많이 사용)
- prettify() : html출력을 이쁘게 만들어 주는 기능

## body
- HTML의 body태그 데이터를 가지고 있습니다.

In [None]:
soup.body

<body>
<div>
<p class="inner-text first-time" id="first">
                Happy PinkWink
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>
<p class="inner-text second-time" id="second">
                Happy Data Science
                <a href="http://www.python.org" id="pt-link">python</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>
                Data science is funny.
            </b>
</p>
<p class="outer-text">
<b>
                All I need is Love.
            </b>
</p>
</body>

## find()
- 지정된 태그 하나를 찾아주는 함수입니다.

In [None]:
soup.find("p")

<p class="inner-text first-time" id="first">
                Happy PinkWink
                <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
</p>

## find_all()
- 지정된 태그 모두 찾아주는 함수입니다.

In [None]:
soup.find_all("p")

[<p class="inner-text first-time" id="first">
                 Happy PinkWink
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>,
 <p class="inner-text second-time" id="second">
                 Happy Data Science
                 <a href="http://www.python.org" id="pt-link">python</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>
                 Data science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

## find() or find_all() wiht class
- 태그의 class 속성값으로 찾을 수도 있습니다.

In [None]:
soup.find_all(class_="outer-text")

[<p class="outer-text first-item" id="second">
 <b>
                 Data science is funny.
             </b>
 </p>,
 <p class="outer-text">
 <b>
                 All I need is Love.
             </b>
 </p>]

## find() or find_all() with id
- 태그의 id 속성값으로 찾을 수도 있습니다.
- 아이드는 주로 고유값이기 떄문에 특정 고유값을 검색할 경우 많이 사용됩니다. 이 경우 값은 하나이기 때문에 find_all() 함수를 사용할 이유가 없지만, List 타입으로 결과를 받고 싶은 경우 find_all()을 사용하기도 합니다.

In [None]:
soup.find_all(id="first")

[<p class="inner-text first-time" id="first">
                 Happy PinkWink
                 <a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>
 </p>]

## get_text()

In [None]:
for each_tag in soup.find_all("p"):
    print("-----------------")
    print(each_tag.get_text())

-----------------

                Happy PinkWink
                PinkWink

-----------------

                Happy Data Science
                python

-----------------


                Data science is funny.
            

-----------------


                All I need is Love.
            



## string

In [None]:
links = soup.find_all("a")
links

[<a href="http://www.pinkwink.kr" id="pw-link">PinkWink</a>,
 <a href="http://www.python.org" id="pt-link">python</a>]

In [None]:
for each in links:
    href = each["href"]
    text = each.string
    print(text + " -> " + href)

PinkWink -> http://www.pinkwink.kr
python -> http://www.python.org


## 환율정보 가져오기
- 간단한 예제로 Beautiful Soup과 좀더 친해져봅시다. feat.크롬 개발자 도구

## Beautiful Soup
- Jupyter Notebook에서 새 파일을 열고, 해당 URL의 HTML데이터를 읽어와 봅시다.
- 파일과 달리 URL로 접근할 경우 urllib의 request모듈이 필요합니다.

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [None]:
url = "https://finance.naver.com/marketindex/"
page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")

print(soup.prettify())

<script language="javascript" src="/template/head_js.naver?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220923165155/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript">
</script>
<script src="https://ssl.pstatic.net/imgstock/static.pc/20220923165155/js/jindo.1.5.3.element-text-patch.js" type="text/javascript">
</script>
<div id="container" style="padding-bottom:0px;">
 <div class="market_include">
  <div class="market_data">
   <div class="market1">
    <div class="title">
     <h2 class="h_market1">
      <span>
       환전 고시 환율
      </span>
     </h2>
    </div>
    <!-- data -->
    <div class="data">
     <ul class="data_lst" id="exchangeList">
      <li class="on">
       <a class="head usd" href="/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
        <h3 class="h_lst">
         <span class="blind">
          미국 U

- find_all()함수에서 태그 이름과 class 속성값을 사용하여 USD환율정보를 가져옵니다.

In [None]:
soup.find_all("span", "value")[0].string

'1,412.70'

## 위키백과 데이터 가져오기

### 여명의 눈동자

## URL 복사하기
- 여명의 눈동자 위키백과 페이지의 URL을 복사하여 메모장이나 Jupyter notebook 셀에 붙여본다.
- 뭔가 이상하게 바뀌어서 나타나는데, 웹주소는 UFT-8로 인코딩 되기 떄문이다.

In [None]:
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [None]:
url = "https://ko.wikipedia.org/wiki/%EC%97%AC%EB%AA%85%EC%9D%98_%EB%88%88%EB%8F%99%EC%9E%90"
page = urlopen(url)

soup = BeautifulSoup(page, "html.parser")

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <title>
   여명의 눈동자 - 위키백과, 우리 모두의 백과사전
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ko","wgMonthNames":["","1월","2월","3월","4월","5월","6월","7월","8월","9월","10월","11월","12월"],"wgRequestId":"b045676e-0121-46e0-8fa0-ab44357430d4","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"여명의_눈동자","wgTitle":"여명의 눈동자","wgCurRevisionId":33359854,"wgRevisionId":33359854,"wgArticleId":51472,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["인용 오류 - 지원되지 않는 변수 무시됨","깨진 링크를 가지고 있는 문서","인용 오류 - URL 없이 확인날짜를 사용함","백상예술대상 TV부문 대상 수상자(작)","백상예술대상 TV부문 작품상","1991년 드라마","문화방송 수목 미니시리즈",
"문화방송의 역사 드라마","일제강점기 역사 드라마","한국 현대사 드라마","대한민국의 소설을 바탕으로

## urllib.parse.quote()
- urllib.parse.quote()는 글자를 URL형식으로 인코딩 해 줍니다.

In [None]:
import urllib
from urllib.request import Request

url = "https://ko.wikipedia.org/wiki/{search_words}"
req = Request(url.format(search_words=urllib.parse.quote("여명의_눈동자")))
res = urlopen(req)

soup = BeautifulSoup(res, "html.parser")

print(soup.prettify())

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <title>
   여명의 눈동자 - 위키백과, 우리 모두의 백과사전
  </title>
  <script>
   document.documentElement.className="client-js";RLCONF={"wgBreakFrames":false,"wgSeparatorTransformTable":["",""],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"ko","wgMonthNames":["","1월","2월","3월","4월","5월","6월","7월","8월","9월","10월","11월","12월"],"wgRequestId":"b045676e-0121-46e0-8fa0-ab44357430d4","wgCSPNonce":false,"wgCanonicalNamespace":"","wgCanonicalSpecialPageName":false,"wgNamespaceNumber":0,"wgPageName":"여명의_눈동자","wgTitle":"여명의 눈동자","wgCurRevisionId":33359854,"wgRevisionId":33359854,"wgArticleId":51472,"wgIsArticle":true,"wgIsRedirect":false,"wgAction":"view","wgUserName":null,"wgUserGroups":["*"],"wgCategories":["인용 오류 - 지원되지 않는 변수 무시됨","깨진 링크를 가지고 있는 문서","인용 오류 - URL 없이 확인날짜를 사용함","백상예술대상 TV부문 대상 수상자(작)","백상예술대상 TV부문 작품상","1991년 드라마","문화방송 수목 미니시리즈",
"문화방송의 역사 드라마","일제강점기 역사 드라마","한국 현대사 드라마","대한민국의 소설을 바탕으로

## 태그 정보 가져오기
- 'ul' 태그 하위에서 채시라 데이터를 확인했고, find_all()을 이용하여 해당 태그를 모두 가져옵니다.

In [None]:
n = 0
for each in soup.find_all('ul'):
    print("[" + str(n) +"] ==============================================")
    print(each)
    n = n + 1

<ul class="vector-menu-content-list"><li class="user-links-collapsible-item mw-list-item" id="pt-createaccount-2"><a href="/w/index.php?title=%ED%8A%B9%EC%88%98:%EA%B3%84%EC%A0%95%EB%A7%8C%EB%93%A4%EA%B8%B0&amp;returnto=%EC%97%AC%EB%AA%85%EC%9D%98+%EB%88%88%EB%8F%99%EC%9E%90" title="계정을 만들고 로그인하는 것이 좋습니다. 하지만 필수는 아닙니다"><span>계정 만들기</span></a></li></ul>
<ul class="vector-menu-content-list"><li class="mw-list-item" id="pt-anontalk"><a accesskey="n" href="/wiki/%ED%8A%B9%EC%88%98:%EB%82%B4%EC%82%AC%EC%9A%A9%EC%9E%90%ED%86%A0%EB%A1%A0" title="현재 사용하는 IP 주소에 대한 토론 문서 [n]"><span>토론</span></a></li><li class="mw-list-item" id="pt-anoncontribs"><a accesskey="y" href="/wiki/%ED%8A%B9%EC%88%98:%EB%82%B4%EA%B8%B0%EC%97%AC" title="이 IP 주소의 편집 목록 [y]"><span>기여</span></a></li></ul>
<ul class="vector-menu-content-list"><li class="mw-list-item" id="n-mainpage-description"><a accesskey="z" href="/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8" title="대문으로 가기 [z]"><span>대문</span></a></li><l

## 리스트에서 하나의 결과 가져오기
- find_all()로 가져온 리스트는 아래와 같이 하나씩 가져올 수 있습니다.

In [None]:
soup.find_all("ul")[2]

<ul class="vector-menu-content-list"><li class="mw-list-item" id="n-mainpage-description"><a accesskey="z" href="/wiki/%EC%9C%84%ED%82%A4%EB%B0%B1%EA%B3%BC:%EB%8C%80%EB%AC%B8" title="대문으로 가기 [z]"><span>대문</span></a></li><li class="mw-list-item" id="n-recentchanges"><a accesskey="r" href="/wiki/%ED%8A%B9%EC%88%98:%EC%B5%9C%EA%B7%BC%EB%B0%94%EB%80%9C" title="위키의 최근 바뀐 목록 [r]"><span>최근 바뀜</span></a></li><li class="mw-list-item" id="n-currentevents"><a href="/wiki/%ED%8F%AC%ED%84%B8:%EC%9A%94%EC%A6%98_%ED%99%94%EC%A0%9C" title="최근의 소식 알아 보기"><span>요즘 화제</span></a></li><li class="mw-list-item" id="n-randompage"><a accesskey="x" href="/wiki/%ED%8A%B9%EC%88%98:%EC%9E%84%EC%9D%98%EB%AC%B8%EC%84%9C" title="무작위로 선택된 문서 불러오기 [x]"><span>임의의 문서로</span></a></li><li class="mw-list-item" id="n-sitesupport"><a href="//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&amp;utm_medium=sidebar&amp;utm_campaign=C13_ko.wikipedia.org&amp;uselang=ko" title="지원을 기다립니다"><span>기부</span></a>

## 주요인물 데이터 가져오기
- 31번째 결과가 주요인물 정보입니다.

In [None]:
soup.find_all("ul")[31]

<ul><li><a href="/wiki/%EC%B1%84%EC%8B%9C%EB%9D%BC" title="채시라">채시라</a> : 윤여옥 역 (아역: <a href="/wiki/%EA%B9%80%EB%AF%BC%EC%A0%95_(1982%EB%85%84)" title="김민정 (1982년)">김민정</a>)</li>
<li><a href="/wiki/%EB%B0%95%EC%83%81%EC%9B%90" title="박상원">박상원</a> : 장하림(하리모토 나츠오) 역 (아역: <a href="/wiki/%EA%B9%80%ED%83%9C%EC%A7%84_(%EC%88%98%ED%95%84%EA%B0%80)" title="김태진 (수필가)">김태진</a>)</li>
<li><a href="/wiki/%EC%B5%9C%EC%9E%AC%EC%84%B1_(%EB%B0%B0%EC%9A%B0)" title="최재성 (배우)">최재성</a> : 최대치(사카이) 역 (아역: <a href="/wiki/%EC%9E%A5%EB%8D%95%EC%88%98_(%EB%B0%B0%EC%9A%B0)" title="장덕수 (배우)">장덕수</a>)</li></ul>