# BeautifulSoup 클래스를 이용한 DOM 객체화

- pip(pip3) install bs4 설치
- BeautifulSoup : Element가 존재하는 문서들을 파이썬 객체화 시켜주기 위한 클래스

In [23]:
# BeautifulSoup 모듈 불러오기
from bs4 import BeautifulSoup

In [25]:
# BeautifulSoup 클래스로 html 불러오기
page = open('./data/sample.html', 'r', encoding='utf-8').read()
page

'<!DOCTYPE html>\n<html>\n<head>\n    <title>Simple HTML</title>\n</head>\n<body>\n    <div>\n        <p class="inner-text first-item" id="first">\n            Hello HTML!\n            <a href="http://www.naver.com" id="naver-link">naver</a>\n        </p>\n\n        <p class="inner-text second-item">\n            Hello Data Science!\n            <a href="http://www.google.co.kr" id="google-link">google</a>\n        </p>\n    </div>\n\n    <p class="outer-text first-item" id="second">\n        <b>데이터 분석</b>\n    </p>\n    <p class="outer-text">\n        <b>\n            안녕하세요\n        </b>\n    </p>\n    <span class="outer-text">Test</span>\n</body>\n</html>'

In [26]:
soup = BeautifulSoup(page, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Simple HTML
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Hello HTML!
    <a href="http://www.naver.com" id="naver-link">
     naver
    </a>
   </p>
   <p class="inner-text second-item">
    Hello Data Science!
    <a href="http://www.google.co.kr" id="google-link">
     google
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    데이터 분석
   </b>
  </p>
  <p class="outer-text">
   <b>
    안녕하세요
   </b>
  </p>
  <span class="outer-text">
   Test
  </span>
 </body>
</html>


# soup에 저장된 DOM에 대한 children 확인하기
 - children은 자식!

In [27]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Simple HTML</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>
 <span class="outer-text">Test</span>
 </body>
 </html>]

In [28]:
len(list(soup.children))

3

html만 뽑아내고 싶으면?

In [29]:
html = list(soup.children)[-1]
html

<html>
<head>
<title>Simple HTML</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
<span class="outer-text">Test</span>
</body>
</html>

# html의 자식들을 확인하려면?

In [30]:
list(html.children)

['\n',
 <head>
 <title>Simple HTML</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>
 <span class="outer-text">Test</span>
 </body>,
 '\n']

In [31]:
body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
<span class="outer-text">Test</span>
</body>

body를 이용해서 html 전체를 볼 수 도 있다. body의 부모는 html

In [32]:
body.parent

<html>
<head>
<title>Simple HTML</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
<span class="outer-text">Test</span>
</body>
</html>

기본적으로 자주 사용되는 태그들은 이미 bs4에서 준비 해 놨습니다.

In [33]:
soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
<span class="outer-text">Test</span>
</body>

In [34]:
body = soup.body
list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>,
 '\n',
 <span class="outer-text">Test</span>,
 '\n']

------
------

In [35]:
soup.find_all("p") # 전체 문서에서 p 태그만 가져오겠다.

[<p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>,
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>]

In [36]:
len(soup.find_all("p"))

4

제일 처음 등장하는 태그를 찾기 -> find

In [37]:
soup.find("p")

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

In [38]:
tmp_p = soup.find("p")
tmp_p

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

In [39]:
tmp_p.find("a")

<a href="http://www.naver.com" id="naver-link">naver</a>

---
class를 이용해 엘리먼트 찾기

In [40]:
# outer-text 라는 클래스 속성이 있는 p엘리먼트 찾기
soup.find_all('p', class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>]

In [41]:
# outer-text라는 클래스의 속성만 이용해서 모든 엘리먼트 찾기
soup.find_all(class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>,
 <span class="outer-text">Test</span>]

id를 통한 검색

In [42]:
soup.find(id='first') # html의 id값은 유일한 값이기 때문에 find와 자주 같이 사용된다.

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

속성(attribute)을 이용해 가져오기

In [50]:
tmp_a = soup.find_all('a')
tmp_a

[<a href="http://www.naver.com" id="naver-link">naver</a>,
 <a href="http://www.google.co.kr" id="google-link">google</a>]

속성을 사용해 엘리먼트를 검색하는 방법 1

In [51]:
for a in tmp_a:
    if a['href'] == 'http://www.google.co.kr':
        print(a)

<a href="http://www.google.co.kr" id="google-link">google</a>


속성을 사용해 엘리먼트를 검색하는 방법 2

In [52]:
soup.find("a", {"href":"http://www.google.co.kr"})

<a href="http://www.google.co.kr" id="google-link">google</a>

# 원하는 데이터 추출하기
- 텍스트 : <태그> **텍스트** </태그>
- 속성값 : <태그 속성=**"속성값"**> 텍스트 </태그>

In [54]:
tmp_a = soup.find("a", {"href":"http://www.google.co.kr"})
tmp_a.text # 태그에 있는 텍스트 값 추출하기

'google'

In [55]:
tmp_a.get('href')

'http://www.google.co.kr'

# 네이버 증시 크롤링하기

In [56]:
# 실제 웹사이트에 접속해서 크롤링을 하기 위한 모듈( request )
# pip(pip3) install urllib
from urllib.request import urlopen

In [58]:
URL = 'https://finance.naver.com/marketindex/'
page = urlopen(URL)

soup = BeautifulSoup(page, 'html.parser')
soup


<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<script language="JavaScript" src="/js/flashObject.js?20200615180049"></script>
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,200.80</span>
<span class="txt_krw"><span class="blind">원</span></span>


1. 수집 대상 찾기
2. 수집 대상 기준 태그, 클래스, id 등의 속성 정보 확인
3. 각각을 알맞게 수집해서 list화 시키기
4. pandas 데이터 프레임으로 만들기

In [67]:
exchangeUL = soup.find("ul", id="exchangeList")
test_exchange_li = exchangeUL.find('li') # 첫 번째 데이터만 탐색 하기 위함
print(test_exchange_li)

<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info point_dn">
<span class="value">1,200.80</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change"> 5.70</span>
<span class="blind">하락</span>
</div>
</a>
<a class="graph_img" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
<img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
</a>
<div class="graph_info">
<span class="time">2020.07.15 14:23</span>
<span class="source">하나은행 기준</span>
<span class="count">고시회차<span class="num">206</span>회</span>
</div>
</li>


국가이름 획득하기 방법 1

In [72]:
print(test_exchange_li.find_all('span', class_='blind')[0].text)
print(test_exchange_li.find_all('span', class_='blind')[2].text)

미국 USD
하락


국가이름 획득하기 방법2

In [74]:
country = test_exchange_li.find('h3', class_='h_lst').text
print(country)

미국 USD


In [75]:
test_div = test_exchange_li.find('div', class_='head_info')
test_div

<div class="head_info point_dn">
<span class="value">1,200.80</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change"> 5.70</span>
<span class="blind">하락</span>
</div>

In [86]:
float(test_div.find(class_='value').text.replace(",", ""))

1200.8

In [91]:
float(test_div.find(class_='change').text.strip())

5.7

In [84]:
test_div.find_all(class_='blind')[1].text

'하락'

테스트가 끝났으니까 데이터 프레임을 만들어 보자

In [92]:
import pandas as pd

In [116]:
#1. 각 항목별 데이터를 수집해서 저장할 리스트
countryList = [] # 국가 항목을 모아낼 리스트
exchangeRateList = [] # 환율 항목을 모아낼 리스트
changeList = [] # 변동 항목을 모아낼 리스트
updownList = [] # 등락 항목을 모아낼 리스트

In [117]:
exchangeUL = soup.find("ul", id="exchangeList")
exchangeLI = exchangeUL.find_all("li")

for exchange in exchangeLI:
    country = exchange.find('h3', class_='h_lst').text # 국가 정보
    info_div = exchange.find('div', class_='head_info')

    exRate = float(info_div.find(class_='value').text.replace(",", ""))
    change = float(info_div.find(class_='change').text.strip())
    updown = info_div.find_all(class_='blind')[1].text
    
    countryList.append(country)
    exchangeRateList.append(exRate)
    changeList.append(change)
    updownList.append(updown)

하락
하락
하락
하락


In [118]:
countryList

['미국 USD', '일본 JPY(100엔)', '유럽연합 EUR', '중국 CNY']

In [119]:
exchangeRateList

[1200.8, 1119.47, 1368.37, 171.53]

In [120]:
changeList

[5.7, 4.06, 2.58, 0.35]

In [121]:
updownList

['하락', '하락', '하락', '하락']

In [123]:
df_exchange = pd.DataFrame({
    '국가':countryList,
    '환율':exchangeRateList,
    '변동':changeList,
    '등락':updownList
})

df_exchange

Unnamed: 0,국가,환율,변동,등락
0,미국 USD,1200.8,5.7,하락
1,일본 JPY(100엔),1119.47,4.06,하락
2,유럽연합 EUR,1368.37,2.58,하락
3,중국 CNY,171.53,0.35,하락


In [124]:
df_exchange.to_csv('./save_exchange.csv', encoding='utf-8')