# BeautifulSoup 클래스를 이용한 DOM 객체화
- pip(pip3) install bs4 설치
- BeautifulSoup : Element가 존재하는 문서들을 파이썬 객체화 시켜주기 위한 클래스

In [1]:
# BeautifulSoup 모듈 불러오기
from bs4 import BeautifulSoup

In [2]:
# BeautifulSoup 클래스로 html 불러오기
page = open('./data/sample.html', 'r', encoding='utf-8').read()
print(page)

<!DOCTYPE html>
<html>
<head>
    <title>Simple HTML</title>
</head>
<body>
    <div>
        <p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
        </p>

        <p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
        </p>
    </div>

    <p class="outer-text first-item" id="second">
        <b>데이터 분석</b>
    </p>
    <p class="outer-text">
        <b>
            안녕하세요
        </b>
    </p>
</body>
</html>


In [3]:
soup = BeautifulSoup(page,'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Simple HTML
  </title>
 </head>
 <body>
  <div>
   <p class="inner-text first-item" id="first">
    Hello HTML!
    <a href="http://www.naver.com" id="naver-link">
     naver
    </a>
   </p>
   <p class="inner-text second-item">
    Hello Data Science!
    <a href="http://www.google.co.kr" id="google-link">
     google
    </a>
   </p>
  </div>
  <p class="outer-text first-item" id="second">
   <b>
    데이터 분석
   </b>
  </p>
  <p class="outer-text">
   <b>
    안녕하세요
   </b>
  </p>
 </body>
</html>


**크롤링과 스크레이핑의 차이**

크롤링은 어떠한 사이트를 구성하고있는 모든 정보를 탐색
어떤 페이지의 특정 부분만 가지고 오는걸 스크레이핑이라고 함

### DOM - Document Object Model
- html 구성요소에 대한 모델링
- 태그(엘리먼트)들이 어디 있는가를 이야기한다
- 태그(엘리먼트)들 사이의 관계
    - tag(작성) == element(화면) == object(JS)
    
Model은 구조이다. 문서에 대한 객체 구조.
문서 안쪽에 오브젝트가 어떠한 구조를 띄고 있느냐에 대한 이야기

# soup에 저장된 DOM에 대한 children 확인하기
children은 자식

In [4]:
list(soup.children)

['html',
 '\n',
 <html>
 <head>
 <title>Simple HTML</title>
 </head>
 <body>
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>
 </body>
 </html>]

In [5]:
len(list(soup.children))

3

html만 뽑아내고 싶으면?

In [6]:
html = list(soup.children)[-1]
html

<html>
<head>
<title>Simple HTML</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
</body>
</html>

## html의 자식들을 확인하려면?

In [7]:
list(html.children)

['\n',
 <head>
 <title>Simple HTML</title>
 </head>,
 '\n',
 <body>
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>
 </body>,
 '\n']

\n이 있는 이유 - 개행문자

In [8]:
body = list(html.children)[3]
body

<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
</body>

In [9]:
body.parent

<html>
<head>
<title>Simple HTML</title>
</head>
<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
</body>
</html>

기본적으로 자주 사용되는 태그들은 이미 bs4애서 준비 해 놨습니다.

In [10]:
soup.body

<body>
<div>
<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>
<p class="inner-text second-item">
            Hello Data Science!
            <a href="http://www.google.co.kr" id="google-link">google</a>
</p>
</div>
<p class="outer-text first-item" id="second">
<b>데이터 분석</b>
</p>
<p class="outer-text">
<b>
            안녕하세요
        </b>
</p>
</body>

In [11]:
body = soup.body
list(body.children)

['\n',
 <div>
 <p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>
 </div>,
 '\n',
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 '\n',
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>,
 '\n']

In [12]:
soup.find_all('p') # 전체 문서에서 p 태그 모두 찾기

[<p class="inner-text first-item" id="first">
             Hello HTML!
             <a href="http://www.naver.com" id="naver-link">naver</a>
 </p>,
 <p class="inner-text second-item">
             Hello Data Science!
             <a href="http://www.google.co.kr" id="google-link">google</a>
 </p>,
 <p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>]

제일 처음 등장하는 태그를 찾기 -> find

In [13]:
soup.find('p')

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

In [14]:
tmp_p = soup.find('p')
tmp_p

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

In [15]:
tmp_p.find('a')

<a href="http://www.naver.com" id="naver-link">naver</a>

------------------------
class를 이용해 앨리먼트 찾기

In [16]:
# outer-text라는 클래스 속성에 있는 p앨리먼트 찾기
soup.find_all('p',class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>]

In [17]:
# outer-text라는 클래스의 속성만 이용해서 모든 앨리먼트 찾기
soup.find_all(class_='outer-text')

[<p class="outer-text first-item" id="second">
 <b>데이터 분석</b>
 </p>,
 <p class="outer-text">
 <b>
             안녕하세요
         </b>
 </p>]

id를 통한 검색

In [18]:
# html에서 id를 부여하는 경우 - 특정하고 싶을 때.
soup.find(id='first') # id는 유일한 값이기땨문에 find와 자주 같이 사용한다.

<p class="inner-text first-item" id="first">
            Hello HTML!
            <a href="http://www.naver.com" id="naver-link">naver</a>
</p>

속성(attribute)을 이용해 가져오기

In [19]:
tmp_a = soup.find_all('a')
tmp_a

[<a href="http://www.naver.com" id="naver-link">naver</a>,
 <a href="http://www.google.co.kr" id="google-link">google</a>]

속성을 시용해 엘리먼트를 검색하는 방법1

In [20]:
for a in tmp_a:
    if a['href'] == 'http://www.google.co.kr':
        print(a)

<a href="http://www.google.co.kr" id="google-link">google</a>


속성을 시용해 엘리먼트를 검색하는 방법2

In [21]:
soup.find('a',{"href":'http://www.google.co.kr'})

<a href="http://www.google.co.kr" id="google-link">google</a>

## 원하는 데이터 추출하기
* 텍스트 : <태그>텍스트</태그>
* 속성값 : <태그 속성="**속성값**">텍스트</태그>

In [22]:
tmp_a = soup.find('a',{"href":'http://www.google.co.kr'})
tmp_a.text # 태그에 있는 텍스트 값 추출하기

'google'

In [23]:
tmp_a.get("href")

'http://www.google.co.kr'

## 네이버 증시 크롤링하기

In [24]:
# 실제 웹사이트에 접속해서 크롤링을 하기 위한 모듈{ request }
from urllib.request import urlopen

In [25]:
URL = 'https://finance.naver.com/marketindex/'
page = urlopen(URL)

soup = BeautifulSoup(page, 'html.parser')
soup


<script language="javascript" src="/template/head_js.nhn?referer=info.finance.naver.com&amp;menu=marketindex&amp;submenu=market"></script>
<script src="/js/info/jindo.min.ns.1.5.3.euckr.js" type="text/javascript"></script>
<script src="/js/jindo.1.5.3.element-text-patch.js" type="text/javascript"></script>
<div id="container" style="padding-bottom:0px;">
<script language="JavaScript" src="/js/flashObject.js?20200615180049"></script>
<div class="market_include">
<div class="market_data">
<div class="market1">
<div class="title">
<h2 class="h_market1"><span>환전 고시 환율</span></h2>
</div>
<!-- data -->
<div class="data">
<ul class="data_lst" id="exchangeList">
<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info head_info">
<span class="value">1,201.00</span>
<span class="txt_krw"><span class="blind">원</span></span>

### 실습
1. 수집 대상 찾기
2. 수집 대상 기준 태그, 클래스, id 들의 속성 정보 확인
3. 각각을 알맞게 수집해서 list화 시키기
4. pandas 데이터 프레임으로 만들기


In [26]:
exchangeLL = soup.find('ul',id="exchangeList")
test_exchangeli = exchangeLL.find('li')
print(test_exchangeli)

<li class="on">
<a class="head usd" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdt', '', '', event);">
<h3 class="h_lst"><span class="blind">미국 USD</span></h3>
<div class="head_info head_info">
<span class="value">1,201.00</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change">0.00</span>
<span class="blind">보합</span>
</div>
</a>
<a class="graph_img" href="/marketindex/exchangeDetail.nhn?marketindexCd=FX_USDKRW" onclick="clickcr(this, 'fr1.usdc', '', '', event);">
<img alt="" height="153" src="https://ssl.pstatic.net/imgfinance/chart/marketindex/FX_USDKRW.png" width="295"/>
</a>
<div class="graph_info">
<span class="time">2020.07.16 08:23</span>
<span class="source">하나은행 기준</span>
<span class="count">고시회차<span class="num">2</span>회</span>
</div>
</li>


국가이름 획득하기 방법1

In [27]:
# blind 클래스가 많음
print(test_exchangeli.find_all('span',class_='blind')[0].text)
print(test_exchangeli.find_all('span',class_='blind')[2])

미국 USD
<span class="blind">보합</span>


국가이름 획득하기 방법2

In [28]:
contry = test_exchangeli.find('h3',class_='h_lst').text
print(contry)

미국 USD


In [29]:
test_div= test_exchangeli.find('div',class_='head_info')
test_div

<div class="head_info head_info">
<span class="value">1,201.00</span>
<span class="txt_krw"><span class="blind">원</span></span>
<span class="change">0.00</span>
<span class="blind">보합</span>
</div>

In [30]:
test_div.find(class_='value').text

'1,201.00'

In [31]:
float(test_div.find(class_='value').text.replace(",",""))

1201.0

In [32]:
test_div.find(class_='change').text

'0.00'

In [33]:
float(test_div.find(class_='change').text)

0.0

In [34]:
test_div.find_all(class_='blind')[1].text # blind가 많으므로

'보합'

테스특 끝났으니 데이터 프레임을 만들어보자

In [35]:
import pandas as pd

In [36]:
# 항목별로 데이터를 수집해 저장할 리스트
countryList = [] # 국가 항목을 모아낼 리스트
exchangeRateList = [] # 환율 항목을 모아낼 리스트
changeList = [] # 변동 항목을 모아낼 리스트
updownList = [] # 등락 항목을 모아낼 리스트

In [38]:
exchangeUL = soup.find('ul',id="exchangeList")
exchangeLi =  exchangeLL.find_all('li')

for exchange in exchangeLi:
    country = exchange.find('h3',class_='h_lst').text # 국가 정보
    
    info_div = exchange.find('div', class_='head_info')

    exRate = float(info_div.find(class_='value').text.replace(",", ""))
    change = float(info_div.find(class_='change').text.strip())
    updown = info_div.find_all(class_='blind')[1].text
    
    countryList.append(country)
    exchangeRateList.append(exRate)
    changeList.append(change)
    updownList.append(updown)
                           

In [39]:
countryList

['미국 USD',
 '일본 JPY(100엔)',
 '유럽연합 EUR',
 '중국 CNY',
 '미국 USD',
 '일본 JPY(100엔)',
 '유럽연합 EUR',
 '중국 CNY']

In [40]:
exchangeRateList

[1201.0, 1123.48, 1371.0, 171.98, 1201.0, 1123.48, 1371.0, 171.98]

In [41]:
changeList

[0.0, 0.05, 2.34, 0.16, 0.0, 0.05, 2.34, 0.16]

In [42]:
updownList

['보합', '하락', '하락', '상승', '보합', '하락', '하락', '상승']

In [43]:
df_exchange = pd.DataFrame({
    '국가':countryList,
    '환율':exchangeRateList,
    '변동':changeList,
    '등락':updownList
})

df_exchange

Unnamed: 0,국가,환율,변동,등락
0,미국 USD,1201.0,0.0,보합
1,일본 JPY(100엔),1123.48,0.05,하락
2,유럽연합 EUR,1371.0,2.34,하락
3,중국 CNY,171.98,0.16,상승
4,미국 USD,1201.0,0.0,보합
5,일본 JPY(100엔),1123.48,0.05,하락
6,유럽연합 EUR,1371.0,2.34,하락
7,중국 CNY,171.98,0.16,상승


In [44]:
df_exchange.to_csv('./save_exchange.csv', encoding='utf-8')