## BeautifulSoup 실행
> BeautifulSoup을 이용해 BeautifulSoup 객체 만들어 HTML 컨텐츠에 접근
1. `html.read()` 메서드 사용.
2. `urlopen`으로 반환한 `html` 객체 바로 사용.

* beautifulsoup 객체 만들기
    - 인자 1: HTML 텍스트
    - 인자 2: 구문 분석기(`html.parser`, `lxml`, `html5lib` (참고 : https://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser)

* 페이지 구조 확인
    - `bs.prettify()` 메서드 사용.
    - `tag.name` 알아보기.

* 컨텐츠 접근: 페이지에 있는 첫 번째 태그만 반환.

In [1]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") # 스크레이핑할 웹페이지
bs = BeautifulSoup(html.read(), 'html.parser') # html.read()를 통해 HTML 컨텐츠에 접근

# beautifulsoup 객체를 통한 HTML 페이지 구조 확인
print("페이지 구조")
print(bs.prettify())
print("태그 구조")
for tag in bs.find_all(True):
    print(tag.name)

# h1 태그에 접근하는 방법
print("아래의 방법을 사용해 모두 h1 태그에 접근할 수 있습니다.")
print(bs.h1) # h1태그 바로 접근
print(bs.html.body.h1) # 중첩 구조 사용해 접근
print(bs.body.h1)
print(bs.html.h1)

페이지 구조
<html>
 <head>
  <style>
   .green{
	color:#55ff55;
}
.red{
	color:#ff5555;
}
#text{
	width:50%;
}
  </style>
 </head>
 <body>
  <h1>
   War and Peace
  </h1>
  <h2>
   Chapter 1
  </h2>
  <div id="text">
   "
   <span class="red">
    Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.
   </span>
   "
   <p>
   </p>
   It was in July, 1805, and the speaker was the well-known
   <span class="green">
    Anna
Pavlovna Scherer
   </span>
   , maid of honor and favorite of the
   <span class="green">
    Empress Marya
Fedorovna
   </span>
   . With these words she greeted
  

In [2]:
html2 = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") 

bs2 = BeautifulSoup(html2, 'html.parser')
print("bs객체의 type은 {}입니다.".format(type(bs2)))
print(bs2.span) # 첫 번째 span 태그만 반환

bs객체의 type은 <class 'bs4.BeautifulSoup'>입니다.
<span class="red">Well, Prince, so Genoa and Lucca are now just family estates of the
Buonapartes. But I warn you, if you don't tell me that this means war,
if you still try to defend the infamies and horrors perpetrated by
that Antichrist- I really believe he is Antichrist- I will have
nothing more to do with you and you are no longer my friend, no longer
my 'faithful slave,' as you call yourself! But how do you do? I see
I have frightened you- sit down and tell me all the news.</span>


## 신뢰할 수 없는 연결과 예외 처리
* `URLError` : 서버를 찾을 수 없는 경우
* `HTTPError` : 페이지를 찾을 수 없거나, URL 해석에서 에러가 생긴 경우
* `AttributeError` : 실제로 존재하지 않는 태그(`None` 객체 반환)에 함수를 호출하는 경우

In [3]:
# HTTPError
from urllib.request import urlopen
from urllib.request import HTTPError

# HTTPError 예외 처리 구문
try:
    html = urlopen("http://www.pythonscraping.com/pages/page1.html")
except HTTPError as e:
    print("에러가 발생했습니다. : {}".format(e))
else:
    # except절에서 break을 반환하거나 return했다면 필요 없는 부분.
    print("에러가 발생하지 않았습니다.")
    bs = BeautifulSoup(html, 'html5lib')
    print(bs.h1)

에러가 발생하지 않았습니다.
<h1>An Interesting Title</h1>


In [4]:
# URLError
from urllib.request import urlopen
from urllib.request import HTTPError
from urllib.request import URLError

# URLError 예외 처리 구문
try:
    html = urlopen("http://www.pythonscraping.com/pages/error.html")
except HTTPError as e:
    print("에러가 발생했습니다. : {}".format(e))
except URLError as e:
    print("에러가 발생했습니다. : {}".format(e))
else:
    print("성공!")
    bs = BeautifulSoup(html, 'html.parser')
    print(bs.h1)

에러가 발생했습니다. : HTTP Error 404: Not Found


In [5]:
# 존재하지 않는 태그와 AttributeError

html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html") 
bs = BeautifulSoup(html, 'html.parser')
print(bs.nonExistentTag) # 존재하지 않는 태그 호출 : None
print(bs.nonExistentTag.someTag) # 존재하지 않는 객체에 함수를 호출하는 경우 : AttributeError

None


  name=tag_name


AttributeError: 'NoneType' object has no attribute 'someTag'

In [6]:
# AttributeError 처리 구문

from urllib.request import urlopen
from urllib.request import HTTPError
from urllib.request import URLError

try:
    html = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
    bs = BeautifulSoup(html, 'html.parser')
    badContent = bs.nonTag.someTag
except HTTPError as e:
    print("Error! {}".format(e))
except URLError as e:
    print("Error! {}".format(e))
except AttributeError as e: # 존재하지 않는 태그에 함수 호출
    print("태그가 존재하지 않습니다.")
else:
    if badContent == None: # 존재하지 않는 태그
        print("None!")
    else:
        print(badContent)

태그가 존재하지 않습니다.


  name=tag_name


### 가능한 에러를 모두 체크하고 처리하는 코드
* URLError : 명시하지는 않았으나, 서버가 존재하지 않을 때 접근하면 `None`객체를 반환하므로 `AttributeError` 일으키도록 설계.
* HTMLError : 명시함.
* AttributeError : `URLError`와 `AttributeError` 모두 처리.

In [7]:
from bs4 import BeautifulSoup
from urllib.request import urlopen
from urllib.request import HTTPError

def getTitle(url):
    try: # 접속
        html = urlopen(url)
    except HTTPError as e:
        print("Error! {}".format(e))
    try: # HTML 컨텐츠 접근
        bs = BeautifulSoup(html, 'html.parser')
        title = bs.h1 # URL에 접속할 수 없으면 애초에 AttributeError 발생.
    except AttributeError as e:
        return None
    
    return title # 제대로 된 경우

title = getTitle("https://www.naver.com")
if title == None:
    print("Title을 찾을 수 없습니다.")
else:
    print(title)
        

<h1 class="special">
<img alt="봄을 나누는, 춘분" class="special_img" height="170" src="https://s.pstatic.net/static/www/mobile/edit/2017/0324/mobile_184353754426.gif" usemap="#logo_sw" width="1400"/>
<map id="logo_sw" name="logo_sw">
<area alt="봄을 나누는, 춘분" coords="0,0,530,170" data-clk="top.spe" href="https://search.naver.com/search.naver?sm=top_brd&amp;fbm=0&amp;ie=utf8&amp;query=%EC%B6%98%EB%B6%84" shape="rect" title="봄을 나누는, 춘분"/>
</map>
</h1>
