## 목차
- 웹 스크래이핑과 크롤링 
- BeautifulSoup 소개
- HTML 구성 및 태그
- CSS 구성

#### 웹사이트 가져오기

In [None]:
from urllib.request import urlopen

html = urlopen('https://www.daangn.com/hot_articles')
print(type(html))
print(html.read())

In [9]:
from bs4 import BeautifulSoup
html = urlopen('http://www.pythonscraping.com/pages/page1.html')

bs = BeautifulSoup(html.read(), 'html.parser')
print(bs)

<html>
<head>
<title>A Useful Page</title>
</head>
<body>
<h1>An Interesting Title</h1>
<div>
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
</div>
</body>
</html>



In [None]:
# <head> </head>
# <body> </body>
# <h1> </h1>
# <div> </div>

### 신뢰할 수 있는 연결과 예외 처리
- 페이지를 찾을 수 없는 경우
    - 404 Page Not Found 에러 발생: HTTPError 예외 발생 시킴
- 서버를 찾을 수 없는 경우
    - 500 Internal Server Error 발생시 URLError 예외 발생 시킴

In [12]:
from urllib.request import urlopen
from urllib.error import HTTPError
from urllib.error import URLError
try:
    html = urlopen('http://www.pythonscraping.com/pages/error.html')
except HTTPError as e:
    print(e)
except URLError as e:
    print('The server could not be found!')
else:
    print('It worked!')

HTTP Error 404: Not Found


### 존재하지 않은 태그 예외 처리
- 존재하지 않은 경우 None으로 반환
- None 객체에 접근, AttributeError 발생

In [17]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def gettitle(url, tag):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bs = BeautifulSoup(html.read(), 'html.parser')
        value = bs.body.find(tag)
    except AttributeError as e:
        return None

    return value

tag = 'h2'

value = gettitle("http://www.pythonscraping.com/pages/page1.html", tag)
if value == None:
    print(f'{tag} could not be found')
else: print(value)


h2 could not be found


- CSS에서의 class에 접근할때는 class_로 접근한다.(왜냐하면 파이썬의 class와 겹치기 때문)

### 웹 크롤링 가능여부 확인
robots.txt 추가
• 웹사이트의 URL + /robots.txt 추가
• 예: https://www.oreilly.com/robots.txt

### BeautifulSoup 라이브러리 활용

In [34]:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://www.daangn.com/hot_articles')
bs = BeautifulSoup(html.read(), 'html.parser')
print(bs.h1.text)


      
      
      중고거래 인기매물
  


In [35]:

html_example = '''<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>BeautifulSoup 활용</title>
</head>
<body>
    <h1 id="heading">Heading 1</h1>
    <p>Paragraph</p>
    <span class="red">BeautifulSoup Library Examples!</span>
    <div id="link">
        <a class="external_link" href="www.google.com">google</a>

        <div id="class1">
            <p id="first">class1's first paragraph</p>
            <a class="external_link" href="www.naver.com">naver</a>

            <p id="second">class1's second paragraph</p>
            <a class="internal_link" href="/pages/page1.html">Page1</a>
            <p id="third">class1's third paragraph</p>
        </div>
    </div>
    <div id="text_id2">
        Example page
        <p>g</p>
    </div>
    <h1 id="footer">Footer</h1>
</body>
</html>
'''

In [41]:
bs = BeautifulSoup(html_example, 'html.parser')
bs

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>BeautifulSoup 활용</title>
</head>
<body>
<h1 id="heading">Heading 1</h1>
<p>Paragraph</p>
<span class="red">BeautifulSoup Library Examples!</span>
<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>
<div id="text_id2">
        Example page
        <p>g</p>
</div>
<h1 id="footer">Footer</h1>
</body>
</html>

In [69]:
# 동일한 태그가 여러개가 있는 경우 최상단의 하나만 추출
bs.title.text  # bs.title.get_text()도 사용가능
bs.a.text
bs.p.text
bs.div.text
bs.h1.get_text()

# 해당 태그를 포함하고 있는 '부모' 찾기
bs.div.parent

bs.find_all('a')

[<a class="external_link" href="www.google.com">google</a>,
 <a class="external_link" href="www.naver.com">naver</a>,
 <a class="internal_link" href="/pages/page1.html">Page1</a>]

### 함수
- find(), select_one() : 하나만 찾는것
- find_all(), select() : 다 찾아주는 것

In [73]:
# find(tag, attrs, recursive, text, keywords)
print(bs.find('div'))
div_tag = bs.find('div')
div_tag.prettify()  # prettify()는 예쁘게 보여주는 메서드

<div id="link">
<a class="external_link" href="www.google.com">google</a>
<div id="class1">
<p id="first">class1's first paragraph</p>
<a class="external_link" href="www.naver.com">naver</a>
<p id="second">class1's second paragraph</p>
<a class="internal_link" href="/pages/page1.html">Page1</a>
<p id="third">class1's third paragraph</p>
</div>
</div>


'<div id="link">\n <a class="external_link" href="www.google.com">\n  google\n </a>\n <div id="class1">\n  <p id="first">\n   class1\'s first paragraph\n  </p>\n  <a class="external_link" href="www.naver.com">\n   naver\n  </a>\n  <p id="second">\n   class1\'s second paragraph\n  </p>\n  <a class="internal_link" href="/pages/page1.html">\n   Page1\n  </a>\n  <p id="third">\n   class1\'s third paragraph\n  </p>\n </div>\n</div>\n'

In [75]:
# find 함수에서 속성을 불러올때는 dict 형태로 불러온다. {속성: 속성값}
div_tag = bs.find('div', {'id': 'text_id2'})
div_tag.prettify()

'<div id="text_id2">\n Example page\n <p>\n  g\n </p>\n</div>\n'

In [84]:
# dict 안에 여러개의 속성 대입 가능
# text 또는 get_text()로 문자열 값을 불러올 수 있다.
div_tag =bs.find('a', {'class': 'internal_link', 'href': '/pages/page1.html'})
div_tag.text

Page1


In [85]:
print(bs.find('div', {'id':'class1'}).text)


class1's first paragraph
naver
class1's second paragraph
Page1
class1's third paragraph



In [None]:
import requests
url = 'https://en.wikipedia.org/wiki/Kevin_Bacon'
html = requests.get(url)
bs = BeautifulSoup(html.text, 'html.parser')
bs.select('#content')

마크업(Markup) 언어  
• Mark(태그)로 둘러싸인 언어  
• 태그는 문서의 골격을 작성하는데 사용  
• HTML, XML 등  

마크다운(Markdown)언어  
• 마트업 언어의 일종  
• 읽기 및 쓰기가 쉬운 문서 양식  
– 복잡한 태그 구조가 사라지고 간단한 텍스트들과 몇 가지 문법으로 작성  