## 2-2. 파이썬의 HTML Parser, BeautifulSoup

- HTML 분석기인 BeautifulSoup에 대해서 알아봅시다.

### BeautifulSoup 라이브러리

지난 실습들에서 저희는 `requests` 모듈을 이용해서 HTTP 요청을 보내고, 이 응답을 받아 여러 요소를 살펴보았습니다.  
그런데, `res.body`를 해보았을 때 문제점이 있었습니다. 바로 해당 내용이 아주 긴 텍스트로 와서 분석하기 힘들다는 것이 바로 그것인데요,  
  
**저희가 원하는 요소만을 가져올 수 있으면 얼마나 좋을까요?**  
이를 가능하도록 HTML 코드를 **분석**해주는, HTML Parser를 사용할 수 있습니다. 그 중에서 가장 유명한 것이 바로 오늘 저희가 사용할 `BeautifulSoup4`입니다.  

우선, 이를 사용하기 위해서 `pip`를 사용해 다운로드를 받아봅시다.

> Tip: `%`를 이용해서 노트북(.ipynb) 환경에서 터미널 코드를 실행할 수 있습니다.

In [1]:
%pip install bs4

Collecting bs4
  Downloading https://files.pythonhosted.org/packages/10/ed/7e8b97591f6f456174139ec089c769f89a94a1a4025fe967691de971f314/bs4-0.0.1.tar.gz
Building wheels for collected packages: bs4
  Building wheel for bs4 (setup.py): started
  Building wheel for bs4 (setup.py): finished with status 'done'
  Stored in directory: C:\Users\lim\AppData\Local\pip\Cache\wheels\a0\b0\b2\4f80b9456b87abedbc0bf2d52235414c3467d8889be38dd472
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1
Note: you may need to restart the kernel to use updated packages.


설치를 다 진행했다면, 이제 `BeautifulSoup4` 모듈을 사용할 준비가 되었습니다.

이제 이를 바탕으로 HTTP 코드를 분석해 원하는 정보만을 얻으러 가볼까요?

### BeautifulSoup 객체 만들기

In [3]:
# www.example.com 사이트를 요청한 후 응답 받아보기

import requests
res = requests.get("http://www.example.com")
res.text

'<!doctype html>\n<html>\n<head>\n    <title>Example Domain</title>\n\n    <meta charset="utf-8" />\n    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />\n    <meta name="viewport" content="width=device-width, initial-scale=1" />\n    <style type="text/css">\n    body {\n        background-color: #f0f0f2;\n        margin: 0;\n        padding: 0;\n        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;\n        \n    }\n    div {\n        width: 600px;\n        margin: 5em auto;\n        padding: 2em;\n        background-color: #fdfdff;\n        border-radius: 0.5em;\n        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);\n    }\n    a:link, a:visited {\n        color: #38488f;\n        text-decoration: none;\n    }\n    @media (max-width: 700px) {\n        div {\n            margin: 0 auto;\n            width: auto;\n        }\n    }\n    </style>    \n</head>\n\n<body>\n<div>\n    <

저희가 지난 시간까지 다음과 같은 방법을 통해 요청을 보내고 응답을 받았는데요,

이렇게 받은 `res`를 그대로 사용하지 말고, HTML parser에 전달해봅시다.

In [5]:
# BeautifulSoup4 - bs4를 불러와봅시다.

from bs4 import BeautifulSoup

이렇게 불러온 bs4를 사용하기 위해선, BeautifulSoup 객체를 생성해주어야합니다.

In [7]:
# BeautifulSoup객체를 만들어봅시다.
# 첫번째 인자로는 response의 body를 텍스트로 전달합니다.
# 두번째 인자로는 "html"로 분석한다는 것을 명시해줍니다.

soup = BeautifulSoup(res.text, "html.parser")

이 soup은 HTML 정보를 분석해서 가지고 있습니다. 이를 확인해볼까요?

In [8]:
# 객체 soup의 .prettify()를 활용하면 분석된 HTML을 보기 편하게 반환해줍니다.

print(soup.prettify())

<!DOCTYPE doctype html>
<html>
 <head>
  <title>
   Example Domain
  </title>
  <meta charset="utf-8"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
  <meta content="width=device-width, initial-scale=1" name="viewport"/>
  <style type="text/css">
   body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
  </style>
 </head>
 <body>
  <div>
   <h1>
    Example Domain
   </h1>
   <p>
    

HTML이 들여쓰기가 되어 예쁘게 출력된 것을 확인할 수 있습니다.

이 `soup` 객체를 통해서 우리는 HTML의 특정 요소를 가지고 올 수 있습니다.

In [9]:
# title 가져오기

soup.title

<title>Example Domain</title>

In [10]:
# head 가져오기

soup.head

<head>
<title>Example Domain</title>
<meta charset="utf-8"/>
<meta content="text/html; charset=utf-8" http-equiv="Content-type"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>
</head>

In [11]:
# body 가져오기

soup.body

<body>
<div>
<h1>Example Domain</h1>
<p>This domain is for use in illustrative examples in documents. You may use this
    domain in literature without prior coordination or asking for permission.</p>
<p><a href="https://www.iana.org/domains/example">More information...</a></p>
</div>
</body>

In [12]:
# <h1> 태그로 감싸진 요소 하나 찾기

soup.find("h1")

<h1>Example Domain</h1>

만약 태그를 많이 가지고오고싶다면 어떻게 해야할까요?

In [13]:
# <p> 태그로 감싸진 요소들 찾기

soup.find_all("p")

[<p>This domain is for use in illustrative examples in documents. You may use this
     domain in literature without prior coordination or asking for permission.</p>,
 <p><a href="https://www.iana.org/domains/example">More information...</a></p>]

In [14]:
# 태그 이름 가져오기

h1 = soup.find("h1")
h1.name

'h1'

In [15]:
# 태그 내용 가져오기

h1.text

'Example Domain'