# BeautifulSoup

In [6]:
# bs4 모듈에서 Beautifulsoup 클래스를 메모리에 임포트
from bs4 import BeautifulSoup

## 1. HTML 문서 열기

In [7]:
import os

In [8]:
dir_path = 'E:/git_github_regenesis90/'
file_name = 'web01.html'
file_path = os.path.join(dir_path, file_name)
print(file_path)

E:/git_github_regenesis90/web01.html


In [10]:
f = open(file_path, mode = 'r', encoding = 'UTF-8')
print(f)

<_io.TextIOWrapper name='E:/git_github_regenesis90/web01.html' mode='r' encoding='UTF-8'>


## 2. BeautifulSoup 클래스 인스턴스 생성 : 생성자 함수 호출하기
* **markup** : open된 HTML 객체의 file_handle
* **features**: HTML 문서를 분석(parse)할 수 있는 라이브러리 이름. html.parser, html5lib 등.

In [11]:
soup = BeautifulSoup(markup = f, features = 'html.parser')

In [12]:
type(soup) #> bs4 모듈의 BeautifulSoup 클래스

bs4.BeautifulSoup

## 3. 분석(parsing)한 HTML 문서 내용을 문자열로 리턴

* **`BeautifulSoup.__repr__`** 메서드가 분석한 HTML 문서 내용을 문자열로 반환

In [13]:
soup

<!DOCTYPE html>

<!-- HTML 문서의 주석
HTML 문서의 구조:
    <tag attribute_name="attribute_value">content</tag>
Content가 없는 태그인 경우:
    <tag attr_name="attr_val" /> 또는
    <tag attr_name="attr_val">
-->
<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Web 1</title>
</head>
<body>
<!-- h1 ~ h6: heading -->
<h1>처음 만드는 HTML 파일</h1>
<h2>HTML: HyperText Markup Language</h2>
<!-- a(anchor): HTML 파일에서 링크 생성 -->
<a href="https://www.daum.net/">다음 카카오</a>
<br/> <!-- br(line break): 줄바꿈 -->
<a href="https://www.naver.com/">네이버</a>
<br/>
<a href="https://www.google.com/">
<img src="googlelogo.png" style="width: 100px;"/>
</a>
<div>여기는 division입니다.<br/>
    div는 여백(margin)이 없습니다.
    </div>
<p>여기는 <strong>paragraph</strong>입니다.<br/>
    p는 <em>여백(margin)</em>이 있습니다.
    </p>
<!-- HTML 요소(태그)
        1) block-level 요소(태그): 브라우저의 가로 길이 전체를 차지하는 태그
            줄바꿈이 자동으로 생김.
            <h1>, <h6>, <div>, <p>, <table>, <ul>, <li>, ...
        2) inline 요소(태그): 컨텐츠의 가로 길이 크기만 차지하는 태그
            줄바꿈이 자동으로

## 4. BS.find(), BS.find_all() : BeautifulSoup 객체의 원하는 태그 추출

* **`BS.find('HTML태그이름')`** : HTML 문서에서 argument로 전달한 태그 중 첫번째 하나를 찾아 리턴
* **`BS.find_all('HTML태그이름)`** : HTML 문서에서 argument로 전달한 태그 전부를 찾아 **리스트로 리턴**

In [14]:
element = soup.find(name = 'h1')
element

<h1>처음 만드는 HTML 파일</h1>

In [16]:
element = soup.find(name = 'h2')
element

<h2>HTML: HyperText Markup Language</h2>

In [17]:
element = soup.find(name = 'a')
element

<a href="https://www.daum.net/">다음 카카오</a>

In [18]:
elements = soup.find_all(name = 'a')
elements

[<a href="https://www.daum.net/">다음 카카오</a>,
 <a href="https://www.naver.com/">네이버</a>,
 <a href="https://www.google.com/">
 <img src="googlelogo.png" style="width: 100px;"/>
 </a>]

## 5. .text, .get(key=) : HTML 태그 요소의 텍스트(text) 또는 속성(attribute)값 찾기

* **`BS.find('HTML태그이름').text`** : HTML 태그 텍스트(start tag - end tag 사이 문자열)
* **`BS.find('HTML태그이름').get(key='href')`** : HTML 태그의 'href' 속성 값.(링크 등)

### 1) soup 객체의 모든 a element의 href 속성 출력하기

In [20]:
elements = soup.find_all('a')
elements

[<a href="https://www.daum.net/">다음 카카오</a>,
 <a href="https://www.naver.com/">네이버</a>,
 <a href="https://www.google.com/">
 <img src="googlelogo.png" style="width: 100px;"/>
 </a>]

In [22]:
for tag in elements:
    print(tag.get(key = 'href'))

https://www.daum.net/
https://www.naver.com/
https://www.google.com/


### 2) a 태그 요소의 href 속성을 출력하는 다양한 표현들
**`BS.find('tag_name')=BS.tag_name`**

In [23]:
print(soup.find('h1').text)
print(soup.h1.text)

처음 만드는 HTML 파일
처음 만드는 HTML 파일


**`tag.get('attr_name')=tag['attr_name']`**

In [24]:
link1 = soup.find('a')
print(link1.get(key = 'href'))
print(link1.get('href'))
print(link1['href'])

https://www.daum.net/
https://www.daum.net/
https://www.daum.net/


In [25]:
print(soup.find('a').get('href'))
print(soup.find('a')['href'])
print(soup.a.get('href'))
print(soup.a['href'])

https://www.daum.net/
https://www.daum.net/
https://www.daum.net/
https://www.daum.net/


## 6. open 했던 HTML 파일을 닫기 : f.close()

In [26]:
f.close()