# [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [3]:
from bs4 import BeautifulSoup
# bs4 모듈에서 BeautifulSoup 클래스를 메모리 로드(import)

0. Colab 현재 작업 디렉토리에 HTML 파일들을 업로드 

1. HTML 문서를 Open

In [None]:
# HTML 문서를 open
f = open('/content/web01.html', mode='r')

2. BeautifulSoup 클래스의 인스턴스를 생성 <- 생성자 함수 호출

In [None]:
soup = BeautifulSoup(markup=f, features='html.parser')
# markup: open된 HTML 파일 객체
# feature: HTML 문서를 분석(parse)할 수 있는 라이브러리 이름

In [None]:
type(soup)

bs4.BeautifulSoup

In [None]:
soup    

<!DOCTYPE html>

<!-- HTML 문서의 주석
HTML 문서의 구조:
    <tag attribute_name="attribute_value">content</tag>
Content가 없는 태그인 경우:
    <tag attr_name="attr_val" /> 또는
    <tag attr_name="attr_val">
-->
<html lang="en">
<head>
<meta charset="utf-8"/>
<title>Web 1</title>
</head>
<body>
<!-- h1 ~ h6: heading -->
<h1>처음 만드는 HTML 파일</h1>
<h2>HTML: HyperText Markup Language</h2>
<!-- a(anchor): HTML 파일에서 링크 생성 -->
<a href="https://www.daum.net/">다음 카카오</a>
<br/> <!-- br(line break): 줄바꿈 -->
<a href="https://www.naver.com/">네이버</a>
<br/>
<a href="https://www.google.com/">
<img src="googlelogo.png" style="width: 100px;"/>
</a>
<div>여기는 division입니다.<br/>
    div는 여백(margin)이 없습니다.
    </div>
<p>여기는 <strong>paragraph</strong>입니다.<br/>
    p는 <em>여백(margin)</em>이 있습니다.
    </p>
<!-- HTML 요소(태그)
        1) block-level 요소(태그): 브라우저의 가로 길이 전체를 차지하는 태그
            줄바꿈이 자동으로 생김.
            <h1>, <h6>, <div>, <p>, <table>, <ul>, <li>, ...
        2) inline 요소(태그): 컨텐츠의 가로 길이 크기만 차지하는 태그
            줄바꿈이 자동으로

3. BeautifulSoup 객체를 사용해서 원하는 정보들을 추출

In [None]:
# BS.find('HTML 태그 이름'): HTML 문서에서 argument로 전달한 태그 요소를 찾아서 리턴
element = soup.find(name='h1')
print(element)

<h1>처음 만드는 HTML 파일</h1>


In [None]:
soup.find(name='h2')

<h2>HTML: HyperText Markup Language</h2>

In [None]:
soup.find(name='a')
# find 메서드는 문서에서 가장 먼저 등장하는 HTML 요소를 찾아서 리턴

<a href="https://www.daum.net/">다음 카카오</a>

In [None]:
# find_all 메서드는 문서에 나오는 모든 HTML 요소를 찾아서 리스트로 리턴
elements = soup.find_all(name='a')
elements

[<a href="https://www.daum.net/">다음 카카오</a>,
 <a href="https://www.naver.com/">네이버</a>,
 <a href="https://www.google.com/">
 <img src="googlelogo.png" style="width: 100px;"/>
 </a>]

HTML tag 요소의 텍스트(txt) 또는 속성(attribute)의 값을 찾는 방법

In [None]:
link1 = soup.find('a')
print(link1)       #> HTML tag element
print(link1.text)  #> HTML tag 텍스트(start tag와 end tag 사이에 있는 문자열)
print(link1.get(key='href'))  #> HTML tag의 'href' 속성의 값

<a href="https://www.daum.net/">다음 카카오</a>
다음 카카오
https://www.daum.net/


In [None]:
# soup 객체에 있는 모든 <a> element의 href 속성을 출력
elements = soup.find_all('a')
for tag in elements:
    print(tag.get('href'))

https://www.daum.net/
https://www.naver.com/
https://www.google.com/


In [None]:
# BS.find('tag_name') = BS.tag_name
print(soup.find('h1'))
print(soup.h1)

<h1>처음 만드는 HTML 파일</h1>
<h1>처음 만드는 HTML 파일</h1>


In [None]:
print(soup.find('h1').text)
print(soup.h1.text)

처음 만드는 HTML 파일
처음 만드는 HTML 파일


In [None]:
# tag.get('attr_name') = tag['attr_name']
link1 = soup.find('a')
print(link1.get('href'))
print(link1['href'])

print(soup.find('a').get('href'))
print(soup.a.get('href'))
print(soup.find('a')['href'])
print(soup.a['href'])

https://www.daum.net/
https://www.daum.net/
https://www.daum.net/
https://www.daum.net/
https://www.daum.net/
https://www.daum.net/


4. open 해던 HTML 파일을 close

In [None]:
f.close()

In [None]:
with open(file='web01.html', mode='r') as f:
    # 1) BeautifulSoup 인스턴스 생성
    soup = BeautifulSoup(markup=f, features='html5lib')
    # 2) BS 인스턴스에서 <a> tag element 중에서 href 속성의 값이 
    #     'https://www.daum.net'인 요소의 텍스트를 찾아서 출력
    link = soup.find(name='a', attrs={'href':'https://www.naver.com/'})
    print(link)
    print(link.text)

<a href="https://www.naver.com/">네이버</a>
네이버


In [None]:
# tag 이름으로 HTML element를 찾는 방법: 
with open(file='web03.html', mode='r') as f:
    soup = BeautifulSoup(markup=f, features='html5lib')
    # HTML 문서의 모든 <div> 태그 element들을 찾음
    # divs = soup.find_all(name='div')
    divs = soup(name='div')
    for el in divs:
        print(el)

<div class="c1">여기는 c1 클래스입니다.</div>
<div class="c1">여기도 c1 클래스입니다.</div>
<div class="c2">여기는 c2 클래스입니다.</div>
<div class="c2" id="id1">여기는 c2 클래스, 아이디는 id1입니다.</div>


In [None]:
# class 속성의 값으로 HTML element를 찾는 방법:
with open(file='web03.html', mode='r') as f:
    soup = BeautifulSoup(markup=f, features='html5lib')
    # class 속성의 값이 'c1'인 모든 HTM element들을 찾음
    # class_c1s = soup.find_all(attrs={'class':'c1'})
    class_c1s = soup(attrs={'class':'c1'})
    for el in class_c1s:
        print(el)

<div class="c1">여기는 c1 클래스입니다.</div>
<div class="c1">여기도 c1 클래스입니다.</div>


In [None]:
# id 속성의 값이 'id1'인 모든 HTML element를 찾음
with open(file='web03.html', mode='r') as f:
    soup = BeautifulSoup(markup=f, features='html5lib')
    # id_id1s = soup.find_all(attrs={'id':'id1'})
    id_id1s = soup(attrs={'id':'id1'})
    for id in id_id1s:
        print(id)

<div class="c2" id="id1">여기는 c2 클래스, 아이디는 id1입니다.</div>


* `BeautifulSoup.find(name='태그이름', attrs={'속성이름': '속성 값'})`
* `BeautifulSoup.tag`, `BeautifulSoup.find(name='tag')`과 동일
* `BeautifulSoup.find_all(name='태그이름', attrs={'속성이름': '속성값''})`
* `BeautifulSoup([name=]'tag')`는 `BeautifulSoup.find_all(name='tag')`과 동일
* `BeautifulSoup(attrs={})`는 `BeautifulSoup.find_all(attrs={}')`과 동일
* `BeautifulSoup.find(**kwargs)`, `BeautifulSoup.find_all(**kwargs)`
    * `BeautifulSoup.find(class_='클래스이름', id='아이디값')`
    * `BeautifulSoup.find_all(class_='클래스이름', id='아이디값')`


In [1]:
f = open(file='web03.html', mode='r') 

In [4]:
soup = BeautifulSoup(markup=f, features='html5lib')

In [12]:
# class 속성의 값이 'menu_item'인 element들의 text를 출력
for menu_item in soup.find_all(attrs={'class':'menu_item'}):
    print(menu_item.text.strip())

다음
네이버
구글


In [15]:
# find_all 메서드의 variable-length keyword argument를 사용:
for menu_item in soup.find_all(class_='menu_item'):
    print(menu_item.text.strip())

다음
네이버
구글


In [17]:
for item in soup(attrs={'class':'menu_item'}):
    print(item.text.strip())

다음
네이버
구글


In [18]:
for item in soup(class_='menu_item'):
    print(item.text.strip())

다음
네이버
구글


In [23]:
# id 속성의 값이 'id1'인 element 들의 text를 출력
for item in soup(attrs={'id':'id1'}):
    # soup.find_all(attrs={'id':'id1'})
    print(item.text)

여기는 c2 클래스, 아이디는 id1입니다.


In [25]:
for item in soup(id='id1'):
    # soup.find_all(id='id1')
    print(item.text)

여기는 c2 클래스, 아이디는 id1입니다.


In [26]:
f.close()