In [1]:
from bs4 import BeautifulSoup
#import lxml

In [2]:
with open("website.html", encoding='UTF8') as file:
    contents = file.read()

In [3]:
soup = BeautifulSoup(contents, 'html.parser')
#soup = BeautifulSoup(contents, 'lxml')  # html.parser가 일부 작동하지 않는 경우 lxml을 사용

In [4]:
print(soup.title)

<title>Angela's Personal Site</title>


In [6]:
print(soup.title.name)

title


In [7]:
print(soup.title.string)

Angela's Personal Site


* `SOUP.find_all(name="NAME")` : name이 일치하는 tag를 모두 찾아 리스트로 반환

In [8]:
all_anchor_tags = soup.find_all(name="a")
print(all_anchor_tags)

[<a href="https://www.appbrewery.co/">The App Brewery</a>, <a href="https://angelabauer.github.io/cv/hobbies.html">My Hobbies</a>, <a href="https://angelabauer.github.io/cv/contact-me.html">Contact Me</a>]


* `TAG.getText()` : Tag 내 text를 반환

In [10]:
for tag in all_anchor_tags:
    print(tag.getText())

The App Brewery
My Hobbies
Contact Me


* `TAG.get("ATTRIBUTE")` : ATTRIBUTE 속성을 갖는 tag를 반환

In [11]:
for tag in all_anchor_tags:
    print(tag.get("href"))

https://www.appbrewery.co/
https://angelabauer.github.io/cv/hobbies.html
https://angelabauer.github.io/cv/contact-me.html


* `SOUP.find(name="NAME", id="ID")` : name과 id가 일치하는 tag 반환
* `SOUP.find_all(name="NAME", id="ID")` : name과 id가 일치하는 tag의 리스트를 반환

In [12]:
heading = soup.find(name="h1", id="name")
print(heading)

<h1 id="name">Angela Yu</h1>


In [13]:
heading = soup.find_all(name="h1", id="name")
print(heading)

[<h1 id="name">Angela Yu</h1>]


CSS의 class 속성이 일치하는 tag를 찾을 때는 `class_`를 사용(class는 python 문법과 상충하기 때문에 사용할 수 없음)

In [14]:
section_heading = soup.find(name="h3", class_="heading")
print(section_heading.getText())

Books and Teaching


* CSS Selector 또는 HTML Selector 사용법
  - 많은 tag 중에서 원하는 tag만을 가져오려는 경우에 사용
  - tag 리스트를 반환받아서 선택할 수도 있으나 실제 웹사이트는 매우 많은 tag를 갖고 있기 때문에 원하는 tag인지를 판단하기 어려움
  - div에 다양한 요소가 중첩되어 있고 div에는 id가 있기 때문이며 이에 따라 div의 범위와 원하는 요소의 범위를 좁힐 수 있음

`SOUP.select_one(selector="TAGS")` : HTML Selector와 일치하는 tag 반환

In [16]:
company_url = soup.select_one(selector="p a")
print(company_url)

<a href="https://www.appbrewery.co/">The App Brewery</a>


`SOUP.select_one(selector="#ID")` : CSS Selector의 id와 일치하는 tag 반환

In [28]:
name = soup.select_one(selector="#name")
print(name) 

<h1 id="name">Angela Yu</h1>


`SOUP.select_one(selector=".CLASS")` : CSS Selector의 class와 일치하는 tag 반환

In [29]:
headings = soup.select_one(selector=".heading")
print(headings)

<h3 class="heading">Books and Teaching</h3>


`SOUP.select()` 사용 시 일치하는 tag 리스트를 반환

In [19]:
headings = soup.select(".heading")
print(headings)

[<h3 class="heading">Books and Teaching</h3>, <h3 class="heading">Other Pages</h3>]


In [23]:
headings = soup.select(selector=".heading")
print(headings)

[<h3 class="heading">Books and Teaching</h3>, <h3 class="heading">Other Pages</h3>]
