In [94]:
'''
[BeautifulSoup 기초 실습 : lxml]
'''

from bs4 import BeautifulSoup
from urllib.request import urlopen

url = "https://www.naver.com/"

page = urlopen(url)

In [96]:
'''
[Section 1. 웹 페이지에서 HTML 가져오기]
'''

soup = BeautifulSoup(page, "lxml")
# print(soup)

In [98]:
'''
[HTML 샘플 직접 파싱하기]

- 문자열로 구성된 HTML을 직접 BeautifulSoup 객체로 변환할 수 있다.
- 이를 웹 연결 없이도 파싱 테스트가 가능하다.
'''

html = """
<html>
  <head>
    <title class="main-title" id="page-title">My Test Page</title>
  </head>
  <body>
    <div class="content">
      <p class="text">Hello, world!</p>
      <p class="text">Python is fun.</p>
      <span id="note">This is a note.</span>
      <a href="https://example.com" class="link">Go to Example</a>
    </div>
  </body>
</html>
"""

In [100]:
soup = BeautifulSoup(html, "lxml")
print(soup)

<html>
<head>
<title class="main-title" id="page-title">My Test Page</title>
</head>
<body>
<div class="content">
<p class="text">Hello, world!</p>
<p class="text">Python is fun.</p>
<span id="note">This is a note.</span>
<a class="link" href="https://example.com">Go to Example</a>
</div>
</body>
</html>



In [102]:
'''
[Section 2. title 태그 추출 및 속성 확인]

- HTML 태그에는 id, class, name 등 다양한 속성이 포함되어 있을 수 있다.
- ".attrs"를 통해 해당 태그의 속성 전체를 딕셔너리 형태로 확인할 수 있으며,
- 개별 속성은 딕셔너리처럼 접근하거나, ".get()"으로 조회할 수 있다.
'''

tag_title = soup.title
print(tag_title)
print(tag_title.attrs)    # tag_title의 모든 속성 확인(딕셔너리 형태)
print(tag_title["class"])
print(tag_title["id"])

# 예외 상황
# print(tag_title["classss"])  # 존재하지 않는 속성 조회 시, keyError 발생

<title class="main-title" id="page-title">My Test Page</title>
{'class': ['main-title'], 'id': 'page-title'}
['main-title']
page-title


In [104]:
'''
[Section 3. 텍스트 추출 방법 비교]

- .text : 해당 태그 안의 모든 텍스트를 포함한 문자열 반환
- .string : 해당 태그의 직접적인 텍스트만 반환하며, 자식 태그가 여러개면 "None"을 반환한다.
'''

print(tag_title.text)
print(tag_title.string)

My Test Page
My Test Page


In [106]:
'''
[<span>이란?]

- 짧은 텍스트나 요소를 묶을 때 사용하는 인라인 태그이다.
- 의미는 없고, 디자인이나 특정 부분을 강조를 위해 사용
- css 스타일, 색상, 클래스, ID 등을 적용할 때 주로 사용된다.
'''

html = """<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>"""
soup = BeautifulSoup(html, "lxml")

In [108]:
# HTML 문서 안의 <p> 태그 하나를 찾아서 변수에 저장하는 코드
tag_p = soup.p

'''
[.text]

- 모든 자식 태그 안의 텍스트까지 몽땅 가져온다.

[.string]

- 태그 안에 순수한 문자열만 있는 경우 사용한다. 
- 자식이 1개 텍스트 일때만 텍스트 반환하고 아니면 None을 반환
'''

print(tag_p)
print("text :", tag_p.text)
print("string :", tag_p.string)

<p><span>test1</span><span>test2</span></p>
text : test1test2
string : None


In [110]:
'''
[Section 4. 자식 요소 접근 : contents vs children]

- .contents : 자식 요소들을 리스트 형태로 반환
- .children : 자식 요소들을 이터레이터로 반환(반복문)
'''

tag_p_contents = soup.p.contents
print(tag_p_contents)

tag_p_children = soup.p.children
for child in tag_p_children :
    print(child)

[<span>test1</span>, <span>test2</span>]
<span>test1</span>
<span>test2</span>


In [112]:
'''
[Section 5. 부모 및 조상 요소 접근]

- .parent : 해당 태그의 부모 태그 반환
- .parents : 해당 태그의 모든 조상 태그를 반복 가능한 객체로 반환
'''

tag_span = soup.span      # soup 에서 첫번째 <span> 태그를 가져와서 tag_span에 저장
print(tag_span.parent)    # tag_span의 부모 태그를 출력 -> <p> 태그가 나올 것

tag_title = soup.title    # soup에서 <title> 태그를 가져와서 tag_title에 저장
print(tag_title.parent)   # tag_title의 부모 태그 출력 -> <head> 태그가 나올것

<p><span>test1</span><span>test2</span></p>
<head><title>test site</title></head>


In [114]:
'''
[tag_span이 속해 있는 모든 부모 태그를 거슬러 올라가며 출력]

* 출력 순서
    1. <p>
    2. <body> -> <p>의 부모
    3. <html> -> <body>의 부모
    4. None -> <>
'''

for parent in tag_span.parents :
    print(parent)

<p><span>test1</span><span>test2</span></p>
<body> <p><span>test1</span><span>test2</span></p> </body>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
<html> <head><title>test site</title></head> <body> <p><span>test1</span><span>test2</span></p> </body></html>
