# BeautifulSoup 기초


## BeautifulSoup 객체 생성 및 탐색

In [1]:
html_content = """
<!DOCTYPE html>
<html>
<head>
    <title>내 웹사이트 홈페이지</title>
	<link rel="stylesheet" type="text/css" href="style.css">
</head>
<body>
    <h1>안녕하세요, 환영합니다!</h1>
    <p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>
    <div class="section" id="section1">
        <h2>섹션 1: BeautifulSoup 기초</h2>
        <p>BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.</p>
        <ul>
            <li>HTML 파싱</li>
            <li>태그 검색</li>
            <li>데이터 추출</li>
        </ul>
    </div>
    <div class="section" id="section2">
        <h2>섹션 2: 고급 사용법</h2>
        <p>고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.</p>
		<a href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&sca_esv=a0ce93ff23945b86&sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&ei=LnVOZoiAAdTW1e8P16WBsAY&ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&uact=5&oq=BeautifulSoup+%EA%B8%B0%EC%B4%88&gs_lp=Egxnd3Mtd2l6LXNlcnAiFEJlYXV0aWZ1bFNvdXAg6riw7LSIMgQQIxgnMggQABiABBiiBDIIEAAYgAQYogQyCBAAGIAEGKIESLbvBFDw6QRYye0EcAR4AJABAZgBkQGgAfYDqgEDMC40uAEDyAEA-AEBmAIEoAL-AsICBRAAGIAEmAMAiAYBkgcDMS4zoAe5EQ&sclient=gws-wiz-serp" class="link" id="searchLink">구글 검색 정보</a>
    </div>
    <footer>
        <p>저작권 © 2024 내 웹사이트. 모든 권리 보유.</p>
    </footer>
</body>
</html>
"""


In [2]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(html_content, "html.parser")
soup


<!DOCTYPE html>

<html>
<head>
<title>내 웹사이트 홈페이지</title>
<link href="style.css" rel="stylesheet" type="text/css"/>
</head>
<body>
<h1>안녕하세요, 환영합니다!</h1>
<p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>
<div class="section" id="section1">
<h2>섹션 1: BeautifulSoup 기초</h2>
<p>BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.</p>
<ul>
<li>HTML 파싱</li>
<li>태그 검색</li>
<li>데이터 추출</li>
</ul>
</div>
<div class="section" id="section2">
<h2>섹션 2: 고급 사용법</h2>
<p>고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.</p>
<a class="link" href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;sca_esv=a0ce93ff23945b86&amp;sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&amp;ei=LnVOZoiAAdTW1e8P16WBsAY&amp;ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&amp;uact=5&amp;oq=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;gs_lp=Egxnd3Mtd2l6LXNlcnAiFEJlYXV0aWZ1bFNvdXAg6riw7LSIMgQQIxgnMggQABiABBiiBDIIEAAYgAQYogQyCBAAGIAEGKIESLbvBFDw6QRYye

* 인덴테이션 고려해서 html 보기

In [3]:
# soup.prettify() 하지 말고 반드시 print해서 볼것
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   내 웹사이트 홈페이지
  </title>
  <link href="style.css" rel="stylesheet" type="text/css"/>
 </head>
 <body>
  <h1>
   안녕하세요, 환영합니다!
  </h1>
  <p id="intro">
   이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
  </p>
  <div class="section" id="section1">
   <h2>
    섹션 1: BeautifulSoup 기초
   </h2>
   <p>
    BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.
   </p>
   <ul>
    <li>
     HTML 파싱
    </li>
    <li>
     태그 검색
    </li>
    <li>
     데이터 추출
    </li>
   </ul>
  </div>
  <div class="section" id="section2">
   <h2>
    섹션 2: 고급 사용법
   </h2>
   <p>
    고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.
   </p>
   <a class="link" href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;sca_esv=a0ce93ff23945b86&amp;sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&amp;ei=LnVOZoiAAdTW1e8P16WBsAY&amp;ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&amp;uact=5&amp;oq=BeautifulSoup+%EA%B8%B0%EC%B4

### 태그 찾기

* 계층구조에 맞게 찾기

In [4]:
soup.html

<html>
<head>
<title>내 웹사이트 홈페이지</title>
<link href="style.css" rel="stylesheet" type="text/css"/>
</head>
<body>
<h1>안녕하세요, 환영합니다!</h1>
<p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>
<div class="section" id="section1">
<h2>섹션 1: BeautifulSoup 기초</h2>
<p>BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.</p>
<ul>
<li>HTML 파싱</li>
<li>태그 검색</li>
<li>데이터 추출</li>
</ul>
</div>
<div class="section" id="section2">
<h2>섹션 2: 고급 사용법</h2>
<p>고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.</p>
<a class="link" href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;sca_esv=a0ce93ff23945b86&amp;sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&amp;ei=LnVOZoiAAdTW1e8P16WBsAY&amp;ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&amp;uact=5&amp;oq=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;gs_lp=Egxnd3Mtd2l6LXNlcnAiFEJlYXV0aWZ1bFNvdXAg6riw7LSIMgQQIxgnMggQABiABBiiBDIIEAAYgAQYogQyCBAAGIAEGKIESLbvBFDw6QRYye0EcAR4AJABAZgBkQGg

* 상위요소.하위요소: 모든 하위요소중 첫번째 요소

In [5]:
soup.head

<head>
<title>내 웹사이트 홈페이지</title>
<link href="style.css" rel="stylesheet" type="text/css"/>
</head>

In [6]:
soup.head.title

<title>내 웹사이트 홈페이지</title>

In [7]:
soup.body

<body>
<h1>안녕하세요, 환영합니다!</h1>
<p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>
<div class="section" id="section1">
<h2>섹션 1: BeautifulSoup 기초</h2>
<p>BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.</p>
<ul>
<li>HTML 파싱</li>
<li>태그 검색</li>
<li>데이터 추출</li>
</ul>
</div>
<div class="section" id="section2">
<h2>섹션 2: 고급 사용법</h2>
<p>고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.</p>
<a class="link" href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;sca_esv=a0ce93ff23945b86&amp;sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&amp;ei=LnVOZoiAAdTW1e8P16WBsAY&amp;ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&amp;uact=5&amp;oq=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;gs_lp=Egxnd3Mtd2l6LXNlcnAiFEJlYXV0aWZ1bFNvdXAg6riw7LSIMgQQIxgnMggQABiABBiiBDIIEAAYgAQYogQyCBAAGIAEGKIESLbvBFDw6QRYye0EcAR4AJABAZgBkQGgAfYDqgEDMC40uAEDyAEA-AEBmAIEoAL-AsICBRAAGIAEmAMAiAYBkgcDMS4zoAe5EQ&amp;sclient=gws-wiz-serp" id="searchLink

In [8]:
soup.body.h1

<h1>안녕하세요, 환영합니다!</h1>

In [9]:
soup.body.p

<p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>

* 가장 첫번째 요소 찾기

In [10]:
soup.p

<p id="intro">
        이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
    </p>

In [11]:
soup.div

<div class="section" id="section1">
<h2>섹션 1: BeautifulSoup 기초</h2>
<p>BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.</p>
<ul>
<li>HTML 파싱</li>
<li>태그 검색</li>
<li>데이터 추출</li>
</ul>
</div>

In [12]:
soup.li

<li>HTML 파싱</li>

# 파일에서 html 로드하기

In [13]:
# 파일로부터 HTML 읽기
with open('1_basic.html', 'r', encoding='utf-8') as file:
    html_content = file.read()

In [14]:
soup = BeautifulSoup(html_content, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   내 웹사이트 홈페이지
  </title>
  <link href="style.css" rel="stylesheet" type="text/css"/>
 </head>
 <body>
  <h1>
   안녕하세요, 환영합니다!
  </h1>
  <p id="intro">
   이 웹사이트는 BeautifulSoup 학습을 위한 예제 페이지입니다. 
        여기에는 여러 가지 HTML 기본 태그들과 속성 및 스타일을 포함되어 있습니다.
  </p>
  <div class="section" id="section1">
   <h2>
    섹션 1: BeautifulSoup 기초
   </h2>
   <p>
    BeautifulSoup는 웹 페이지에서 데이터를 추출하기 위한 파이썬 라이브러리입니다.
   </p>
   <ul>
    <li>
     HTML 파싱
    </li>
    <li>
     태그 검색
    </li>
    <li>
     데이터 추출
    </li>
   </ul>
  </div>
  <div class="section" id="section2">
   <h2>
    섹션 2: 고급 사용법
   </h2>
   <p>
    고급 사용법을 통해 더 효과적으로 데이터를 다룰 수 있습니다.
   </p>
   <a class="link" href="https://www.google.com/search?q=BeautifulSoup+%EA%B8%B0%EC%B4%88&amp;sca_esv=a0ce93ff23945b86&amp;sxsrf=ADLYWIKD3OxW3MwhB0VF77lOtSq2uhVw1w%3A1716417838022&amp;ei=LnVOZoiAAdTW1e8P16WBsAY&amp;ved=0ahUKEwiIz5XcqqKGAxVUa_UHHddSAGYQ4dUDCBA&amp;uact=5&amp;oq=BeautifulSoup+%EA%B8%B0%EC%B4