<a href="https://colab.research.google.com/github/Lukaid/my_notebook/blob/main/BeautifulSoup_%EA%B8%B0%EC%B4%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# BeautifulSoup 기초

## BeautifulSoup 특징
- HTML과 XML 파일에서 데이터를 뽑아내기 위한 파이썬 라이브러리
- HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능
- 다양한 파서(parser)를 선택하여 이용 가능

## HTML 파싱(Parsing)

### 웹페이지 예제 생성

In [None]:
%%writefile example.html
<!DOCTYPE html>
<html lang="ko">
<head>
  <title>Document</title>
</head>
<body>
  <h1>Heading 1</h1>
  <p>Pragraph</p>
  <div>
    <a href="www.google.com">Google</a>
  </div>
  <div class='class1'>
    <p>a</p>
    <a href="www.naver.com">Naver</a>
    <p>b</p>
    <p>c</p>
  </div>
  <div id="id1">
    Example Page
    <p>g</p>
  </div>
</body>
</html>

Overwriting example.html


In [None]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html lang="ko">
<head>
<title>Document</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Pragraph</p>
<div>
<a href="www.google.com">Google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">Naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
    Example Page
    <p>g</p>
</div>
</body>
</html>

In [None]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="ko">
 <head>
  <title>
   Document
  </title>
 </head>
 <body>
  <h1>
   Heading 1
  </h1>
  <p>
   Pragraph
  </p>
  <div>
   <a href="www.google.com">
    Google
   </a>
  </div>
  <div class="class1">
   <p>
    a
   </p>
   <a href="www.naver.com">
    Naver
   </a>
   <p>
    b
   </p>
   <p>
    c
   </p>
  </div>
  <div id="id1">
   Example Page
   <p>
    g
   </p>
  </div>
 </body>
</html>


### 기본적인 HTML 태크 파싱

In [None]:
soup.title

<title>Document</title>

In [None]:
soup.title.name

'title'

In [None]:
soup.title.string

'Document'

In [None]:
soup.title.parent # title을 포함하고있는 상위 태그 반환

<head>
<title>Document</title>
</head>

In [None]:
soup.title.parent.name

'head'

In [None]:
soup.h1

<h1>Heading 1</h1>

In [None]:
soup.p

<p>Pragraph</p>

In [None]:
soup.div

<div>
<a href="www.google.com">Google</a>
</div>

In [None]:
soup.a

<a href="www.google.com">Google</a>

### HTML 태크 검색

- find(): 해당 조건에 맞는 하나의 태그를 가져옴
- find_all(): 해당 조건에 맞는 모든 태그를 가져옴
- select(): CSS 선택자와 같은 형식으로 선택 가능

In [None]:
soup_find = soup.find('div') # div 태그 중 맨 앞에 쓰인걸 찾아라
print(soup_find)

<div>
<a href="www.google.com">Google</a>
</div>


In [None]:
soup_find_all = soup.find_all('div') # div 태그 전부 리스트 형태로 가져와
print(soup_find_all)

[<div>
<a href="www.google.com">Google</a>
</div>, <div class="class1">
<p>a</p>
<a href="www.naver.com">Naver</a>
<p>b</p>
<p>c</p>
</div>, <div id="id1">
    Example Page
    <p>g</p>
</div>]


In [None]:
find_by_id = soup.find_all('div', attrs={'id':'id1'}) # 얘도 리스트
print(find_by_id)

[<div id="id1">
    Example Page
    <p>g</p>
</div>]


In [None]:
find_by_class = soup.find_all('div', attrs={'class':'class1'})
print(find_by_class)

[<div class="class1">
<p>a</p>
<a href="www.naver.com">Naver</a>
<p>b</p>
<p>c</p>
</div>]


In [None]:
print(soup.find('a')) # 얘는 a태그 다 가져와
print(soup.find('a').get('href')) # 얘는 a태그의 href 속성값만 가져와


<a href="www.google.com">Google</a>
www.google.com


In [None]:
soup.find('a').get_text() # 얘는 a태그가 가지고 있는 텍스트만

'Google'

In [None]:
site_names = soup.find_all('a')
for name in site_names:
  print(name)
  print(name.get('href'))
  print(name.get_text())
  print()

<a href="www.google.com">Google</a>
www.google.com
Google

<a href="www.naver.com">Naver</a>
www.naver.com
Naver



In [None]:
id1 = soup.select('div#id1') # css 선택자에 해당하는거 전부 가져와
id1

[<div id="id1">
     Example Page
     <p>g</p>
 </div>]

In [None]:
class1 = soup.select('div.class1')
class1

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">Naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

In [None]:
class1_a = soup.select('div.class1 a') # 하위 태그를 가져올때 
print(class1_a) # 리스트 반환
print(class1_a[0].get('href'))
print(class1_a[0].get_text())

[<a href="www.naver.com">Naver</a>]
www.naver.com
Naver


### 웹페이지 콘텐츠 가져오기

In [None]:
%%writefile anthem.html
<!DOCTYPE html>
<html lang="ko">
<head>
  <title>Document</title>
</head>
<body>
  <div>
    <p id='title'>애국가</p> # 일반적으로 다 이렇게 구성되어 있음
    <p id='content'>
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br />
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br />
    </p>
      <p id='content'>
      강산위에 저 소나무 철갑을 두른듯 바람서리 불변함은 우리 기상일세. <br />
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br />
    </p>
      <p id='content'>
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편달심일세. <br />
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br />
    </p>
      <p id='content'>
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세. <br />
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br />
    </p>
  </div>
</body>
</html>

Writing anthem.html


In [None]:
with open('anthem.html') as fp:
  soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html lang="ko">
<head>
<title>Document</title>
</head>
<body>
<div>
<p id="title">애국가</p> # 일반적으로 다 이렇게 구성되어 있음
    <p id="content">
      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. <br/>
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
      강산위에 저 소나무 철갑을 두른듯 바람서리 불변함은 우리 기상일세. <br/>
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편달심일세. <br/>
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br/>
</p>
<p id="content">
      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세. <br/>
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. <br/>
</p>
</div>
</body>
</html>

In [None]:
title = soup.find('p', attrs={'id':'title'}) # attrs= 생략가능
contents = soup.find_all('p', attrs={'id':'content'})

print(title.get_text())
for content in contents:
  print(content.get_text())

애국가

      동해물과 백두산이 마르고 닳도록 하느님이 보우하사 우리나라 만세. 
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. 


      강산위에 저 소나무 철갑을 두른듯 바람서리 불변함은 우리 기상일세. 
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. 


      가을 하늘 공활한데 높고 구름 없이 밝은 달은 우리 가슴 일편달심일세. 
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. 


      이 기상과 이 맘으로 충성을 다하여 괴로우나 즐거우나 나라 사랑하세. 
      무궁화 삼천리 화려강산 대한사람 대한으로 길이 보전하세. 



### 인터넷 웹페이지 가져오기

In [None]:
url = "http://suanlab.com"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

In [None]:
labels = soup.find_all(['label'])
for label in labels:
  print(label.get_text())

[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3" 칼럼
[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판


In [None]:
labels = soup.select('#wrapper > section > div > div > div > div > div > label') # :nth-child(1) 이런거 지워줘야 됨
for label in labels:
  print(label.get_text())

[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3" 칼럼
[2020-05-20] "인공지능의 보안 위협" 칼럼
[2020-03-04] "데이터 경제 시대" 칼럼
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치" 칼럼
[2019-09-25] "유튜브 탄생과 크리에이터 시대" 칼럼
[2019-09-04] "농업으로 들어간 인공지능" 칼럼
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가" 칼럼
[2018-12-30] "파이썬으로 텍스트 분석하기" 책 출판
