# Beautiful Soup
- 지난 시간에 HTML 기본 태그 요소들과 Beautiful Soup이라는 파이썬 라이브러리를 간단히 맛보기만 하고 넘어갔는데요.
- 마지막 시간에 빠진 친구들도 있고 해서 뷰티풀 솝 라이브러리 부분만 다시 한 번 간략히 살펴보고 넘어가도록 할게요.
- 모든 웹페이지는 기본적으로 HTML 문서를 토대로 구성되어 있고, 이 문서들은 인터넷 통신을 통해서 전달되어 우리가 사용하는 브라우저가 해석해 우리에게 화면상에 보여주는 것이라고 했었죠.
- 기본적으로 크롤링, 스크래핑의 개념은 HTML 문서를 읽고 우리에게 필요한 데이터가 어디에 위치해 있는지를 지정해서 그 부분의 데이터를 자동으로 반복해 긁어 수집하는 과정에서 시작된다고 했습니다.
- 뷰티풀 솝은 파이썬에서 이러한 html 문서를 텍스트화하고 태그들을 쉽게 찾아내 우리에게 제공해주는 기능들을 갖고 있는 라이브러리라고 할 수 있습니다.

In [None]:
!pip install bs4

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting bs4
  Downloading bs4-0.0.1.tar.gz (1.1 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: bs4
  Building wheel for bs4 (setup.py) ... [?25l[?25hdone
  Created wheel for bs4: filename=bs4-0.0.1-py3-none-any.whl size=1257 sha256=1dc1af23ba425ce8c8a4bd987de419cdaca50b229f2938038f32b8af0dd0c331
  Stored in directory: /root/.cache/pip/wheels/25/42/45/b773edc52acb16cd2db4cf1a0b47117e2f69bb4eb300ed0e70
Successfully built bs4
Installing collected packages: bs4
Successfully installed bs4-0.0.1


In [None]:
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
# 예제 HTML 입력
ex1 = '''
<html>
  <head>
    <title> HTML 예제 </title>
  </head>
  <body>
    <p align="center"> <b> text1 </b> <br> text22 </p>
    <p align="right"> text2 </p>
    <p align="left"> test3 </p>
    <img src="c:\\temp\\image\\무제.png">
  </body>
</html> '''

In [None]:
# HTML 태그를 Beautiful Soup에 넘겨 파싱(분석)한 후, 그 결과를 soup이라는 변수에 저장
soup = BeautifulSoup(ex1, 'html.parser')

- find(): 조건을 만족하는 태그 하나만 가져오는 함수

In [None]:
# title 태그를 찾아보자
soup.find('title')

<title> HTML 예제 </title>

In [None]:
# p 태그를 찾아보자
soup.find('p')

<p align="center"> text1 </p>

In [None]:
# 특정 속성값을 지닌 p 태그를 찾아보자
soup.find('p', align='center')

<p align="center"> text1 </p>

In [None]:
soup.find('p', align='right')

<p align="right"> text2 </p>

In [None]:
soup.find('p', align='left')

<p align="left"> test3 </p>

- find_all(): 해당하는 태그가 여러 개 있을 경우 한꺼번에 가져오는 함수

In [None]:
soup.find_all('p')

[<p align="center"> text1 </p>,
 <p align="right"> text2 </p>,
 <p align="left"> test3 </p>]

In [None]:
soup.find_all(['p', 'img'])

[<p align="center"> text1 </p>,
 <p align="right"> text2 </p>,
 <p align="left"> test3 </p>,
 <img src="c:\temp\image\무제.png"/>]

- 문장 가져오기

In [None]:
txt = soup.find('p')
txt.string

In [None]:
txt2 = soup.find_all('p')
for i in txt2:
  print(i.string)

None
 text2 
 test3 


In [None]:
txt = soup.find('p')
txt.get_text()

'  text1   text22 '

In [None]:
txt3 = soup.find_all('p')
for i in txt3:
  print(i.get_text())

  text1   text22 
 text2 
 test3 


### ex2

In [None]:
ex2 = '''
<html>
  <head>
    <h1> 사야할 과일
  </head>
  <body>
      <h1> 시장가서 사야할 과일 목록
      <div>
        <p id='fruits1' class='name1' title='바나나'> 바나나
          <span class='price'> 3000원 </span>
          <span class='count'> 10개 </span>
          <span class='store'> 바나나 가게 </span>
          <a href='https://www.banana.com'> banana.com </a>
        </p>
      </div>
      <div>
        <p id='fruits2' class='name2' title='체리'> 체리
          <span class='price'> 100원 </span>
          <span class='count'> 50개 </span>
          <span class='store'> 체리 가게 </span>
          <a href='https://www.cherry.com'> cherry.com </a>
        </p>
      </div>
      <div>
        <p id='fruits3' class='name3' title='오렌지'> 오렌지
          <span class='price'> 500원 </span>
          <span class='count'> 20개 </span>
          <span class='store'> 오렌지 가게 </span>
          <a href='https://www.orange.com'> orange.com </a>
        </p>
      </div>
  </body>
</html>'''

In [None]:
# HTML 태그를 Beautiful Soup에 넘겨 파싱(분석)한 후, 그 결과를 soup2라는 변수에 저장
soup2 = BeautifulSoup(ex2, 'html.parser')

- select(): 다양한 속성에 맞는 태그를 찾아오는 함수
- select('태그이름')

In [None]:
soup2.select('p')

[<p class="name1" id="fruits1" title="바나나"> 바나나
           <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나 가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>,
 <p class="name2" id="fruits2" title="체리"> 체리
           <span class="price"> 100원 </span>
 <span class="count"> 50개 </span>
 <span class="store"> 체리 가게 </span>
 <a href="https://www.cherry.com"> cherry.com </a>
 </p>,
 <p class="name3" id="fruits3" title="오렌지"> 오렌지
           <span class="price"> 500원 </span>
 <span class="count"> 20개 </span>
 <span class="store"> 오렌지 가게 </span>
 <a href="https://www.orange.com"> orange.com </a>
 </p>]

- select('.클래스명')

In [None]:
soup2.select('.name3')

[<p class="name3" id="fruits3" title="오렌지"> 오렌지
           <span class="price"> 500원 </span>
 <span class="count"> 20개 </span>
 <span class="store"> 오렌지 가게 </span>
 <a href="https://www.orange.com"> orange.com </a>
 </p>]

- select('상위태그 > 하위태그 > 하위태그')

In [None]:
soup2.select('div > p > span')

[<span class="price"> 3000원 </span>,
 <span class="count"> 10개 </span>,
 <span class="store"> 바나나 가게 </span>,
 <span class="price"> 100원 </span>,
 <span class="count"> 50개 </span>,
 <span class="store"> 체리 가게 </span>,
 <span class="price"> 500원 </span>,
 <span class="count"> 20개 </span>,
 <span class="store"> 오렌지 가게 </span>]

In [None]:
soup2.select('div > p > span')[0]

<span class="price"> 3000원 </span>

- select('상위태그.클래스이름 > 하위태그.클래스이름')

In [None]:
soup2.select('p.name2 > span.count')

[<span class="count"> 50개 </span>]

- select('#아이디명')

In [None]:
soup2.select('#fruits1')

[<p class="name1" id="fruits1" title="바나나"> 바나나
           <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나 가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>]

- select('#아이디명 > 태그명.클래스명')

In [None]:
soup2.select('#fruits1 > span.count')

[<span class="count"> 10개 </span>]

- soup.select('태그명[속성1=값1]')

In [None]:
soup2.select('a[href]')

[<a href="https://www.banana.com"> banana.com </a>,
 <a href="https://www.cherry.com"> cherry.com </a>,
 <a href="https://www.orange.com"> orange.com </a>]

In [None]:
soup2.select('a[href]')[0]

<a href="https://www.banana.com"> banana.com </a>

### 연습
- 한국정보인재개발원에서 제공하는 연습코드

In [None]:
with open("/content/bs_test.html", encoding="ISO-8859-1") as test:
    soup = BeautifulSoup(test, 'html.parser')

## 1. soup 변수에서 img 태그만 모두 추출하기

In [None]:
img = soup.find('div', 'flex_grid credits search_results').find_all('img')
print(len(img))

100


```
for i in img:
  img_url = i['src']
  print(img_url)
```

- https://cdn.pixabay.com/photo/2017/02/20/18/03/cat-2083492__340.jpg
- https://cdn.pixabay.com/photo/2016/03/28/12/35/cat-1285634__340.png
- https://cdn.pixabay.com/photo/2014/04/13/20/49/cat-323262__340.jpg
- https://cdn.pixabay.com/photo/2013/05/30/18/21/tabby-114782__340.jpg
- https://cdn.pixabay.com/photo/2017/11/14/13/06/kitty-2948404__340.jpg
- https://cdn.pixabay.com/photo/2018/07/31/22/08/lion-3576045__340.jpg
- https://cdn.pixabay.com/photo/2017/07/24/19/57/tiger-2535888__340.jpg
- https://cdn.pixabay.com/photo/2018/01/25/14/12/nature-3106213__340.jpg
- https://cdn.pixabay.com/photo/2016/06/14/00/14/cat-1455468__340.jpg

## 2. 2017년과 2018년에 업로드된 자료만 찾기


- 리스트명.append('요소') : 리스트 요소 추가
- 조건문 - if 문
```
if 참 또는 거짓을 가지는 값:
    조건이 참일 때 실행되는 명령들
elif 참 또는 거짓을 가지는 값:
    조건이 참일 때 실행되는 명령들
else:
    상기한 조건들이 모두 거짓일 때 실행되는 명령들
```
```
if a in x:
    print('x 리스트 안에 a가 있다')
elif b in x:
    print('x 리스트 안에 b가 있다')
```


In [None]:
img_src_2017 = []
img_src_2018 = []

for i in img :
    img_url = i['src']

    if '2017' in img_url:
      img_src_2017.append(img_url)
    elif '2018' in img_url:
      img_src_2018.append(img_url)

In [None]:
img_src_2018

['https://cdn.pixabay.com/photo/2018/07/31/22/08/lion-3576045__340.jpg',
 'https://cdn.pixabay.com/photo/2018/03/26/20/49/tiger-3264048__340.jpg',
 'https://cdn.pixabay.com/photo/2018/01/25/14/12/nature-3106213__340.jpg',
 'https://cdn.pixabay.com/photo/2018/01/28/12/37/cat-3113513__340.jpg',
 'https://cdn.pixabay.com/photo/2018/05/04/16/50/cat-3374422__340.jpg',
 'https://cdn.pixabay.com/photo/2018/04/13/21/24/lion-3317670__340.jpg',
 'https://cdn.pixabay.com/photo/2018/07/08/14/16/cat-3523992__340.jpg',
 'https://cdn.pixabay.com/photo/2018/01/04/18/58/cats-3061372__340.jpg',
 'https://cdn.pixabay.com/photo/2018/11/29/23/34/cat-3846780__340.jpg',
 'https://cdn.pixabay.com/photo/2018/07/13/10/20/cat-3535404__340.jpg',
 'https://cdn.pixabay.com/photo/2018/05/03/22/34/lion-3372720__340.jpg',
 'https://cdn.pixabay.com/photo/2018/06/03/08/57/cat-3449999__340.jpg',
 'https://cdn.pixabay.com/photo/2018/03/27/17/25/cat-3266673__340.jpg',
 'https://cdn.pixabay.com/photo/2018/03/26/02/05/cat-32

In [None]:
print('2017 데이터는 총 %s건 입니다' %len(img_src_2017))
for i in img_src_2017:
  print(i)

2017 데이터는 총 20건 입니다
https://cdn.pixabay.com/photo/2017/02/20/18/03/cat-2083492__340.jpg
https://cdn.pixabay.com/photo/2017/11/14/13/06/kitty-2948404__340.jpg
https://cdn.pixabay.com/photo/2017/07/24/19/57/tiger-2535888__340.jpg
https://cdn.pixabay.com/photo/2017/11/06/09/53/animal-2923186__340.jpg
https://cdn.pixabay.com/photo/2017/07/25/01/22/cat-2536662__340.jpg
https://cdn.pixabay.com/photo/2017/05/17/12/42/tiger-2320819__340.jpg
https://cdn.pixabay.com/photo/2017/11/09/21/41/cat-2934720__340.jpg
https://cdn.pixabay.com/photo/2017/12/09/21/33/sunset-3008779__340.jpg
https://cdn.pixabay.com/photo/2017/03/14/14/49/cat-2143332__340.jpg
https://cdn.pixabay.com/photo/2017/08/23/08/33/cats-eyes-2671903__340.jpg
https://cdn.pixabay.com/photo/2017/12/11/15/34/lion-3012515__340.jpg
https://cdn.pixabay.com/photo/2017/04/30/18/33/cat-2273598__340.jpg
https://cdn.pixabay.com/photo/2017/11/13/07/14/cat-eyes-2944820__340.jpg
https://cdn.pixabay.com/photo/2017/10/30/19/41/puma-2903312__340.jpg
htt

In [None]:
print("2018년 데이터는 총 %s건 입니다" %len(img_src_2018))
for i in img_src_2018 :
    print(i)

2018년 데이터는 총 18건 입니다
https://cdn.pixabay.com/photo/2018/07/31/22/08/lion-3576045__340.jpg
https://cdn.pixabay.com/photo/2018/03/26/20/49/tiger-3264048__340.jpg
https://cdn.pixabay.com/photo/2018/01/25/14/12/nature-3106213__340.jpg
https://cdn.pixabay.com/photo/2018/01/28/12/37/cat-3113513__340.jpg
https://cdn.pixabay.com/photo/2018/05/04/16/50/cat-3374422__340.jpg
https://cdn.pixabay.com/photo/2018/04/13/21/24/lion-3317670__340.jpg
https://cdn.pixabay.com/photo/2018/07/08/14/16/cat-3523992__340.jpg
https://cdn.pixabay.com/photo/2018/01/04/18/58/cats-3061372__340.jpg
https://cdn.pixabay.com/photo/2018/11/29/23/34/cat-3846780__340.jpg
https://cdn.pixabay.com/photo/2018/07/13/10/20/cat-3535404__340.jpg
https://cdn.pixabay.com/photo/2018/05/03/22/34/lion-3372720__340.jpg
https://cdn.pixabay.com/photo/2018/06/03/08/57/cat-3449999__340.jpg
https://cdn.pixabay.com/photo/2018/03/27/17/25/cat-3266673__340.jpg
https://cdn.pixabay.com/photo/2018/03/26/02/05/cat-3261420__340.jpg
https://cdn.pixaba

In [None]:
import requests
from bs4 import BeautifulSoup as bs

In [None]:
page = requests.get("http://www.heritage.go.kr/heri/cul/culSelectViewList.do?gbn=2&pageNo=1_1_1_0&searchCondition=&region=1&s_kdcd=11&ccbaCndt=&stCcbaAsno=&endCcbaAsno=&stCcbaAsdt=&endCcbaAsdt=&s_ctcd=00&ccbaPcd1=99")
heritage = bs(page.text, "html.parser")

In [None]:
names = heritage.select('ul.search-result li > a > strong')

for index, name in enumerate(names, 1):
    name = name.text.strip()
    name = name.split('(')
    name = name[0].strip()
    print("{} 번째 국보의 이름: {}".format(index, name))

1 번째 국보의 이름: 서울 숭례문
2 번째 국보의 이름: 서울 원각사지 십층석탑
3 번째 국보의 이름: 서울 북한산 신라 진흥왕 순수비
4 번째 국보의 이름: 여주 고달사지 승탑
5 번째 국보의 이름: 보은 법주사 쌍사자 석등
6 번째 국보의 이름: 충주 탑평리 칠층석탑
7 번째 국보의 이름: 천안 봉선홍경사 갈기비
8 번째 국보의 이름: 보령 성주사지 대낭혜화상탑비
9 번째 국보의 이름: 부여 정림사지 오층석탑
10 번째 국보의 이름: 남원 실상사 백장암 삼층석탑
11 번째 국보의 이름: 익산 미륵사지 석탑
12 번째 국보의 이름: 구례 화엄사 각황전 앞 석등


In [None]:
img_src = heritage.select('span.img-wrap > img')
print(len(img_src))

12


In [None]:
for c in img_src:
  img_url = c['src']
  print(img_url)

https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/2021042017434700.JPG
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1611450.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1611462.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612035.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612140.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612146.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612207.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612216.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/2021051411044001.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612339.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/2021030208283100.jpg
https://www.heritage.go.kr/unisearch/images/national_treasure/thumb/1612404.jpg


In [None]:
import pandas as pd

In [None]:
names = heritage.select('ul.search-result li > a > strong')
titles = []

for index, name in enumerate(names, 1):
		print("{} 번째 국보의 이름: {}".format(index, name.text))

1 번째 국보의 이름: 
	                                            	서울 숭례문
	                                                
	                                                	(서울 崇禮門)
	                                                
	                                            
2 번째 국보의 이름: 
	                                            	서울 원각사지 십층석탑
	                                                
	                                                	(서울 圓覺寺址 十層石塔)
	                                                
	                                            
3 번째 국보의 이름: 
	                                            	서울 북한산 신라 진흥왕 순수비
	                                                
	                                                	(서울 北漢山 新羅 眞興王 巡狩碑)
	                                                
	                                            
4 번째 국보의 이름: 
	                                            	여주 고달사지 승탑
	                                                
	          

- strip() 함수: 문자열의 양쪽에 있는 공백을 제거하는 함수
- split() 함수: 문자열을 특정 구분자를 기준으로 분할하는 함수

In [None]:
names = heritage.select('ul.search-result li > a > strong')
titles = []
for name in names:
    title = name.text.strip()
    title = title.split('(')
    title = title[0].strip()
    titles.append(title)

In [None]:
titles

['서울 숭례문',
 '서울 원각사지 십층석탑',
 '서울 북한산 신라 진흥왕 순수비',
 '여주 고달사지 승탑',
 '보은 법주사 쌍사자 석등',
 '충주 탑평리 칠층석탑',
 '천안 봉선홍경사 갈기비',
 '보령 성주사지 대낭혜화상탑비',
 '부여 정림사지 오층석탑',
 '남원 실상사 백장암 삼층석탑',
 '익산 미륵사지 석탑',
 '구례 화엄사 각황전 앞 석등']

In [None]:
img_src = heritage.select('span.img-wrap > img')
imgs = []

for c in img_src:
    img_url = c['src']
    imgs.append(img_url)

In [None]:
df = pd.DataFrame()
df['이름'] = titles
df['이미지 주소'] = imgs

NameError: ignored

In [None]:
df.head()

Unnamed: 0,titles,imgs
0,서울 숭례문,https://www.heritage.go.kr/unisearch/images/na...
1,서울 원각사지 십층석탑,https://www.heritage.go.kr/unisearch/images/na...
2,서울 북한산 신라 진흥왕 순수비,https://www.heritage.go.kr/unisearch/images/na...
3,여주 고달사지 승탑,https://www.heritage.go.kr/unisearch/images/na...
4,보은 법주사 쌍사자 석등,https://www.heritage.go.kr/unisearch/images/na...


In [None]:
df.to_excel('library_heritage.xlsx', sheet_name='Sheet1')