## 파싱(Parsing)

### 파싱(Parsing) 이란?

- 가공되지 않은 데이타(예:html / xml / json... 소스)에서 원하는 정보(대부분 문자열)를 추출하는 작업

- 파싱 모듈 : BeautifulSoup, Selenium ...

### 파싱 작업 과정

(1) requests 등 모듈을 이용하여 url에 접근 => html 소스 파이썬 데이타화

(2) beautifulSoup 객체화

(3) beautifulSoup 함수를 이용하여 필요한 부분 추출

(4) 리스트화, 데이타프레임화, csv 파일 저장

In [1]:
# pip list

In [2]:
# # 0) 모듈 임포트
import requests
from bs4 import BeautifulSoup as bs

In [3]:
# (1) 웹페이지 접근 res > 
# 샘플 url > html 소스 > 문자열로 반환
# 예제 소스
# 국립고궁박물관 > 이용안내 > 관람안내


#객체화
url = 'https://www.gogung.go.kr/viewInfo.do'
res = requests.get(url)

# html 텍스트 소스 - raw data.
html_str = res.text

# print(html_str)

In [4]:
# BeautifulSoup 객체화
# soup 변수명 = BeautifulSoup(html 소스, 해석기('html.parser'/'html5'/'lxml'/'xml') 참고페이지 making soup)
soup = bs(html_str, 'html.parser')

print(type(soup))
soup

<class 'bs4.BeautifulSoup'>


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=0.3, user-scalable=yes" name="viewport"/>
<!-- <link rel="icon" href="/img/gogung.ico" type="image/x-icon"/> -->
<link href="/img/favicon_gogung.ico" rel="icon" type="image/x-icon"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>Home&gt;이용안내&gt;관람안내|국립고궁박물관</title>
<!-- ì´ì  : 2018.08.09
	<link rel="stylesheet" type="text/css" href="/css/common.css" />	
	<link rel="stylesheet" type="text/css" href="/css/owl.carousel.css" />
	<link rel="stylesheet" type="text/css" href="/css/base.css" />
	<script type="text/javascript" src="/js/jquery-1.11.1.js"></script>
	<script type="text/javascript" src="/js/common.js"></script>
	<script type="text/javascript" src="/js/owl.carousel.js"></script>
	-->
<link href="/css/common_kr.css" rel="stylesheet" type=

## BS4의 도트(.)을 이용한 태그 찾기

- soup변수명.태그1.태그2...
- next_sibling : 형제 요소 정보 추출
- parent : 부모 요소 정보 추출
- string/text : 태그안에 삽입된 텍스트 추출
- name : 태그 요소 이름
- attrs : 속성 추출 => 딕셔너리, 태그명[속성]으로도 가능
- get(속성) : 속성값 출력

In [5]:
# (3) 도트를 이용한 태그요소 찾기
# h1 태그 찾기
print(soup.h1)

# h1 태그안의 a 태그 안의 img 찾기(체인기법)
print(soup.h1.a.img)


# h1 태그 안의 a 태그 안의 img 태그의 태그이름, src속성값 출력하기
print(soup.h1.a.img.name)
print(soup.h1.a.img['src'])
print(soup.h1.a.img.get('src'))


# 구분선
print('-' * 100) 
soup

<h1><a href="/main.do"><img alt="국립고궁박물관로고" src="/img/logo.png"/></a></h1>
<img alt="국립고궁박물관로고" src="/img/logo.png"/>
img
/img/logo.png
/img/logo.png
----------------------------------------------------------------------------------------------------


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=0.3, user-scalable=yes" name="viewport"/>
<!-- <link rel="icon" href="/img/gogung.ico" type="image/x-icon"/> -->
<link href="/img/favicon_gogung.ico" rel="icon" type="image/x-icon"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>Home&gt;이용안내&gt;관람안내|국립고궁박물관</title>
<!-- ì´ì  : 2018.08.09
	<link rel="stylesheet" type="text/css" href="/css/common.css" />	
	<link rel="stylesheet" type="text/css" href="/css/owl.carousel.css" />
	<link rel="stylesheet" type="text/css" href="/css/base.css" />
	<script type="text/javascript" src="/js/jquery-1.11.1.js"></script>
	<script type="text/javascript" src="/js/common.js"></script>
	<script type="text/javascript" src="/js/owl.carousel.js"></script>
	-->
<link href="/css/common_kr.css" rel="stylesheet" type=

In [9]:
## BS4의 도트(.)을 이용한 태그 찾기
```
# 자식요소 찾기 
soup변수명.태그1.태그2...

# 형제 요소 찾기
next_sibling 

# 부모 요소 찾기 
parent


string/text : 태그안에 삽입된 텍스트 추출
name : 태그 요소 이름
attrs : 속성 추출 => 딕셔너리, 태그명[속성]으로도 가능
get(속성) : 속성값 출력

SyntaxError: invalid syntax (3283750541.py, line 2)

In [8]:
# 문자열 연산자 +, *
user = '홍길동'
age = '22살'
print(user + age)
print('-' *100)
soup

홍길동22살
----------------------------------------------------------------------------------------------------


<!DOCTYPE HTML>

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=0.3, user-scalable=yes" name="viewport"/>
<!-- <link rel="icon" href="/img/gogung.ico" type="image/x-icon"/> -->
<link href="/img/favicon_gogung.ico" rel="icon" type="image/x-icon"/>
<meta content="IE=edge,chrome=1" http-equiv="X-UA-Compatible"/>
<title>Home&gt;이용안내&gt;관람안내|국립고궁박물관</title>
<!-- ì´ì  : 2018.08.09
	<link rel="stylesheet" type="text/css" href="/css/common.css" />	
	<link rel="stylesheet" type="text/css" href="/css/owl.carousel.css" />
	<link rel="stylesheet" type="text/css" href="/css/base.css" />
	<script type="text/javascript" src="/js/jquery-1.11.1.js"></script>
	<script type="text/javascript" src="/js/common.js"></script>
	<script type="text/javascript" src="/js/owl.carousel.js"></script>
	-->
<link href="/css/common_kr.css" rel="stylesheet" type=

# 구글의 개발자 모드를 이용한 요소 선택
- 구굴의 개발자 모드로 변경 
- [f12], ctrl + shift + i

- 요소 찾기
- 요소 복사

In [31]:
# 첫번째 h4 태그의 텍스트만 출력하여라 (단점 : 첫번째 태그를 찾아진다.)
print(soup.h4)
print(soup.h4.text, soup.h4.string) # 태그명이 사라짐, 둘다 같은 결과
print('-'*100)

# ol > li 첫 번째 태그 찾기 (ul은 순서x, ol은 순서o)
print(soup.ol.li)
print(soup.ol.li.text, '\n')

print('-'*100, '\n')

# ol > li 두 번째 태그 찾기 (공백도 형제로 인식을 함)
print(soup.ol.li.next_sibling, '\n') # 공백
print(soup.ol.li.next_sibling.text, '\n') #공백

print('-'*100)

# ol > li 두 번째 태그 찾기 (공백도 형제로 인식을 함)
print(soup.ol.li.next_sibling.next_sibling, '\n') # 실제로 두번째 태그
print(soup.ol.li.next_sibling.next_sibling.text, '\n') 

print('-'*100, '\n')


# 첫번째 td 요소 
print(soup.td, '\n') 
print(soup.td.text, '\n') 

print('-'*100)


# 첫번째 td 요소의 부모 요소 찾기parent (많이 쓰지않음)
print(soup.td.parent,'\n') 
print('-'*100)
print(soup.td.parent.name, '\n') # name, 부모 = tr 태그명만 나옴
print('-'*100)
print(soup.td.parent.text, '\n') # 태그 전체 사라짐. 텍스트만 출력.

print('-'*100)

<h4>자동 로그아웃 안내</h4>
자동 로그아웃 안내 자동 로그아웃 안내
----------------------------------------------------------------------------------------------------
<li>1. 전시실에서 플래시, 삼각대와 셀카봉 등을 이용한 사진촬영과 상업적 용도를 위한 촬영은 금지되어 있습니다.</li>
1. 전시실에서 플래시, 삼각대와 셀카봉 등을 이용한 사진촬영과 상업적 용도를 위한 촬영은 금지되어 있습니다. 

---------------------------------------------------------------------------------------------------- 


 


 

----------------------------------------------------------------------------------------------------
<li>2. 유물 보호를 위해 일부 진열장의 조명을 낮추었으니 이 점을 양해해 주시기 바랍니다.</li> 

2. 유물 보호를 위해 일부 진열장의 조명을 낮추었으니 이 점을 양해해 주시기 바랍니다. 

---------------------------------------------------------------------------------------------------- 

<td>10:00~18:00 (수·토요일은 10:00~21:00) <br/>
<span class="style5">※ 입장은 마감 1시간 전까지</span></td> 

10:00~18:00 (수·토요일은 10:00~21:00) 
※ 입장은 마감 1시간 전까지 

----------------------------------------------------------------------------------------------------
<tr>
<th scope="row">관람 시간 </th>
<td>10:00~18

## BS4의 find 스타일의 메소드
- soup 변수명.메소드(옵션
- find(태그명  >  태그 1개
- find_all  >  태그 리스트
- find(id='아이디명')  >  태그 1개
- find(class_ ='클래스명')  >  태그 1개
- find_all(class_ = '클래스명')  >  리스트
- find(attrs={속성:값})  > 태그 1개
- find_all(attrs={속성:값})  > 리스트

In [38]:
# (3) find(), find_all() 태그 요소 찾기 - python의 리스트 문법 이해 필요
# 첫번째 img 태그 찾기(src)

print(soup.find('img'))
print(soup.find('img').attrs) # (속성) attribute 약자, 속성과 값이 dic 형태로 출력.{속성 : 값...}
print(soup.find('img')['alt']) # alt는 이미지에 대한 보충설명
print(soup.find('img')['src']) # src부분만 출력 (상대경로)


# 이미지 주소를 웹상 절대경로로 (base url을 사용해서 이미지 획득)
base_url = 'https://www.gogung.go.kr'
print(base_url + soup.find('img')['src']) # + 연결 연산자

<img alt="국립고궁박물관로고" src="/img/logo.png"/>
{'src': '/img/logo.png', 'alt': '국립고궁박물관로고'}
국립고궁박물관로고
/img/logo.png
https://www.gogung.go.kr/img/logo.png


In [50]:
# 모든 img 태그를 찾아라
# find_all  >  리스트
img_list = soup.find_all('img')

In [63]:
print(type(img_list), len(img_list))  # ResultSet = list

print('-' * 100, '\n')

# for문을 이용하여 개별 요소 출력
for img in img_list:
    print(img)
    
print('-' * 100, '\n')
    
# for i in range 이용하여 개별 요소 출력
for i in range(len(img_list)):
    print(i, img_list[i]) 
    
    
print('-' * 100, '\n')


# 모든 img 이미지에 절대경로를 포함해서 출력
base_url = 'https://www.gogung.go.kr/'
for img in img_list:
    print(base_url + img['src'])    

<class 'bs4.element.ResultSet'> 9
---------------------------------------------------------------------------------------------------- 

<img alt="국립고궁박물관로고" src="/img/logo.png"/>
<img src="/img/innogov.jpg"/>
<img alt="영친왕비적의 이미지 입니다." src="/img/sub_img_01.jpg"/>
<img src="/img/quick/1.png"/>
<img src="/img/quick/2.png"/>
<img src="/img/quick/3.png"/>
<img src="/img/quick/4.png"/>
<img alt="국립고궁박물관 로고 이미지" src="/img/logo_btm.png"/>
<img alt="(사)한국장애인단체총연합회 한국웹접근성인증평가원 웹 접근성 우수사이트 인증마크 (WA인증마크)" src="/img/footer_banner_03.png">
</img>
---------------------------------------------------------------------------------------------------- 

0 <img alt="국립고궁박물관로고" src="/img/logo.png"/>
1 <img src="/img/innogov.jpg"/>
2 <img alt="영친왕비적의 이미지 입니다." src="/img/sub_img_01.jpg"/>
3 <img src="/img/quick/1.png"/>
4 <img src="/img/quick/2.png"/>
5 <img src="/img/quick/3.png"/>
6 <img src="/img/quick/4.png"/>
7 <img alt="국립고궁박물관 로고 이미지" src="/img/logo_btm.png"/>
8 <img alt="(사)한국장애인단체총연합회 한국웹접근성인증평가원 웹

In [76]:
# (5) 특정 아이디로 요소 찾기
#  find(id='아이디명') > 태그 1개
# <태그명 id ='아이디명'> ... </태그>

# content 아이디 값으로 지정된 요소 찾기
print(soup.find(id='content')) # content 전체



<div class="content" id="content">
<div class="tit">
<h3>관람안내 </h3>
<p class="navi"><span class="float-left">National Palace Museum of Korea</span> <span class="float-right">Home &gt; 이용안내  &gt; <strong>관람안내</strong></span></p>
</div>
<div class="section">
<p class="top_text">국립고궁박물관의 <strong>관람시간 및 요금</strong>을 알려드립니다.</p>
</div>
<div class="section">
<h4>관람 요금</h4>
<p>국립고궁박물관은 서민가계부담경감 및 문화소비 양극화 해소차원에서 별도의 안내가 있기 전까지 무료관람을 실시합니다.</p>
</div>
<div class="section">
<h4>관람시간</h4>
<table class="tbl_style" summary="평일 주말 공휴일 휴관으로 구성된 관람시간 안내 표 입니다.">
<caption>관람시간 안내</caption>
<colgroup>
<col width="173px"/>
<col width="*"/>
</colgroup>
<tbody>
<tr>
<th scope="row">관람 시간 </th>
<td>10:00~18:00 (수·토요일은 10:00~21:00) <br/>
<span class="style5">※ 입장은 마감 1시간 전까지</span></td>
<td> </td>
</tr>
</tbody>
</table>
<!--p>※ 야간특별관람 기 간: ‘16. 9. 24.(토)~10. 28.(금) </p-->
<p>※ 2021년 휴관 없는 박물관 시행 관련 시설 보수 및 전시물 교체‧정비에 필요한 임시 휴관일 운영<br/>
      - <strong>휴관일 : 2022. 1. 1.(신정) / 2. 1.(설날 당일) / 9. 10.(추석 당일)</s

In [79]:

# div#content  >>  <li>
# 아이디 값이 content인 div 태그 안의 모든 li를 찾기.
li_list = soup.find(id='content').find_all('li')
print(len(li_list))

15


In [80]:
# 글자 부분만 출력
for li in li_list:
    print(li.text)

1. 전시실에서 플래시, 삼각대와 셀카봉 등을 이용한 사진촬영과 상업적 용도를 위한 촬영은 금지되어 있습니다.
2. 유물 보호를 위해 일부 진열장의 조명을 낮추었으니 이 점을 양해해 주시기 바랍니다.
3. 어린이가 뛰어 놀거나 큰소리를 내지 않도록 보살펴 주시기 바랍니다.
4. 휴대폰은 진동 모드로 전환해 주시고 주변 관람객에게 혐오감이나 불편을 주는 행위를 해서는 안 됩니다.
5. 쾌적한 박물관 관람환경을 위해 음식물 반입은 금지됩니다.
6. 모두가 자랑스러운 문화유산을 보살피는 마음으로 관람질서에 협조하여 주시기 바랍니다.
 별 다섯개(매우만족)
 별 네개(만족)
 별 세개(보통)
 별 두개(불만족)
 별 한개(매우불만족)

확인

담당부서: 전시홍보과
담 당 자: 이상백
전화번호: 02-3701-7643


In [87]:
# (6) 클래스명으로 찾기
# find(class_='클래스명')  >> 태그1개
# find_all(class_='클래스명')  >> 태그 리스트
# <태그명 class='클래스명1 클래스명2 ....'>....</태그>


# . section 클래스
soup.find(class_='section')

# .section 클래스 안의 p 태그 안의 strong 태그 안의 삽입된 텍스트
print(soup.find(class_='section').p.strong)
print(soup.find(class_='section').p.strong.text)

<strong>관람시간 및 요금</strong>
관람시간 및 요금


In [89]:
# .section 클래스 모두 찾기 > 리스트로 반환
section_list = soup.find_all(class_='section')
print(len(section_list))

5


In [91]:
# 전시실 정규해설 내용 부분만 출력
section_list[3]

<br/>

In [94]:
# 전시실 정규해설 내용 중 p태그만 출력
section_list[3].p

<p>국립고궁박물관은 2008. 6. 1(일)부터 전시실 정규해설을 실시하고 있습니다.<br/>
				 상설전시 중인 조선의 국왕, 조선의 궁궐, 왕실의 생활 등 품격 있는 왕실 문화 유물의 설명을 들으실 수 있습니다.<br/>
				 전시해설은 1일 2회(오전 10:00 / 오후 15:00) 한국어 해설을 진행합니다.<br/>
				 미취학 아동 또는 초등학생의 경우 보호자 동반 시 해설 참여가 가능합니다.<br/>
				 전시해설을 듣고자 하시는 분께서는 안내데스크에 문의하여 주시기 바랍니다.<br/>
				 전시해설은 박물관 사정이나 관람 환경에 따라 변동될 수 있습니다.</p>

In [103]:
# (7) 특정 속성에 특정 값으로 지정된 요소 찾기 :

# find(attrs ={속성 : 값})  > 태그 1개
# find_all(attrs ={속성 : 값})  > 리스트
# find_all('태그명', attrs ={속성 : 값})  
# <태그 속성=값> ... </태그>

# 모든 a 태그 찾기
soup.find_all('a')

# a 태그의 href 속성값이 '#'인 요소 찾기.
soup.find_all(attrs ={'href':'#'})


# find_all('태그명', attrs ={속성 : 값})  
a_list = soup.find_all('a', attrs={'href':'#'})
print(len(a_list))

[<a href="#">LANGUAGE</a>,
 <a class="btn_schedule" href="#" onclick="OpenEduCal();">일정</a>,
 <a href="#" onclick="OpenEduCal();"><img src="/img/quick/1.png"/>일정안내</a>]

# BS4의 select 스타일의 메소드
- soup변수명.메소드(css 선택자)
- select_one(선택자, css style) => 1개의 요소
- select(선택자) => 리스트



### 태그
- select(태그명) : 모든 태그의 요소를 찾아라 > 리스트   == find_all(태그명)
- select_one(태그명) : 첫번째 태그 요소를 찾아라 > 1개만 반환  == find(태그명)


### 아이디
- select_one('#아이디명') : find(id='아이디명')
- select('#아이디명') : find_all(id='아이디명')


### 클래스
- select_one(.클래스명) : find(class_='클래스명')
- select(.클래스명) : find_all(class_='클래스명')



본인이 원하는 스타일로 사용하면됨


In [107]:
# (8) 태그선택자로 찾기 - select(), select_one()
# 모든 img 태그를 찾기
print(soup.select('img'))

print('-' * 100)

# 첫번째 img 태그를 찾기
print(soup.select_one('img'))

[<img alt="국립고궁박물관로고" src="/img/logo.png"/>, <img src="/img/innogov.jpg"/>, <img alt="영친왕비적의 이미지 입니다." src="/img/sub_img_01.jpg"/>, <img src="/img/quick/1.png"/>, <img src="/img/quick/2.png"/>, <img src="/img/quick/3.png"/>, <img src="/img/quick/4.png"/>, <img alt="국립고궁박물관 로고 이미지" src="/img/logo_btm.png"/>, <img alt="(사)한국장애인단체총연합회 한국웹접근성인증평가원 웹 접근성 우수사이트 인증마크 (WA인증마크)" src="/img/footer_banner_03.png">
</img>]
----------------------------------------------------------------------------------------------------
<img alt="국립고궁박물관로고" src="/img/logo.png"/>


In [115]:
# css 선택자 스타일
# 태그1 태그2 . . . : 태그 1안에 삽입된 자손
# 태그1 > 태그2 . . . : 태그 1안에 삽입된 직계 자식

# ul 태그안의 li 태그를 찾기
print(soup.select_one('ul li'))
print(soup.select_one('ul > li'))


# ol 태그안의 li 태그를 찾기
print(len(soup.select('ol li')))
print(len(soup.select('ol > li')))

<li><a href="#gnbFirst" tabindex="0">주메뉴 바로가기</a></li>
<li><a href="#gnbFirst" tabindex="0">주메뉴 바로가기</a></li>
6
6


In [123]:
# 
print(soup.select('tbody td'))

print()

print(soup.select('tbody > tr > td > span'))


# AttributeError : 리스트에서 바로 텍스트를 뽑으려면 생기는 오류. / 가장 빈도가 많은 에러.
print(soup.select('tbody > tr > td > span').text)

# 인덱싱으로 요소 출력
print(soup.select('tbody > tr > td > span')[0].text)

# select one 인덱스 접근할 필요 없음.(단일 출력)



[<td>10:00~18:00 (수·토요일은 10:00~21:00) <br/>
<span class="style5">※ 입장은 마감 1시간 전까지</span></td>, <td> </td>]

[<span class="style5">※ 입장은 마감 1시간 전까지</span>]
※ 입장은 마감 1시간 전까지


In [125]:
# <tbody>
# 	<tr>
# 		<th scope="row">관람 시간 </th>
# 		<td>10:00~18:00 (수·토요일은 10:00~21:00) <br>
#             <span class="style5">※ 입장은 마감 1시간 전까지</span></td>
# 		<td> 						  </td>
# 		</tr> 
# </tbody>

In [136]:
# (9) 아이디 관련 선택자로 찾기 - select , id = content

# id값이 content
print(soup.select_one('content'))  # content라는 태그를 찾는 명령, content 태그는 없으니 none
print(soup.select_one('#content')) # 아이디를 찾는 명령.


print('-'*100)
# div#content   > ㅑㅇ rkqtdl content인 div 태그
print(soup.select_one('div#content'))

print('-'*100)


# 모든 p 태그를 찾아라
print(soup.select('div#content div p'))

print('-' * 100)


# 모든 contetn 아이디값을 가진 div 태그 안의 모든 div 태그 찾기
print(soup.select('div#content > div'))
print('-' * 100)

None
<div class="content" id="content">
<div class="tit">
<h3>관람안내 </h3>
<p class="navi"><span class="float-left">National Palace Museum of Korea</span> <span class="float-right">Home &gt; 이용안내  &gt; <strong>관람안내</strong></span></p>
</div>
<div class="section">
<p class="top_text">국립고궁박물관의 <strong>관람시간 및 요금</strong>을 알려드립니다.</p>
</div>
<div class="section">
<h4>관람 요금</h4>
<p>국립고궁박물관은 서민가계부담경감 및 문화소비 양극화 해소차원에서 별도의 안내가 있기 전까지 무료관람을 실시합니다.</p>
</div>
<div class="section">
<h4>관람시간</h4>
<table class="tbl_style" summary="평일 주말 공휴일 휴관으로 구성된 관람시간 안내 표 입니다.">
<caption>관람시간 안내</caption>
<colgroup>
<col width="173px"/>
<col width="*"/>
</colgroup>
<tbody>
<tr>
<th scope="row">관람 시간 </th>
<td>10:00~18:00 (수·토요일은 10:00~21:00) <br/>
<span class="style5">※ 입장은 마감 1시간 전까지</span></td>
<td> </td>
</tr>
</tbody>
</table>
<!--p>※ 야간특별관람 기 간: ‘16. 9. 24.(토)~10. 28.(금) </p-->
<p>※ 2021년 휴관 없는 박물관 시행 관련 시설 보수 및 전시물 교체‧정비에 필요한 임시 휴관일 운영<br/>
      - <strong>휴관일 : 2022. 1. 1.(신정) / 2. 1.(설날 당일) / 9. 10.(추석 당

In [146]:
# (10) 클래스 관련 선택자로 찾기 - select_one() , select()

print(100 * '-')

# assess 클래스값을 가진 div 태그를 찾기
# select('태그명.클래스명 ...')
print(soup.select('div.assess'))

print(100 * '-')


# assess 클래스값을 가진 div 태그만의 star5 클래스값을 가진 span 태그 찾기
print(soup.select('div.assess span.star5'))

print(100 * '-')

# type error d/t list
# print(soup.select('div.assess span.star5')[title])

# 
print(soup.select('div.assess span.star5')[0]['title'])

----------------------------------------------------------------------------------------------------
[<div class="assess">
<div class="assess_box">
<span class="title"><i class="fa fa-check-circle-o"></i> 현재 페이지에 대한 정보 만족도를 평가해 주세요!</span>
<ul>
<li><span class="star5" title="매우만족"></span><input class="i_radio" id="star5" name="score" type="radio" value="5"/> <label for="star5">별 다섯개(매우만족)</label></li>
<li><span class="star4" title="만족"></span><input class="i_radio" id="star4" name="score" type="radio" value="4"/> <label for="star4">별 네개(만족)</label></li>
<li><span class="star3" title="보통"></span><input checked="checked" class="i_radio" id="star3" name="score" type="radio" value="3"/> <label for="star3">별 세개(보통)</label></li>
<li><span class="star2" title="불만족"></span><input class="i_radio" id="star2" name="score" type="radio" value="2"/> <label for="star2">별 두개(불만족)</label></li>
<li><span class="star1" title="매우불만족"></span><input class="i_radio" id="star1" name="score" type="radio" value