In [1]:
'''
- 선택자(selector) 이용 내용 추출하기
  -> 웹 문서 디자인(css)용으로 사용
  -> 선택자 : id(#), class(.) 
  -> soup.select_one('#id') : 하나의 요소 추출 
  -> soup.select('.class') : 여러 개의 요소 추출 
'''

from bs4 import BeautifulSoup

# 1. html source 가져오기 
file = open('C:/Users/user/python_week/test/day09/data2/html03.html', mode='r', encoding='utf-8')
source = file.read()

# 2. html 파싱
html = BeautifulSoup(source, 'html.parser')
print(html)

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="IE=edge" http-equiv="X-UA-Compatible"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<title>id/class 선택자, 표 꾸미기</title>
<style type="text/css">
  table{
     border-collapse : collapse; /* 중복 테두리 제거 */
     border : 3px solid black; /* 테두리 굵기 실선 색 */
     width: 80%; /* 화면 전체 폭 */
     text-align: center;  /* 텍스트 정렬 방식 */
  }
  tr{
     height: 24px;  /* 줄 간격 */
     font-size: 13px; /* 글자 크기 */
  }
  /* 행 위에 마우스 오버 시 */
  tr:hover{
     color: #ffffff; /* 글자색 흰색 */
     font-weight: bold; /* 굵게 */
     background-color: #00ccff; /* 배경색 : 하늘색 계열 */
     cursor: pointer;  /* 커서 모양 변경 */   
  }
  /* 표 제목 열 스타일 적용 */
  th{
     height: 25px;
     font-size: 14px;
     background-color: #e0bbd2; /* RGB 색상표 - NAVER */  
  }
  /* 형식 : #id이름{ 속성 : 값; } - 이름 중복 불가능 */
  #id{width : 15%}
  #name{width: 10%}
  #major{width: 25%}
  #email{width: 60%}
  /* 형식 : .class이름{ 속성 : 값;} - 이름 중복 가능 *

In [2]:
# 3. 선택자 이용 태그 내용 가져오기 
# 1) id 선택자
print('>> table 선택자 <<') 
table = html.select_one('#tab') # <table id='tab'>
print(table) # 1개 element 

>> table 선택자 <<
<table border="1" id="tab">
<tr> <!-- 1행 -->
<!-- 제목 열 : th -->
<th id="id"> 학번 </th>
<th id="name"> 이름 </th>
<th id="major"> 학과 </th>
<th id="email"> 이메일 </th>
</tr>
<tr> <!-- 2행 -->
<td> 201601 </td>
<td> 홍길동 </td>
<td> 체육학과 </td>
<td> hong@naver.com </td>
</tr>
<tr class="odd"> <!-- 3행(홀수) -->
<td> 201602 </td>
<td> 이순신 </td>
<td> 해양학과 </td>
<td> lee@naver.com </td>
</tr>
<tr> <!-- 4행 -->
<td> 201603 </td>
<td> 강감찬 </td>
<td> 정치외교 </td>
<td> kang@naver.com </td>
</tr>
<tr class="odd"> <!-- 5행 -->
<td> 201604 </td>
<td> 유관순 </td>
<td> 유아교육 </td>
<td> you@naver.com </td>
</tr>
</table>


In [3]:
ths = table.find_all('th')
for th in ths :
    print(th.string)

 학번 
 이름 
 학과 
 이메일 


In [6]:
print('>> 선택자 & 계층 <<')
ths = html.select('#tab > tr > th')
print(ths) # list
print("-" * 50)
for th in ths :
    print(th)

>> 선택자 & 계층 <<
[<th id="id"> 학번 </th>, <th id="name"> 이름 </th>, <th id="major"> 학과 </th>, <th id="email"> 이메일 </th>]
--------------------------------------------------
<th id="id"> 학번 </th>
<th id="name"> 이름 </th>
<th id="major"> 학과 </th>
<th id="email"> 이메일 </th>


In [7]:
for th in ths :
    print(th.string)

 학번 
 이름 
 학과 
 이메일 


In [8]:
# 2) class 선택자 : tr tag class='odd'
trs = html.select("#tab > .odd")  # 홀수 행
print(trs)

[<tr class="odd"> <!-- 3행(홀수) -->
<td> 201602 </td>
<td> 이순신 </td>
<td> 해양학과 </td>
<td> lee@naver.com </td>
</tr>, <tr class="odd"> <!-- 5행 -->
<td> 201604 </td>
<td> 유관순 </td>
<td> 유아교육 </td>
<td> you@naver.com </td>
</tr>]


In [9]:
print('### tr > td 출력 ### ')
for tr in trs : # 행 : 2회 반복 
    #print(tr)
    tds = tr.find_all('td')
    for td in tds : # 열 
        print(td.string)

### tr > td 출력 ### 
 201602 
 이순신 
 해양학과 
 lee@naver.com 
 201604 
 유관순 
 유아교육 
 you@naver.com 


In [10]:
# 4) 태그[속성=값] 찾기 
trs = html.select("tr[class=odd]")
print(trs)

[<tr class="odd"> <!-- 3행(홀수) -->
<td> 201602 </td>
<td> 이순신 </td>
<td> 해양학과 </td>
<td> lee@naver.com </td>
</tr>, <tr class="odd"> <!-- 5행 -->
<td> 201604 </td>
<td> 유관순 </td>
<td> 유아교육 </td>
<td> you@naver.com </td>
</tr>]


In [11]:
print('### tr > td 출력 ### ')
for tr in trs : # 행 : 2회 반복 
    #print(tr)
    tds = tr.find_all('td')
    for td in tds : # 열 
        print(td.string)

### tr > td 출력 ### 
 201602 
 이순신 
 해양학과 
 lee@naver.com 
 201604 
 유관순 
 유아교육 
 you@naver.com 
