## BeautifulSoup
##### 정적인 사이트의 웹 크롤링을 할 때 사용하는 라이브러리입니다.
가장 간단한 형태의 페이지를 불러올 때(파싱) 사용합니다.<br>
해당 URL로 response를 받는 텍스트를 크롤링하는 것입니다.<br>
HTML 문서가 크롤링 대상입니다.

In [3]:
# HTML 파일 읽어오기
fp = open("data/sample.HTML", "r", encoding = 'utf-8')
html = fp.read()
fp.close()

In [4]:
print(html)

<!DOCTYPE doctype html>

<html lang="ko">
<head>
    <meta charset="utf-8"/>
    <style>
        h1 { color: red; }
        p {color: green; }
        /* ul li {color: blue; } */

        /* class  */
        .animal {color: blue; }
        .fruit {color: orange; }

        /* id  */
        #cat {color:brown;}
        
        table, th, td {
            border : 1px solid black;
            border-collapse : collapse;
        }
    </style>
</head>
<body>
    <h1>header</h1>
    <p>This is a paragraph</p>
    <div>이것은 <br/> div 입니다</div>
    <ul>
        <li class="animal">dog</li>
        <li class="animal" id="cat">cat</li>
        <li class="animal">frog</li>
        <li class="animal">this</li>
    </ul>
    <ul>
        <li class="fruit">apple  </li>
        <li class="fruit">ba<b>nana</b></li>
    </ul>
    <ol>
        <li><a href="https://www.naver.com" title="최고포탈">네이버</a></li>
        <li><a href="https://www.daum.net">daum</a></li>
        <li class="animal">fish</li>
    

In [8]:
from bs4 import BeautifulSoup
# html, xml 등의 데이터를 파싱할 수 있다.
# 파싱은 주어진 데이터 안에서 내가 원하는 데이터를 추출하는 것
data = BeautifulSoup(html, "html.parser")

In [10]:
print(type(data))
print(data)

<class 'bs4.BeautifulSoup'>
<!DOCTYPE doctype html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<style>
        h1 { color: red; }
        p {color: green; }
        /* ul li {color: blue; } */

        /* class  */
        .animal {color: blue; }
        .fruit {color: orange; }

        /* id  */
        #cat {color:brown;}
        
        table, th, td {
            border : 1px solid black;
            border-collapse : collapse;
        }
    </style>
</head>
<body>
<h1>header</h1>
<p>This is a paragraph</p>
<div>이것은 <br/> div 입니다</div>
<ul>
<li class="animal">dog</li>
<li class="animal" id="cat">cat</li>
<li class="animal">frog</li>
<li class="animal">this</li>
</ul>
<ul>
<li class="fruit">apple  </li>
<li class="fruit">ba<b>nana</b></li>
</ul>
<ol>
<li><a href="https://www.naver.com" title="최고포탈">네이버</a></li>
<li><a href="https://www.daum.net">daum</a></li>
<li class="animal">fish</li>
</ol>
<table id="books">
<thead>
<tr>
<th>제목</th>
<th>가격</th>
</tr>
</thead>
<tbody>
<tr

### select(), select_one() 메서드

In [12]:
# data.select_one(CSS selector)
# 해당 CSS selector로 select된 첫번째 element 하나를 리턴
print(data.select_one("h1")) # 태그 이름

# element는 시작 태그와 컨텐츠, 끝태그의 묶음
# CSS selector는 태그 이름, class, id으로 설정합니다.

<h1>header</h1>


In [13]:
print(data.select(".fruit")) # class

[<li class="fruit">apple  </li>, <li class="fruit">ba<b>nana</b></li>]


In [15]:
print(data.select_one("#cat"))

<li class="animal" id="cat">cat</li>


### text
element 안의 text 데이터 추출

In [22]:
print(data.select(".fruit")[0].text.strip()) # 양쪽 공백 제거
# data.select(".fruit")[0].text.rstrip() # 오른쪽 공백 제거
# data.select(".fruit")[0].text.lstrip() # 왼쪽 공백 제거

apple


In [24]:
# contents 내에 있는 태그는 제거돼서 나온다.
print(data.select(".fruit")[1].text.strip())

banana


In [27]:
# id
print(data.select_one('#cat').text)

cat


In [38]:
# 실습 문제 1
# beautifulSoup의 select를 사용해 ["apple", "banana"] 리스트를 만들도록 코드를 작성하시오.
result = []
for element in data.select(".fruit"):
    result.append(element.text.strip())
print(result)

['apple', 'banana']


In [39]:
# 실습 문제 2
# beautifulSoup의 select를 사용해 ['dog', 'cat', "frog", "this", "fish"] 리스트를 만들도록 코드를 작성하시오.
result = []
for element in data.select(".animal"):
    result.append(element.text.strip())
print(result)

['dog', 'cat', 'frog', 'this', 'fish']


In [41]:
# dog, cat, frog, this 추출
result = []
for element in data.select("ul .animal"): # ul 태그의 자식인 animal 클래스
    result.append(element.text.strip())
print(result)

['dog', 'cat', 'frog', 'this']


### attrs
어트리뷰트의 값 가져오기

In [42]:
# href에 있는 주소값 가져오기
items = data.select("a")
print(items)

[<a href="https://www.naver.com" title="최고포탈">네이버</a>, <a href="https://www.daum.net">daum</a>]


In [44]:
print(items[0].attrs) # .attrs는 딕셔너리 형태로 반환

{'href': 'https://www.naver.com', 'title': '최고포탈'}


In [45]:
items[0].attrs["href"]

'https://www.naver.com'

### decompose

In [50]:
items = data.select("td")
print(items)
print(items[1].select_one("b"))
items[1].select_one("b").decompose()
print(items)

[<td>1.이것이 파이썬이다</td>, <td><b>[도서]</b> 19,200원</td>, <td>2.저것도 파이썬이다</td>, <td><b>[할인]</b> 12,800원</td>, <td>3.그래도 파이썬인가?</td>, <td><b>[중고]</b> 6,500원</td>]
<b>[도서]</b>
[<td>1.이것이 파이썬이다</td>, <td> 19,200원</td>, <td>2.저것도 파이썬이다</td>, <td><b>[할인]</b> 12,800원</td>, <td>3.그래도 파이썬인가?</td>, <td><b>[중고]</b> 6,500원</td>]
