# '정적' 인 사이트 웹크롤링

In [35]:
# 가장 간단한 형태의 페이지
# 고정된 내용을 크롤링 한다
# 해당 URL 로 response 받는 텍스트를 크롤링 하는 것이다.
#  페이지에서 '소스보기' 로 했을때 보이는 내용이 크롤링 대상이다.

## BeautifulSoup 사용하기

In [36]:
# HTML 파일 읽어오기
fp = open("data/sample.html", "r", encoding="utf8")
html = fp.read()
fp.close()

In [37]:
html

'<!DOCTYPE doctype html>\n\n<html lang="ko">\n<head>\n<meta charset="utf-8"/>\n<style>\n\th1 { color: red; }\n\tp {color: green; }\n\t/* ul li {color: blue; } */\n\n\t/* class  */\n\t.animal {color: blue; }\n\t.fruit {color: orange; }\n\n\t/* id  */\n\t#cat {color:brown;}\n    \n    table, th, td {\n        border : 1px solid black;\n        border-collapse : collapse;\n    }\n</style>\n</head>\n<body>\n    <h1>header</h1>\n    <p>This is a paragraph</p>\n    <div>이것은 <br> div 입니다</div>\n    <ul>\n        <li class="animal">dog</li>\n        <li class="animal" id="cat">cat</li>\n        <li class="animal">frog</li>\n        <li class="animal">this</li>\n    </ul>\n    <ul>\n        <li class="fruit">apple  </li>\n        <li class="fruit">ba<b>nana</b></li>\n    </ul>\n    <ol>\n        <li><a href="https://www.naver.com" title="최고포탈">네이버</a></li>\n        <li><a href="https://www.daum.net">daum</a></li>\n        <li class="animal">fish</li>\n    </ol>\n    \n    <hr>\n    <table id="b

In [38]:
from bs4 import BeautifulSoup
# html, xml 등의 데이터를 파싱(parsing) 할수 있다.
# 파싱?: 주어진 데이터 안에서 내가 원하는 데이터를 추출하는 것.

In [39]:
data = BeautifulSoup(html, "html.parser")  
# 주어진 데이터 html 을 html 문서로 파싱하고
# Document Object Model 객체 (DOM) 을 표현하는 BeautifulSoup 객체 생성

In [40]:
type(data)

bs4.BeautifulSoup

In [41]:
data

<!DOCTYPE doctype html>

<html lang="ko">
<head>
<meta charset="utf-8"/>
<style>
	h1 { color: red; }
	p {color: green; }
	/* ul li {color: blue; } */

	/* class  */
	.animal {color: blue; }
	.fruit {color: orange; }

	/* id  */
	#cat {color:brown;}
    
    table, th, td {
        border : 1px solid black;
        border-collapse : collapse;
    }
</style>
</head>
<body>
<h1>header</h1>
<p>This is a paragraph</p>
<div>이것은 <br/> div 입니다</div>
<ul>
<li class="animal">dog</li>
<li class="animal" id="cat">cat</li>
<li class="animal">frog</li>
<li class="animal">this</li>
</ul>
<ul>
<li class="fruit">apple  </li>
<li class="fruit">ba<b>nana</b></li>
</ul>
<ol>
<li><a href="https://www.naver.com" title="최고포탈">네이버</a></li>
<li><a href="https://www.daum.net">daum</a></li>
<li class="animal">fish</li>
</ol>
<hr/>
<table id="books">
<thead>
<tr>
<th>제목</th>
<th>가격</th>
</tr>
</thead>
<tbody>
<tr>
<td>1.이것이 파이썬이다</td>
<td><b>[도서]</b> 19,200원</td>
</tr>
<tr>
<td>2.저것도 파이썬이다</td>
<td><b>[할인]</b> 12

### select(), select_one() 메소드

In [42]:
#data.select_one(CSS selector)
# 해당 CSS selector 로 select 된 첫번째 element 하나를 리턴
data.select_one("h1")

<h1>header</h1>

In [43]:
type(data.select_one("h1"))  # 결과는 element

bs4.element.Tag

In [44]:
data.select(".fruit")
# 해당 CSS selector 로 select 된 모든 element(들)의 list 리턴
# 심지어 한개도 select 되지 않아도 비어있는 list 리턴

[<li class="fruit">apple  </li>, <li class="fruit">ba<b>nana</b></li>]

In [45]:
# select() 결과 element 의 개수를 알고 싶으면?
len(data.select(".fruit"))

2

In [46]:
data.select(".fruit")[0]   # 첫번째 element

<li class="fruit">apple  </li>

In [47]:
data.select(".fruit")[1]

<li class="fruit">ba<b>nana</b></li>

In [48]:
data.select_one(".fruit")

<li class="fruit">apple  </li>

### .text 
element 안의 text 데이터 추출

In [49]:
# element 의 .text : 태그는 제거된 형태

In [50]:
data.select('.fruit')[0].text.strip()   # strip() str 에서 좌우 여백 제거

'apple'

In [51]:
data.select('.fruit')[1].text.strip()  # 태그는 제거된 형태의 text 가 나온다

'banana'

In [52]:
# 도전!!
#["apple", "banana"] 이렇게 결과가 나오도록 결과를 만들자
# for 사용

result = []
for element in data.select(".fruit"):
    result.append(element.text.strip())

result

['apple', 'banana']

In [53]:
# list comprehension
[element.text.strip()  for element in data.select('.fruit')]

['apple', 'banana']

In [54]:
[
    element.text.strip()  
    for element 
    in data.select('.fruit')
]

['apple', 'banana']

In [56]:
# 연습: 도전!
# animals 에 대한 리스트도 뽑아보세요
# 결과 --> ['dog', 'cat', 'frog', 'this']

[
    element.text.strip()
    for element in data.select("ul .animal")
]

['dog', 'cat', 'frog', 'this']

### .attrs
attribute 값 가져오기

In [57]:
# 아래 링크 '주소'와  '링크이름' 을 dict 의 list 형태로 가져오기 

# <ol>
#   <li><a href="http://www.naver.com">네이버</a></li>
#   <li><a href="hrrp://www.daum.net">daum</a></li>
# </ol>


# 결과예)

# [
#     {
#         url: "http://www.naver.com",
#         link: "네이버"
#     },
#     {
#         url: "http://www.daum.net",
#         link: "daum"
#     },
# ]


In [59]:
items = data.select("ol li > a")
items

[<a href="https://www.naver.com" title="최고포탈">네이버</a>,
 <a href="https://www.daum.net">daum</a>]

In [63]:
items[0].attrs  # .attrs 는 dict 형태로 나옴

{'href': 'https://www.naver.com', 'title': '최고포탈'}

In [64]:
items[0].attrs['href']

'https://www.naver.com'

In [65]:
items[0].attrs['title']

'최고포탈'

In [66]:
items[0].get('href')

'https://www.naver.com'

In [68]:
# 최종결과
[
    {
        "url" : item.attrs.get('href').strip(),
        "link" : item.text.strip()
    }
    for item in data.select("ol li > a")
]

[{'url': 'https://www.naver.com', 'link': '네이버'},
 {'url': 'https://www.daum.net', 'link': 'daum'}]

### element 를 제거하려면 ?  --> decompose()

In [69]:
# dict-comprehension 을 사용하여 만들어보자
"""
<결과 예시>
[{'제목': '이것이 파이썬이다', '가격': '[도서] 19,200원'},
 {'제목': '저것도 파이썬이다', '가격': '[할인] 12,800원'},
 {'제목': '그래도 파이썬인가?', '가격': '[중고] 6,500원'}]
"""
None

In [71]:
data.select_one("#books").select("tr")

[<tr>
 <th>제목</th>
 <th>가격</th>
 </tr>, <tr>
 <td>1.이것이 파이썬이다</td>
 <td><b>[도서]</b> 19,200원</td>
 </tr>, <tr>
 <td>2.저것도 파이썬이다</td>
 <td><b>[할인]</b> 12,800원</td>
 </tr>, <tr>
 <td>3.그래도 파이썬인가?</td>
 <td><b>[중고]</b> 6,500원</td>
 </tr>]

In [72]:
[
    {
        "제목" : element.select_one("td:first-child").text.strip(),
        "가격" : element.select_one("td:nth-child(2)").text.strip()
    }
    for element in data.select_one("#books").select("tr")
    if element.select_one('td')    # select(), select_one() 은 select 된게 없으면 None 리턴 
]

[{'제목': '1.이것이 파이썬이다', '가격': '[도서] 19,200원'},
 {'제목': '2.저것도 파이썬이다', '가격': '[할인] 12,800원'},
 {'제목': '3.그래도 파이썬인가?', '가격': '[중고] 6,500원'}]

In [73]:
# 가격 앞의 [도서], [할인].. 제거하려면?
# <td><b>[중고]</b> 6,500원</td>        

# <td> element  안의 <b> element 를 제거하고 싶다.

# element 의 decompose () 사용

In [80]:
data = BeautifulSoup(html, 'html.parser')
row_elements = data.select_one("#books").select("tr")

result = []
for row in row_elements:
    if row.select_one("td"):
        price_element = row.select_one("td:nth-child(2)")
        print("decompose() 전", price_element)
        price_element.select_one('b').decompose()  # <b> element 삭제 됨.
        print("decompose() 후", price_element)
        
        item = {
            "제목" : row.select_one("td:first-child").text.strip(),
            "가격" : price_element.text.strip()
        }
        result.append(item)

result
        

decompose() 전 <td><b>[도서]</b> 19,200원</td>
decompose() 후 <td> 19,200원</td>
decompose() 전 <td><b>[할인]</b> 12,800원</td>
decompose() 후 <td> 12,800원</td>
decompose() 전 <td><b>[중고]</b> 6,500원</td>
decompose() 후 <td> 6,500원</td>


[{'제목': '1.이것이 파이썬이다', '가격': '19,200원'},
 {'제목': '2.저것도 파이썬이다', '가격': '12,800원'},
 {'제목': '3.그래도 파이썬인가?', '가격': '6,500원'}]

### 가격을 숫자 타입으로 파싱하려면
'19,200원'  --> 19000  숫자타입

In [81]:
myStr = '1,232,200원'

In [82]:
myStr = myStr.replace(',', '')  # 중간의 콤마 제거

In [83]:
myStr

'1232200원'

In [84]:
myStr = myStr[:-1]  # 끝의 한글자 제거
myStr

'1232200'

In [85]:
num = float(myStr)
num

1232200.0

In [86]:
data = BeautifulSoup(html, 'html.parser')
row_elements = data.select_one("#books").select("tr")

result = []
for row in row_elements:
    if row.select_one("td"):
        price_element = row.select_one("td:nth-child(2)")
        print("decompose() 전", price_element)
        price_element.select_one('b').decompose()  # <b> element 삭제 됨.
        print("decompose() 후", price_element)
        
        item = {
            "제목" : row.select_one("td:first-child").text.strip(),
            "가격" : float(price_element.text.strip().replace(',', '')[:-1])
        }
        result.append(item)

result

decompose() 전 <td><b>[도서]</b> 19,200원</td>
decompose() 후 <td> 19,200원</td>
decompose() 전 <td><b>[할인]</b> 12,800원</td>
decompose() 후 <td> 12,800원</td>
decompose() 전 <td><b>[중고]</b> 6,500원</td>
decompose() 후 <td> 6,500원</td>


[{'제목': '1.이것이 파이썬이다', '가격': 19200.0},
 {'제목': '2.저것도 파이썬이다', '가격': 12800.0},
 {'제목': '3.그래도 파이썬인가?', '가격': 6500.0}]