# Web Scrapping

In [1]:
from bs4 import BeautifulSoup

In [2]:
html = '<html><p>Hello World :D</p></html>'

In [3]:
# 해석기(features) 사용에 따른 결과 차이
bs = BeautifulSoup(html)    # feature='html'인 것과 같음
bs                          # 유효한 html 형식으로 읽어들이기 때문에 body 태그가 자동으로 붙어서 출력됨

<html><body><p>Hello World :D</p></body></html>

In [4]:
bs1 = BeautifulSoup(html, 'html.parser')
bs1                         # html을 있는 그대로 출력

<html><p>Hello World :D</p></html>

위처럼 html 문서를 있는 그대로 가져오기 위해서 .html의 경우 **'html.parser'**를 사용하는 것이 가장 정확함

In [5]:
bs2 = BeautifulSoup(html, 'xml')
bs2

<?xml version="1.0" encoding="utf-8"?>
<html><p>Hello World :D</p></html>

In [6]:
type(bs)          # BeautifulSoup object

bs4.BeautifulSoup

In [7]:
# p 태그만 가져오기
bs.p

<p>Hello World :D</p>

In [8]:
type(bs.p)       # Tag object

bs4.element.Tag

BeautifulSoup object에 사용되는 대부분의 method는 PageElement와 Tag object에서 상속받은 것!

In [9]:
bs.html

<html><body><p>Hello World :D</p></body></html>

In [10]:
# 두 값은 출력값은 같음
bs, bs.html

(<html><body><p>Hello World :D</p></body></html>,
 <html><body><p>Hello World :D</p></body></html>)

In [11]:
# 그러나 type이 완전 다름
type(bs), type(bs.html)              # BeautifulSoup, Tag

(bs4.BeautifulSoup, bs4.element.Tag)

In [12]:
# Tag object는 tag의 이름을 불러올 수 있음
bs.html.name                   

'html'

위 경우에 `<html>` 태그 안에 `<body>`, `<p>` 태그도 있지만 .name을 호출하면 가장 바깥 태그만 불러온다

In [13]:
# 그렇다면 BeautifulSoup obeject도 같은 method 사용 가능
bs.name

'[document]'

In [14]:
# Tag object에서 text 가져오는 메소드 사용 가능
bs.text

'Hello World :D'

In [15]:
bs.html.text

'Hello World :D'

### 파일에서 html 가져오기

In [16]:
!dir .\files\sample01.html            # cmd line 생각해보면, 경로에 ''사용 안함

 Volume in drive C has no label.
 Volume Serial Number is 0270-2DB2

 Directory of C:\PycharmProjects\04_scraping\scraping\files

2021-06-29  �삤�썑 04:23                57 sample01.html
               1 File(s)             57 bytes

 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping


 Directory of C:\PycharmProjects\04_scraping\scraping



File Not Found


In [17]:
path = './files/sample01.html'        # path가 markup이 아니라 file이름이라서 바로 열 수 없음
bs = BeautifulSoup(path, 'html.parser')
bs



./files/sample01.html

In [18]:
# 파일 open 후 bs4에 넣어야 함!!!!
f = open('./files/sample01.html')
BeautifulSoup(f.read(), 'html.parser')             # 여기서는 f 그자체로 넣어도 결과는 같다

<html><head></head><body>Sacré bleu!</body></html>

### 웹페이지에서 html 가져오기

In [19]:
import requests

In [20]:
res = requests.get('http://www.google.com')            
res          # Response [200]

<Response [200]>

In [21]:
# 서버에 요청하여 받은 response 값 확인 - 200 이외는 모두 오류!
res.status_code

200

res(Response [200])자체를 BeautifulSoup()에 넣을 수는 없음. res.content 또는 res.text 형태여야 함 → 같은 결과

In [22]:
# content와 text의 차이는 string의 type
type(res.content), res.content

(bytes,
 b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="GfXFBMk31Gndcf7/qr6cXg==">(function(){window.google={kEI:\'KejaYKCdBZiJr7wP8Jim8Ac\',kEXPI:\'0,772215,1,530320,56873,954,5104,207,2415,2389,2316,383,246,5,1354,5251,16231,10,1106274,1197710,573,328984,51224,16114,19397,9287,17572,4858,1362,9291,3022,2822,14764,4020,978,13228,3847,4192,6430,7432,7095,4517,2778,919,2370,2711,1593,1279,2212,530,149,1103,840,2197,4100,108,4012,2023,1777,520,14670,3227,2845,7,5599,6755,5096,7540,337,4928,108,2854,553,908,2,941,2614,13142,3,576,6459,149,5990,7985,4,1253,275,2304,1236,833,4394,576,4684,2014,3791,276,14308,2658,6536,165,656,30,3878,9750,2305,638,1494,5586,10535,665,5812,2545,4094,19,2238,881,6,613,295,3,3541,1,8626,6084,1814,283,38,351,2,1,3,518,5991,675

In [23]:
type(res.text), res.text

(str,
 '<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="GfXFBMk31Gndcf7/qr6cXg==">(function(){window.google={kEI:\'KejaYKCdBZiJr7wP8Jim8Ac\',kEXPI:\'0,772215,1,530320,56873,954,5104,207,2415,2389,2316,383,246,5,1354,5251,16231,10,1106274,1197710,573,328984,51224,16114,19397,9287,17572,4858,1362,9291,3022,2822,14764,4020,978,13228,3847,4192,6430,7432,7095,4517,2778,919,2370,2711,1593,1279,2212,530,149,1103,840,2197,4100,108,4012,2023,1777,520,14670,3227,2845,7,5599,6755,5096,7540,337,4928,108,2854,553,908,2,941,2614,13142,3,576,6459,149,5990,7985,4,1253,275,2304,1236,833,4394,576,4684,2014,3791,276,14308,2658,6536,165,656,30,3878,9750,2305,638,1494,5586,10535,665,5812,2545,4094,19,2238,881,6,613,295,3,3541,1,8626,6084,1814,283,38,351,2,1,3,518,5991,6754,9

In [24]:
BeautifulSoup(res.content, 'html.parser')       # bytestring -> html 문서 그대로 읽어들임

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="GfXFBMk31Gndcf7/qr6cXg==">(function(){window.google={kEI:'KejaYKCdBZiJr7wP8Jim8Ac',kEXPI:'0,772215,1,530320,56873,954,5104,207,2415,2389,2316,383,246,5,1354,5251,16231,10,1106274,1197710,573,328984,51224,16114,19397,9287,17572,4858,1362,9291,3022,2822,14764,4020,978,13228,3847,4192,6430,7432,7095,4517,2778,919,2370,2711,1593,1279,2212,530,149,1103,840,2197,4100,108,4012,2023,1777,520,14670,3227,2845,7,5599,6755,5096,7540,337,4928,108,2854,553,908,2,941,2614,13142,3,576,6459,149,5990,7985,4,1253,275,2304,1236,833,4394,576,4684,2014,3791,276,14308,2658,6536,165,656,30,3878,9750,2305,638,1494,5586,10535,665,5812,2545,4094,19,2238,881,6,613,295,3,3541,1,8626,6084,1814,283,38,351,2,1,3,518,5991,6754,984,4788,

In [25]:
BeautifulSoup(res.text, 'html.parser')          # str -> html 문서 그대로 읽어들임

<!DOCTYPE html>
<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko"><head><meta content="text/html; charset=utf-8" http-equiv="Content-Type"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Google</title><script nonce="GfXFBMk31Gndcf7/qr6cXg==">(function(){window.google={kEI:'KejaYKCdBZiJr7wP8Jim8Ac',kEXPI:'0,772215,1,530320,56873,954,5104,207,2415,2389,2316,383,246,5,1354,5251,16231,10,1106274,1197710,573,328984,51224,16114,19397,9287,17572,4858,1362,9291,3022,2822,14764,4020,978,13228,3847,4192,6430,7432,7095,4517,2778,919,2370,2711,1593,1279,2212,530,149,1103,840,2197,4100,108,4012,2023,1777,520,14670,3227,2845,7,5599,6755,5096,7540,337,4928,108,2854,553,908,2,941,2614,13142,3,576,6459,149,5990,7985,4,1253,275,2304,1236,833,4394,576,4684,2014,3791,276,14308,2658,6536,165,656,30,3878,9750,2305,638,1494,5586,10535,665,5812,2545,4094,19,2238,881,6,613,295,3,3541,1,8626,6084,1814,283,38,351,2,1,3,518,5991,6754,984,4788,

---
### 특정 element, class, id를 이용하여 불러오기
- select()의 경우 `CSS selector`를 인수로 받는다

In [26]:
html = '''
<html>
    <head>
    </head>
    <body>
        <h1> 우리동네시장</h1>
            <div class = 'sale'>
                <p id='fruits1' class='fruits'>
                    <span class = 'name'> 바나나 </span>
                    <span class = 'price'> 3000원 </span>
                    <span class = 'inventory'> 500개 </span>
                    <span class = 'store'> 가나다상회 </span>
                    <a href = 'http://bit.ly/forPlaywithData' > 홈페이지 </a>
                </p>
            </div>
            <div class = 'prepare'>
                <p id='fruits2' class='fruits'>
                    <span class ='name'> 파인애플 </span>
                </p>
            </div>
    </body>
</html>'''

In [27]:
# parser 사용
soup = BeautifulSoup(html, 'html.parser')
soup


<html>
<head>
</head>
<body>
<h1> 우리동네시장</h1>
<div class="sale">
<p class="fruits" id="fruits1">
<span class="name"> 바나나 </span>
<span class="price"> 3000원 </span>
<span class="inventory"> 500개 </span>
<span class="store"> 가나다상회 </span>
<a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
</p>
</div>
<div class="prepare">
<p class="fruits" id="fruits2">
<span class="name"> 파인애플 </span>
</p>
</div>
</body>
</html>

In [28]:
# BeautifulSoup object가 사용 가능한 모든 namespace 확인
dir(soup)

['ASCII_SPACES',
 'DEFAULT_BUILDER_FEATURES',
 'ROOT_TAG_NAME',
 '__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_check_markup_is_url',
 '_decode_markup',
 '_feed',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_linkage_fixer',
 '_most_recent_element',
 '_namespaces',
 '_popToTag',
 '_should_pretty_print',
 'append',
 'attrs',
 'builder',
 'can_be_empty_element',
 'cdata_list_attributes',
 'childGenerator',
 'children',
 'clear',
 'conta

In [29]:
# 원하는 element 가져오기
soup.span                  # 제일 첫번째 <span>만 가져온다 -> 원하는 결과 아님

<span class="name"> 바나나 </span>

In [30]:
# select로 가져오기
span = soup.select('span')         # 크롬 브라우저 ctrl+F에서 확인한 개수만큼 하나의 list처럼 출력됨
span

[<span class="name"> 바나나 </span>,
 <span class="price"> 3000원 </span>,
 <span class="inventory"> 500개 </span>,
 <span class="store"> 가나다상회 </span>,
 <span class="name"> 파인애플 </span>]

In [31]:
type(span)               # ResultSet object: list와 비슷하게 생김

bs4.element.ResultSet

In [32]:
span[4]

<span class="name"> 파인애플 </span>

In [33]:
# CSS selector로 가져오기 - class
fruits = soup.select('.fruits')

In [34]:
fruits, type(fruits)         # ReseultSet

([<p class="fruits" id="fruits1">
  <span class="name"> 바나나 </span>
  <span class="price"> 3000원 </span>
  <span class="inventory"> 500개 </span>
  <span class="store"> 가나다상회 </span>
  <a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
  </p>,
  <p class="fruits" id="fruits2">
  <span class="name"> 파인애플 </span>
  </p>],
 bs4.element.ResultSet)

In [35]:
# ResultSet의 크기 확인
len(fruits)             # select는 p 태그 아래 하위 태그를 다 불러오지만, 길이를 셀 때는 해당 class의 개수만 센다

2

In [36]:
inv = soup.select('.inventory')
inv, type(inv)

([<span class="inventory"> 500개 </span>], bs4.element.ResultSet)

In [37]:
len(inv)

1

In [38]:
# id selector
fruits1 = soup.select('#fruits1')
fruits1, type(fruits1)               # 하나만 불러와져도 결과는 ResultSet list로 반환

([<p class="fruits" id="fruits1">
  <span class="name"> 바나나 </span>
  <span class="price"> 3000원 </span>
  <span class="inventory"> 500개 </span>
  <span class="store"> 가나다상회 </span>
  <a href="http://bit.ly/forPlaywithData"> 홈페이지 </a>
  </p>],
 bs4.element.ResultSet)

In [39]:
len(fruits1)

1

### DOM tree에 따라 selector 선택하기

In [40]:
name = soup.select('p#fruits1 > span.name')
name, type(name), len(name)

([<span class="name"> 바나나 </span>], bs4.element.ResultSet, 1)

In [41]:
# 다른 방법, 같은 결과
name1 = soup.select('div.sale > p > .name')
name1, type(name1), len(name1)

([<span class="name"> 바나나 </span>], bs4.element.ResultSet, 1)

In [42]:
# list 같이 생긴 ResultSet은 for loop 가능
nm = soup.select('.name')        # 2개 반환

for name in nm:
    print(name, type(name))      # 각 요소는 Tag object

<span class="name"> 바나나 </span> <class 'bs4.element.Tag'>
<span class="name"> 파인애플 </span> <class 'bs4.element.Tag'>


---
### Tag object의 속성 사용
- Tag object의 구성: **element(태그) & attribute & text**
- select()로 고른 ResultSet에서 하나를 고르면 Tag object이다.

In [43]:
# ResultSet과 Tag
type(nm), type(nm[0])          

(bs4.element.ResultSet, bs4.element.Tag)

#### 1. text 선택하기

In [44]:
# text만 선택
txt = nm[0].text
txt, type(txt)                     # type: str

(' 바나나 ', str)

In [45]:
# 앞 뒤 공백 제거 - strip
txt.strip()                        # lstrip(), rstrip()도 사용 가능

'바나나'

In [46]:
# text 선택하는 또다른 방법
navi = nm[0].string
navi, type(navi)                   # type: NavigableString object

(' 바나나 ', bs4.element.NavigableString)

In [47]:
# 앞 뒤 공백 제거
navi.strip()

'바나나'

#### 2. atrribute(class, id) 값 확인하기
Tag object를 사전처럼 다루어서 속성(key)의 값(value)를 가져올 수 있다.

In [48]:
# 속성을 담은 사전 확인하기 - .attrs
dic = nm[0].attrs
dic, type(dic)               # type: dict

({'class': ['name']}, dict)

In [49]:
nm[0].attrs['class']

['name']

In [50]:
# attrs를 거치지 않고 Tag object에서 바로 할 수도 있다
cls = nm[0]['class']              # <...class="name"..> 부분
cls                           

['name']

In [51]:
type(cls)                         # class는 여러개 일 수 있으니까 list

list

In [52]:
# fruits1의 id 이름 확인 - fruits1은 결과가 1개이지만 list에 담긴 ResultSet
fruits1[0].attrs

{'id': 'fruits1', 'class': ['fruits']}

In [53]:
fruits1[0].attrs['id']

'fruits1'

In [54]:
id = fruits1[0]['id']            # <...id="fruits1"...> 부분
id

'fruits1'

In [55]:
type(id)                         # id는 딱 하나 뿐이므로 str

str

attribute의 value가 `list`인지 `str`인지 궁금하다면 Tabobject.attrs 출력한 결과를 보면 됨

#### 3. tag만 가져오기

In [56]:
nm[0].name

'span'