## 웹크롤링과 웹스크래핑
### 웹 크롤링(Web crawling)
 - 봇이 많은 웹 사이트들을 돌아다니면서 URL, 키워드 등을 수집하는 것
 > 보통 검색 엔진에서 웹사이트를 수집하기 위해 사용됨
 
### 웹 스크래핑(Web scraping)
 - 웹 사이트에서 필요한 데이터를 긁어오는 것

## BeautifulSoup 사용법
- 태그로 접근: find(), find_all()
- css 선택자: select_one(), select() 


### 1. find() 와 find_all() 함수


In [3]:
from bs4 import BeautifulSoup

In [4]:
html = """
<html>
    <head>
        <title>The Dormouse's story</title>
    </head>
    <body>
        <h1>this is h1 area</h1>
        <h2>this is h2 area</h2>
        <p class="title"><b>The Dormouse's story</b></p>
        <p class="story">Once upon a time there were three little sisters
            <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>
            <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a>
            <a data-io="link3" href="http://example.com/tillie" class="sister" id="link3">Tillie</a>
        </p>
        <p class="story">story...</p>
    </body>
</html>
"""

In [5]:
'''
soup=BeautifulSoup(html,'html.parser')
'''

soup=BeautifulSoup(html,'html.parser')

### [형태1]  find('태그명') / find_all('태그명') => 태그로 접근

In [6]:
#h1태그 가쟈오기
soup.find('h1')

<h1>this is h1 area</h1>

In [7]:
# 첫 번째 a 태그가져오기(find) 
soup.find('a')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

In [8]:
#a태그 모두 가져오기
soup.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" data-io="link3" href="http://example.com/tillie" id="link3">Tillie</a>]

### [형태2]  find('태그명',class_='클래스명')  or find('태그명','클래스명') => class로 접근

In [9]:
#a태그의 sister 클래스 모두 가져오기
soup.find_all('a','sister')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" data-io="link3" href="http://example.com/tillie" id="link3">Tillie</a>]

### [형태3]  find('태그명',id='아이디명')  => id로 접근

In [10]:
#a태그의 id가 link1 가져오기
soup.find('a',id='link1')

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

### [형태4]  find('태그명',{'속성1':'값1','속성2':'값2})  => 다중 조건

In [11]:
#a태그의 class="sister"와 data-io="link3" 값 가져오기
soup.find('a',{'class':'sister','data-io':'link3'})

<a class="sister" data-io="link3" href="http://example.com/tillie" id="link3">Tillie</a>

### [형태5]  find('태그명').text  => 해당 태그의 텍스트 가져오기

In [12]:
#a태그의 id가 'link1'인 텍스트 가져오기
soup.find('a',id='link1').text

'Elsie'

### [형태6]  find('태그명')['속성'] => 태그안의 '속성'값 가져오기

In [13]:
##a태그의 id가 'link1'인 href 속성값 가져오기
print(soup.find('a',id='link1')['href'])


http://example.com/elsie


### 2. select_one() 와 select() 함수
- 특정 경로로 태그를 지정할 수 있음
- find의 경우 반복적으로코드 하는 반면, select는 직접 하위경로를 지정할 수 있음
- select_one() : 찾은 객체가 여러개 일 경우, 첫번째것만 봔환
- select(): 여러개 찾음


In [14]:
ex2 = ''' 
<html> 
    <head> 
        <h1> 사야할 과일 
    </head> 
    <body> 
        <h1> 시장가서 사야할 과일 목록 
            <div> <p id='fruits1' class='name1' title='바나나'> 바나나 
                  <span class = 'price'> 3000원 </span> 
                  <span class = 'count'> 10개 </span> 
                  <span class = 'store'> 바나나가게 </span> 
                  <a href = 'https://www.banana.com'> banana.com </a> 
                  </p>
            </div> 
            <div> <p id='fruits2' class='name2' title='체리'> 체리 
                <span class = 'price'> 100원 </span> 
                <span class = 'count'> 50개 </span> 
                <span class = 'store'> 체리가게</span> 
                <a href = 'https://www.cherry.com'> cherry.com </a>
                </p> 
            </div> 
            <div> <p id='fruits3' class='name3' title='오렌지'> 오렌지
                <span class = 'price'> 500원 </span> 
                <span class = 'count'> 20개 </span> 
                <span class = 'store'> 오렌지가게</span> 
                <a href = 'https://www.orange.com'> orange.com </a>
                </p> 
            <div> 
    </body> 
</html> '''
soup2=BeautifulSoup(ex2,'html.parser')

### (1) select(태그명)

In [15]:
soup2.select('p')

[<p class="name1" id="fruits1" title="바나나"> 바나나 
                   <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>,
 <p class="name2" id="fruits2" title="체리"> 체리 
                 <span class="price"> 100원 </span>
 <span class="count"> 50개 </span>
 <span class="store"> 체리가게</span>
 <a href="https://www.cherry.com"> cherry.com </a>
 </p>,
 <p class="name3" id="fruits3" title="오렌지"> 오렌지
                 <span class="price"> 500원 </span>
 <span class="count"> 20개 </span>
 <span class="store"> 오렌지가게</span>
 <a href="https://www.orange.com"> orange.com </a>
 </p>]

### (2) select(.클래스명)

In [16]:
soup2.select('.name1')

[<p class="name1" id="fruits1" title="바나나"> 바나나 
                   <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>]

### (3) select('상위태그 > 하위 태그 > 하위태그')

In [17]:
soup2.select('div>p>span')

[<span class="price"> 3000원 </span>,
 <span class="count"> 10개 </span>,
 <span class="store"> 바나나가게 </span>,
 <span class="price"> 100원 </span>,
 <span class="count"> 50개 </span>,
 <span class="store"> 체리가게</span>,
 <span class="price"> 500원 </span>,
 <span class="count"> 20개 </span>,
 <span class="store"> 오렌지가게</span>]

In [19]:
soup2.select('p>span')

[<span class="price"> 3000원 </span>,
 <span class="count"> 10개 </span>,
 <span class="store"> 바나나가게 </span>,
 <span class="price"> 100원 </span>,
 <span class="count"> 50개 </span>,
 <span class="store"> 체리가게</span>,
 <span class="price"> 500원 </span>,
 <span class="count"> 20개 </span>,
 <span class="store"> 오렌지가게</span>]

In [18]:
soup2.select('span')

[<span class="price"> 3000원 </span>,
 <span class="count"> 10개 </span>,
 <span class="store"> 바나나가게 </span>,
 <span class="price"> 100원 </span>,
 <span class="count"> 50개 </span>,
 <span class="store"> 체리가게</span>,
 <span class="price"> 500원 </span>,
 <span class="count"> 20개 </span>,
 <span class="store"> 오렌지가게</span>]

### (4) select('상위태그.클래스명')

In [26]:
soup2.select('p.name1')

[<p class="name1" id="fruits1" title="바나나"> 바나나 
                   <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>]

In [27]:
soup2.select('p.name2')

[<p class="name2" id="fruits2" title="체리"> 체리 
                 <span class="price"> 100원 </span>
 <span class="count"> 50개 </span>
 <span class="store"> 체리가게</span>
 <a href="https://www.cherry.com"> cherry.com </a>
 </p>]

### (5) select('상위태그.클래스명>하위태그.클래스명')

In [28]:
soup2.select('p.name1>span')

[<span class="price"> 3000원 </span>,
 <span class="count"> 10개 </span>,
 <span class="store"> 바나나가게 </span>]

In [29]:
soup2.select('p.name1>span.count')

[<span class="count"> 10개 </span>]

### (6) select('#아이디명')

In [31]:
soup2.select('#fruits1')

[<p class="name1" id="fruits1" title="바나나"> 바나나 
                   <span class="price"> 3000원 </span>
 <span class="count"> 10개 </span>
 <span class="store"> 바나나가게 </span>
 <a href="https://www.banana.com"> banana.com </a>
 </p>]

### (7) select('#아이디명> 태그명.클래스명')


In [34]:
soup2.select('#fruits1>span.store')

[<span class="store"> 바나나가게 </span>]

### (8)  select('태그명['속성='값']')

In [35]:
#p태그의 title 속성이 '오렌지' =>select
soup2.select('p[title="오렌지"]')

[<p class="name3" id="fruits3" title="오렌지"> 오렌지
                 <span class="price"> 500원 </span>
 <span class="count"> 20개 </span>
 <span class="store"> 오렌지가게</span>
 <a href="https://www.orange.com"> orange.com </a>
 </p>]

In [85]:
#p태그의 title 속성이 '오렌지' =>find
soup2.find('p',title='오렌지')

<p class="name3" id="fruits3" title="오렌지"> 오렌지
                <span class="price"> 500원 </span>
<span class="count"> 20개 </span>
<span class="store"> 오렌지가게</span>
<a href="https://www.orange.com"> orange.com </a>
</p>

### select('태그명')['속성']

In [40]:
soup2.select('p.name1>a')[0]['href']

'https://www.banana.com'

In [43]:
soup2.select_one('p.name1>a')['href']

'https://www.banana.com'

In [45]:
soup2.find('p','name1').find('a')['href']

'https://www.banana.com'