# BeautifulSoup 실습
- 이수안컴퓨터연구소채널:BeautifulSoup 기초 끝내기 - 강력한 웹 데이터 스크래핑 연습
- https://youtu.be/TbPD9Ndnt04 

---

- 먼저 매직명령어로 예제 html파일을 하나 만들어준다

In [2]:
%%writefile example.html
<!DOCTYPE html>
<html>
    <head>
         <title>Page Title</title>
     </head>
     <body>
         <h1>Heading 1</h1>
         <p>Paragraph</p>
         <div>
             <a href="www.google.com">google</a>
        </div>
        <div class="class1">
            <p>a</p>
            <a href="www.naver.com">naver</a>
            <p>b</p>
            <p>c</p>
        </div>
        <div id="id1">
            Example page
            <p>g</p>
        </div>
    </body>
</html>

Overwriting example.html


In [18]:
from bs4 import BeautifulSoup
import urllib.request

with open("example.html") as fp:
    soup = BeautifulSoup(fp, 'html.parser')

soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
            Example page
            <p>g</p>
</div>
</body>
</html>

In [19]:
soup.title

<title>Page Title</title>

In [20]:
soup.title.name

'title'

In [21]:
soup.title.string

'Page Title'

In [22]:
soup.title.parent

<head>
<title>Page Title</title>
</head>

In [23]:
soup.title.parent.name

'head'

In [29]:
soup.a

<a href="www.google.com">google</a>

- `find()`: 해당 조건에 맞는 하나의 태그를 가져옴
- `find_all()`: 해당 조건에 맞는 모든 태그를 가져옴
- `select()`: CSS 선택자와 같은 형식으로 선택 가능

In [30]:
soup.a.find_all()

[]

In [31]:
soup.find_all('a')

[<a href="www.google.com">google</a>, <a href="www.naver.com">naver</a>]

In [32]:
soup.find_all('p')

[<p>Paragraph</p>, <p>a</p>, <p>b</p>, <p>c</p>, <p>g</p>]

In [39]:
soup.find_all(['a','p'])


[<p>Paragraph</p>,
 <a href="www.google.com">google</a>,
 <p>a</p>,
 <a href="www.naver.com">naver</a>,
 <p>b</p>,
 <p>c</p>,
 <p>g</p>]

In [41]:
soup

<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h1>Heading 1</h1>
<p>Paragraph</p>
<div>
<a href="www.google.com">google</a>
</div>
<div class="class1">
<p>a</p>
<a href="www.naver.com">naver</a>
<p>b</p>
<p>c</p>
</div>
<div id="id1">
            Example page
            <p>g</p>
</div>
</body>
</html>

In [45]:
soup.find_all('div') # 리스트 형태로 준다.

[<div>
 <a href="www.google.com">google</a>
 </div>,
 <div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>,
 <div id="id1">
             Example page
             <p>g</p>
 </div>]

---

- `find_all()`: 하나를 출력하더라도 리스트형태로 값을 준다.
- `div`태그에서 `id`가 `id1`인 것을 출력

In [46]:
soup.find_all('div', {'id':'id1'})

[<div id="id1">
             Example page
             <p>g</p>
 </div>]

In [48]:
soup.find_all('div', {'class': 'class1'})

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

- 특정 태그에서 속성값을 가져오기

In [49]:
soup.find('a').get('href')

'www.google.com'

- 특정 태그에서 화면에 포시되는 텍스트만 가져오기

In [52]:
soup.find('a').get_text()

'google'

- 여러 a 태그에서 속성값만 가져오기

In [53]:
site_name = soup.find_all('a')
for name in site_name:
    print(name.get('href'))

www.google.com
www.naver.com


In [54]:
print(name.get_text())

naver


In [55]:
for name in site_name:
    print(name.get_text())

google
naver


### select는 선택된 모든것을 가져온다 그래서 리스트로 가져온다
- CSS 처럼 `id`를 가져올때는 `#id#` 클래스는 `.class`

In [56]:
soup.select('div#id1')

[<div id="id1">
             Example page
             <p>g</p>
 </div>]

In [57]:
soup.select('div.class1')

[<div class="class1">
 <p>a</p>
 <a href="www.naver.com">naver</a>
 <p>b</p>
 <p>c</p>
 </div>]

- class1 안에 특정 태그만 가져오기
- `.class1`하고 한칸 띄고 가져오고 싶은 태그작성

In [58]:
soup.select('div.class1 a')

[<a href="www.naver.com">naver</a>]

# 인터넷 웹페이지 가져오기

In [63]:
url = "http://suanlab.com"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, 'html.parser')

In [64]:
labels = soup.find_all(['label'])

[<label>[2022-12-02] KJDB2022 Workshop</label>,
 <label>[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."</label>,
 <label>[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"</label>,
 <label>[2020-05-20] "인공지능의 보안 위협"</label>,
 <label>[2020-03-04] "데이터 경제 시대"</label>,
 <label>[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"</label>,
 <label>[2019-09-04] "농업으로 들어간 인공지능"</label>,
 <label>[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"</label>]

In [65]:
for label in labels:
    print(label.get_text())

[2022-12-02] KJDB2022 Workshop
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"


- 위에처럼 select안에 태그를 써버리면 html파일에 있는 모든 태그의 내용을 불러오기 때문에.
- F12눌러서 크롤링하고싶은곳을찾고
- 그곳에 태그에서 마우스 우클릭
- copy- copy selecter 선택후 복사하고
- 혹시 1개만 가져오는 태그가 있으면 삭제후 크롤링

In [67]:
labels = soup.select('#wrapper > section > div > div > div > div > div > label')
for label in labels:
    print(label.get_text())

[2022-12-02] KJDB2022 Workshop
[2020-01-20] "바이러스 연구부터 뷰티·배달 AI 결합한 비즈니스..."
[2020-10-07] "이력서 작성·레시피 제공 다양하게 활용되는 GPT3"
[2020-05-20] "인공지능의 보안 위협"
[2020-03-04] "데이터 경제 시대"
[2019-12-25] "마이데이터 시대의 도래 데이터 주권과 새로운 가치"
[2019-09-04] "농업으로 들어간 인공지능"
[2019-08-07] "AI시대 지배할 것인가 지배당하며 살 것인가"
