<a href="https://colab.research.google.com/github/kanakhan/GMSW/blob/main/BeautifulSoup_basic_(1).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. BeautifulSoup의 개념

* BetifulSoup은 파이썬(python)에서 html과 xml 파일에서 데이터나 자료를 뽑아오는 라이브러리

*  BeautifulSoup을 이용해 HTML과 XML의 트리 구조를 탐색, 검색, 변경 가능.

* 이렇게 문서의 구조나 패턴, 순서를 추출해 탐색 가능하도록 가공하는 작업을 파싱(parsing)이라고 함.


* 파싱 작업을 하는 도구가 파서(parser)이고, 파서(parser)는 HTML 문서 등에서 테그(tag) 등을 입력받은 구문을 해석할 수 있는 단위와 여로 부분으로 분할하는 역할

* BeutifulSoup은 파이썬에서 웹 문서를 탐색할 수 있도록 구조화시키는 파서(parser)의 역할을 한다고 할 수 있다.

#### HTML 문서 만들기

In [1]:
%%writefile schoolbell.html

<!DOCTYPE html>
<html>
<head>
  <title>Homepage title</title>
</head>
<body>
  <h1>Head title</h1>
  <p>Head Title</p>
  <div>
    <a href = "www.google.com">Google</a>
  </div>
  <div class='class1'>
    <a href="www.naver.com">naver</a>
  </div>
  <div>
    <p id = "title">학교종이 땡땡떙</p>
    <p id = "content">학교종이 땡땡땡 어서 모이자.<br/>선생님이 우리를 기다리신다.<br/>
    </p>
    <p id = "content">학교종이 땡땡땡 어서모이자.<br/>사이좋게 오늘도 공부잘하자.<br/>
    </p>
  </div>
  </body>
  </html>




Writing schoolbell.html


## 2. BeautifulSoup으로 html 파싱(parsing)



In [2]:
from bs4 import BeautifulSoup


In [3]:
with open("schoolbell.html") as sb:
  soup = BeautifulSoup(sb, 'html.parser')

In [4]:
soup


<!DOCTYPE html>

<html>
<head>
<title>Homepage title</title>
</head>
<body>
<h1>Head title</h1>
<p>Head Title</p>
<div>
<a href="www.google.com">Google</a>
</div>
<div class="class1">
<a href="www.naver.com">naver</a>
</div>
<div>
<p id="title">학교종이 땡땡떙</p>
<p id="content">학교종이 땡땡땡 어서 모이자.<br/>선생님이 우리를 기다리신다.<br/>
</p>
<p id="content">학교종이 땡땡땡 어서모이자.<br/>사이좋게 오늘도 공부잘하자.<br/>
</p>
</div>
</body>
</html>

## 3. BeautifulSoup으로 태그(tag) 파싱(parsing)

In [5]:
soup.title

<title>Homepage title</title>

In [6]:
soup.h1

<h1>Head title</h1>

In [7]:
soup.div

<div>
<a href="www.google.com">Google</a>
</div>

In [8]:
soup.a

<a href="www.google.com">Google</a>

In [9]:
soup.title.name

'title'

## 4. BeautifulSoup으로 태그(tag) 검색: find(), find_all(), select()

* find() : 해당 조건에 맞는 하나의 테그를 가져옴

In [10]:
soup.find = soup.find("div")
print(soup.find)

<div>
<a href="www.google.com">Google</a>
</div>


* findall() : 해당 조건에 맞는 모든 테그를 가져와 리스트(list) 자료 형태로 반환

In [11]:
soup_findall = soup.find_all("div")
print(soup_findall)

[<div>
<a href="www.google.com">Google</a>
</div>, <div class="class1">
<a href="www.naver.com">naver</a>
</div>, <div>
<p id="title">학교종이 땡땡떙</p>
<p id="content">학교종이 땡땡땡 어서 모이자.<br/>선생님이 우리를 기다리신다.<br/>
</p>
<p id="content">학교종이 땡땡땡 어서모이자.<br/>사이좋게 오늘도 공부잘하자.<br/>
</p>
</div>]


* select(): find_all과 거의 같지만, 경로지정이나 id와 class를 이용할때는 CSS 선택자와 같은 형식(#, .)으로 태그를 선택

In [12]:
soup_select = soup.select("div")
print(soup_select)

[<div>
<a href="www.google.com">Google</a>
</div>, <div class="class1">
<a href="www.naver.com">naver</a>
</div>, <div>
<p id="title">학교종이 땡땡떙</p>
<p id="content">학교종이 땡땡땡 어서 모이자.<br/>선생님이 우리를 기다리신다.<br/>
</p>
<p id="content">학교종이 땡땡땡 어서모이자.<br/>사이좋게 오늘도 공부잘하자.<br/>
</p>
</div>]


## 5. BeautifulSoup으로 id나 class를 이용해 태그(tag) 검색

In [None]:
find_all('태그명', {'id' : 'id명'}
find_all('태그명', {'class' : 'class명'}

select('태그명#id명 태그명)
select('태그명.class명 태크명) 


* id를 이용

In [13]:
find_id = soup.find_all('p', {'id':'title'})
print(find_id)

[<p id="title">학교종이 땡땡떙</p>]


In [14]:
select_id = soup.select('p#title')
print(select_id)

[<p id="title">학교종이 땡땡떙</p>]


In [15]:
find_class = soup.find_all('div', {'class': 'class1'})
print(find_class)

[<div class="class1">
<a href="www.naver.com">naver</a>
</div>]


* class를 이용

In [16]:
find_class = soup.find_all('div', {'class': 'class1'})
print(find_class)

[<div class="class1">
<a href="www.naver.com">naver</a>
</div>]


In [18]:
select_class = soup.select('div.class1 a')
print(select_class)

[<a href="www.naver.com">naver</a>]


## 6. BeautifulSoup으로 링크(link) 태그(tag) 검색

* HTML 문서에서 하이퍼링크(hyperlink)의 링크 테그(tag)는 < a >와 속성 "href"를 사용
* 링크 주소만 가져오고 싶다면 먼저 find_all('a')를 통해 태그 < a >를 가져온 다음에 get('href') 메서드를 이용해 'herf' 속성을 가진 내용을 가져옴

In [21]:
find_link = soup.find_all('a')
print(find_link)

[<a href="www.google.com">Google</a>, <a href="www.naver.com">naver</a>]


In [22]:
find_link = soup.find_all('a')
for link in find_link:
  print(link.get('href'))

www.google.com
www.naver.com


In [23]:
find_link = soup.find_all('a')
for link in find_link:
  print(link['href'])

www.google.com
www.naver.com


## 7. BeautifulSoup으로 태그(tag) 내 텍스트 가져오기

In [24]:
find_text = soup.find_all('div')
for text in find_text:
  print(text.get_text())



Google


naver


학교종이 땡땡떙
학교종이 땡땡땡 어서 모이자.선생님이 우리를 기다리신다.

학교종이 땡땡땡 어서모이자.사이좋게 오늘도 공부잘하자.




* BeautifulSoup을 이용해 태그내에 있는 텍스트만 추출하기 위해서는 get_text()를 사용
* find_all()이나 select()로 태그 부분 전체를 가져온 다음 get_text()를 이용해 텍스트 부분만 다시 추출

In [25]:
contents = soup.find_all('p', {'id': 'content'})
for content in contents:                         
  print(content.get_text())     


학교종이 땡땡땡 어서 모이자.선생님이 우리를 기다리신다.

학교종이 땡땡땡 어서모이자.사이좋게 오늘도 공부잘하자.



In [27]:
contents = soup.select('p#content')
for content in contents:                         
  print(content.get_text())     


학교종이 땡땡땡 어서 모이자.선생님이 우리를 기다리신다.

학교종이 땡땡땡 어서모이자.사이좋게 오늘도 공부잘하자.

