#22036의 Python 시험대비 교재
* 이 교재는 여러 수준의 독자를 위해 제작되었습니다
* 오류나 지적사항, 건의사항은 카톡이나 [여기로](https://forms.gle/cLfQGtNjQmg2hAjm7) 문의해주세요
* 이해가 가지 않는 부분이나 추가 설명(추가 예시라던가 예제라던가)이 필요하시면 마찬가지로 문의해주세요
* '~~알고리즘 정리해주세요' '풀이방법 정리해주세요' 같은 요구사항도 마찬가지로
* 피드백 적극 반영합니다
* ~~문의좀 해줘요 자습하기싫어~~

# BeautifulSoup 사용하기

BeautifulSoup은 웹크롤링 및 HTML 또는 XML 문서 구문 분석에 사용되는 Python 라이브러리입니다. HTML 구조를 탐색하고 조작하여 웹 페이지에서 데이터를 추출하는 방법을 제공합니다. BeautifulSoup의 다양한 특징과 기능을 자세히 살펴보겠습니다.

## BeautifulSoup 설치

BeautifulSoup을 사용하려면 먼저 설치해야 합니다. Python용 패키지 설치 프로그램인 pip를 사용하여 BeautifulSoup을 설치할 수 있습니다. 명령 프롬프트 또는 터미널을(Windows 기준 작업 표시줄 검색창에 cmd/명령 프롬프트 or Win+R → cmd) 열고 다음 명령을 실행합니다.

```
pip install beautifulsoup4
```

설치가 완료되면 다음 코드를 사용하여 라이브러리를 Python 스크립트로 가져올 수 있습니다.

```python
from bs4 import BeautifulSoup
```

## HTML 파싱하기

웹페이지의 구조는 HTML로 이루어져 있습니다. HTML 문서에서 정보 추출을 시작하려면 먼저 BeautifulSoup을 사용하여 HTML 콘텐츠를 구문 분석(파싱)해야 합니다. BeautifulSoup은 lxml, html5lib 및 내장 HTML 파서와 같은 다양한 파서를 지원합니다.

다음은 HTML 문서를 파싱하는 예시입니다:


In [None]:
from bs4 import BeautifulSoup

# 파싱할 HTML
html_doc = """
<html>
<head>
    <title>Example Website</title>
</head>
<body>
    <h1>Welcome to BeautifulSoup</h1>
    <p>This is a sample paragraph.</p>
</body>
</html>
"""

# BeautifulSoup 객체 만들기
soup = BeautifulSoup(html_doc, 'html.parser')

# HTML 구조 접근해서 갖고놀기
print(soup.title.text)  # Example Website
print(soup.h1.text)  # Welcome to BeautifulSoup
print(soup.p.text)  # This is a sample paragraph.

Example Website
Welcome to BeautifulSoup
This is a sample paragraph.


위 예제에서는 HTML 내용과 사용할 구문 분석기를 전달하여 `soup`라는 BeautifulSoup 개체를 만듭니다. `soup` 개체를 사용하면 HTML 구조에 접근하고 조작할 수 있습니다.

## HTML 구조 탐색

BeautifulSoup를 이용해 HTML 구조를 탐색하고 특정 요소에 액세스하는 할 수 있습니다. 이러한 메서드를 사용하면 이름, 속성 또는 CSS 클래스를 기반으로 특정 HTML 태그를 검색할 수 있습니다.
일반적으로 사용되는 몇 가지 방법은 다음과 같습니다.
* **`find()`**: 지정된 기준과 일치하는 태그의 첫 번째 항목을 찾을 수 있습니다.
* **`find_all()`**: 지정된 기준과 일치하는 모든 태그의 리스트를 반환합니다.
* **`parent`, `find_parent()`, `parents`**: 지정된 태그의 부모(상위) 요소에 접근할 수 있습니다.
* **`next_sibling`, `previous_sibling`, `find_next_sibling()`, `find_previous_sibling()`**: 지정된 태그의 다음 또는 이전 형제 요소에 접근할 수 있습니다.

다음은 BeautifulSoup을 사용하여 HTML 구조를 탐색하는 방법을 보여주는 예입니다.

In [None]:
from bs4 import BeautifulSoup

# 아래 HTML 구조를 가정합니다.
html_doc = """
<div class="container">
    <h2>Example Heading</h2>
    <ul>
        <li class="item">Item 1</li>
        <li class="item">Item 2</li>
        <li class="item">Item 3</li>
    </ul>
</div>
"""
soup = BeautifulSoup(html_doc, "html.parser")

# "container"를 클래스로 하는 div요소 찾기
container = soup.find("div", class_="container")
print("container:")
print(container)
print()

# div 내에서 h2 요소 찾기
heading = container.find("h2")
print("heading:")
print(heading)
print()

# h2 요소의 텍스트에 접근
print("heading.text:")
print(heading.text)
print()

# ul 내의 모든 li 요소 찾기
items = container.ul.find_all("li")
print("items:")
print(items)
print()

# 반복해서 출력
for item in items:
    print(item.text)

container:
<div class="container">
<h2>Example Heading</h2>
<ul>
<li class="item">Item 1</li>
<li class="item">Item 2</li>
<li class="item">Item 3</li>
</ul>
</div>

heading:
<h2>Example Heading</h2>

heading.text:
Example Heading

items:
[<li class="item">Item 1</li>, <li class="item">Item 2</li>, <li class="item">Item 3</li>]

Item 1
Item 2
Item 3


위 예시에서는 `find()` 메서드를 사용하여 `"container"` 클래스가 있는 `div` 요소를 찾습니다. 거기에서 우리는 `div` 내의 `h2` 요소에 더 탐색하고 액세스할 수 있을 뿐만 아니라 `ul` 내의 모든 `li` 요소를 검색할 수 있습니다.

위의 `find()`말고도 `select()`메서드를 사용할 수 있습니다. `select()`는 CSS 선택자를 사용하여 요소를 선택할 수 있는 메서드입니다. CSS 선택자는 속성, 클래스 이름 또는 ID를 기반으로 웹 페이지의 특정 요소를 대상으로 지정하는 널리 사용되는 방법입니다. `select()` 메서드는 지정된 CSS 선택자와 일치하는 요소 목록을 반환합니다.

In [None]:
from bs4 import BeautifulSoup

# 아래 HTML 구조를 가정합니다.
html_doc = """
<div class="container">
    <h2>Example Heading</h2>
    <ul>
        <li class="item">Item 1</li>
        <li class="item">Item 2</li>
        <li class="item">Item 3</li>
    </ul>
</div>
"""
soup = BeautifulSoup(html_doc, "html.parser")

# class가 "item"인 모든 li요소를 선택합니다.
items = soup.select('li.item')
for item in items:
    print(item.text)  # Item 1, Item 2, Item 3

# class가 "container"인 div 내의 h2 요소를 선택합니다.
heading = soup.select_one('div.container > h2')
print(heading.text)  # Output: Example Heading

Item 1
Item 2
Item 3
Example Heading


위 코드의 첫 예시에서는 CSS 선택자 `'li.item'`과 함께 `select()` 메서드를 사용하여 `"item"` 클래스가 있는 모든 `li` 요소를 선택합니다.

두 번째 예시에서는 CSS 선택자 `'div.container > h2'`와 함께 `select_one()` 메서드를 사용하여 `"container"` 클래스가 있는 `div`의 직계 자식인 `h2` 요소를 선택합니다. `select_one()` 메서드는 선택자와 일치하는 첫 번째 요소만 반환합니다.

## BeautifulSoup로 웹 크롤링하기

BeautifulSoup 라이브러의 HTML분석을 이용해 온라인상의 웹페이지에서 정보를 수집하는 웹크롤링을 수행할 수 있습니다.

### requests 라이브러리

requests 라이브러리는 HTTP 요청을 만드는 데 사용되는 널리 사용되는 Python 라이브러리입니다. HTTP 요청을 보내고 응답을 처리하는 프로세스를 단순화하여 웹 서비스 및 API와 더 쉽게 상호작용할 수 있습니다.

다음 코드를 통해 특정 url의 서버에 get 요청을 보낼 수 있습니다.

In [None]:
import requests

response = requests.get("https://www.google.com/")

아래와 같은 방식으로 HTTP 응답 코드를 받아 올 수 있습니다.

In [None]:
print(response.status_code)

200


다음은 일반적으로 많이 볼 수 있는 HTTP 응답 코드입니다.

* 200 OK(성공): 성공적으로 처리했을 때. 가장 일반적으로 볼 수 있는 HTTP 상태.
* 400 Bad Request(잘못된 요청): 요청 자체가 잘못되었을 때.
* 403 Forbidden(거부됨): 서버가 요청을 거부할 때 발생.
* 404 Not Found(찾을 수 없음): 찾는 리소스가 없음.
* 500 Internal Server Error(내부 서버 오류): 서버에 오류가 발생함.


`request.get()`으로 서버와 통신하는 데 성공했다면, `text`를 통해 웹의 HTML 구조를 가져올 수 있습니다.

In [None]:
print(response.text)

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="nl"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="3_EpQBjq8mGQU4I1P8Vazg">(function(){var _g={kEI:'K6qFZJThJu7Y7_UPmOKG6A4',kEXPI:'0,18167,1341242,6059,206,4804,896,1420,383,246,5,1129120,1704,1196079,303179,77529,16114,28684,22431,1361,12316,17583,4998,17075,38444,2872,2891,3926,214,4209,3405,606,29877,20182,26966,20583,4,1528,2304,42126,18096,22595,6642,7596,1,42160,2,39755,5679,1020,31123,4568,6258,23416,1254,5835,14968,4332,5016,2468,25076,2006,8155,7381,15969,874,19633,7,1922,9779,12414,10494,19551,2007,1135,17057,927,4869,8,14428,7651,12555,8377,18988,5375,3030,5629,482,9705,1804,10472,2276,609,161,288,10742,8549,10958,44,2983,1428,87,117,7950,4468,1275,168,1128,780,7495,355,666,4,2413,2882,2467,1902,979,732,2824,3,626,6161,2093,3,3,9,4113,643,319,29

위 예시에서는, [google.com](google.com)의 HTML 구조를 가져옵니다. 이는 해당 페이지에서 Ctrl+U 키나 F12키를 눌러 개발자 모드로 들어가면 확인할 수 있습니다.

### BeautifulSoup 이용하기

위의 request 라이브러리를 이용하여 웹의 HTML 구조를 받아올 수 있습니다. 이를 통해 네이버 기사의 제목을 가져오는 간단한 프로그램을 만들어 보겠습니다.

[네이버 뉴스에서 고양이를 검색한 링크](https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EA%B3%A0%EC%96%91%EC%9D%B4)를 이용하겠습니다.

In [None]:
from bs4 import BeautifulSoup
import requests

url = "https://search.naver.com/search.naver?where=news&sm=tab_jum&query=%EA%B3%A0%EC%96%91%EC%9D%B4"

# requests 모듈을 이용하여 GET 요청
response = requests.get(url)

#  html 코드와 사용할 파서를 지정
soup = BeautifulSoup(response.text, "html.parser")

위 링크에서 F12를 통해 개발자 모드로 들어가보면,   
<img src="https://github.com/sleepncaffeine/my_small_python_notes/assets/101965838/04180da3-5634-4a95-a68a-bbef0ea6c55a" width="650px"></img>   
찾으려는 뉴스 기사의 제목이 `a.news_tit`선택자를 가짐을 알 수 있습니다.

In [None]:
# select_one으로 맨 앞의 하나 선택
print(soup.select_one("a.news_tit").get_text())

고양이 한마리 겨우 빠져나갈 지구대 창문으로 외국인 10명 도주


In [None]:
# select로 리스트 선택
titles = soup.select("a.news_tit")

for i in titles:
    title = i.get_text()
    print(title)

고양이 한마리 겨우 빠져나갈 지구대 창문으로 외국인 10명 도주
길고양이, ‘동네 고양이’라 부르고 해법 찾아봐요
시민단체 "개·고양이 보신문화는 악습…칠성 개시장 폐쇄하라"
개ㆍ고양이 수십 마리 펫숍에 버리고 잠적한 일당 검거
강남 빌라 담장 올라 20분간 고양이 봤다는 남성…법원 "건물침입" 벌금형
송영길 “김건희 소환은?…檢, 고양이 앞의 쥐 모양새”
[고양이 눈]“아빠 구해주세요∼!”
송영길 "검찰, 김건희 앞에선 고양이 앞에 쥐…주변 말고 나를 소환해라"
치어리더 정가예 '귀여운 고양이 스타일'[엑's HD포토]
새끼 사체 발견된 고양이카페 '영업정지 15일'...솜방망이 처벌 논란
