# Web Scraping

<div class='alert alert-block alert-info'>
[Tip] 다음 주제를 다룹니다.
    <ol>
        <li><a href=#1>BeautifulSoup</a></li>
        <li><a href=#2>Scrapy</a></li>
        <li><a href=#3>Selenium</a></li>
        <li><a href=#4>Pandas.read_html()</a></li>
    </ol>
</div>

**웹 스크래핑(Web Scraping)**은 **웹 하베스팅(Web Harvesting)** 또는 **웹 데이터 추출(Web Data Extraction)**이라고도 불리며, 웹사이트에서 **대량의 데이터를 추출**하는 기술입니다.  

웹사이트의 데이터는 **비정형(unstructured)** 데이터로 구성되어 있습니다.  
웹 스크래핑을 사용하면 이 데이터를 **정형(structured)** 데이터 형태로 변환할 수 있습니다.

---

💡 **웹 스크래핑의 주요 목적:**  
- 웹 페이지에서 원하는 데이터를 자동으로 수집  
- 비정형 데이터를 **데이터프레임** 또는 **데이터베이스**와 같은 정형 데이터로 변환  
- 데이터 분석, 머신러닝, 연구 등 다양한 목적으로 활용 가능

---

### 📋 **웹 스크래핑 활용 사례:**  
- 뉴스 기사 추출  
- 제품 가격 비교  
- 소셜 미디어 데이터 수집  
- 부동산 정보 수집  

웹 스크래핑을 통해 인터넷에 있는 **대규모 데이터**를 효과적으로 활용할 수 있습니다! 😊

## Importance of Web Scraping in Data Science

**데이터 과학(Data Science)** 분야에서 **웹 스크래핑(Web Scraping)**은 매우 중요한 역할을 합니다.  
다양한 목적으로 사용되며, 아래와 같은 사례들이 대표적입니다.

---

### 📊 **웹 스크래핑의 주요 활용 사례:**  

1️⃣ **데이터 수집(Data Collection)**  
   - 웹 스크래핑은 인터넷에서 데이터를 수집하는 **주요 방법**입니다.  
   - 수집된 데이터는 **분석**, **연구**, **비즈니스 인사이트 도출** 등에 활용됩니다.

2️⃣ **실시간 애플리케이션(Real-time Application)**  
   - 웹 스크래핑은 **실시간 애플리케이션**에 사용됩니다.  
   - 예시:  
     - **날씨 업데이트**  
     - **가격 비교 사이트**  
     - **주식 시장 데이터 수집**  

3️⃣ **머신러닝(Machine Learning)**  
   - **머신러닝 모델**을 훈련시키기 위해 **대규모 데이터**가 필요합니다.  
   - 웹 스크래핑을 통해 다양한 분야의 데이터를 수집하여 모델을 **훈련(training)**시킬 수 있습니다.

---

💡 **요약:**  
웹 스크래핑은 **데이터 과학**, **실시간 시스템**, **머신러닝** 등 다양한 분야에서 **데이터 수집**을 자동화하는 핵심 기술입니다! 😊

<a id=1></a>
## Web Scraping with Python

**Python은 웹 스크래핑을 위한 여러 라이브러리를 제공합니다. 다음은 그 중 몇 가지입니다:**  

**BeautifulSoup:**  
BeautifulSoup은 HTML 및 XML 파일에서 데이터를 추출하기 위해 사용되는 Python 라이브러리입니다. 페이지 소스 코드를 파싱 트리(parse tree)로 변환하여 계층적이고 읽기 쉬운 방식으로 데이터를 추출할 수 있도록 돕습니다.  

다음은 BeautifulSoup을 사용한 간단한 웹 스크래핑 예제 코드입니다:

```python
from bs4 import BeautifulSoup  
import requests  

URL = "http://www.example.com"  
page = requests.get(URL)  
soup = BeautifulSoup(page.content, "html.parser")  
```

**설명:**  
1️⃣ `from bs4 import BeautifulSoup` — BeautifulSoup 라이브러리를 가져옵니다.  
2️⃣ `import requests` — 웹 페이지 요청을 위해 requests 라이브러리를 가져옵니다.  
3️⃣ `URL = "http://www.example.com"` — 접속할 웹 페이지의 URL을 설정합니다.  
4️⃣ `page = requests.get(URL)` — 해당 URL의 페이지 콘텐츠를 가져옵니다.  
5️⃣ `soup = BeautifulSoup(page.content, "html.parser")` — 페이지 콘텐츠를 BeautifulSoup 객체로 파싱하여 분석할 수 있는 구조로 만듭니다.

이 코드를 실행하면 `soup` 객체를 통해 웹 페이지에서 원하는 데이터를 쉽게 추출할 수 있습니다. 😊

<a id=2></a>
### **Scrapy:**  
Scrapy는 Python용 오픈 소스 협업 웹 크롤링 프레임워크입니다. 주로 웹사이트에서 데이터를 추출하는 데 사용되며, 크롤러를 작성하고 데이터를 수집하는 데 최적화되어 있습니다. Scrapy는 빠르고 효율적으로 여러 페이지를 자동으로 탐색할 수 있는 강력한 기능을 제공합니다.

---

### **Scrapy를 사용한 웹 크롤링 예제 코드:**

```python
import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://quotes.toscrape.com/tag/humor/',]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {'quote': quote.css('span.text::text').get()}
```

---

### **설명:**  
1️⃣ `import scrapy` — Scrapy 라이브러리를 가져옵니다.  
2️⃣ `class QuotesSpider(scrapy.Spider)` — Scrapy의 기본 `Spider` 클래스를 상속하여 사용자 정의 크롤러를 만듭니다.  
3️⃣ `name = "quotes"` — 크롤러의 이름을 설정합니다. 터미널에서 이 이름으로 크롤러를 실행할 수 있습니다.  
4️⃣ `start_urls = ['http://quotes.toscrape.com/tag/humor/']` — 크롤링을 시작할 URL 목록을 지정합니다.  
5️⃣ `def parse(self, response)` — `parse` 메서드는 Scrapy가 페이지를 요청하고 응답을 처리하는 데 사용됩니다.  
6️⃣ `for quote in response.css('div.quote')` — `CSS selector`를 사용하여 페이지의 `div.quote` 요소를 찾습니다.  
7️⃣ `yield {'quote': quote.css('span.text::text').get()}` — 각 `div.quote` 요소에서 텍스트 데이터를 추출하고 결과를 딕셔너리 형태로 반환합니다.

---

### **실행 방법:**  
1️⃣ 터미널에서 아래 명령어로 프로젝트를 생성합니다:  
```bash
scrapy startproject quotes_spider
```

2️⃣ **`spiders` 폴더**에 위 코드를 새 파일로 저장합니다 (예: `quotes_spider.py`).  

3️⃣ 크롤러를 실행합니다:  
```bash
scrapy crawl quotes
```

---

이 코드를 실행하면 **"Humor"** 태그가 있는 페이지에서 명언을 추출하여 출력합니다. 😊  
Scrapy는 대규모 데이터 수집 프로젝트에 매우 유용한 라이브러리입니다! 🚀

<a id=3></a>
### **Selenium:**  
Selenium은 웹 브라우저를 프로그래밍을 통해 제어하고 브라우저 작업을 자동화하는 도구입니다. 사용자는 웹 페이지에 직접 액세스하고 폼을 제출하거나 버튼을 클릭하는 등의 작업을 자동으로 수행할 수 있습니다. Selenium은 특히 **동적 콘텐츠**가 많은 웹사이트에서 유용합니다.

---

### **Selenium을 사용한 웹 브라우저 제어 예제 코드:**

```python
from selenium import webdriver

# Firefox 브라우저 드라이버 실행
driver = webdriver.Firefox()

# 특정 웹 페이지 열기
driver.get("http://www.example.com")
```

---

### **설명:**  
1️⃣ **`from selenium import webdriver`** — Selenium의 `webdriver` 모듈을 가져옵니다.  

2️⃣ **`driver = webdriver.Firefox()`** — Firefox 브라우저를 제어하기 위해 `Firefox` 드라이버를 실행합니다.  
   - 다른 브라우저를 사용하려면 다음과 같이 변경할 수 있습니다:
     - **Chrome:** `driver = webdriver.Chrome()`
     - **Edge:** `driver = webdriver.Edge()`

3️⃣ **`driver.get("http://www.example.com")`** — 지정된 URL을 열고 브라우저 창에 웹 페이지를 표시합니다.

---

### **실행 방법:**  
1️⃣ 먼저 Selenium 패키지를 설치합니다:  
```bash
pip install selenium
```

2️⃣ **웹 드라이버(WebDriver)**를 설치합니다.  
   - Firefox용: **GeckoDriver**  
   - Chrome용: **ChromeDriver**  

**예:**  
- Firefox 브라우저의 경우, **GeckoDriver**를 다운로드하고 시스템 PATH에 추가해야 합니다.  
  다운로드 링크: [https://github.com/mozilla/geckodriver](https://github.com/mozilla/geckodriver)

---

### **Selenium을 활용한 기본 자동화 작업 예시:**  
웹 페이지 열기, 입력 필드에 텍스트 입력, 버튼 클릭 등의 작업을 수행할 수 있습니다.

#### 예제: Google 검색 자동화
```python
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

# Chrome 브라우저 열기
driver = webdriver.Chrome()

# Google 홈페이지 열기
driver.get("https://www.google.com")

# 검색 입력 필드 찾기
search_box = driver.find_element("name", "q")

# 검색어 입력 및 엔터키 누르기
search_box.send_keys("Python 웹 스크래핑")
search_box.send_keys(Keys.RETURN)
```

---

Selenium은 웹 사이트 자동화, 테스트 자동화, 데이터 수집에 매우 유용하며 **동적 웹 페이지**를 처리할 때 필수적인 도구입니다! 🧑‍💻✨

### **웹 스크래핑의 활용 분야**  
웹 스크래핑은 다양한 분야에서 활용되며 여러 응용 사례가 있습니다.

---

### **1. 가격 비교 (Price Comparison)**  
웹 스크래핑은 온라인 쇼핑 웹사이트에서 데이터를 수집하여 **제품 가격을 비교**하는 데 사용됩니다.  
예를 들어, **ParseHub**와 같은 서비스는 여러 전자상거래 사이트의 가격 정보를 스크랩하여 사용자가 가장 저렴한 가격을 쉽게 찾을 수 있도록 도와줍니다.

**사용 예시:**  
- 여러 쇼핑몰의 상품 가격 비교 사이트  
- 여행 및 항공권 가격 비교 플랫폼  

---

### **2. 이메일 주소 수집 (Email Address Gathering)**  
많은 기업이 **이메일 마케팅**을 위해 웹 스크래핑을 사용하여 웹사이트에서 이메일 주소를 수집합니다.  
이렇게 수집한 이메일 주소를 활용하여 대량의 마케팅 이메일을 발송합니다.

**사용 예시:**  
- 뉴스레터 구독자 리스트 수집  
- 고객 맞춤형 광고 이메일 발송  

⚠️ **주의:** 이메일 주소를 무단으로 수집하고 사용하는 것은 **데이터 보호법**에 위배될 수 있습니다. 항상 법적 규제를 준수해야 합니다.

---

### **3. 소셜 미디어 스크래핑 (Social Media Scraping)**  
소셜 미디어 사이트(예: **Twitter, Instagram, Facebook**)에서 데이터를 수집하여 **트렌드를 분석**하는 데 사용됩니다.  
이를 통해 어떤 주제가 인기 있는지 파악하거나 **소비자 피드백**을 분석할 수 있습니다.

**사용 예시:**  
- 트위터 해시태그 및 키워드 분석  
- 브랜드 이미지 관리 및 사용자 피드백 수집  
- 인플루언서 및 트렌드 모니터링  

---

### **기타 활용 사례:**  
✅ **뉴스 기사 수집** – 최신 뉴스를 자동으로 수집하여 분석  
✅ **부동산 정보 수집** – 다양한 부동산 사이트에서 매물 정보를 수집하고 비교  
✅ **리뷰 분석** – 제품 및 서비스에 대한 리뷰 데이터를 수집하여 소비자 만족도 분석  

웹 스크래핑은 **데이터 기반 비즈니스 의사결정**에 큰 도움을 주며, 다양한 산업에서 점점 더 중요한 기술로 자리잡고 있습니다! 🚀😊

<a id=4></a>
# Web Scraping Tables using Pandas

### **Pandas의 `read_html()` 함수 소개**  
**Pandas** 라이브러리의 `read_html()` 함수는 **웹 페이지**에서 **표 형식(tabular data)** 데이터를 추출하는 데 사용됩니다.  
HTML 테이블 태그로 작성된 데이터를 자동으로 읽어와 Pandas의 **DataFrame** 형식으로 변환합니다.  

---

### **예제: 세계 최대 은행 목록 추출하기**  
아래는 Wikipedia 페이지에서 **시장 가치 기준 세계 최대 은행 목록**을 추출하는 코드입니다.

#### 🔗 **데이터가 있는 URL:**  
`https://en.wikipedia.org/wiki/List_of_largest_banks`

---

### **Python 코드:**
```python
import pandas as pd

# URL 설정
URL = 'https://en.wikipedia.org/wiki/List_of_largest_banks'

# read_html()로 모든 테이블 가져오기
tables = pd.read_html(URL)

# 첫 번째 테이블 출력
largest_banks = tables[0]
print(largest_banks)
```

---

### **설명:**  
1️⃣ **`import pandas as pd`** — Pandas 라이브러리를 가져옵니다.  
2️⃣ **`URL = 'https://en.wikipedia.org/wiki/List_of_largest_banks'`** — 데이터를 추출할 웹 페이지 URL을 설정합니다.  
3️⃣ **`tables = pd.read_html(URL)`** — 지정된 URL에서 HTML 테이블을 모두 읽어와 **리스트 형태**로 저장합니다.  
4️⃣ **`largest_banks = tables[0]`** — 첫 번째 테이블을 선택하여 **DataFrame**에 저장합니다.  
5️⃣ **`print(largest_banks)`** — 추출된 테이블을 출력합니다.

---


In [3]:
import pandas as pd
URL = 'https://en.wikipedia.org/wiki/List_of_largest_banks'
tables = pd.read_html(URL)
largest_banks = tables[0]
largest_banks

Unnamed: 0,Rank,Bank name,Total assets (2023) (US$ billion)
0,1,Industrial and Commercial Bank of China,6303.44
1,2,Agricultural Bank of China,5623.12
2,3,China Construction Bank,5400.28
3,4,Bank of China,4578.28
4,5,JPMorgan Chase,3875.39
...,...,...,...
95,96,Raiffeisen Group,352.87
96,97,Handelsbanken,351.79
97,98,Industrial Bank of Korea,345.81
98,99,DNB,339.21


### **주의사항:**  
✅ `read_html()` 함수는 **BeautifulSoup**을 내부적으로 사용하므로, **lxml** 또는 **html5lib**와 같은 파서가 필요합니다.  
✅ 테이블이 많은 경우 원하는 테이블을 찾기 위해 **`tables[0]`, `tables[1]`**처럼 인덱싱을 사용해야 합니다.  
✅ 일부 웹 페이지에서는 **JavaScript**로 동적 테이블을 생성하기 때문에 **Selenium**과 함께 사용해야 할 수 있습니다.

---

### **장점:**  
- HTML 테이블을 자동으로 **DataFrame**으로 변환하므로 추가 파싱 작업이 필요 없습니다.  
- **데이터 분석 및 시각화** 작업으로 바로 이어질 수 있습니다.  

---

Pandas의 `read_html()` 함수는 **빠르고 간편하게 웹 데이터를 추출**할 수 있는 매우 강력한 도구입니다! 🚀

### **예시: 국가별 명목 GDP 목록 테이블 추출하기**  
Pandas의 `read_html()` 함수는 **HTML 테이블을 DataFrame**으로 빠르게 변환하지만, 때로는 테이블 내에 있는 **하이퍼링크 텍스트**와 같은 불필요한 정보도 함께 추출됩니다. 이런 경우 **데이터 정제(cleaning)**가 필요합니다.

---

#### 🔗 **예제 URL:**  
`https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)`

---

### **Python 코드 예제:**  
아래 코드는 위 URL에서 세 번째 테이블(index 2)을 추출하여 DataFrame에 저장하고 출력합니다.

```python
import pandas as pd

# URL 설정
URL = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'

# 웹 페이지에서 모든 테이블 가져오기
tables = pd.read_html(URL)

# 인덱스가 2인 테이블 추출
df = tables[2]

# 데이터 출력
print(df)
```

---

### **설명:**  
1️⃣ **`pd.read_html()`** 함수는 웹 페이지에서 모든 테이블을 **리스트 형태**로 반환합니다.  
2️⃣ **`tables[2]`** — 인덱스가 2인 테이블을 선택하여 DataFrame에 저장합니다.  
3️⃣ **`print(df)`** — 추출된 데이터를 출력합니다.

---

### **출력 예시:**  
|    | Country/Territory | GDP (US$ million) | Year |   |  
|----|-------------------|-------------------|------|---|  
|  0 | United States      | 25,350,000        | 2023 |   |  
|  1 | China             | 18,321,000        | 2023 |   |  
|  2 | Japan             | 4,940,000         | 2023 |   |  

---

### **하이퍼링크 및 기타 요소 처리:**  
`read_html()` 함수로 추출한 데이터에는 **하이퍼링크 텍스트**나 기타 불필요한 요소가 포함될 수 있습니다.  
이 경우 데이터를 정제(cleaning)하기 위해 Pandas의 **`str.replace()`**, **`apply()`** 등의 메서드를 사용하여 하이퍼링크나 기호를 제거할 수 있습니다.

#### **하이퍼링크 텍스트 정리 예시:**
```python
# 'Country/Territory' 열에서 하이퍼링크 제거
df['Country/Territory'] = df['Country/Territory'].str.replace(r'\[.*?\]', '', regex=True)
```

---

### **Pandas와 BeautifulSoup의 차이점:**  
| **Pandas (`read_html()`)**       | **BeautifulSoup**              |  
|----------------------------------|--------------------------------|  
| HTML **테이블** 데이터를 자동으로 추출 | HTML 페이지의 모든 요소 추출 가능 |  
| 빠르고 간편함                     | 더 세부적인 데이터 추출 가능      |  
| 정제 작업이 필요할 수 있음         | 더 많은 코드 작성이 필요함        |

---

### **핵심 포인트:**  
- `read_html()`은 **HTML 테이블**을 손쉽게 DataFrame으로 가져오는 데 적합합니다.  
- 웹 페이지의 **기타 요소(텍스트, 이미지, 링크)**를 추출하려면 **BeautifulSoup**이 더 적합합니다.  
- 데이터 추출 후 Pandas의 **데이터 정제 기능**을 사용해 불필요한 데이터를 제거할 수 있습니다.

---

Pandas의 `read_html()`은 간단한 테이블 데이터 수집에 매우 유용하지만, 보다 복잡한 스크래핑 작업에는 **BeautifulSoup**을 사용하는 것이 더 적절합니다. 😊

In [14]:
import pandas as pd

# URL 설정
URL = 'https://en.wikipedia.org/wiki/List_of_countries_by_GDP_(nominal)'

# 웹 페이지에서 모든 테이블 가져오기
tables = pd.read_html(URL)

# 인덱스가 2인 테이블 추출
tables[2]

Unnamed: 0_level_0,Country/Territory,IMF[1][13],IMF[1][13],World Bank[14],World Bank[14],United Nations[15],United Nations[15]
Unnamed: 0_level_1,Country/Territory,Forecast,Year,Estimate,Year,Estimate,Year
0,World,1115494312,2025,105435540,2023,100834796,2022
1,United States,30337162,2025,27360935,2023,25744100,2022
2,China,19534894,[n 1]2025,17794782,[n 3]2023,17963170,[n 1]2022
3,Germany,4921563,2025,4456081,2023,4076923,2022
4,Japan,4389326,2025,4212945,2023,4232173,2022
...,...,...,...,...,...,...,...
205,Kiribati,311,2024,279,2023,223,2022
206,Palau,308,2024,263,2023,225,2022
207,Marshall Islands,305,2024,284,2023,279,2022
208,Nauru,161,2024,154,2023,147,2022


<hr>

# Web Scraping Lab

## Objectives
* BeautifulSoup Python 라이브러리의 기본 개념을 숙지하고 있는 사람
* 웹페이지에서 데이터를 스크래핑하고 필요한 데이터를 필터링할 수 있는 능력

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li>
            <a href="BSO">Beautiful Soup Object</a>
            <ul>
                <li>Tag</li>
                <li>Children, Parents, and Siblings</li>
                <li>HTML Attributes</li>
                <li>Navigable String</li>
            </ul>
        </li>
     </ul>
    <ul>
        <li>
            <a href="filter">Filter</a>
            <ul>
                <li>find All</li>
                <li>find </li>
                <li>HTML Attributes</li>
                <li>Navigable String</li>
            </ul>
        </li>
     </ul>
     <ul>
        <li>
            <a href="DSCW">Downloading And Scraping The Contents Of A Web</a>
    </p>
    
</div>

<hr>


이번 실습에서는 Python과 여러 Python 라이브러리를 사용할 예정입니다. 이러한 라이브러리 중 일부는 실습 환경이나 SN Labs에 이미 설치되어 있을 수 있습니다. 그러나 다른 라이브러리는 직접 설치해야 할 수도 있습니다. 아래 셀을 실행하면 해당 라이브러리들이 설치됩니다.

In [None]:
#!pip install bs4
#!pip install requests pandas html5lib

모듈을 임포트합니다.

In [15]:
from bs4 import BeautifulSoup  # web scrapping에 도움
import requests  # 웹에서 페이지를 다운로드

## Beautiful Soup Objects

Beautiful Soup은 HTML 및 XML 파일에서 데이터를 추출하기 위한 Python 라이브러리입니다. 우리는 HTML 파일에 집중할 것입니다. 이 작업은 HTML을 객체 집합으로 표현하고, HTML을 파싱하기 위해 사용되는 메서드를 통해 이루어집니다. HTML을 트리 구조로 탐색하거나 원하는 데이터를 필터링할 수 있습니다.

Consider the following HTML:
```html
%%html
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Salary: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Salary: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Salary: $73,200, 000</p>
</body>
</html>
```

In [26]:
html="<!DOCTYPE html><html><head><title>Page Title</title></head><body><h3><b id='boldest'>Lebron James</b></h3><p> Salary: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Salary: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salary: $73,200, 000</p></body></html>"

문서를 파싱하려면 BeautifulSoup 생성자에 문서를 전달하면 됩니다. BeautifulSoup 객체는 문서를 중첩된 데이터 구조로 표현합니다.

In [27]:
soup = BeautifulSoup(html, 'html5lib')

먼저, 문서는 유니코드(ASCII와 유사한 형식)로 변환되며 HTML 엔티티는 유니코드 문자로 변환됩니다. Beautiful Soup은 복잡한 HTML 문서를 Python 객체의 복잡한 트리 구조로 변환합니다. `BeautifulSoup` 객체는 다른 종류의 객체를 생성할 수 있습니다. 이번 실습에서는 `BeautifulSoup` 객체와 `Tag` 객체를 다룰 것이며, 이 두 객체는 이번 실습의 목적상 동일하게 취급됩니다. 마지막으로 `NavigableString` 객체에 대해서도 살펴보겠습니다.  

`prettify()` 메서드를 사용하여 HTML을 중첩된 구조로 보기 좋게 출력할 수 있습니다.

In [28]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Salary: $ 92,000,000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Salary: $85,000, 000
  </p>
  <h3>
   Kevin Durant
  </h3>
  <p>
   Salary: $73,200, 000
  </p>
 </body>
</html>


## Tags

페이지의 제목과 최고 연봉 선수의 이름을 가져오고 싶다고 가정해봅시다. 이를 위해 `Tag` 객체를 사용할 수 있습니다. `Tag` 객체는 원본 문서의 HTML 태그에 해당하며, 예를 들어 `title` 태그가 이에 해당합니다.  

In [29]:
tag_object = soup.title
print(f'tag object:{tag_object}')

tag object:<title>Page Title</title>


In [30]:
print(f"tag object type: {type(tag_object)}")

tag object type: <class 'bs4.element.Tag'>


동일한 이름의 `Tag`가 여러 개 있는 경우, 해당 `Tag` 이름을 가진 첫 번째 요소가 호출됩니다. 이는 최고 연봉 선수에 해당합니다.  

In [31]:
tag_object = soup.h3
tag_object

<h3><b id="boldest">Lebron James</b></h3>

굵게 표시하는 속성인 `<b>` 태그 안에 포함되어 있으며, 트리 구조를 사용하면 더 쉽게 탐색할 수 있습니다. 자식(child) 속성을 사용하여 트리를 아래로 탐색하면 이름을 가져올 수 있습니다.

### Children, Parents, and Siblings

위에서 설명한 것처럼, `Tag` 객체는 객체들의 트리 구조로 되어 있습니다. 태그의 자식 요소에 접근하거나 브랜치를 따라 아래로 탐색할 때는 다음과 같이 할 수 있습니다.  

In [32]:
tag_child = tag_object.b
tag_child

<b id="boldest">Lebron James</b>

부모 요소에 접근하려면 `parent` 속성을 사용하면 됩니다.  

In [33]:
parent_tag = tag_child.parent
parent_tag

<h3><b id="boldest">Lebron James</b></h3>

이는 다음과 동일합니다:

In [34]:
tag_object

<h3><b id="boldest">Lebron James</b></h3>

`tag_object`의 부모 요소는 `body` 요소입니다.  

In [35]:
tag_object.parent

<body><h3><b id="boldest">Lebron James</b></h3><p> Salary: $ 92,000,000 </p><h3> Stephen Curry</h3><p> Salary: $85,000, 000 </p><h3> Kevin Durant </h3><p> Salary: $73,200, 000</p></body>

`tag_object`의 형제 요소는 `paragraph` 요소입니다.  

In [36]:
sibling_1 = tag_object.next_sibling

sibling_1

<p> Salary: $ 92,000,000 </p>

`sibling_2`는 `header` 요소이며, 이는 `sibling_1`과 `tag_object`의 형제 요소이기도 합니다.  

In [37]:
sibling_2 = sibling_1.next_sibling
sibling_2

<h3> Stephen Curry</h3>

<h3 id="first_question">Exercise: <code>next_sibling</code></h3>

`Stephen Curry`의 연봉을 찾기 위해 객체 `sibling_2`와 메서드 `next_sibling`을 사용하세요.  

In [38]:
sibling_2.next_sibling

<p> Salary: $85,000, 000 </p>

### HTML Attributes


태그에 속성이 있는 경우, `<code>id="boldest"</code>` 태그에는 `id`라는 속성이 있으며, 그 값은 `boldest`입니다. 태그를 사전(dictionary)처럼 다루면 태그의 속성에 접근할 수 있습니다.  


In [40]:
tag_child

<b id="boldest">Lebron James</b>

In [41]:
tag_child['id']

'boldest'

해당 속성 사전에 직접 접근하려면 `attrs` 속성을 사용할 수 있습니다.  

In [43]:
tag_child.attrs

{'id': 'boldest'}

### Navigable String

문자열은 태그 안에 있는 텍스트 또는 콘텐츠에 해당합니다. Beautiful Soup은 이 텍스트를 담기 위해 `NavigableString` 클래스를 사용합니다. HTML에서 첫 번째 선수의 이름을 가져오려면 `Tag` 객체인 `tag_child`에서 문자열을 다음과 같이 추출할 수 있습니다.  

In [44]:
tag_string = tag_child.string
tag_string

'Lebron James'

해당 타입이 `NavigableString`인지 확인할 수 있습니다.  

In [46]:
type(tag_string)

bs4.element.NavigableString

`NavigableString`은 Python 문자열 또는 유니코드 문자열과 유사합니다. 보다 정확히 말하면, 주요 차이점은 `BeautifulSoup`의 몇 가지 기능도 지원한다는 점입니다. 이를 Python의 문자열 객체로 변환할 수 있습니다.  


In [47]:
unicode_string = str(tag_string)
unicode_string

'Lebron James'

In [48]:
type(unicode_string)

str

## Filter

필터를 사용하면 복잡한 패턴을 찾을 수 있습니다. 가장 간단한 필터는 문자열입니다. 이 섹션에서는 문자열을 다양한 필터 메서드에 전달하고, Beautiful Soup이 해당 문자열과 정확히 일치하는 항목을 찾는 과정을 다룹니다. 예를 들어 다음과 같은 로켓 발사 HTML을 고려해 보세요.  

In [49]:
%%html
<table>
  <tr>
    <td id='flight' >Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td>
    <td>80 kg</td>
  </tr>
</table>

0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg


변수 `table`에 문자열로 위 html을 할당할 수 있습니다.

In [50]:
table="<table><tr><td id='flight'>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida<a> </td><td>80 kg</td></tr></table>"

In [51]:
table_bs = BeautifulSoup(table, 'html5lib')

In [52]:
table_bs

<html><head></head><body><table><tbody><tr><td id="flight">Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr> <td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a></a></td><td>300 kg</td></tr><tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a><a> </a></td><td>80 kg</td></tr></tbody></table></body></html>

## find All

`find_all()` 메서드는 태그의 하위 요소들을 검색하여 필터 조건과 일치하는 모든 하위 요소를 가져옵니다.


`find_all()` 메서드의 시그니처는 다음과 같습니다:  
`find_all(name, attrs, recursive, string, limit, **kwargs)`


### Name

`name` 매개변수에 태그 이름을 설정하면, 해당 메서드는 지정한 이름의 모든 태그와 그 하위 요소들을 추출합니다.  