[목차 바로가기](#Lab)

---

### 🌐 **HTML의 기본 개념**
1. **HTML의 정의**
   - **HTML(Hypertext Markup Language)**은 웹 페이지를 구성하는 마크업 언어입니다.
   - 예시: 부동산 가격, 프로그래밍 질문의 답 등 여러 유용한 데이터가 웹 페이지에 포함되어 있습니다.

2. **HTML의 구조**
   - **`<!DOCTYPE html>`**: HTML 문서임을 선언.
   - **`<html>` 태그**: HTML 문서의 루트(root) 요소.
   - **`<head>` 태그**: 메타 정보 포함.
   - **`<body>` 태그**: 웹 페이지에 표시되는 데이터.

---

### 🏷️ **HTML 태그(HTML Tag)**
1. **태그의 구성**
   - **시작 태그(Start Tag)**: `<태그이름>`
   - **종료 태그(End Tag)**: `</태그이름>`
   - **속성(Attribute)**: 태그의 추가 정보를 제공. 예: `href="URL"`
     - 예시: `<a href="https://www.ibm.com">IBM</a>` → "IBM" 클릭 시 해당 URL로 이동.

2. **중요 태그**
   - **`<h3>` 태그**: 헤딩(Heading) - 텍스트를 크게 볼드 처리.
   - **`<p>` 태그**: 문단(Paragraph) - 본문 텍스트 포함.
   - **`<table>` 태그**: 테이블 정의.
     - `<tr>`: 테이블 행(row) 정의.
     - `<td>`: 테이블 셀(cell) 정의.

---

### 🌲 **HTML 트리 구조**
1. **트리(Tree) 개념**
   - **루트(Root)**: `<html>` 태그.
   - **자식(Children)**: `<head>` 및 `<body>` 태그는 `<html>` 태그의 자식.
   - **형제(Siblings)**: `<head>`와 `<body>`는 동일 레벨에 있어 형제 관계.
   - **자손(Descendants)**: `<title>`은 `<html>`의 자손이지만, 자식은 아님.

2. **예시**
   - `<html>` → `<head>` → `<title>`
   - `<html>` → `<body>` → `<h3>` → `<b>`

---

### 🛠️ **웹 스크래핑(Web Scraping)**
1. **데이터 확인 및 추출**
   - 웹 브라우저의 **"검사(Inspect)" 기능**으로 HTML 요소를 확인.
   - **Python** 라이브러리를 사용해 데이터 추출 가능.

2. **데이터 구조**
   - 데이터는 태그와 태그 속의 내용으로 구성됨.
   - 예시: 선수 이름과 연봉 데이터를 `<h3>` 및 `<p>` 태그로 추출.

---

강의에서는 HTML의 기초와 이를 활용한 데이터 추출의 기본 원리를 명확히 설명하고 있으며, Python을 사용해 웹 데이터 분석의 기반을 제공하는 것이 목표입니다.

---

### 🎯 **강의 목표**
- BeautifulSoup 객체와 HTML 트리 구조를 이해.
- `find_all` 메서드를 활용해 데이터 필터링.
- Requests와 BeautifulSoup을 조합해 웹 페이지 데이터 추출.
---

### 🌐 **Web Scraping 개요**
1. **Web Scraping 정의**
   - 웹에서 데이터를 자동으로 추출하는 과정.
   - 수작업으로 데이터를 복사/붙여넣는 대신 Python 코드를 사용하여 효율적으로 처리 가능.

2. **활용 사례**
   - 예: 스포츠 팀의 선수 데이터를 분석하기 위해 수백 개의 데이터를 모을 때, 웹 스크래핑을 통해 빠르게 필요한 데이터를 수집할 수 있음.

---

### 🛠️ **주요 도구 및 라이브러리**
1. **필요한 Python 모듈**
   - **Requests**: 웹 페이지를 다운로드.
   - **BeautifulSoup**: HTML 데이터를 파싱(Parsing)하여 구조적으로 분석.

2. **BeautifulSoup Object**
   - HTML 문서를 BeautifulSoup 객체로 변환하여 트리(Tree) 구조로 표현.
   - 예: `soup = BeautifulSoup(HTML, 'html.parser')`

---

### 🏷️ **BeautifulSoup의 주요 기능**
1. **HTML 트리 구조 탐색**
   - **Tag 객체**: HTML 태그에 해당. 예: `<title>`, `<h3>`.
   - **속성(Attribute)**: 딕셔너리 형태로 태그의 속성 접근 가능. 예: `tag['href']`.
   - **Navigable String**: 태그 내 텍스트를 문자열로 반환.
   - **트리 탐색 방법**:
     - 자식 노드(Child): `.contents` 또는 `.children` 속성.
     - 부모 노드(Parent): `.parent` 속성.
     - 형제 노드(Sibling): `.next_sibling` 또는 `.previous_sibling` 속성.

2. **find_all() 메서드**
   - 특정 태그 이름, 속성, 텍스트를 기준으로 필터링하여 모든 하위 요소를 찾음.
   - 예: `soup.find_all('tr')` → `<tr>` 태그를 모두 검색.

3. **테이블 데이터 처리**
   - **테이블 행**: `<tr>` 태그.
   - **테이블 셀**: `<td>` 태그.
   - 각 행을 반복(iterate)하여 셀 데이터를 추출 가능:
     ```python
     rows = table.find_all('tr')
     for row in rows:
         cells = row.find_all('td')
         for cell in cells:
             print(cell.text)
     ```

---

### 🌐 **웹 페이지 스크래핑 단계**
1. **필요한 모듈 가져오기**
   ```python
   import requests
   from bs4 import BeautifulSoup
   ```

2. **웹 페이지 다운로드**
   - **Requests**의 `get()` 메서드 사용:
     ```python
     response = requests.get(URL)
     page = response.text
     ```

3. **HTML 파싱**
   - BeautifulSoup 객체 생성:
     ```python
     soup = BeautifulSoup(page, 'html.parser')
     ```

4. **데이터 추출**
   - 필요한 태그 및 속성 검색:
     ```python
     data = soup.find_all('h3')
     for item in data:
         print(item.text)
     ```






<a id=Lab></a>
# Web Scraping Lab

### Objectives:

<h2>Table of Contents</h2>
<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li>
            <a href=#BSO>Beautiful Soup Object</a>
            <ul>
                <li>Tag</li>
                <li><a href=#tree>Children, Parents, and Siblings</a></li>
                <li><a href=#attrs>HTML Attributes 접근하기</a></li>
                <li><a href=#nav>Navigation String</a></li>
            </ul>
        </li>
     </ul>
    <ul>
        <li>
            <a href=#Filter>Filter</a>
            <ul>
                <li><a href=#findAll>find All</a></li>
                <li><a href=#find><code>name</code>사용 법</a> </li>
                <li><a href=#Attributes>HTML Attributes</a></li>
                <li><a href=#string>Navigable String</a></li>
                <li><a href=#find>find</a>
            </ul>
        </li>
     </ul>
     <ul>
        <li>
            <a href="https://dscw/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01">Downloading And Scraping The Contents Of A Web</a>
    </li>
         </ul>
    <p>
        Estimated time needed: <strong>25 min</strong>
    </p>

</div>

<hr>



In [1]:
from bs4 import BeautifulSoup  # this module helps in web scrapping.
import requests  # this module helps us to download a web page

<a id=BSO></a><h1>Beautiful Soup Objects</h1>
Beautiful Soup은 Python에서 HTML 및 XML 파일로부터 데이터를 추출하기 위한 강력한 라이브러리입니다. 여기서는 HTML 파일을 중심으로 설명합니다. Beautiful Soup은 HTML을 객체 집합으로 표현하여 다양한 메서드를 통해 파싱하고 탐색할 수 있습니다. 🛠️

아래는 제공된 HTML 코드와 BeautifulSoup을 사용한 데이터 처리 방법에 대한 자세한 설명입니다. 🎯

📄 HTML 코드
다음 HTML 코드는 선수 이름과 연봉 데이터를 포함하고 있습니다:

In [3]:
%%html
<!DOCTYPE html>
<html>
<head>
<title>Page Title</title>
</head>
<body>
<h3><b id='boldest'>Lebron James</b></h3>
<p> Salary: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Salary: $85,000, 000 </p>
<h3> Kevin Durant </h3>
<p> Salary: $73,200, 000</p>
</body>
</html>

### 🛠️ BeautifulSoup 사용

1. HTML 문자열 저장 HTML 내용을 Python 문자열로 저장:

In [13]:
html = """
<!DOCTYPE html>
<html>
<head>
    <title>Page Title</title>
</head>
<body>
    <h3><b id='boldest'>Lebron James</b></h3>
    <p> Salary: $ 92,000,000 </p>
    <h3> Stephen Curry</h3>
    <p> Salary: $85,000, 000 </p>
    <h3><b class='high-class-elf'> Kevin Durant</b> </h3>
    <p> Salary: $73,200, 000</p>
</body>
</html>
"""


2. HTML 파싱 BeautifulSoup 객체를 생성:

In [14]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

3. **HTML** 트리 구조 확인
* `prettify()` 메서드를 사용해 트리구조로 HTML을 확인:

In [15]:
print(soup.prettify())

<!DOCTYPE html>
<html>
 <head>
  <title>
   Page Title
  </title>
 </head>
 <body>
  <h3>
   <b id="boldest">
    Lebron James
   </b>
  </h3>
  <p>
   Salary: $ 92,000,000
  </p>
  <h3>
   Stephen Curry
  </h3>
  <p>
   Salary: $85,000, 000
  </p>
  <h3>
   <b class="high-class-elf">
    Kevin Durant
   </b>
  </h3>
  <p>
   Salary: $73,200, 000
  </p>
 </body>
</html>



🔍 데이터 탐색 및 추출

1. 특정 태그 검색
    * 선수 이름(Lebron James, Stephen Curry 등) 추출:

In [16]:
names = soup.find_all("h3")
for name in names:
    print(name.text)

Lebron James
 Stephen Curry
 Kevin Durant 


2. 속성(Attribute)값 추출
    * `id="boldest"` 속성을 가진 태그 내용 추출
   

In [17]:
bolest = soup.find("b", {"id":"boldest"})
print(bolest.text)

Lebron James


In [21]:
high = soup.find("b", class_=lambda x: x and x.startswith('high'))
print(high.text)

 Kevin Durant


3. 연봉(Salary) 데이터 추출
    * `<p>` 태그에서 연봉 값 추출:

In [12]:
salaries = soup.find_all('p')
for salary in salaries:
    print(salary.text.strip())

Salary: $ 92,000,000
Salary: $85,000, 000
Salary: $73,200, 000


🎯 결론
BeautifulSoup을 활용해 HTML 데이터를 파싱하고, 트리 구조를 탐색하며, 필요한 데이터를 손쉽게 추출할 수 있습니다. 


### 📄 **Tag 객체의 사용**
1. **Tag 객체 추출**
   - **`<title>` 태그**에서 페이지 제목 추출:


In [23]:
tag_object = soup.title
print("Tag object:", tag_object)
print("Tag object type:", type(tag_object))

Tag object: <title>Page Title</title>
Tag object type: <class 'bs4.element.Tag'>


1. **Tag 이름 확인 및 값 추출**
   - Tag의 이름과 텍스트 값을 추출:

In [25]:
print("Tag name:", tag_object.name)
print("Tag text:", tag_object.text)

Tag name: title
Tag text: Page Title


### 🏷️ 최고 연봉 선수의 이름 추출
1. **첫 번째 `<h3>` 태그 추출**
   - **`<h3>` 태그**에서 첫 번째 요소 추출:
     ```python

In [38]:
tag_object = soup.h3
print('Tag object:', tag_object)

Tag object: <h3><b id="boldest">Lebron James</b></h3>


2. **트리 탐색으로 선수 이름 추출**
   - **`<b>` 태그**를 통해 이름 가져오기:

In [39]:
print("Player name:", tag_object.b.text)

Player name: Lebron James


3. **속성 값 확인**
   - `id="boldest"` 속성 값 접근:

In [46]:
print(tag_object.b['id'])

<class 'str'>


[Tip]. **세 번째 `<h3>` 태그 추출**

In [42]:
tag_obj = soup.find_all('h3')[2]
print("Tag object:", tag_obj)

Tag object: <h3><b class="high-class-elf"> Kevin Durant</b> </h3>


In [45]:
print("Player name:", tag_obj.text)
print(tag_obj.b['class'])

Player name:  Kevin Durant 
['high-class-elf']


<div class='alert alert-block alert-success'>
    [Tip] 📖 왜 class는 리스트로 반환되는가?
    <li>class 속성은 한 요소에 여러 클래스 값을 할당할 수 있으므로, 공백으로 구분된 값을 리스트로 반환하여 다룰 수 있게 설계되었습니다.</li>
    <li> 반면, id 속성은 단일 고유값만 가지므로 문자열로 반환됩니다.</li>
</div>

<a id=tree></a>

### Children, Parents, and Siblings

##### 🌟 Tag 객체의 트리 구조 탐색
HTML 문서는 트리 구조로 되어 있어, BeautifulSoup을 통해 자식(Children), 부모(Parent), 형제(Sibling) 요소를 쉽게 탐색할 수 있습니다.

In [47]:
soup


<!DOCTYPE html>

<html>
<head>
<title>Page Title</title>
</head>
<body>
<h3><b id="boldest">Lebron James</b></h3>
<p> Salary: $ 92,000,000 </p>
<h3> Stephen Curry</h3>
<p> Salary: $85,000, 000 </p>
<h3><b class="high-class-elf"> Kevin Durant</b> </h3>
<p> Salary: $73,200, 000</p>
</body>
</html>

In [50]:
tag_object

<h3><b id="boldest">Lebron James</b></h3>

1. **Child: 태그의 자식 요소**

In [51]:
tag_child = tag_object.b
tag_child

<b id="boldest">Lebron James</b>

```
tag_object는 <h3> 태그이고, <b> 태그는 이 <h3> 태그의 자식입니다. 따라서 tag_child는 <b id='boldest'>Lebron James</b>를 반환합니다.
```

**2. Parent: 태그의 부모 요소**

In [52]:
parent_tag = tag_child.parent
print(parent_tag)

<h3><b id="boldest">Lebron James</b></h3>


```
tag_child는 <b> 태그이므로, 이 태그의 부모는 <h3> 태그입니다. parent_tag는 tag_object와 동일한 값을 가집니다.
```

**3. Sibling: 태그와 같은 레벨에 있는 요소**

In [62]:
tag_object.b


<b id="boldest">Lebron James</b>

In [63]:
tag_object.b.parent

<h3><b id="boldest">Lebron James</b></h3>

In [64]:
tag_object.b.parent.next_sibling

'\n'

<div class='alert alert-block alert-warning'>
    [Tip] 위와 같이 `next_sibling`을 했을때 <b>공백문자 (\n)</b>이 나온다면<br>
    <b><code>.find_next_sibling()</code></b> 메서드로 공백을 자동으로 건너 뛰거나,<br>
    <code>next_sibling</code>를 반복사용하여 공백을 건너뛰어야 합니다.
</div>

In [79]:
tag_object.find_next_sibling()

<p> Salary: $ 92,000,000 </p>

### **연습문제: next_sibling** 
next_sibling 속성을 사용하여 sibling_2 객체를 통해 Stephen Curry의 연봉을 찾으세요.

In [84]:
tag_object.find_next_sibling().find_next_sibling().find_next_sibling()

<p> Salary: $85,000, 000 </p>

혹은

In [88]:
soup.find('h3', text=' Stephen Curry').find_next_sibling()

<p> Salary: $85,000, 000 </p>

<a id=attrs></a>
### HTML Attributes

🌟 HTML Attributes 개념
HTML 태그에는 여러 **속성(attributes)**이 포함될 수 있으며, BeautifulSoup을 사용하면 태그의 속성값에 쉽게 접근할 수 있습니다. 예를 들어 <b id="boldest">라는 태그에서:

* 속성: id
* 속성 값: boldest

##### 사전처럼 접근

In [89]:
tag_child['id']

'boldest'

##### `attrs` 속성 이용

In [90]:
tag_child.attrs

{'id': 'boldest'}

##### `get()` 메서드 이용

In [92]:
tag_child.get('id')

'boldest'

다중 값 속성 HTML에서는 class와 같은 속성이 여러 값을 가질 수 있습니다. BeautifulSoup은 이를 리스트로 반환합니다.

In [110]:
tag = soup.find_all('h3')[-1]
tag.b['class']

['high-class-elf']

<a id=nav></a>
**NavigableString**은 태그 내부의 텍스트 또는 콘텐츠를 표현하는 BeautifulSoup의 클래스입니다. 아래는 이 개념과 관련된 주요 내용 및 코드 동작 방식입니다.

---

### 🌟 **NavigableString의 주요 특징**
1. **텍스트 접근**
   - `string` 속성을 사용하여 태그 내부의 직접적인 텍스트를 가져옵니다.
   - 예: `<b id="boldest">Lebron James</b>`에서 `string`은 `"Lebron James"`를 반환합니다.

2. **`.text`와의 차이**
   - `.string`: 태그의 직접적인 텍스트만 반환.
   - `.text`: 모든 하위 요소를 포함한 텍스트를 반환.

---



In [111]:
html = """
<!DOCTYPE html>
<html>
<head>
    <title>Page Title</title>
</head>
<body>
    <h3><b id='boldest'>Lebron James</b></h3>
    <p> Salary: $ 92,000,000 </p>
    <h3> Stephen Curry</h3>
    <p> Salary: $85,000, 000 </p>
    <h3><b class="high-class-elf"> Kevin Durant</b> </h3>
    <p> Salary: $73,200, 000</p>
</body>
</html>
"""

In [112]:
soup = BeautifulSoup(html, "html.parser")

In [113]:
# Extracting a NavigalbeString
tag_child = soup.b

In [114]:
tag_child

<b id="boldest">Lebron James</b>

In [115]:
tag_child.string

'Lebron James'

In [117]:
type(tag_child.string)

bs4.element.NavigableString

In [116]:
tag_child.text

'Lebron James'

In [118]:
type(tag_child.text)

str



---

**NavigableString**은 정확히 말하면 Python 문자열 또는 Unicode 문자열과 같습니다.  
주된 차이점은 <code>BeautifulSoup</code>의 몇 가지 기능을 추가적으로 지원한다는 점입니다.  
이 문자열을 Python의 일반 문자열 객체로 변환할 수도 있습니다:

---


In [119]:
unicode_string = str(tag_child.string)
unicode_string

'Lebron James'

In [120]:
type(unicode_string)

str

<a id=Filter></a>
<h1>Filter</h1>

<p>

필터를 사용하면 복잡한 패턴을 찾을 수 있으며, 가장 간단한 필터는 문자열입니다.  
이 섹션에서는 문자열을 다양한 필터 메서드에 전달하면 Beautiful Soup이 해당 문자열과 정확히 일치하는 항목을 검색하는 과정을 살펴보겠습니다.  
다음은 로켓 발사와 관련된 HTML 예제입니다:🚀
</p>

%%html
<table>
  <tr>
    <td id='flight' >Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
   </tr>
  <tr> 
    <td>1</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a> </td>
    <td>80 kg</td>
  </tr>
</table>

In [133]:
table = """
table="<table><tr><td id='flight' >Flight No</td><td>Launch site</td><td>Payload mass</td></tr><tr><td>1</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a></td><td>300 kg</td></tr><tr><td>2</td><td><a href='https://en.wikipedia.org/wiki/Texas'>Texas</a></td><td>94 kg</td></tr><tr><td>3</td><td><a href='https://en.wikipedia.org/wiki/Florida'>Florida</a> </td><td>80 kg</td></tr></table>"
</table>

"""

In [134]:
table_bs = BeautifulSoup(table, 'html.parser')

<a id=findAll></a>
<h3>find All</h3>


<code>find_all()</code> 메서드는 태그의 자손을 탐색하여 필터 조건에 일치하는 모든 자손을 검색합니다.

<p>
<code>find_all(name, attrs, recursive, string, limit, **kwargs)</code> 메서드의 시그니처는 다음과 같습니다.
</p>



<h3>Name</h3>
<code>name</code> 매개변수를 태그 이름으로 설정하면, 메서드는 해당 이름을 가진 모든 태그와 그 자식 태그를 추출합니다.

In [135]:
table_rows = table_bs.find_all('tr')
table_rows

[<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>,
 <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>]

In [136]:
first_row = table_rows[0]
first_row

<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>

In [137]:
print(type(first_row))

<class 'bs4.element.Tag'>


child 객체 얻기

In [138]:
first_row.td

<td id="flight">Flight No</td>

리스트를 반복(iterate)할 경우, 각 요소는 테이블의 한 행에 해당합니다.

In [139]:
for i, row in enumerate(table_rows):
    print("row", i, "is", row)

row 0 is <tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>
row 1 is <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>
row 2 is <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>
row 3 is <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>


---

<code>row</code>가 <code>cell</code> 객체이기 때문에, 해당 객체에 <code>find_all</code> 메서드를 적용하여 태그 <code>td</code>를 사용해 객체 <code>cells</code>에서 테이블 셀을 추출할 수 있습니다.  
이 태그는 이름이 <code>td</code>인 모든 자식을 포함합니다.  
결과는 리스트로 반환되며, 각 요소는 셀에 해당하고 <code>Tag</code> 객체입니다.  
이 리스트도 반복(iterate)할 수 있습니다.  
<code>string</code> 속성을 사용하여 콘텐츠를 추출할 수 있습니다.

---

In [141]:
for i, row in enumerate(table_rows):
    print("row", i)
    cells = row.find_all('td')
    for j, cell in enumerate(cells):
        print('column', j, "cell", cell)

row 0
column 0 cell <td id="flight">Flight No</td>
column 1 cell <td>Launch site</td>
column 2 cell <td>Payload mass</td>
row 1
column 0 cell <td>1</td>
column 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td>
column 2 cell <td>300 kg</td>
row 2
column 0 cell <td>2</td>
column 1 cell <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>
column 2 cell <td>94 kg</td>
row 3
column 0 cell <td>3</td>
column 1 cell <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td>
column 2 cell <td>80 kg</td>


<a id=find></a>
리스트를 사용하면 해당 리스트의 어떤 항목과도 일치시킬 수 있습니다.

In [142]:
list_input = table_bs.find_all(name = ["tr", "td"])
list_input

[<tr><td id="flight">Flight No</td><td>Launch site</td><td>Payload mass</td></tr>,
 <td id="flight">Flight No</td>,
 <td>Launch site</td>,
 <td>Payload mass</td>,
 <tr><td>1</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td><td>300 kg</td></tr>,
 <td>1</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a></td>,
 <td>300 kg</td>,
 <tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>,
 <td>2</td>,
 <td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td>,
 <td>94 kg</td>,
 <tr><td>3</td><td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td><td>80 kg</td></tr>,
 <td>3</td>,
 <td><a href="https://en.wikipedia.org/wiki/Florida">Florida</a> </td>,
 <td>80 kg</td>]


<h3>[Tip] 📚 코드 동작 설명</h3>
<div class="alert alert-block alert-success">
    <code>find_all</code> 메서드에서 <code>name</code> 매개변수에 리스트를 전달하면 <b>해당 리스트와 일치하는 모든 태그를 검색하여 반환</b>합니다.
</div>

<a id=Attributes></a>
<h3>Attributes</h3>


---

인수가 인식되지 않을 경우, 해당 인수는 태그의 속성에 대한 필터로 변환됩니다.  
예를 들어, `id` 인수를 사용하면 Beautiful Soup은 각 태그의 `id` 속성을 기준으로 필터링합니다.  
예를 들어, 첫 번째 `td` 요소들은 `id` 속성 값으로 `flight`를 가지고 있으므로, 이 `id` 값을 기반으로 필터링할 수 있습니다.

---


In [144]:
table_bs.find_all(id="flight")

[<td id="flight">Flight No</td>]

플로리다 위키백과 페이지로 연결된 링크를 가진 모든 요소를 찾을 수 있습니다.

In [145]:
list_input = table_bs.find_all(href="https://en.wikipedia.org/wiki/Florida")
list_input

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

<h4>[Tip]</h4>
<div class='alert alert-block alert-warning'>
<code>href</code> 속성을 True로 설정하면, 값이 무엇이든 상관없이 <code>href</code> 값을 가진 모든 태그를 찾습니다.
    
    


---

속성을 처리하거나 관련 작업을 수행할 수 있는 다른 메서드들도 있습니다. 자세한 내용은 다음 [링크](https://www.crummy.com/software/BeautifulSoup/bs4/doc/?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkPY0220ENSkillsNetwork23455606-2021-01-01#css-selectors)를 확인하세요.

---


</div>

In [146]:
table_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

<h3 id="exer_type">Exercise: <code>find_all</code></h3>

Using the logic above, find all the elements without <code>href</code> value

In [147]:
table_bs.find_all(href=True)

[<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>,
 <a href="https://en.wikipedia.org/wiki/Texas">Texas</a>,
 <a href="https://en.wikipedia.org/wiki/Florida">Florida</a>]

In [152]:
table_bs.find_all('a', href=False)

[]

Beautiful Soup을 사용하여 id 속성이 "boldest"로 설정된 요소를 찾기

In [156]:
table_bs.find_all(id="boldest")

[]

<a id=string></a>
### string

`string`을 사용하면 태그 대신 문자열을 검색할 수 있습니다. 예를 들어, Florida라는 문자열이 포함된 모든 요소를 찾을 수 있습니다.

In [157]:
table_bs.find_all(string="Florida")

['Florida', 'Florida']

In [158]:
floridas = table_bs.find_all(string="Florida")

In [159]:
type(floridas)

bs4.element.ResultSet

In [160]:
type(floridas[0])

bs4.element.NavigableString

In [161]:
floridas[0].parent

<a href="https://en.wikipedia.org/wiki/Florida">Florida</a>

In [167]:
floridas[0].parent.parent.next_sibling

<td>300 kg</td>

In [170]:
floridas[0].parent.parent.parent.next_sibling

<tr><td>2</td><td><a href="https://en.wikipedia.org/wiki/Texas">Texas</a></td><td>94 kg</td></tr>

위와 같은 방법으로 `string`을 통해 찾은 결과 값으로 그 `parent`, `sibling`, `child`도 찾을 수 있다.

<a id=find></a>
<h3>find</h3>

<code>find_all()</code> 메서드는 전체 문서를 스캔하여 결과를 찾습니다.
만약 하나의 요소만 찾으려면 <code>find()</code> 메서드를 사용하여 문서에서 첫 번째 요소를 찾을 수 있습니다.
다음 두 개의 테이블을 예로 들어 보겠습니다:

In [171]:
%%html
<h3>Rocket Launch </h3>

<p>
<table class='rocket'>
  <tr>
    <td>Flight No</td>
    <td>Launch site</td> 
    <td>Payload mass</td>
  </tr>
  <tr>
    <td>1</td>
    <td>Florida</td>
    <td>300 kg</td>
  </tr>
  <tr>
    <td>2</td>
    <td>Texas</td>
    <td>94 kg</td>
  </tr>
  <tr>
    <td>3</td>
    <td>Florida </td>
    <td>80 kg</td>
  </tr>
</table>
</p>
<p>

<h3>Pizza Party  </h3>
  
    
<table class='pizza'>
  <tr>
    <td>Pizza Place</td>
    <td>Orders</td> 
    <td>Slices </td>
   </tr>
  <tr>
    <td>Domino's Pizza</td>
    <td>10</td>
    <td>100</td>
  </tr>
  <tr>
    <td>Little Caesars</td>
    <td>12</td>
    <td >144 </td>
  </tr>
  <tr>
    <td>Papa John's </td>
    <td>15 </td>
    <td>165</td>
  </tr>


0,1,2
Flight No,Launch site,Payload mass
1,Florida,300 kg
2,Texas,94 kg
3,Florida,80 kg

0,1,2
Pizza Place,Orders,Slices
Domino's Pizza,10,100
Little Caesars,12,144
Papa John's,15,165


HTML을 Python 문자열로 저장하고 <code>two_tables</code>에 할당합니다:

In [172]:
two_tables="<h3>Rocket Launch </h3><p><table class='rocket'><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table></p><p><h3>Pizza Party  </h3><table class='pizza'><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td >144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr>"

`two_tables_bs`라는 BeautifulSoup 객체를 생성합니다.

In [173]:
two_tables_bs = BeautifulSoup(two_tables, 'html.parser')

태그 이름 `table`을 사용하여 첫 번째 테이블을 찾을 수 있습니다.

In [174]:
two_tables_bs.find('table')

<table class="rocket"><tr><td>Flight No</td><td>Launch site</td> <td>Payload mass</td></tr><tr><td>1</td><td>Florida</td><td>300 kg</td></tr><tr><td>2</td><td>Texas</td><td>94 kg</td></tr><tr><td>3</td><td>Florida </td><td>80 kg</td></tr></table>

---

`class` 속성을 기준으로 필터링하여 두 번째 테이블을 찾을 수 있습니다. 하지만 `class`는 Python에서 예약어이므로, 밑줄(`_`)을 추가해야 합니다.

---

In [175]:
two_tables_bs.find('table', class_='pizza')

<table class="pizza"><tr><td>Pizza Place</td><td>Orders</td> <td>Slices </td></tr><tr><td>Domino's Pizza</td><td>10</td><td>100</td></tr><tr><td>Little Caesars</td><td>12</td><td>144 </td></tr><tr><td>Papa John's </td><td>15 </td><td>165</td></tr></table>

<h2 id="DSCW">Downloading And Scraping The Contents Of A Web Page</h2> 

웹 페이지의 내용을 다운로드합니다:

In [176]:
url = "https://web.archive.org/web/20230224123642/https://www.ibm.com/us-en/"


---

웹 페이지의 내용을 텍스트 형식으로 다운로드하기 위해 <code>get</code>을 사용하며, 이를 <code>data</code>라는 변수에 저장합니다.

---


In [177]:
data = requests.get(url).text


---

<code>BeautifulSoup</code> 생성자를 사용하여 <code>BeautifulSoup</code> 객체를 생성합니다.

---


In [179]:
soup = BeautifulSoup(data, 'html.parser')

모든 링크들을 Scrape합니다.

In [181]:
for link in soup.find_all('a', href=True):
    print(link.get("href"))

https://web.archive.org/web/20230224123642/https://www.ibm.com/reports/threat-intelligence/
https://web.archive.org/web/20230224123642/https://www.ibm.com/about
https://web.archive.org/web/20230224123642/https://www.ibm.com/consulting/?lnk=flathl
https://web.archive.org/web/20230224123642/https://www.ibm.com/consulting/strategy/?lnk=flathl
https://web.archive.org/web/20230224123642/https://www.ibm.com/consulting/ibmix?lnk=flathl
https://web.archive.org/web/20230224123642/https://www.ibm.com/consulting/technology/
https://web.archive.org/web/20230224123642/https://www.ibm.com/consulting/operations/?lnk=flathl
https://web.archive.org/web/20230224123642/https://www.ibm.com/strategic-partnerships
https://web.archive.org/web/20230224123642/https://www.ibm.com/employment/?lnk=flatitem
https://web.archive.org/web/20230224123642/https://www.ibm.com/impact
https://web.archive.org/web/20230224123642/https://research.ibm.com/
https://web.archive.org/web/20230224123642/https://www.ibm.com/


## Scrape  all images  Tags

In [183]:
for link in soup.find_all('img'):
    print(link.get('src'))

https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/0a23e414312bcb6f/08196d0e04260ae5_cropped.jpg.global.sr_16x9.jpg
https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/06655c075aa3aa29/CaitOppermann_2019_12_06_IBMGarage_DSC3304.jpg.global.m_16x9.jpg
https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/08f951353c2707b8/052022_CaitOppermann_InsideIBM_London_2945_03.jpg.global.sr_16x9.jpg
https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/064e0139f5a3aa5e/0500002_Lowell_LI_100119.jpg.global.sr_16x9.jpg
https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/0795cae91a25156f/conveyorrobottopview.jpg.global.sr_16x9.jpg
https://web.archive.org/web/20230224123642im_/https://1.dam.s81c.com/p/06dfa9ccdba4ec79/1f417900-9042-44d1-9c219a854bbb62ea.jpg.global.sr_16x9.jpg


## Scrape data from HTML tables


In [184]:
#The below url contains an html table with data about colors and color codes.
url = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-DA0321EN-SkillsNetwork/labs/datasets/HTMLColorCodes.html"

---

웹사이트를 스크랩하기 전에, 콘텐츠와 데이터가 웹사이트에서 어떻게 구성되어 있는지 확인해야 합니다. 위의 URL을 브라우저에서 열고 색상 테이블에 몇 개의 행과 열이 있는지 확인하세요.

---


In [186]:
# 웹페이지의 내용을 텍스트 형식으로 가져와서 data라는 변수에 저장합니다.
data = requests.get(url).text

In [199]:
soup = BeautifulSoup(data, 'html.parser')

In [200]:
# html table을 웹페이지에서 찾습니다.
soup.find_all('tbody')

[]

<h4>[Tip] 위 <code>.find_all('tbody')</code>결과가 빈 리스트인 이유</h4>
<div class='alert alert-block alert-danger'>    
    <li>실제로 requests에서 가져온 text와 Dev Tool에 보이는 브라우저에서 랜더링된 HTML과 다를 수 있습니다. </li>
    <li>Javascript로 랜더링된 결과는 포함되지 않습니다. tbody태그는 JavaScript를 통해 동적으로 생성되었을 가능성이큽니다.</li>
    따라서 tbody로 찾은 결과가 없다고 나옵니다.
</div>

In [212]:
# html table을 웹페이지에서 찾습니다.
table = soup.find('table')

In [215]:
# 모든 행을 테이블에서 가져옵니다.
for row in table.find_all('tr'):
    # 모든 열을 가져옵니다.
    cols = row.find_all('td')
    color_name = cols[2].string
    color_code = cols[3].string
    print(f"{color_name} --> {color_code}")

Color Name --> None
lightsalmon --> #FFA07A
salmon --> #FA8072
darksalmon --> #E9967A
lightcoral --> #F08080
coral --> #FF7F50
tomato --> #FF6347
orangered --> #FF4500
gold --> #FFD700
orange --> #FFA500
darkorange --> #FF8C00
lightyellow --> #FFFFE0
lemonchiffon --> #FFFACD
papayawhip --> #FFEFD5
moccasin --> #FFE4B5
peachpuff --> #FFDAB9
palegoldenrod --> #EEE8AA
khaki --> #F0E68C
darkkhaki --> #BDB76B
yellow --> #FFFF00
lawngreen --> #7CFC00
chartreuse --> #7FFF00
limegreen --> #32CD32
lime --> #00FF00
forestgreen --> #228B22
green --> #008000
powderblue --> #B0E0E6
lightblue --> #ADD8E6
lightskyblue --> #87CEFA
skyblue --> #87CEEB
deepskyblue --> #00BFFF
lightsteelblue --> #B0C4DE
dodgerblue --> #1E90FF


## Scrape data from HTML tables into a DataFrame using BeautifulSoup and Pandas


In [222]:
import pandas as pd

In [223]:
#The below url contains html tables with data about world population.
url = "https://en.wikipedia.org/wiki/World_population"

웹사이트를 스크랩하기 전에, 콘텐츠와 데이터가 웹사이트에서 어떻게 구성되어 있는지 확인해야 합니다. 위의 URL을 브라우저에서 열어 웹페이지의 테이블을 확인하세요.

In [225]:
data = requests.get(url).text

In [226]:
soup = BeautifulSoup(data, 'html.parser')

In [229]:
# find all html tables in the web page

tables = soup.find_all('table')

In [230]:
len(tables)

30


---

우리가 `인구 밀도가 가장 높은 10개 국가` 테이블을 찾고 있다고 가정해봅시다. 테이블 리스트를 살펴보고 각 테이블에 포함된 데이터를 기반으로 원하는 테이블을 찾을 수 있습니다.  
또는 테이블 이름이 포함되어 있다면 이를 검색하여 찾을 수도 있습니다. 하지만 이 방법은 항상 작동하지 않을 수 있습니다.

---


In [231]:
for idx, table in enumerate(tables):
    if ("10 most densely populated countries" in str(table)):
        table_index = idx
        
print(table_index)

7




---

아래에서 `인구 밀도가 가장 높은 10개 국가` 테이블의 이름을 찾을 수 있는지 확인해 보세요.

---



In [232]:
print(tables[table_index].prettify())

<table class="wikitable sortable" style="text-align:right">
 <caption>
  10 most densely populated countries
  <small>
   (with population above 5 million)
  </small>
  <sup class="reference" id="cite_ref-:10_104-0">
   <a href="#cite_note-:10-104">
    <span class="cite-bracket">
     [
    </span>
    99
    <span class="cite-bracket">
     ]
    </span>
   </a>
  </sup>
 </caption>
 <tbody>
  <tr>
   <th scope="col">
    Rank
   </th>
   <th scope="col">
    Country
   </th>
   <th scope="col">
    Population
   </th>
   <th scope="col">
    Area
    <br/>
    <small>
     (km
     <sup>
      2
     </sup>
     )
    </small>
   </th>
   <th scope="col">
    Density
    <br/>
    <small>
     (pop/km
     <sup>
      2
     </sup>
     )
    </small>
   </th>
  </tr>
  <tr>
   <td>
    1
   </td>
   <td align="left">
    <span class="flagicon">
     <span class="mw-image-border" typeof="mw:File">
      <span>
       <img alt="" class="mw-file-element" data-file-height="600" data-fi

In [234]:
tables[table_index].tbody.find_all('tr')

[<tr>
 <th scope="col">Rank
 </th>
 <th scope="col">Country
 </th>
 <th scope="col">Population
 </th>
 <th scope="col">Area<br/><small>(km<sup>2</sup>)</small>
 </th>
 <th scope="col">Density<br/><small>(pop/km<sup>2</sup>)</small>
 </th></tr>,
 <tr>
 <td>1</td>
 <td align="left"><span class="flagicon"><span class="mw-image-border" typeof="mw:File"><span><img alt="" class="mw-file-element" data-file-height="600" data-file-width="900" decoding="async" height="15" src="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/23px-Flag_of_Singapore.svg.png" srcset="//upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/35px-Flag_of_Singapore.svg.png 1.5x, //upload.wikimedia.org/wikipedia/commons/thumb/4/48/Flag_of_Singapore.svg/45px-Flag_of_Singapore.svg.png 2x" width="23"/></span></span> </span><a href="/wiki/Singapore" title="Singapore">Singapore</a></td>
 <td>5,921,231</td>
 <td>719</td>
 <td>8,235
 </td></tr>,
 <tr>
 <td>2</td>
 <td align="left"><sp

In [249]:
population_data = pd.DataFrame(columns = ['Rank', 'Country', "Population", 'Area','Density'])
data = []
for row in tables[table_index].tbody.find_all('tr'):
    col = row.find_all('td')
    if col != []:
        rank = col[0].text
        country = col[1].text.strip()
        population = col[2].text
        area = float(col[3].text.strip().replace(',',''))
        density = float(col[4].text.strip().replace(',',''))
        data.append({
            'Rank':rank,
            'Country':country,
            'Population': population,
            "Area":area,
            'Density':density
        })
        
population_data = pd.DataFrame(data)

<div class='alert alert-block alert-warning'>
[Tip]
pandas.DataFrame.append() 메서드는 더 이상 권장되지 않으며, 대신 list를 사용하여 데이터를 수집한 후 **pandas.DataFrame**으로 변환하는 방식이 권장됩니다. 아래는 개선된 방법입니다
</div>

In [250]:
population_data

Unnamed: 0,Rank,Country,Population,Area,Density
0,1,Singapore,5921231,719.0,8235.0
1,2,Bangladesh,165650475,148460.0,1116.0
2,3,Palestine[note 3][100],5223000,6025.0,867.0
3,4,Taiwan[note 4],23580712,35980.0,655.0
4,5,South Korea,51844834,99720.0,520.0
5,6,Lebanon,5296814,10400.0,509.0
6,7,Rwanda,13173730,26338.0,500.0
7,8,Burundi,12696478,27830.0,456.0
8,9,Israel,9402617,21937.0,429.0
9,10,India,1389637446,3287263.0,423.0


## Scrape data from HTML tables into a DataFrame using BeautifulSoup and read_html


---

이전 섹션에서 사용한 동일한 `url`, `data`, `soup`, 및 `tables` 객체를 사용하여 `read_html` 함수를 통해 DataFrame을 생성할 수 있습니다.

우리가 필요한 테이블은 `tables[table_index]`에 위치해 있다는 것을 기억하세요.

이제 `pandas`의 `read_html` 함수를 사용하여 테이블의 문자열 버전을 전달하고, `flavor`로 구문 분석 엔진인 `bs4`를 지정할 수 있습니다.

---



In [257]:
pd.read_html(str(tables[7]), flavor='bs4')[0]

Unnamed: 0,Rank,Country,Population,Area (km2),Density (pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[note 3][100],5223000,6025,867
3,4,Taiwan[note 4],23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,Israel,9402617,21937,429
9,10,India,1389637446,3287263,423


In [259]:
population_data_read_html = pd.read_html(str(tables[7]), flavor='bs4')[0]

population_data_read_html

Unnamed: 0,Rank,Country,Population,Area (km2),Density (pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[note 3][100],5223000,6025,867
3,4,Taiwan[note 4],23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,Israel,9402617,21937,429
9,10,India,1389637446,3287263,423




## HTML 테이블에서 데이터를 스크래핑하여 DataFrame으로 변환하기 (`read_html` 사용)  
`read_html` 함수를 사용하여 URL에서 직접 DataFrame을 가져올 수도 있습니다.



In [260]:
dataframe_list = pd.read_html(url, flavor='bs4')

In [264]:
dataframe_list[6]

Unnamed: 0,Rank,Country,Population,Area (km2),Density (pop/km2)
0,1,Singapore,5921231,719,8235
1,2,Bangladesh,165650475,148460,1116
2,3,Palestine[note 3][100],5223000,6025,867
3,4,Taiwan[note 4],23580712,35980,655
4,5,South Korea,51844834,99720,520
5,6,Lebanon,5296814,10400,509
6,7,Rwanda,13173730,26338,500
7,8,Burundi,12696478,27830,456
8,9,Israel,9402617,21937,429
9,10,India,1389637446,3287263,423
