# BeautifulSoup 실습 자료
실습을 통해 웹 크롤링의 기본을 배워봅시다!

BeautifulSoup의 주요 메서드

1. **기본 요소 찾기**
```python
# 단일 요소 찾기
soup.find('태그명')  # 첫 번째 일치하는 태그 찾기
soup.find(id='아이디명')  # id로 찾기
soup.find(class_='클래스명')  # class로 찾기

# 여러 요소 찾기
soup.find_all('태그명')  # 모든 일치하는 태그 찾기
soup.find_all(['태그1', '태그2'])  # 여러 태그 동시에 찾기
soup.find_all('태그명', limit=2)  # 개수 제한하여 찾기
```

2. **CSS 선택자**
```python
soup.select('CSS선택자')  # CSS 선택자로 모든 요소 찾기
soup.select_one('CSS선택자')  # CSS 선택자로 첫 요소 찾기

# 예시
soup.select('.클래스명')  # 클래스로 찾기
soup.select('#아이디명')  # id로 찾기
soup.select('div p')  # div 안의 모든 p 태그 찾기
```

3. **요소 탐색**
```python
# 상하 관계
element.parent  # 부모 요소
element.parents  # 모든 상위 요소들
element.children  # 직계 자식 요소들
element.descendants  # 모든 하위 요소들

# 형제 관계
element.next_sibling  # 다음 형제
element.previous_sibling  # 이전 형제
element.find_next_siblings()  # 다음 형제들 모두
element.find_previous_siblings()  # 이전 형제들 모두
```

4. **콘텐츠 추출**
```python
element.text  # 텍스트 내용 추출
element.get_text()  # 텍스트 내용 추출 (옵션 지정 가능)
element.string  # 직계 텍스트만 추출
element.stripped_strings  # 공백 제거된 텍스트들 추출
```

5. **속성 다루기**
```python
element['속성명']  # 속성값 직접 접근
element.get('속성명')  # 속성값 안전하게 가져오기
element.get('속성명', '기본값')  # 없으면 기본값 반환
element.attrs  # 모든 속성을 딕셔너리로 가져오기
```

6. **실전에서 자주 쓰는 조합**
```python
# 특정 조건의 요소 찾기
soup.find('div', class_='container')
soup.find('태그', attrs={'id': 'ID', 'class': 'CLASS'})

# 여러 단계 탐색
soup.find('div').find('p').find('span')
```

주의사항:
1. 요소가 없을 수 있으므로 None 체크 필요
2. 텍스트 추출 시 공백 처리 고려
3. 복잡한 구조는 단계별 접근이 안전
4. 속성 접근 시 get() 메서드 권장

## 1. 기본 설정

In [None]:
# 필요한 라이브러리 설치
!pip install beautifulsoup4

In [2]:
# 라이브러리 임포트
from bs4 import BeautifulSoup

# 실습용 예제 HTML
sample_html = """
<html>
    <body>
        <div class="container">
            <h1 id="title">제목</h1>
            <p class="content">첫 번째 문단</p>
            <p class="content">두 번째 문단</p>
            <ul class="items">
                <li>항목1</li>
                <li>항목2</li>
            </ul>
            <a href="https://example.com">링크</a>
        </div>
    </body>
</html>
"""

In [3]:
# BeautifulSoup 객체 생성
soup = BeautifulSoup(sample_html, 'html.parser')

## 2. 기본적인 요소 찾기

### 2.1 단일 요소 찾기 (find)

In [None]:
# 첫 번째 p 태그 찾기
first_p = soup.find('p')
print("첫 번째 p 태그:", first_p.text)  # 출력: 첫 번째 문단

# id로 요소 찾기
title = soup.find(id='title')
print("제목:", title.text)  # 출력: 제목

# class로 요소 찾기
container = soup.find(class_='container')
print("container 존재 여부:", container is not None)  # 출력: True

### 2.2 여러 요소 찾기 (find_all)

In [None]:
# 모든 p 태그 찾기
all_p = soup.find_all('p')
print("\n모든 p 태그 내용:")
for p in all_p:
    print("-", p.text)  # 출력: - 첫 번째 문단, - 두 번째 문단

# 모든 li 태그 찾기
items = soup.find_all('li')
print("\n리스트 항목:")
for item in items:
    print("-", item.text)  # 출력: - 항목1, - 항목2

### 2.3 CSS 선택자 사용하기

In [None]:
# class가 content인 모든 요소 찾기
content_elements = soup.select('.content')
print("\ncontent 클래스 내용:")
for element in content_elements:
    print("-", element.text)

# id가 title인 요소 찾기
title = soup.select('#title')
print("\n제목:", title[0].text if title else "없음")

# container 클래스 안의 모든 p 태그 찾기
container_p = soup.select('.container p')
print("\ncontainer 안의 p 태그들:")
for p in container_p:
    print("-", p.text)

### 2.4 속성 다루기

In [None]:
# 링크의 href 속성 가져오기
link = soup.find('a')
print("\n링크 주소:", link['href'])  # 출력: https://example.com
print("링크 텍스트:", link.text)    # 출력: 링크

# 안전하게 속성 가져오기
print("링크 주소 (get 사용):", link.get('href'))  # 출력: https://example.com
print("없는 속성:", link.get('title', '기본값'))  # 출력: 기본값

### 2.5 요소 탐색하기

In [None]:
# 1. 부모 요소 찾기
p_tag = soup.find('p')
parent_div = p_tag.parent
print("p 태그의 부모 class:", parent_div.get('class'))  # 출력: ['container']


In [None]:
# 2. 자식 요소 찾기
container = soup.find('div', class_='container')
print("\n컨테이너의 직계 자식들:")
for child in container.children:
    if child.name:  # 공백 텍스트 제외
        print("-", child.name)  # h1, p, p, ul, a 출력

In [None]:
# 3. 형제 요소 탐색
first_p = soup.find('p')
print("\n첫 번째 p의 다음 형제:")
next_sibling = first_p.find_next_sibling()  # 두 번째 p
print("다음 형제 텍스트:", next_sibling.text)  # 출력: 두 번째 문단

second_p = next_sibling
print("두 번째 p의 이전 형제:")
prev_sibling = second_p.find_previous_sibling()  # 첫 번째 p
print("이전 형제 텍스트:", prev_sibling.text)  # 출력: 첫 번째 문단

In [None]:
# 4. 모든 형제 요소 찾기
print("\nul 태그 이후의 모든 형제:")
ul_tag = soup.find('ul')
for sibling in ul_tag.find_next_siblings():
    print("-", sibling.name, ":", sibling.text)

In [None]:
# 5. 특정 요소의 모든 상위 요소 찾기
li_tag = soup.find('li')
print("\n첫 번째 li의 모든 상위 요소:")
for parent in li_tag.parents:
    if parent.name:
        print("-", parent.name)

### 2.6 여러 속성 동시 검색

In [39]:
from bs4 import BeautifulSoup

# 예시 HTML
html = """
<html>
    <body>
        <div class="container" id="main">메인 컨테이너</div>
        <div class="container" id="sub">서브 컨테이너</div>
        <div class="content" id="article">
            <p class="text" id="first">첫 번째 문단</p>
            <p class="text highlight" id="second">두 번째 문단</p>
        </div>
        <span class="text" data-type="info">추가 정보</span>
        <p class="text highlight" id="third">세 번째 문단</p>
        <div class="container">푸터 컨테이너</div>
    </body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

In [26]:
# 1. 기본적인 다중 속성 검색
result1 = soup.find('p', attrs={'class': 'text', 'id': 'first'})
print("1. class='text'이고 id='first'인 p태그:")
print(f"- {result1.text}")  # 출력: 첫 번째 문단

1. class='text'이고 id='first'인 p태그:
- 첫 번째 문단


### 2.7 css셀럭트로 계층적 탐색

In [28]:
# 1. 직계 자식 선택자 (>) 사용
print("1. 직계 자식 선택자:")
elements1 = soup.select("div.content > p.text")
for elem in elements1:
   print(f"- {elem.text}")  # 첫 번째 문단, 두 번째 문단 출력

1. 직계 자식 선택자:
- 첫 번째 문단
- 두 번째 문단


In [30]:
# 2-1. 자손 탐색
print("\n2. 여러 단계 선택자:")
elements2 = soup.select("div.content p.text")
for elem in elements2:
   print(f"- {elem.text}")


2. 여러 단계 선택자:
- 첫 번째 문단
- 두 번째 문단
- 세 번째 문단


In [31]:
# 2-2. 자손 탐색
print("\n2. 여러 단계 선택자:")
elements2 = soup.select("body p.text")
for elem in elements2:
   print(f"- {elem.text}")


2. 여러 단계 선택자:
- 첫 번째 문단
- 두 번째 문단
- 세 번째 문단


In [34]:
# 3. ID 선택자 사용
print("\n3. ID 선택자:")
elements4 = soup.select("#article p")
for elem in elements4:
   print(f"- {elem.text}")


3. ID 선택자:
- 첫 번째 문단
- 두 번째 문단


In [35]:
print("\n4. 여러 클래스 선택:")
elements3 = soup.select("p.text.highlight")
for elem in elements3:
   print(f"- {elem.text}")


4. 여러 클래스 선택:
- 두 번째 문단
- 세 번째 문단


In [36]:
# 5. 속성 선택자 사용
print("\n5. 속성 선택자:")
elements5 = soup.select("[data-type='info']")
for elem in elements5:
   print(f"- {elem.text}")  # 추가 정보 출력


5. 속성 선택자:
- 추가 정보


In [37]:
# 6. 여러 선택자 조합 사용
print("\n6. 복합 선택자:")
elements6 = soup.select("div.content > p.text#second")
for elem in elements6:
   print(f"- {elem.text}")  # 두 번째 문단 출력


6. 복합 선택자:
- 두 번째 문단


In [40]:
# 7. 속성과 텍스트 값 가져오기
print("\n7. 속성과 텍스트 값:")
elements7 = soup.select("div.container")
for elem in elements7:
   print(f"- id: {elem.get('id')}, text: {elem.text}")


7. 속성과 텍스트 값:
- id: main, text: 메인 컨테이너
- id: sub, text: 서브 컨테이너
- id: None, text: 푸터 컨테이너
