#  Beautiful Soup 시작하기: 기초와 환경설정 (Foundation Layer)

## 1. 웹 스크레이핑의 이해 🧐
- 스크레이핑(크롤링)이란?
  - 정의 : 웹 사이트에 있는 방대한 정보(HTML 문서) 중에서 우리가 필요로 하는 데이터만을 컴퓨터 프로그램을 통해 자동적으로 추출하는 기술이다.
  - 목적 : 뉴스 기사, 주식 정보, 쇼핑몰의 상품 데이터 등 흩어져 있는 정보를 수집하여 분석하거나 다른 용도로 활용하기 위함이다. 수동으로 '복사/붙여넣기' 하던 작업을 자동화하는 것이다.

### 스크레이핑의 동작 원리
스크레이핑은 간단한 2단계로 동작한다.

1. 요청 (Request): 우리 프로그램이 requests 같은 라이브러리를 사용해 목표 웹 사이트의 서버에게 "이 웹 페이지의 정보를 주세요!"라고 HTTP 요청을 보낸다.

2. 응답 (Response): 서버는 요청에 대한 응답으로 웹 페이지를 구성하는 HTML 문서를 우리에게 보내준다.

우리가 받은 이 HTML 문서가 바로 스크레이핑의 재료가 된다.

>  법적 및 윤리적 고려사항
> - 모든 웹 사이트가 데이터 수집을 허용하는 것은 아니다. robots.txt 파일은 각 웹 사이트가 "이 부분은 수집하지 말아주세요"라고 정해놓은 규칙으로 스크레이핑을 할 때는 반드시 웹사이트주소/robots.txt를 먼저 확인하여 서버에 과도한 부담을 주지 않고 허용된 범위 내에서만 데이터를 수집해야 한다.

### 2. 개발 환경 설정 💻
#### 필수 라이브러리 설치
스크레이핑을 위해 세 가지 핵심 라이브러리를 설치해야 한다.

- requests: 웹 사이트에 HTTP 요청을 보내 HTML 문서를 받아오는 역할을 한다. (사람으로 치면 '심부름꾼')

- beautifulsoup4: requests가 가져온 복잡한 HTML 문서를 우리가 다루기 쉬운 파이썬 객체로 변환(파싱)해주는 라이브러리이다. (사람으로 치면 '해석가/요리사')

- lxml: Beautiful Soup이 HTML을 파싱할 때 사용하는 여러 도구(parser) 중 하나입니다. 매우 빠르고 유연해서 가장 널리 사용된다.

In [None]:
!pip install beautifulsoup4 requests lxml



### 3. 기본 사용법 🛠️
`requests`로 웹 페이지 HTML 가져오기

In [None]:
import requests

# 1. 목표 URL 주소 지정
url = "https://news.naver.com/section/101"

# 2. requests를 이용해 HTTP GET 요청 보내기
# .get() 함수는 서버에 정보를 요청하고, 서버의 응답을 response 객체에 저장합니다.
response = requests.get(url)

# 3. 응답받은 HTML 문서를 텍스트 형태로 확인
# .text 속성은 응답받은 HTML 코드를 문자열(string) 형태로 가지고 있습니다.
html_doc = response.text
print(html_doc)

<!doctype html>
<html lang="ko" data-useragent="python-requests/2.32.3">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="경제 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/101">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content="summary">
		<meta name="twitter:title" content="경제 : 네이버 뉴스">
		<meta name="twitter:site" content="네이버 뉴스">
		<meta name="twitter:creator" content="네이버 뉴스">
		<

### BeautifulSoup 객체 생성하기
이제 requests가 가져온 HTML 문자열을 Beautiful Soup으로 변환.

- 첫 번째 인자 (HTML 문서): 우리가 분석하고 싶은 HTML 코드(문자열)를 전달.
- 두 번째 인자 (Parser): 이 HTML을 어떤 규칙으로 해석할지 지정한다.
  - lxml: 속도가 매우 빠르고, 약간의 문법 오류가 있는 HTML도 잘 해석해 준다. (가장 추천)
  - html.parser: 파이썬 기본 라이브러리라 별도 설치가 필요 없지만, lxml보다 속도가 느리다.

In [None]:
from bs4 import BeautifulSoup

# 바로 위 코드에서 얻은 html_doc 변수를 사용합니다.

# BeautifulSoup 객체 생성
# soup = BeautifulSoup(HTML문서, '사용할 파서')
soup = BeautifulSoup(html_doc, 'lxml')

print(type(soup))

<class 'bs4.BeautifulSoup'>


### 파싱된 결과 출력하기: prettify()
prettify() 메서드는 파싱된 HTML 코드를 원래의 계층 구조에 맞게 들여쓰기를 적용하여 보여준다.
- 코드를 훨씬 읽기 쉽게 만들어준다.

In [None]:
# soup 객체를 보기 좋게 출력
print(soup.prettify())

<!DOCTYPE html>
<html data-useragent="python-requests/2.32.3" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport"/>
  <meta content="경제 : 네이버 뉴스" property="og:title"/>
  <meta content="website" property="og:type"/>
  <meta content="https://news.naver.com/section/101" property="og:url"/>
  <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
  <meta content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공" property="og:description"/>
  <meta content="네이버" property="og:article:author"/>
  <meta content="summary" name="twitter:card"/>
  <meta content="경제 : 네이버 뉴스" name="twitter:title"/>
  <meta content="네이버 뉴스" name="twitter:site"/>
  <meta content="네이버 뉴스" name="twitter:c

## 핵심 문법 I: HTML 트리 탐색과 검색 (Core Grammar Layer)
이제 이 soup 객체를 헤집고 다니며 원하는 데이터를 정확히 찾아내는 방법을 배운다.

### 1. Beautiful Soup의 핵심 객체 🌳
Beautiful Soup은 HTML 문서를 몇 가지 종류의 객체로 나누어 다룬다. <br>
이것을 '가족 관계'에 비유하면 이해하기 쉽다.

<img src="https://drive.google.com/uc?id=1-N0dsbVN3loNjlqxzdBbSbxES-M4W6sI" width=300/>


- BeautifulSoup: 전체 HTML 문서를 의미하는 '가문 전체' 와 같다. 우리가 soup 변수에 저장한 최상위 객체이다.

- Tag: `<h1>`, `<p>`, `<a>` 등 각각의 HTML 태그를 의미하는 '가족 구성원' 이다. 태그는 또 다른 태그를 자식으로 가질 수 있다.

- NavigableString: 태그 안에 들어있는 텍스트(문자열)이다. 가족 구성원의 '이름' 이나 '목소리' 에 해당한다.

- Comment: `` 부분으로, 프로그래머에게만 보이는 메모이다.

In [None]:
from bs4 import BeautifulSoup

# html_doc <- 가장 처음 조회한 변수
soup = BeautifulSoup(html_doc, 'lxml')

tag_h1 = soup.h1 # h1 태그 객체 (Tag)로 가장 먼저 발견되는 `h1`을 반환
print(f"h1 태그 객체: {tag_h1}, 타입: {type(tag_h1)}")

text_in_a = tag_h1.a.string # a 태그 안의 텍스트 (NavigableString)
print(f"a 태그 안의 텍스트: '{text_in_a}', 타입: {type(text_in_a)}")

comment = soup.body.contents[2] # 주석 객체 (Comment)
print(f"주석 객체: {comment}, 타입: {type(comment)}")

h1 태그 객체: <h1 class="Nservice_item"><a class="_LINK" data-clk="gnb.news" data-pc-url="https://news.naver.com/" data-url="https://m.news.naver.com" href="https://m.news.naver.com"><span class="Nicon_service">뉴스</span></a></h1>, 타입: <class 'bs4.element.Tag'>
a 태그 안의 텍스트: '뉴스', 타입: <class 'bs4.element.NavigableString'>
주석 객체: 
, 타입: <class 'bs4.element.NavigableString'>


### 2. HTML 트리 탐색 (Navigating the Tree)
`find()`나 `select()` 없이도, 특정 태그를 기준으로 부모-자식-형제 관계를 이용해 트리를 자유롭게 이동할 수 있다.

- find : 대상 태그에서 가장 먼저 찾은 노드를 반환한다.
- find_all : 찾으려는 태그를 모두 조회한다.
- node.next_sibling : 현재 태그의 바로 다음 형제 노드를 반환한다.
  - 태그 사이의 **공백이나 줄바꿈 문자(NavigableString)**도 반환할 수 있다.
- find_next_sibling : 태그가 아닌 문자열을 건너뛰고 다음 태그 형제를 직접 찾는다.
- node.parent : 대상 컬럼의 부모 노드를 찾는다.

In [None]:
from bs4 import BeautifulSoup

html_family = """
<html>
  <body>
    <div class="family">
      <p id="father">아빠
        <b id="son">아들</b>
        <i id="daughter">딸</i>
      </p>
      <p id="uncle">삼촌</p>
    </div>
  </body>
</html>
"""
soup = BeautifulSoup(html_family, 'lxml')

son = soup.find(id="son") # '아들'을 기준으로 시작

# 부모 노드로 이동하기
father = son.parent
print(f"아들의 부모(.parent): {father.name} 태그, id는 {father['id']}")

# .next_sibling으로 형제 노드 찾기
# '아들' 태그와 '딸' 태그 사이의 줄바꿈 문자(NavigableString)가 먼저 반환됨
daughter_via_sibling = son.next_sibling
print(f"son.next_sibling의 결과 (공백 문자열): '{daughter_via_sibling}'")

daughter = daughter_via_sibling.next_sibling
print(f"아들의 다음 형제(.next_sibling.next_sibling): {daughter.name} 태그, id는 {daughter['id']}")

# .find_next_sibling()으로 형제 태그 바로 찾기
# 공백 문자를 건너뛰고 다음 '태그'를 직접 찾는다.
daughter_direct = son.find_next_sibling()
print(f"아들의 다음 형제(.find_next_sibling): {daughter_direct.name} 태그, id는 {daughter_direct['id']}")

all_p = soup.find_all("p")
for p in all_p :
  print(p)

아들의 부모(.parent): p 태그, id는 father
son.next_sibling의 결과 (공백 문자열): '
'
아들의 다음 형제(.next_sibling.next_sibling): i 태그, id는 daughter
아들의 다음 형제(.find_next_sibling): i 태그, id는 daughter
<p id="father">아빠
        <b id="son">아들</b>
<i id="daughter">딸</i>
</p>
<p id="uncle">삼촌</p>


## 핵심 문법 II: CSS 선택자와 데이터 조작 (Advanced Implementation Layer)
CSS 선택자는 복잡한 구조의 요소를 훨씬 간결하고 직관적으로 선택하게 해준다.

### 1. CSS 선택자(Selector)로 검색하기 🎯
웹 브라우저의 개발자 도구(F12)에서 요소를 선택하고 'Copy > Copy selector'를 하면 얻을 수 있는 경로가 바로 CSS 선택자다. 이 문법을 그대로 사용할 수 있다.

- select_one('선택자'): 선택자에 해당하는 첫 번째 요소 하나를 반환한다. (find()와 유사)

- select('선택자'): 선택자에 해당하는 모든 요소를 리스트로 반환한다. (find_all()과 유사)

In [None]:
from bs4 import BeautifulSoup

html_shop = """
<html><body>
<div id="itemList">
  <div class="item">
    <a href="/product/1" class="name">노트북</a>
    <p class="price">1,200,000원</p>
  </div>
  <div class="item special">
    <a href="/product/2" class="name">마우스</a>
    <p>가격 문의</p>
  </div>
</div>
</body></html>
"""
soup = BeautifulSoup(html_shop, 'lxml')

# 태그 선택자
p_tag = soup.select_one('p')
print(f"태그 선택자('p'): {p_tag.get_text()}")

# 클래스 선택자 (.클래스명)
item = soup.select_one('.item')
print(f"클래스 선택자('.item'): {item.a.get_text()}")

# ID 선택자 (#ID명)
item_list = soup.select_one('#itemList')
print(f"ID 선택자('#itemList'): {len(item_list.select('.item'))}개의 상품이 있음")

# 자손 결합자 (상위 하위): 띄어쓰기로 구분
# '#itemList' 안에 있는 모든 'a' 태그
all_names = soup.select('#itemList a')
print(f"자손 결합자('#itemList a'): {[name.get_text() for name in all_names]}")

# 자식 결합자 (상위 > 바로 아래 하위): > 로 구분
# '.item' 바로 아래에 있는 'a' 태그
direct_child_name = soup.select_one('.item > a')
print(f"자식 결합자('.item > a'): {direct_child_name.get_text()}")

# 속성 선택자 ([속성="값"])
product_link = soup.select_one('a[href="/product/1"]')
print(f"속성 선택자('a[href=\"/product/1\"]'): {product_link.get_text()}")

태그 선택자('p'): 1,200,000원
클래스 선택자('.item'): 노트북
ID 선택자('#itemList'): 2개의 상품이 있음
자손 결합자('#itemList a'): ['노트북', '마우스']
자식 결합자('.item > a'): 노트북
속성 선택자('a[href="/product/1"]'): 노트북


### 2. 추출한 데이터 가공하기 🍳
추출한 데이터는 대부분 문자열 형태라 바로 계산하거나 활용하기 어렵다. 원하는 형태로 가공하는 과정이 필수적이다.

- 태그에서 텍스트만 추출: .get_text()
  - strip=True: 태그 앞뒤의 불필요한 공백과 줄바꿈 문자를 자동으로 제거한다.
  - separator=' ': 태그 안에 여러 텍스트 조각이 있을 때, 그 사이를 지정된 문자로 연결한다.

- 태그의 속성값 추출
  - 딕셔너리 방식: tag['href']: href 속성값을 가져온다. 만약 속성이 없으면 에러가 발생한다.
  - .get() 메서드: tag.get('href'): href 속성값을 가져온다. 속성이 없으면 에러 대신 **None**을 반환하여 더 안정적이다.

In [None]:
item = soup.select_one("div.item a")
print(item.get_text())
print(item["href"])

노트북
/product/1


### 3. HTML 트리 수정하기 (Modifying the Tree)
Beautiful Soup은 데이터 추출뿐 아니라 HTML 문서를 직접 수정하는 기능도 제공한다.

- 속성 변경: tag['class'] = 'new-class'
- 내용 변경: tag.string = 'new text'
- 요소 제거
  - .decompose(): 태그를 트리에서 완전히 제거한다. 메모리에서도 사라져 재사용이 불가능하다.
  - .extract(): 태그를 트리에서 분리하여 반환한다. 변수에 저장하면 나중에 재사용할 수 있다.

In [None]:
a = soup.find("a", class_="name")
print(a)

a.string = "데스크톱"
print(a)

item_list = soup.select_one("#itemList")
print(item_list)

print("------- 노드 제거 테스트 -------")
item_list.decompose()
print(soup)

<a class="name" href="/product/1">노트북</a>
<a class="name" href="/product/1">데스크톱</a>
<div id="itemList">
<div class="item">
<a class="name" href="/product/1">데스크톱</a>
<p class="price">1,200,000원</p>
</div>
<div class="item special">
<a class="name" href="/product/2">마우스</a>
<p>가격 문의</p>
</div>
</div>
------- 노드 제거 테스트 -------
<html><body>

</body></html>

