----
# 1. 수업 목표 
----
- python을 활용한 정적 웹 크롤링

- 목표 사이트 : `https://news.naver.com/section/101` (네이버 뉴스 경제 페이지)

- requests 라이브러리를 사용해 뉴스의 제목과 링크를 가져옴


&nbsp;


----
# 2. 학습 목표
----
- python 라이브러리인 requests를 활용한 HTTP 요청으로 웹 페이지를 가져오기

- BeautifulSoup을 활용한 HTML 파싱을 실습

- +추가적으로 정기적으로 크롤링을 진행할 수 있는 github repo를 만들고, github actions를 활용한 자동화를 구현


&nbsp;

----
# 3. 학습 내용
----
### 3-1. requests를 활용한 HTTP 요청으로 웹 페이지 가져오기

- requests를 활용한 HTTP 요청으로 웹 페이지 가져오기

### 3-2. BeautifulSoup을 활용한 HTML 파싱을 실습

beautifulsoup4를 왜 쓰는 걸까요?
- BeautifulSoup을 활용한 HTML 파싱을 실습

- 리뷰 페이지의 구조를 파싱하여 데이터 추출

### 3-3. github repo를 만들고, github actions를 활용한 자동화를 구현

- github repo를 만들고, github actions를 활용한 자동화를 구현

&nbsp;

In [None]:
# 수업에 사용하는 라이브러리
!pip install requests beautifulsoup4

/Users/song-giung/Documents/coding/crawling_class/.venv/bin/python: No module named pip
Note: you may need to restart the kernel to use updated packages.


# 1. requests

| 코드 | 의미            | 설명 |
|------|------------------|------|
| 200  | OK               | 요청 성공 (HTML 받음) |
| 301/302 | Redirect     | 다른 곳으로 이동 |
| 403  | Forbidden        | 접근 금지 (User-Agent 막힘 등) |
| 404  | Not Found        | 존재하지 않는 페이지 |
| 500  | Server Error     | 서버 내부 오류 |

### 403 오류가 날 시 robots.txt

robots.txt는 웹사이트에 웹 [크롤러](https://namu.wiki/w/%ED%81%AC%EB%A1%A4%EB%A7%81 "크롤링") 같은 로봇들의 접근을 제어하기 위한 규약이다.

- https://news.naver.com/robots.txt

```txt
User-agent: Yeti
Allow: /main/imagemontage
Disallow: /

User-Agent: facebookexternalhit
Disallow: /*/template

User-Agent: Twitterbot
Disallow: /*/template

User-agent: *
Disallow: /
```

https://www.whatismybrowser.com/detect/what-is-my-user-agent/

In [None]:
# 정적

import requests

url = "https://news.naver.com/section/101"
response = requests.get(url)

print(response.status_code)  # 200
print("-----------------------")
print(response.headers)  # text/html
print("-----------------------")
print(response.text[:3000])  # HTML 일부 미리보기

200
-----------------------
{'date': 'Thu, 01 May 2025 04:25:43 GMT', 'content-type': 'text/html; charset=utf-8', 'transfer-encoding': 'chunked', 'set-cookie': 'N_SES=ff2e1ddf-db6e-49e4-a848-675abb85c1ae; Max-Age=1800; Path=/; Expires=Thu, 01 May 2025 04:55:43 GMT', 'cache-control': 'no-cache, no-store, must-revalidate', 'x-content-type-options': 'nosniff', 'x-xss-protection': '1; mode=block', 'x-frame-options': 'SAMEORIGIN', 'content-encoding': 'gzip', 'referrer-policy': 'unsafe-url', 'server': 'nfront'}
-----------------------
<!doctype html>
<html lang="ko" data-useragent="python-requests/2.32.3">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="경제 : 네이버 뉴스">
		<meta property="og:type" content

In [None]:
# 동적

json_url = "https://smartstore.naver.com/dareukr/products/11252771772?site_preference=device&NaPm=ct%3Dma4vg5a2%7Cci%3Dshopn%7Ctr%3Dmo%7Chk%3Dcdf8a706aef883394af3f11d167ff3bad6a6a2ba%7Ctrx%3Dundefined"
response = requests.get(json_url)

print(response.status_code)  # 200
print("-----------------------")
print(response.headers)  # text/html
print("-----------------------")
print(response.text[:3000])  # HTML 일부 미리보기

429
-----------------------
{'Server': 'nginx', 'Date': 'Thu, 01 May 2025 04:35:26 GMT', 'Content-Type': 'text/html', 'Content-Length': '23206', 'Connection': 'keep-alive', 'ETag': '"64816554-5aa6"'}
-----------------------
<!DOCTYPE html>
<html lang="ko">

<head>
    <meta charset="UTF-8">
    <title>[ìë¬] ìë¬íì´ì§ - ìì¤íì¤ë¥</title>
    <style type="text/css">
        body {
            min-width: 1320px
        }

        body,
        p,
        h1,
        h2,
        h3,
        h4,
        h5,
        h6,
        ul,
        ol,
        li,
        dl,
        dt,
        dd,
        table,
        th,
        td,
        form,
        fieldset,
        legend,
        input,
        textarea,
        button,
        select {
            margin: 0;
            padding: 0
        }

        body,
        input,
        textarea,
        select,
        button,
        table {
            font-family: ëëê³ ë, "Nanum Gothic", "Apple SD Gothic Neo", "Malgun Go

# 2. 크롤링에서 사용하는 HTML 구조란?
웹페이지는 기본적으로 HTML(하이퍼텍스트 마크업 언어) 로 구성되어 있어.
HTML은 웹페이지의 뼈대를 구성하며, 우리가 크롤링할 때는 이 구조 속에서 원하는 정보를 태그 기반으로 추출

## HTML의 기본 구조 예시
```html
<div class="news">
  <a href="https://news.example.com/article1">
    <strong class="title">기사 제목입니다</strong>
  </a>
  <div class="summary">기사 요약입니다</div>
</div>
```
#### tag
- HTML의 기본 구성 단위
- div, a, strong 등은 태그 이름(tag name)
#### 속성
- 태그가 가지고 있는 부가 정보
- class, href, id, src, alt 등이 전부 속성명

| 태그     | 의미                      | 크롤링 활용 |
|----------|---------------------------|-------------|
| `<div>`  | 구역 묶음 (container)      | 구조 파악   |
| `<a>`    | 링크 (hyperlink)          | `.get("href")` |
| `<strong>`   | 제목 헤더 (타이틀)         | `.get_text()` |
| `<p>`    | 일반 문단 (내용, 요약)     | `.get_text()` |
| `<class>`    | 클래스 (CSS 선택자)        | `.select(".class")` |

In [None]:
# html 가져오기
import requests

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

response = requests.get(url, headers=headers)

print("-----------------------")
print(response.status_code)  # HTTP 상태 코드 출력 (200이면 성공)
print("-----------------------")
html = response.text  # 응답의 HTML 텍스트
print(type(html))
print("-----------------------")
print(html)

200
-----------------------
<class 'str'>
-----------------------
<!doctype html>
<html lang="ko" data-useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15">
	<head>
		<meta charset="utf-8">
		<meta http-equiv="X-UA-Compatible" content="IE=edge">
		<meta name="referrer" contents="always">
		<meta http-equiv="refresh" content="600">
		<meta name="viewport" content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" />
		<meta property="og:title" content="경제 : 네이버 뉴스">
		<meta property="og:type" content="website">
		<meta property="og:url" content="https://news.naver.com/section/101">
		<meta property="og:image" content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png">
		<meta property="og:description" content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공">
		<meta property="og:article:author" content="네이버">
		<meta name="twitter:card" content=

# ✅ 2. BeautifulSoup 필수 메서드 정리 (실전 위주)

| 메서드 | 설명 | 예시 |
|--------|------|------|
| `soup.select("CSS선택자")` | 복수 요소 리스트로 추출 | `soup.select(".title")` |
| `soup.find("tag", attrs={})` | 단일 요소 찾기 | `soup.find("a", {"class": "link"})` |
| `soup.find_all("tag")` | 여러 개 요소 찾기 | `soup.find_all("div")` |
| `element.get_text(strip=True)` | 텍스트만 추출 | `tag.get_text()` |
| `element.get("속성")` | 속성값 추출 (`href`, `src` 등) | `tag.get("href")` |
| `tag.find_parent("a")` | 부모 태그 찾기 | `title_tag.find_parent("a")` |

## 크롤링할 때 뭘 보나?
원하는 정보가 어떤 태그 안에 있는지

예: 제목은 ```<strong class="title">``` 안에 있다.

그 태그를 어떻게 찾아갈 수 있는지

예: div.news 안의 a > strong.title

링크는 보통 ```<a>``` 태그의 href 속성 안에 있음

## CSS 선택자로 찾는 법 (BeautifulSoup에서 자주 사용)

| 선택자 | 의미 | 예시 | 설명 |
|--------|------|------|------|
| `.class` | 클래스 선택 | `.title` | class="title"인 태그 |
| `#id` | 아이디 선택 | `#news` | id="news"인 태그 |
| `tag` | 태그 선택 | `div`, `a`, `p` | 태그 이름으로 찾기 |
| `tag.class` | 특정 클래스 가진 태그 | `div.news` | class="news"인 div |
| `parent > child` | 바로 아래 자식 | `div > a` | div의 직계 자식 a |
| `parent descendant` | 모든 하위 자식 | `div a` | div 안의 모든 a 태그 |
| `tag[attr=값]` | 속성으로 선택 | `a[href="..."]` | 특정 href 가진 링크 |


예시

```css
_SECTION_HEADLINE_LIST_145xv > li:nth-child(1) > div > div > div.sa_text > a > strong
```




In [33]:
# 1. 기본적인 크롤링 구조
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

# 객체는 정보를 담는 그릇
response = requests.get(url, headers=headers)

# BeautifulSoup으로 파싱
soup = BeautifulSoup(response.text, "html.parser")

# 전체 HTML 출력
print(type(soup))
print("-----------------------")
print(soup.prettify())  # 앞부분만 3000글자 출력

<class 'bs4.BeautifulSoup'>
-----------------------
<!DOCTYPE html>
<html data-useragent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15" lang="ko">
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <meta contents="always" name="referrer"/>
  <meta content="600" http-equiv="refresh"/>
  <meta content="width=device-width, initial-scale=1.0, maximum-scale=1.0, minimum-scale=1.0, user-scalable=no" name="viewport">
   <meta content="경제 : 네이버 뉴스" property="og:title"/>
   <meta content="website" property="og:type"/>
   <meta content="https://news.naver.com/section/101" property="og:url"/>
   <meta content="https://ssl.pstatic.net/static.news/image/news/ogtag/navernews_800x420_20221201.png" property="og:image"/>
   <meta content="증권, 금융, 부동산, 기업, 국제 등 경제 분야 뉴스 제공" property="og:description"/>
   <meta content="네이버" property="og:article:author"/>
   <meta content="summary" name="twi

# 네이버 경제 뉴스 섹션 페이지 HTML에서 기사 제목 링크 추출



In [39]:
# ✅ 2. BeautifulSoup 필수 메서드 정리 (실전 위주)

#_SECTION_HEADLINE_LIST_2whz3 > li:nth-child(1) > div > div > div.sa_text > a > strong

title_tag = soup.select_one(
    "li:nth-child(1) > div > div > div.sa_text > a > strong"
)
print(title_tag.get_text(strip=True))

print(title_tag.find_parent("a").get("href"))

title_tags = soup.select("li:nth-child(1) > div > div > div.sa_text > a > strong")
print(title_tags)

부산서 해양도시 혁신 네트워크 포럼…디지털 전환 주제
https://n.news.naver.com/mnews/article/001/0015362388
[<strong class="sa_text_strong">부산서 해양도시 혁신 네트워크 포럼…디지털 전환 주제</strong>, <strong class="sa_text_strong">美 경제 3년만 역성장 … 트럼프 “관세 탓 아냐, 바이든이 망쳤다”</strong>, <strong class="sa_text_strong">공매도 재개에도 외국인, 9개월째 ‘팔자’…2차전지·반도체 집중</strong>, <strong class="sa_text_strong">신세계 승계작업·계열분리 속도…이명희 '총수' 지위 유지</strong>, <strong class="sa_text_strong">패키지 여행 옵션 강매 폭로했다가…"얼굴 기억한다" 협박당한 유튜버</strong>, <strong class="sa_text_strong">쿠팡·두나무 올해도 총수 동일인 지정 피해…5대 대기업 매출 쏠림</strong>, <strong class="sa_text_strong">신세계 남매 독립 속도 낸다…아들은 매입, 딸은 증여 왜?</strong>]


In [None]:
# 네이버 경제 뉴스 섹션 페이지 HTML에서 기사 제목 링크 추출
# 제목 strong 태그 추출
news_titles = soup.select(".sa_text strong")

print(f"발견한 뉴스 제목 수: {len(news_titles)}")

# 추출한 제목과 링크를 리스트로 저장
titles = []
links = []

for title_tag in news_titles:
    title = title_tag.get_text(strip=True)
    # 부모인 <a> 태그에서 href 가져오기
    parent_a_tag = title_tag.find_parent("a")
    if parent_a_tag:
        link = parent_a_tag.get("href")
    else:
        link = None  # 혹시나 a가 없는 경우 대비

    titles.append(title)
    links.append(link)

# 결과 출력
for i in range(min(5, len(titles))):  # 처음 5개만 출력
    print("뉴스 제목:", titles[i])
    print("뉴스 링크:", links[i])
    print("-" * 50)


발견한 뉴스 제목 수: 46
뉴스 제목: 뉴욕증시, 최악은 지났다는 안도감‥나흘째 강세 마감
뉴스 링크: https://n.news.naver.com/mnews/article/214/0001420696
--------------------------------------------------
뉴스 제목: ㈜효성, 1분기 영업이익 818억원…전년 대비 1254% 증가
뉴스 링크: https://n.news.naver.com/mnews/article/003/0013207050
--------------------------------------------------
뉴스 제목: '이자장사 이 정도였어'...석달만에 5조 번 4대 금융
뉴스 링크: https://n.news.naver.com/mnews/article/374/0000437346
--------------------------------------------------
뉴스 제목: “경북 봉화 등 전국 51개 지하수 중금속 오염 심각”
뉴스 링크: https://n.news.naver.com/mnews/article/030/0003307208
--------------------------------------------------
뉴스 제목: 삼성, '해킹사고' SKT 이용 임원들에 "빨리 유심 교체해라"(종합)
뉴스 링크: https://n.news.naver.com/mnews/article/001/0015352240
--------------------------------------------------


# [Step 1] 먼저 웹페이지에 들어가기

예: https://news.naver.com/section/101
# [Step 2] 개발자 도구 열기 (F12)

브라우저(크롬, 사파리 등)에서 F12 누르거나
우클릭 → "검사" (Inspect)
→ 그러면 화면 오른쪽이나 아래에 HTML 구조 보기

맥 (command + option + i)

윈도우 (F12)


# [Step 3] 가져오고 싶은 곳을 직접 클릭해서 찾아보기

마우스로 뉴스 제목 위에 갖다 대고
오른쪽 개발자 도구에 해당 HTML 코드를 찾기

In [27]:
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# 제목 strong 태그 추출
news_titles = soup.select(".sa_text .sa_text_strong")
print(news_titles)

[<strong class="sa_text_strong">트럼프 주니어, 조선·IT·식품 총수와 릴레이 면담</strong>, <strong class="sa_text_strong">K원전 첫 유럽 진출…한수원, 체코와 이달 7일 본계약</strong>, <strong class="sa_text_strong">중소기업 매출 기준 10년 만에 완화…업계 "성장 사다리 튼튼해질 것"</strong>, <strong class="sa_text_strong">“비영리법인, 코인 기부 받은 즉시 현금화하라” 금융위</strong>, <strong class="sa_text_strong">LG전자, '가정의 달' 맞아 아동·청소년 체험 활동 진행</strong>, <strong class="sa_text_strong">美 관세에도 4월 수출 3.7%↑…대미 수출은 줄어(상보)</strong>, <strong class="sa_text_strong">퇴직연금 실물이전 승자는…증권사로 머니무브 3개월간 4천억 순유입</strong>, <strong class="sa_text_strong">美 해군성 장관 만난 정기선·김동관... K-조선 기술력 뽐냈다</strong>, <strong class="sa_text_strong">“전세사기 피해 임차인 누적 3만명”</strong>, <strong class="sa_text_strong">여수 `산업위기 선제대응지역` 지정…최상목 "2년간 집중지원"</strong>, <strong class="sa_text_strong">정기선 "美조선업 기반 세우자", 김동관 "美에 여러 조선소 확보"</strong>, <strong class="sa_text_strong">3년만의 역성장으로 돌아온 트럼프 관세 부메랑…美 금리 낮추나</strong>, <strong class="sa_text_strong">"월 150만원씩 5년만 내면…" 부자들 우르르 몰린 효자 상품</strong>, <strong class="sa_text_strong">

In [29]:
news_titles[0].find_parent("a").get("href")

'https://n.news.naver.com/mnews/article/081/0003538020'

In [36]:
import requests
from bs4 import BeautifulSoup

url = "https://news.naver.com/section/101"

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/18.4 Safari/605.1.15"
}

response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, "html.parser")

# 제목 strong 태그 추출
news_titles = soup.select(".sa_text .sa_text_strong")

print(f"발견한 뉴스 제목 수: {len(news_titles)}")

# 추출한 제목과 링크를 리스트로 저장
titles = []
links = []

for title_tag in news_titles:
    title = title_tag.get_text(strip=True)
    # 부모인 <a> 태그에서 href 가져오기
    parent_a_tag = title_tag.find_parent("a")
    if parent_a_tag:
        link = parent_a_tag.get("href")
    else:
        link = None  # 혹시나 a가 없는 경우 대비

    titles.append(title)
    links.append(link)

# 결과 출력
for i in range(min(5, len(titles))):  # 처음 5개만 출력
    print("뉴스 제목:", titles[i])
    print("뉴스 링크:", links[i])
    print("-" * 50)


발견한 뉴스 제목 수: 46
뉴스 제목: 이창용 "미중 관세협상 안되면 관세 유예 연장돼도 경제 비용 커"
뉴스 링크: https://n.news.naver.com/mnews/article/057/0001883512
--------------------------------------------------
뉴스 제목: '대구 휘발유 1천500원대' 11주 연속 국내 주유소 휘발유·경유 가격 내려
뉴스 링크: https://n.news.naver.com/mnews/article/088/0000944285
--------------------------------------------------
뉴스 제목: 삼성, SK텔레콤 해킹 사고에 "임원들 유심 교체해라"
뉴스 링크: https://n.news.naver.com/mnews/article/018/0005997557
--------------------------------------------------
뉴스 제목: '최태원 동생' 최기원 이사장, SK㈜ 3500주 또 매수
뉴스 링크: https://n.news.naver.com/mnews/article/011/0004478625
--------------------------------------------------
뉴스 제목: ‘금융위기’ 연상케 해...외국인 떠나는 ‘국장’
뉴스 링크: https://n.news.naver.com/mnews/article/050/0000089915
--------------------------------------------------


In [None]:
import pandas as pd
import os

# 새로운 데이터 (크롤링한 결과)
new_data = pd.DataFrame({"Title": titles, "Link": links})

# 기존 파일이 있으면 불러오기
if os.path.exists("news_titles.csv"):
    existing_data = pd.read_csv("news_titles.csv")
    # 기존 데이터에 새로운 데이터 추가
    combined_data = pd.concat([existing_data, new_data], ignore_index=True)
else:
    combined_data = new_data  # 처음이면 새로 시작

# 중복 제거 (옵션) - 제목+링크 둘 다 같으면 중복으로 보기
combined_data = combined_data.drop_duplicates(subset=["Title", "Link"])

# CSV 파일로 저장
combined_data.to_csv("news_titles.csv", index=False, encoding="utf-8-sig")

print("CSV 파일 누적 저장 완료!")

CSV 파일 저장 완료!


In [24]:
path = "https://n.news.naver.com/mnews/article/009/0005483034"
response = requests.get(path)
soup = BeautifulSoup(response.text, "html.parser")\
#dic_area
area = soup.find(id="dic_area")
print(area.get_text(strip=True))

국내 M&A 시장, 지난해 회복했지만불확실성 높아지며 올해 1분기 경색거래 규모 年 30조원대 굳어져SK·롯데 등 계열사 매각 나서고 있어대기업 인수자 없어지며 시장 침체삼성·현대차 M&A 적극 나설지 관심지난 2일(현지시간) 워싱턴DC 백악관에서 상호관세를 발표하며 국가별 관세율 현황판을 들고 있는 도널드 트럼프 미국 대통령. <사진=AFP 연합뉴스>국내 인수·합병(M&A) 시장이 정치 리스크, 경기 침체 등으로 인해 올해 1분기 극심한 침체를 겪었습니다. 현재도 M&A 시장은 살아날 기미가 보이지 않습니다.트럼프 미국 행정부의 관세부과가 아직 마무리되지 않은 상황에서, 인수자들이 수천억원~수조원을 써서 기업을 인수하기 꺼리고 있기 때문입니다.이번 연재 기사에선 현재 국내 M&A 시장 현황에 대해 살펴보고자 합니다.M&A 시장 지난해 회복하다가 올해 1분기 침체지난해 M&A 리그테이블 현황 [레이더M]지난해엔 모처럼 만에 국내 M&A 시장이 활성화됐었습니다.매일경제 레이더M이 집계에 따르면, 지난해 국내 M&A 시장 거래규모는 35조6734억원으로 2023년 대비 16% 증가했습니다. 3년 만에 성장한 셈이죠.국내 M&A 시장은 저금리에 따른 호황을 누린 2021년 71조5030억원으로 정점을 찍었습니다. 이후 금리 상승과 자금조달 시장 경색, 경기 침체 여파로 2022년(39조4277억원), 2023년(30조6458억원) 연속 감소하다가, 지난해 소폭 거래액이 늘었습니다.지난해는 빅 딜도 10건에 달했습니다. 빅 딜이란 거래액 1조원 이상의 대형 거래를 의미합니다.국내 주요 사모펀드인 한앤컴퍼니가 약 2조7000억원에 SK스페셜티 지분 85%를 인수한 것이 거래액 기준 가장 큰 딜이었습니다. IMM 컨소시엄의 에코비트 인수(2조700억원), 중국 CSOT의 LG디스플레이 광저우 LCD생산법인 인수(2조256억원), 어피니티의 롯데렌탈 인수(1조5729억원) 등이 주요 딜이었습니다.SK·LG·롯데·태영 등 주요 대기업이 선제적 구조조정 차원에서 사업 매각에 

## 1. 왜 Selenium이 필요한가?
BeautifulSoup 한계:

자바스크립트로 렌더링된 콘텐츠는 보이지 않음 (예: 버튼 눌러야 나오는 댓글 등)

버튼 클릭, 스크롤, 로그인 등이 필요할 때는 동작 불가

Selenium은 웹 브라우저를 직접 조작할 수 있음:

마치 사람이 브라우저에서 클릭하고 타이핑하는 것처럼 자동화 가능

| 메서드 | 설명 |
|--------|------|
| `driver.get(url)` | URL로 접속 |
| `driver.find_element(By.~~)` | 요소 1개 찾기 |
| `driver.find_elements(By.~~)` | 요소 여러 개 찾기 |
| `element.click()` | 클릭하기 |
| `element.send_keys("텍스트")` | 텍스트 입력 |
| `driver.quit()` | 브라우저 종료 |