# 웹 스크래핑 기초 (Web Scraping Basics)

**수업 시간**: 3시간  
**구성**: 강의 및 실습 2시간 + 퀴즈 1시간  
**수준**: 중급  
**선수 학습**: 변수, 데이터 타입, 리스트, 딕셔너리, 반복문, 함수

---

## 🎯 학습 목표

이 수업을 마친 후 학생들은 다음을 할 수 있습니다:

- 웹 스크래핑(Web Scraping)이 무엇이고 언제 사용하는지 이해하기
- requests 라이브러리로 웹 페이지 내용 가져오기
- BeautifulSoup으로 HTML에서 원하는 정보 추출하기
- 간단한 웹 스크래핑 프로그램 만들기
- 웹 스크래핑 윤리와 주의사항 알기

---

## 🌐 1. 웹 스크래핑이란 무엇인가?

**웹 스크래핑(Web Scraping)**은 웹사이트에서 데이터를 자동으로 가져오는 기술입니다. 사람이 웹 브라우저로 하는 일을 컴퓨터가 대신 해주는 것입니다.

### 실생활 비유
온라인 쇼핑할 때 여러 사이트를 일일이 방문해서 가격을 비교하는 대신, 프로그램이 자동으로 모든 사이트를 돌아다니며 가격 정보를 모아주는 것과 같습니다.

In [None]:
# 수동으로 하던 일
# 1. 쿠팡 접속 → 상품 검색 → 가격 메모
# 2. 11번가 접속 → 상품 검색 → 가격 메모  
# 3. G마켓 접속 → 상품 검색 → 가격 메모
# ...반복

# 웹 스크래핑으로 자동화
prices = get_all_prices("무선이어폰")  # 모든 사이트에서 자동으로 가격 수집
print(f"총 {len(prices)}개 상품 정보를 수집했습니다!")

### 웹 스크래핑 활용 예시
- **가격 비교**: 온라인 쇼핑몰 가격 수집
- **뉴스 수집**: 여러 언론사 기사 모으기
- **날씨 정보**: 기상청 데이터 가져오기
- **취업 정보**: 구인구직 사이트 채용 공고 수집

---

## 📡 2. HTTP 기초 이해

웹에서 정보를 주고받을 때 사용하는 규칙이 **HTTP(HyperText Transfer Protocol)**입니다.

### 요청과 응답

In [None]:
# 브라우저가 하는 일
# 1. 요청(Request): "네이버 뉴스를 보여주세요"
# 2. 응답(Response): "여기 HTML 파일이 있습니다"

# 파이썬에서도 같은 방식으로 작동
response = requests.get("https://news.naver.com")
print(f"응답 상태: {response.status_code}")  # 200이면 성공

### 중요한 상태 코드
- **200**: 성공 - 정상적으로 페이지를 가져옴
- **404**: 페이지를 찾을 수 없음
- **403**: 접근 거부됨
- **500**: 서버 오류

---

## 📦 3. Requests 라이브러리

**requests**는 파이썬에서 웹 페이지를 쉽게 가져올 수 있게 해주는 라이브러리입니다.

### 설치하기

In [None]:
%%bash
pip install requests

### 기본 사용법

In [None]:
import requests

# 웹 페이지 가져오기
response = requests.get('https://httpbin.org/html')

# 성공했는지 확인
if response.status_code == 200:
    print("✅ 성공!")
    print(f"페이지 크기: {len(response.text)} 글자")
else:
    print(f"❌ 실패: {response.status_code}")

### 예의 바르게 요청하기

In [None]:
import time

def polite_request(url):
    """서버에 부담을 주지 않는 요청"""
    # 실제 브라우저인 것처럼 헤더 설정
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    
    # 1초 기다리기 (서버 부담 줄이기)
    time.sleep(1)
    
    try:
        response = requests.get(url, headers=headers, timeout=10)
        return response
    except:
        print("요청 실패")
        return None

# 사용 예시
response = polite_request("https://httpbin.org/html")
if response:
    print("데이터 가져오기 성공!")

---

## 🍲 4. BeautifulSoup 소개

**BeautifulSoup**은 HTML에서 원하는 정보를 쉽게 찾아주는 라이브러리입니다.

### 설치하기

In [None]:
%%bash
pip install beautifulsoup4

### 기본 사용법

In [None]:
import requests
from bs4 import BeautifulSoup

# 웹 페이지 가져오기
response = requests.get('https://httpbin.org/html')
html_content = response.text

# HTML 파싱하기
soup = BeautifulSoup(html_content, 'html.parser')

# 제목 찾기
title = soup.find('title').text
print(f"페이지 제목: {title}")

# 모든 링크 찾기
links = soup.find_all('a')
for link in links:
    print(f"링크: {link.text} → {link.get('href')}")

---

## 🔍 5. HTML 요소 찾기

HTML은 태그로 구성되어 있습니다. BeautifulSoup으로 이런 태그들을 쉽게 찾을 수 있습니다.

### 주요 HTML 태그
- `<title>`: 페이지 제목
- `<h1>, <h2>`: 큰 제목, 작은 제목
- `<p>`: 문단
- `<a>`: 링크
- `<div>`: 구역

### 태그 찾는 방법

In [None]:
from bs4 import BeautifulSoup

# 샘플 HTML
html = """
<html>
<head><title>뉴스 사이트</title></head>
<body>
    <h1>오늘의 뉴스</h1>
    <p>첫 번째 기사입니다.</p>
    <p>두 번째 기사입니다.</p>
    <a href="/news1">기사 더보기</a>
</body>
</html>
"""

soup = BeautifulSoup(html, 'html.parser')

# 하나만 찾기
title = soup.find('title').text
print(f"제목: {title}")

# 여러 개 찾기
paragraphs = soup.find_all('p')
for p in paragraphs:
    print(f"단락: {p.text}")

# class나 id로 찾기
# <div class="news">내용</div> → soup.find('div', class_='news')
# <div id="main">내용</div> → soup.find('div', id='main')

---

## ⚖️ 6. 웹 스크래핑 윤리

웹 스크래핑을 할 때 지켜야 할 규칙들이 있습니다.

### 기본 원칙

In [None]:
# ✅ 이렇게 하세요
import time

def ethical_scraping():
    # 1. 요청 사이에 시간 간격 두기
    time.sleep(1)
    
    # 2. 적절한 헤더 사용하기
    headers = {'User-Agent': 'Educational Bot 1.0'}
    
    # 3. 에러 처리하기
    try:
        response = requests.get(url, headers=headers)
        return response
    except:
        print("요청 실패")
        return None

# ❌ 이렇게 하지 마세요
# - 너무 빠르게 많은 요청 보내기
# - 개인정보나 민감한 데이터 수집
# - 로그인이 필요한 정보 무단 접근

### 확인해야 할 것들
1. **robots.txt**: `사이트주소/robots.txt`에서 허용 범위 확인
2. **이용약관**: 웹사이트 이용약관 읽기
3. **API 존재 여부**: 공식 API가 있다면 API 사용하기

---

## 🔧 실습 문제

### 실습 1: 간단한 뉴스 헤드라인 수집

**문제**: HTML에서 뉴스 제목들을 추출해서 출력하세요.

In [None]:
from bs4 import BeautifulSoup

# 샘플 뉴스 HTML
news_html = """
<html>
<body>
    <h1>주요 뉴스</h1>
    <h2>코스피 상승세 지속</h2>
    <h2>새로운 기술 발표</h2>
    <h2>날씨 맑음</h2>
</body>
</html>
"""

# 여기에 코드 작성
soup = BeautifulSoup(news_html, 'html.parser')

# 모든 h2 태그(뉴스 제목) 찾기
headlines = soup.find_all('h2')

print("=== 오늘의 뉴스 ===")
for i, headline in enumerate(headlines, 1):
    print(f"{i}. {headline.text}")

### 실습 2: 상품 정보 추출

**문제**: 쇼핑몰에서 상품명과 가격을 추출하세요.

In [None]:
from bs4 import BeautifulSoup

# 샘플 상품 HTML
product_html = """
<html>
<body>
    <div class="product">
        <h3>노트북</h3>
        <span class="price">89만원</span>
    </div>
    <div class="product">
        <h3>스마트폰</h3>
        <span class="price">65만원</span>
    </div>
</body>
</html>
"""

soup = BeautifulSoup(product_html, 'html.parser')

# 모든 상품 찾기
products = soup.find_all('div', class_='product')

print("=== 상품 목록 ===")
for product in products:
    name = product.find('h3').text
    price = product.find('span', class_='price').text
    print(f"상품: {name}, 가격: {price}")

### 실습 3: 웹페이지에서 링크 수집

**문제**: requests와 BeautifulSoup을 사용해서 실제 웹페이지에서 모든 링크를 수집하세요.

In [None]:
import requests
from bs4 import BeautifulSoup

def collect_links(url):
    try:
        # 웹페이지 가져오기
        response = requests.get(url)
        
        if response.status_code == 200:
            # HTML 파싱
            soup = BeautifulSoup(response.text, 'html.parser')
            
            # 모든 링크 찾기
            links = soup.find_all('a')
            
            print(f"=== {url}에서 찾은 링크들 ===")
            for i, link in enumerate(links[:10], 1):  # 처음 10개만
                href = link.get('href', '링크없음')
                text = link.text.strip() or '텍스트없음'
                print(f"{i}. {text} → {href}")
        else:
            print(f"페이지를 가져올 수 없습니다: {response.status_code}")
    
    except Exception as e:
        print(f"오류 발생: {e}")

# 테스트용 URL로 실행
collect_links('https://httpbin.org/html')

---

## 📝 퀴즈

### 퀴즈 1: 기본 웹 요청
**문제**: requests를 사용해서 'https://httpbin.org/html'의 상태 코드와 내용 일부를 출력하세요.

### 퀴즈 2: HTML 파싱
**문제**: 주어진 HTML에서 모든 `<p>` 태그의 텍스트를 추출하세요.

In [None]:
html = """
<html>
<body>
    <p>첫 번째 문단</p>
    <p>두 번째 문단</p>
</body>
</html>
"""

### 퀴즈 3: 실전 스크래핑
**문제**: HTML에서 제목과 링크를 추출해서 파일로 저장하세요.

---

## 📖 참고 자료

1. **Requests 공식 문서**: https://requests.readthedocs.io/
2. **BeautifulSoup 가이드**: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
3. **웹 스크래핑 윤리**: https://blog.apify.com/web-scraping-ethics/

---

## 💡 성공을 위한 팁

### 기본 원칙
- **작은 것부터 시작**: 간단한 HTML부터 연습하기
- **상태 코드 확인**: 항상 200인지 확인 후 진행
- **예외 처리**: try-except로 오류 대비하기
- **적절한 지연**: time.sleep()으로 서버 부담 줄이기

### 자주 하는 실수
- 상태 코드 확인 안 하기
- 너무 빠르게 요청 보내기
- HTML 구조 변경 시 대비 안 하기
- 에러 처리 빼먹기

### 연습 방법
1. httpbin.org 같은 테스트 사이트로 연습
2. 간단한 HTML부터 시작
3. 점진적으로 복잡한 사이트 도전
4. 실제 프로젝트에 적용

---

## 📋 숙제

### 기본 과제
1. **나만의 뉴스 수집기**: 간단한 HTML에서 제목들을 추출하여 파일로 저장
2. **링크 수집기**: 웹페이지의 모든 링크를 수집하여 출력
3. **상품 정보 추출**: 쇼핑몰 HTML에서 상품명과 가격 추출

### 도전 과제
4. **실시간 정보 수집기**: 
   - 관심 있는 웹사이트에서 정보 수집
   - 수집한 데이터를 파일로 저장
   - 윤리적 규칙 준수하면서 구현

**웹 스크래핑을 통해 데이터 세상을 탐험해보세요!** ⭐