# 웹 크롤링 소개

- **웹 크롤링**: 여러 웹페이지를 탐색하며 데이터를 수집하는 작업  
- **웹 스크래핑**: 한 웹페이지에서 필요한 정보를 추출하는 작업  
- 대상에 따라 **정적 크롤링**(HTML 기반)과 **동적 크롤링(JavaScript 기반)**으로 구분됨

# R을 활용한 웹 크롤링 요약

## 정적 웹 크롤링 (`rvest`)

- `rvest` 패키지를 활용하여 HTML 페이지에서 직접 콘텐츠를 추출  
- `read_html()`, `html_nodes()`, `html_text()` 등의 함수로 텍스트, 링크 등을 수집  
- `<table>` 태그로 구성된 표는 `html_table()`을 사용해 데이터프레임으로 변환 가능  
- 수집한 데이터는 `dplyr`로 정제하고, `write.csv()`로 저장할 수 있음

## API 기반 데이터 수집 (`httr`, `jsonlite`)

- API는 서버로부터 구조화된 데이터(JSON/XML)를 직접 제공  
- `httr::GET()`으로 요청하고, `jsonlite::fromJSON()`으로 JSON 응답을 파싱  
- HTML 스크래핑보다 더 빠르고 안정적임  
- 기사 제목, 링크, 날짜 등의 필드를 추출하여 CSV로 저장 가능

## JavaScript 기반 동적 크롤링 (`RSelenium`)

- JavaScript로 렌더링되는 페이지는 `rvest`로는 수집할 수 없음  
- `RSelenium`을 활용하여 브라우저를 자동화하고 동적 요소에 접근 가능  
- 버튼 클릭, 스크롤 다운, 무한 스크롤 등의 사용자 동작을 시뮬레이션 가능  
- 웹 드라이버 설정이 필요하며 시스템 환경에 따라 다를 수 있음

## 로그인 및 세션 유지 처리 (`httr::POST()`)

- 일부 웹사이트는 로그인 후에만 데이터 접근이 가능함  
- `httr::POST()`를 통해 로그인 시도 후 세션 쿠키를 유지하며 접근 가능  
- 단, 많은 웹사이트가 CAPTCHA나 2단계 인증을 사용하여 자동 로그인을 차단함  
- 가능하다면 공식 API를 통한 인증 방식 사용을 권장

## 자동화 및 실전 프로젝트

- 크롤링을 정기적으로 실행하려면 자동화 도구가 필요함  
- **Linux**: `cronR` 사용, **Windows**: `taskscheduleR` 사용  
- 예시 프로젝트:
  - 매일 인기 뉴스 수집 및 CSV 누적 저장
  - 상품 가격 변화나 실시간 키워드 추적  
- 자동화 시에는 로그 저장, 날짜 기록, 중복 제거 등도 함께 고려해야 함

## 핵심 요약

- **정적 크롤링**: `rvest`, `html_table`, `dplyr`  
- **API 기반**: `httr::GET()`, `jsonlite::fromJSON()`  
- **동적 페이지 처리**: `RSelenium`으로 JavaScript 인터랙션  
- **로그인/세션 처리**: `httr::POST()`  
- **자동화 실행**: `cronR`(Linux), `taskscheduleR`(Windows)  
- 위 기술들을 종합하면 실질적인 데이터 수집 프로젝트를 구현할 수 있음

# Python을 활용한 웹 크롤링 요약

## 정적 웹 크롤링 (`requests`, `BeautifulSoup`)

- `requests` 패키지로 HTML 페이지를 요청하고, `BeautifulSoup`으로 원하는 데이터를 추출  
- HTML 태그 및 클래스 구조를 기반으로 텍스트, 링크, 테이블 등 수집 가능  
- `<table>` 형식의 데이터는 `pandas.read_html()` 또는 `BeautifulSoup` + 수작업 파싱으로 처리 가능  
- `pandas`를 활용하여 데이터 정제 후 `to_csv()`로 저장 가능

## API 기반 데이터 수집 (`requests`, `json` or `pandas`)

- REST API를 활용하면 JSON 또는 XML로 구조화된 데이터를 직접 가져올 수 있음  
- `requests.get()`으로 API 호출, `response.json()` 또는 `json.loads()`로 파싱  
- 데이터는 `pandas.DataFrame`으로 변환 후 분석 및 저장 가능  
- HTML 크롤링보다 빠르고 안정적이며, 유지보수가 쉬움

## JavaScript 기반 동적 크롤링 (`Selenium`)

- JavaScript가 실행되어야 나타나는 콘텐츠는 `requests`나 `BeautifulSoup`으로는 수집 불가  
- `Selenium`을 사용하면 실제 브라우저를 조작하듯 클릭, 스크롤 등 사용자 동작을 시뮬레이션 가능  
- 동적 콘텐츠가 로드된 이후의 HTML을 `driver.page_source`로 가져와 파싱  
- 무한스크롤, 버튼 클릭, 드롭다운 처리 등에 적합

## 로그인 및 세션 유지 (`requests.Session()` 또는 `Selenium`)

- 로그인 후 접근 가능한 페이지의 경우, 세션 쿠키를 유지하며 요청 필요  
- `requests.Session()`을 사용해 로그인 요청을 보내고 이후 페이지 접근  
- 또는 `Selenium`으로 로그인 과정을 자동화하고 이후 페이지 조작  
- 단, CAPTCHA, OTP 등 인증 절차가 있으면 자동화가 제한될 수 있음 → 가능하면 API 사용 권장

## 자동화 및 실전 프로젝트

- 크롤링 작업을 자동화하려면 스케줄러 또는 배치 시스템이 필요  
- Python에서는 `schedule`, `APScheduler`, `cron`(Linux), 작업 스케줄러(Windows) 등을 활용  
- 예시 프로젝트:
  - 매일 뉴스 기사 수집 및 CSV 저장
  - 실시간 인기 키워드 또는 상품 가격 추적  
- 자동화 시 로그 저장, 중복 제거, 날짜 기록 등의 예외 처리가 중요함

## 핵심 요약

- **정적 크롤링**: `requests`, `BeautifulSoup`, `pandas`  
- **API 활용**: `requests`, `json`, `pandas`  
- **동적 크롤링**: `Selenium`을 통한 JavaScript 제어  
- **로그인/세션 처리**: `requests.Session()` 또는 `Selenium` 로그인 시퀀스  
- **자동화**: `schedule`, `APScheduler`, `cron`, `task scheduler`  
- 이들을 조합하면 실전 웹 크롤링 및 데이터 수집 시스템 구축 가능

좋아, 순서대로 진행할게.

---

## ✅ 1. Python 버전 **영문 요약본** (마크다운 형식)

```markdown
# Web Crawling with Python – Summary

## 1. Introduction to Web Crawling

- **Web crawling**: Navigating across websites to collect data  
- **Web scraping**: Extracting specific information from individual web pages  
- Categorized into **static (HTML-based)** and **dynamic (JavaScript-based)** crawling

---

## 2. Static Web Crawling (`requests`, `BeautifulSoup`)

- Use `requests` to fetch HTML pages and `BeautifulSoup` to parse them  
- Extract text, links, or tables based on HTML tags and class structures  
- Use `pandas.read_html()` for tables, or manually parse with `BeautifulSoup`  
- Clean data using `pandas` and save with `.to_csv()`

---

## 3. API-Based Data Collection (`requests`, `json`, `pandas`)

- REST APIs provide structured data (JSON/XML) directly  
- Use `requests.get()` and `response.json()` or `json.loads()` to parse responses  
- Convert JSON to `pandas.DataFrame` for analysis and export  
- More stable and faster than HTML scraping

---

## 4. JavaScript-Based Dynamic Crawling (`Selenium`)

- JavaScript-rendered pages can’t be scraped with `requests` or `BeautifulSoup`  
- Use `Selenium` to simulate browser actions (clicks, scrolling, etc.)  
- Extract final content using `driver.page_source` after the page loads  
- Ideal for infinite scrolls, pop-ups, and dynamic interactions

---

## 5. Login and Session Management (`requests.Session()` or `Selenium`)

- Use `requests.Session()` to maintain cookies and login credentials  
- For complex interactions, automate login via `Selenium`  
- Beware of CAPTCHA or multi-factor authentication – prefer APIs if available

---

## 6. Automation and Real-World Projects

- Use schedulers or job runners to automate crawling  
- Tools: `schedule`, `APScheduler`, `cron` (Linux), Task Scheduler (Windows)  
- Example use cases:
  - Daily news scraping into CSV  
  - Monitoring product price trends or real-time keywords  
- Include logging, duplicate checks, and date-stamping for reliability

---

## ✅ Key Takeaways

- **Static scraping**: `requests`, `BeautifulSoup`, `pandas`  
- **API collection**: `requests`, `json`, `pandas`  
- **Dynamic scraping**: `Selenium` for full browser interaction  
- **Login/session**: `requests.Session()` or automated login via `Selenium`  
- **Automation**: `schedule`, `APScheduler`, `cron`, Task Scheduler  
- Together, these tools can power scalable, real-world web crawling workflows
```

---

## ✅ 2. **R vs Python 웹 크롤링 비교표** (한국어)

| 항목 | R | Python |
|------|---|--------|
| **정적 크롤링** | `rvest`, `html_table`, `dplyr` | `requests`, `BeautifulSoup`, `pandas` |
| **표 데이터 처리** | `html_table()` + `dplyr` | `pandas.read_html()` 또는 직접 파싱 |
| **API 요청** | `httr::GET()` + `jsonlite::fromJSON()` | `requests.get()` + `response.json()` 또는 `json.loads()` |
| **동적 크롤링** | `RSelenium` | `Selenium` |
| **로그인 처리** | `httr::POST()` + 세션 유지 | `requests.Session()` 또는 `Selenium` |
| **자동화 도구** | `cronR`, `taskscheduleR` | `cron`, `APScheduler`, `schedule`, Windows Task Scheduler |
| **장점** | 통계 및 데이터 처리에 강함 | 생태계 다양, 커뮤니티 방대, 크롤링 라이브러리 풍부 |
| **단점** | 환경 설정이 까다로운 편, 실시간 처리 부족 | 웹 개발 요소와 통합 시 학습 곡선 있음 |

> ✅ 요약:  
> - **R은 분석 친화적인 환경에서 간단한 크롤링 & 정제 작업에 강하고**,  
> - **Python은 대규모 자동화, 복잡한 웹 구조 대응, API 중심 작업에 더 적합**.

---

필요하면 이 비교표를 이미지, PDF, 발표 슬라이드용 구조로도 만들어줄 수 있어.  
다음으로 어떤 포맷이 필요해? 또는 이 내용을 어디에 활용할 예정이야?