# Day3

## 01 | 크롤링이란?
- 여러 웹페이지에 있는 데이터들을 프로그래밍 적으로 수집하고 분류하는 작업

1. 스크래핑: 각각의 페이지에서 정보를 추출하여 데이터를 수집하는 작업
2. 크롤러: 자동으로 정보 추출을 반복하는 프로그램

### 1. 크롤링 방법

1) HTML 페이지를 가져와서, HTML/CSS 등을 파싱(분석)하고, 필요한 데이터만 추출하는 기법
2) Open API(Application Programming Interface)       
-> 소프트웨어 애플리케이션들이 서로 통신하고 상호작용할 수 있도록 하는 규칙, 프로토콜, 도구들의 집합
3) Selenium           
-> 웹 브라우저를 자동으로 조작하여 웹 애플리케이션의 동작을 테스트하고, 반복적인 테스트 작업을 자동회하는 데 활용

2. 크롤링 방식의 종류
01) urllib: 내장 라이브러리
02) Request: 외부 라이브러리
03) Selenium: 웹 브라우저 자동화 라이브러리
-> 로그인, 클릭, 스크롤 등 동적 웹페이지 조작 가능
04) BeautifulSoup: HTML이나 XML 문서를 파싱(구문 분석)해서 원하는 부분을 쉽게 추출할 수 있게 도와주는 외부 라이브러리
-> HTML을 구문 분석하기 위한 도구

* xml 파일이란?        
-> 간단하게 말하면 주로 웹에서 데이터를 전송하기 위해 미리 약속해둔 방식으로 만들어진 문서

01) urllib

[특징]
- python 내장 라이브러리: 별도 설치 없이 바로 사용할 수 있어 가볍고 빠르게 사용 가능
- HTTP 요청 가능: 웹 서버 데이터를 요청하는 작업을 매우 쉽게 가능
- 상대적으로 낮은 사용 편의성: 로그인 및 세션 유지가 번거로움

In [2]:
# 간단한 사용 예
import urllib.request
url = "https://www.example.com"
response = urllib.request.urlopen(url)
# URL에 접속을 시도하고, 서버로부터 응답을 받아 response라는 객체 저장
html = response.read().decode('utf-8')
print(html)

<!doctype html><html lang="en"><head><title>Example Domain</title><meta name="viewport" content="width=device-width, initial-scale=1"><style>body{background:#eee;width:60vw;margin:15vh auto;font-family:system-ui,sans-serif}h1{font-size:1.5em}div{opacity:0.8}a:link,a:visited{color:#348}</style><body><div><h1>Example Domain</h1><p>This domain is for use in documentation examples without needing permission. Avoid use in operations.<p><a href="https://iana.org/domains/example">Learn more</a></div></body></html>



02) Request

- html 문서를 가져올 때 사용하는 패키지
- 사용자 친화적인 문법을 사용하여 다루기 쉬움
- 예외 상황에 대한 처리가 잘 되어 있어 안정성이 뛰어남
- 세션 유지가 용이
- 간편하게 HTTP request를 보낼 수 있음
- python2/ python3 완벽 지원
- 코드가 간결, 공식 문서가 잘 작성되어 있어 학습과 문제 해결이 쉬움

In [3]:
pip install requests

Note: you may need to restart the kernel to use updated packages.


In [6]:
import requests
response = requests.get("https://example.com")
html = response.text # HTML 텍스트 추출
print(html)

<!doctype html><html lang="en"><head><title>Example Domain</title><meta name="viewport" content="width=device-width, initial-scale=1"><style>body{background:#eee;width:60vw;margin:15vh auto;font-family:system-ui,sans-serif}h1{font-size:1.5em}div{opacity:0.8}a:link,a:visited{color:#348}</style><body><div><h1>Example Domain</h1><p>This domain is for use in documentation examples without needing permission. Avoid use in operations.<p><a href="https://iana.org/domains/example">Learn more</a></div></body></html>



03) Selenium

- 웹 브라우저 자동화 도구
- javascript/CSS 자원, 기존 GUL 브라우저 자동화 라이브러리
- chromedrive를 이용해 크롬을 제어할 것!
- 사람이 웹서핑하는 것과 동일한 환경, 대신에 리소스를 많이 사용

In [5]:
pip install selenium

Note: you may need to restart the kernel to use updated packages.


In [7]:
pip install webdriver-manager

Note: you may need to restart the kernel to use updated packages.


In [4]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()
driver.get('https://finance.naver.com/news/mainnews.naver')
time.sleep(2) # 페이지가 완전히 로딩될 때까지 2초간 대기
# 페이지 내에 <span class = "text">...</span> 요소를 모두 찾아 리스트로 반환
quotes = driver.find_elements(By.CLASS_NAME, '.articleSubject')
for q in quotes:
    print(q.text)
driver.quit() # 브라우저를 닫고 Selenium 드라이버를 종료

WebDriverException: Message: '' executable may have wrong permissions. Please see https://chromedriver.chromium.org/home


04) BeautifulSoup

- 쉽고 간결하다
- 공식 문서가 잘 되어 있어 학습과 활용이 쉬움
- 정규식으로 작성할 필요 없이 tag, id, class 등의 이름으로 쉽게 파싱 가능
- 보통은 urllib 또는 requests로 HTML을 가져온 후 함께 사용함

In [15]:
pip install BeautifulSoup4

Note: you may need to restart the kernel to use updated packages.


In [19]:
from bs4 import BeautifulSoup
html = """
<div class = "quote"><span class = "text"> "Hello, World"</spand></div>
<div class = "quote2"><span class = "text"> "Hello, Python"</spand></div>
"""
soup = BeautifulSoup(html, 'html.parser')
quote = soup.find('span', class_= 'text')
print(quote.text)

 "Hello, World"


In [20]:
q = soup.find('div', class_= 'quote2')
print(q.text)

 "Hello, Python"


## 02 | 파싱(passing)
- 가공되지 않은 HTML 문서에서 원하는 데이터를 구조화된 형태로 추출하는 과정

1) HTML
- 웹페이지를 구성하는 언어
- 구조는 <태그 속성 ="값"> 내용<태그> 형식

<!DOCTYPE html> # html5 문서라는 것을 선언
<html lang = "ko"> # 문서의 언어를 한국어로 설정
<head>
    <meta charset = "UTF-8"> # 문자 인코딩을 UTF-8로 지정(한글 등 다국어 지원)
    <title> 크롤링 실습페이지</title>
</head>
<body> # 본문 시작
    <h1> 크롤링 실습용 페이지입니다</h1>
    <h3> 크롤링 실습용 페이지입니다</h3>
    <p class = "description"> 이 페이지는 크롤링 연습을 위한 예제입니다.</p>
    <ul id = "items">
        <li class = "item">사과</li>
        <li class = "item">바나나</li>
        <li class = "item">체리</li>
        <li class = "item">포도</li>
    </ul>
    <a href = "https://www.naver.com" target = "_blank"> 네이버로 이동</a>
</body>
</html>

2) Xpath

- XML 또는 HTML 문서에서 특정 요소(태그)의 위치경로를 표현하는 언어

- 표현식
/html/body/div => div 선택
//div => 문서 내 모든 div 선택
//div[@class = 'X] => class가 X인 div를 선택
//ul/li[last()] => 마지막 li 요소 선택

3) CSS

- HTML로 만들어진 화면을 꾸며주는 역할
- HTML 요소의 디자인/스타일을 정의(글자색, 크기, 배경색 등)
- 크롤링에서는 CSS 선택자를 사용해 요소 선택 가능

4) 정적 웹페이지

- 사용자가 접근할 때마다 내용이 바뀌지 않는 웹페이지
- 서버에서 보내주는 HTML 응답 안에 모든 정보가 포함되어 있음

[크롤링 절차]
1. 파이썬 코드로 웹페이지 요청을 보냄(requests 또는 urllib)
2. HTML 응답을 받아옴
3. BeautifupSoup4로 HTML을 분석하여 원하는 데이터 추출

[특징]
- 페이지의 구조가 일정하고 단순
- 빠르고 안정적으로 데이터를 수집 가능

5) 동적 웹페이지(Dynamic web page)

- 사용자 상호작용이나 조건에 따라 실시간으로 내용이 바뀌는 웹페이지
- 단순한 URL 요청만으로 원하는 데이터가 바로 보이지 않거나 존재하지 않음           
ex) 로그인 후에만 보이는 정보, 버튼 클릭 후 로딩되는 목록 등

[해결방법]
- 브라우저를 직접 제어하는 selenium을 사용해 페이지를 조작하고, 필요한 시점에 데이터를 수집

## 03 | Open API

1) API란?

- 프로그램과 프로그램이 서로 대화하기 위해 미리 정해둔 규칙
-> 앱과 앱 사이에 대화 방식
- API는 응용프로그램 인터페이스로서 서로 다른 소프트웨어 간의 데이터 교환 및 기능 사용을 가능하게 하는 규칙 또는 명령어의 집합

02) Open API란

- 누구나 사용할 수 있도록 공개된 API
- 특정 기관이나 서비스가 자신들의 데이터를 외부 개발자에세 표준화된 형식으로 공유함
- 인증키(APIKey)만 있다면 자유롭게 요청 가능
- 주로 REST API 형식으로 제공되며, 공공데이터나 외부 서비스 연동 등에 활용           
ex) 날씨 정보, 교통 정보, 뉴스/실시간 기사, 공공기관 데이터