# 데이터의 수집 방법
1. 크롤링
   - 자동화된 스크립트 사용하여 웹 페이지를 탐색하고 데이터 수집
   - 전체 사이트 또는 다수의 페이지를 탐색
   - 검색 엔진의 크롤러와 유사
2. 스크래핑
   - 특정 웹 페이지에서 필요한 데이터 추출
   - 웹 크롤링의 하위 집합으로서 특정 데이터만 수집
  
* 웹 크롤링 -> 조직적, 자동화 된 방법으로 월드 와이드 웹을 탐색하는 컴퓨터 프로그램
* 크롤러 -> 웹 상의 정보를 수집하고 체계화하는 역할을 담당

# 데이터 수집(스크래핑)
- requests
  - HTTP 요청을 보내고 응답을 받기 위한 라이브러리
- BeautifulSoup
  - HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출하기 위한 라이브러리
- Scrapy
  - 크롤링 및 스크래핑을 위한 프레임워크
  - 정적 웹 크롤링 강점
- Selenium
  - 웹 브라우저 자동화를 위한 라이브러리
  - 동적 웹 스크래핑 강점

In [1]:
import requests
from bs4 import BeautifulSoup

# AI HUB 페이지 URL
url = 'https://www.aihub.or.kr/'

#웹 페이지 요청
response = requests.get(url)
response.raise_for_status() # 요청이 성공했는지 확인

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.content, 'html.parser')

# 인기 데이터 TOP3 섹션 찾기
top3_section = soup.find('div', class_='secR')

# 각 데이터 항목 추출
data_list = top3_section.find_all('div', class_='list')

# 각 데이터 항목 추출
titles = []
for data in data_list:
    title = data.find('h3').get_text(strip = True)
    clean_title = title.split(']')[-1].strip()
    titles.append(clean_title)
    
# 추출한 데이터 출력
for idx, title in enumerate(titles, start = 1):
    print(f"TOP {idx}: {title}")




TOP 1: 객체 간 관계성 인지용 한국형 비전 데이터
TOP 2: 손∙팔 협조에 의한 파지-조작 동작 데이터
TOP 3: 상용 자율주행차 야간 자동차 전용도로 데이터


2. requests 라이브러리 및 BeautifulSoup 사용 예제

In [5]:
import requests
from bs4 import BeautifulSoup

# 1. 웹 페이지 요청
url = 'https://ko.wikipedia.org/wiki/위키백과:대문'
response = requests.get(url)

# 2. 요청이 성공했는지 확인
if response.status_code == 200:
    # 3. BeautifulSoup 객체 생성
    soup = BeautifulSoup(response.content, 'html.parser')
    
    #4. 페이지 제목 추출
    title = soup.find('h1', id = 'firstHeading').text
    print(f"Title: {title}")
    
    #5. 첫 번째 단락 추출
    first_paragraph = soup.find('p').text
    print(f"First paragraph: {first_paragraph}")
else:
    print(f"failed to retrieve the web page. Status code: {response.status_code}")

Title: 위키백과:대문
First paragraph:  위키백과



3. Selenium 라이브러리 사용 예제

In [6]:
#!pip install selenium



In [8]:
from selenium import webdriver
from selenium.webdriver.common.by import By

#URL 성정
URL = "https://ko.wikipedia.org/wiki/위키백과:대문"

# Chrome 옵션 설정
options = webdriver.ChromeOptions()
options.add_argument("--headless") #브라우저 창을 띄우지 않음
options.add_argument('--disavle-dev-shm-usage')
options.add_argument("--no-snadbox")

# 웹 