In [None]:
pip install scrapy

Collecting scrapy
  Downloading Scrapy-2.11.2-py2.py3-none-any.whl (290 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.1/290.1 kB[0m [31m5.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting Twisted>=18.9.0 (from scrapy)
  Downloading twisted-24.3.0-py3-none-any.whl (3.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m33.4 MB/s[0m eta [36m0:00:00[0m
Collecting cssselect>=0.9.1 (from scrapy)
  Downloading cssselect-1.2.0-py2.py3-none-any.whl (18 kB)
Collecting itemloaders>=1.0.1 (from scrapy)
  Downloading itemloaders-1.3.1-py3-none-any.whl (12 kB)
Collecting parsel>=1.5.0 (from scrapy)
  Downloading parsel-1.9.1-py2.py3-none-any.whl (17 kB)
Collecting queuelib>=1.4.2 (from scrapy)
  Downloading queuelib-1.7.0-py2.py3-none-any.whl (13 kB)
Collecting service-identity>=18.1.0 (from scrapy)
  Downloading service_identity-24.1.0-py3-none-any.whl (12 kB)
Collecting w3lib>=1.17.0 (from scrapy)
  Downloading w3lib-2.2.1-py3-non

### KTB DAY01. **Python Scrapy를 활용해서 크롤링해보기**

- **Requests** :HTTP 요청을 보내고 응답을 받기 위한 라이브러리.
- **BeautifulSoup** : HTML 및 XML 문서를 파싱하여 원하는 데이터를 추출하기 위한 라이브러리
- **Scrapy** : 크롤링 및 스크래핑을 위한 프레임 워크 + 정적 웹 크롤링 강점
- **Selenium** : 웹 브라우저 자동화를 위한 라이브러리 + 동적 웹 스크래핑 강점

In [None]:
import requests
from bs4 import BeautifulSoup

# AI Hub 페이지 URL
url = 'https://www.aihub.or.kr/'

# 웹 페이지 요청 >> 웹 페이지를 요청할 때는 requests 라이브러리를 이용
response = requests.get(url)
response.raise_for_status() # 요청이 성공했는지 확인

# BeautifulSoup 객체 생성
soup = BeautifulSoup(response.content, 'html.parser')

# 인기 데이터 TOP3 섹션 찾기
top3_section = soup.find('div', class_='secR')

# 각 데이터 항목 추출
data_list = top3_section.find_all('div', class_='list')

# 데이터 제목 추출
titles = []
for data in data_list:
  title = data.find('h3').get_text(strip=True)
  clean_title = title.split(']')[-1].strip()
  titles.append(clean_title)

# 추출한 데이터 출력
for idx, title in enumerate(titles, start=1):
  print(f"TOP {idx} : {title}")

TOP 1 : 감성 대화 말뭉치
TOP 2 : 음식 이미지 및 영양정보 텍스트
TOP 3 : 한국어 음성


### 02. request 라이브러리 사용 예제

In [None]:
import requests
from bs4 import BeautifulStoneSoup

# 1. 웹 페이지 요청
url = "https://ko.wikipedia.org/wiki/위키백과:대문"
response = requests.get(url)
# 2. 요청이 성공했는지 확인
if response.status_code == 200:
  # 3. BeautifulSoup 객체 생성
  soup = BeautifulSoup(response.content, 'html.parser')

  # 4. 페이지 제목 추출
  title = soup.find('h1', id = 'firstHeading').text
  print(f"Title : {title}")

  # 5. 첫 번째 단락 추출
  first_paragraph = soup.find('p').text
  print(f"First paragraph : {first_paragraph}")
else:
  print(f"Failed to retrieve the web page. Status code: {response.status_code}")

Title : 위키백과:대문
First paragraph :  위키백과



### 03. BeautifulSoup 라이브러리 사용 예제

In [None]:
import requests
from bs4 import BeautifulStoneSoup

# 1. 웹 페이지 요청
url = 'https://ko.wikipedia.org/wiki/위키백과:대문'
response = requests.get(url)

# 2. 요청이 성공했는지 확인
if response.status_code == 200:
  # 3. BeautifulSoup 객체 생성
  soup = BeautifulSoup(response.content, 'html.parser')

  # 4. 페이지 제목 추출
  title = soup.find('h1', id='firstHeading').text
  print(f"Title : {title}")

  # 5. 첫 번째 단락 추출
  first_paragraph = soup.find('p').text
  print(f"First paragraph : {first_paragraph}")
else:
  print(f"Failed to retrieve the web page. Status code : {response.status_code}")

Title : 위키백과:대문
First paragraph :  위키백과



### 4. Selenium 라이브러리 사용 예제

In [None]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.22.0-py3-none-any.whl (9.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.4/9.4 MB[0m [31m50.4 MB/s[0m eta [36m0:00:00[0m
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.25.1-py3-none-any.whl (467 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m467.7/467.7 kB[0m [31m36.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl (17 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
[?25h

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By

# URL 설정
URL = "https://ko.wikipedia.org/wiki/위키백과:대문"

# Chrome 옵션 설정
options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_experimental_option("detach", True)
options.add_argument("--no-sandbox")

# 웹 드라이버 설정
driver = webdriver.Chrome(options=options)

try:
  # 위키백과 대문 페이지 열기
  driver.get(URL)

  # "우리 모두가 만들어가는 자유 백과사전"과 "문서 이하 내용" 추출
  main_content = driver.find_element(By.CSS_SELECTOR, "#mw-content-text > div.mw-content-ltr.mw-parser-output > div.main-box.main-top > div > p:nth-child(2)").text
  print("Main Content : ", main_content)
finally:
  # 웹 드라이버 종료
  driver.quit()


Main Content :  우리 모두가 만들어가는 자유 백과사전
문서 674,592개와 최근 기여자 1,814명
