In [8]:
import requests
import xml.etree.ElementTree as ET
import openpyxl
from openpyxl.drawing.image import Image as ExcelImage
from openpyxl.styles import Alignment, Font, PatternFill
from io import BytesIO

# ---------------------------
# 유틸 함수
# ---------------------------
def px_to_row_height(px):
    return px * 0.75

def px_to_col_width(px):
    return (px - 14) / 7


# ---------------------------
# API 설정
# ---------------------------
BASE_URL = "https://apis.data.go.kr/B551011/GoCamping/basedList"
API_KEY = "RGzR0pEvB08eGZWqjj0mYonhz1%2Bkj6rzw2MBbGWGY99AroOuOwtjHo8LOJESQ8Q6jyV9jhaIcfndl%2BG6pi4v0A%3D%3D"

params = {
    "numOfRows": 50,
    "pageNo": 1,
    "MobileOS": "ETC",
    "MobileApp": "camping",
    "serviceKey": API_KEY
}

response = requests.get(BASE_URL, params=params)
response.raise_for_status()
root = ET.fromstring(response.text)
items = root.findall(".//item")

# ---------------------------
# 엑셀 생성
# ---------------------------
wb = openpyxl.Workbook()
ws = wb.active
ws.title = "캠핑장정보"

headers = ["아이디", "캠핑장명", "이미지", "지역", "주소", "홈페이지"]
ws.append(headers)

header_fill = PatternFill("solid", fgColor="F2F2F2")
header_font = Font(bold=True)
cell_align = Alignment(vertical="center", horizontal="left", wrap_text=True)

for col in range(1, len(headers) + 1):
    cell = ws.cell(row=1, column=col)
    cell.fill = header_fill
    cell.font = header_font
    cell.alignment = Alignment(horizontal="center", vertical="center")

IMG_W_PX = 100
IMG_H_PX = 75
row = 2

# ---------------------------
# 데이터 삽입
# ---------------------------
for item in items:
    contentId = item.findtext("contentId", "")
    facltNm = item.findtext("facltNm", "")
    firstImageUrl = item.findtext("firstImageUrl", "")
    doNm = item.findtext("doNm", "")
    addr1 = item.findtext("addr1", "")
    homepage = item.findtext("homepage", "")

    ws.append([contentId, facltNm, "", doNm, addr1, homepage])
    ws.row_dimensions[row].height = px_to_row_height(IMG_H_PX)

    for col in range(1, 7):
        ws.cell(row=row, column=col).alignment = cell_align

    if firstImageUrl:
        try:
            img_data = requests.get(firstImageUrl, timeout=10).content
            img = ExcelImage(BytesIO(img_data))
            img.width = IMG_W_PX
            img.height = IMG_H_PX
            ws.add_image(img, f"C{row}")
        except Exception as e:
            print(f"[경고] 이미지 다운로드 실패: {e}")

    row += 1

# ---------------------------
# 마무리
# ---------------------------
ws.column_dimensions["A"].width = 12
ws.column_dimensions["B"].width = 30
ws.column_dimensions["C"].width = px_to_col_width(100)
ws.column_dimensions["D"].width = 15
ws.column_dimensions["E"].width = 50
ws.column_dimensions["F"].width = 50

ws.freeze_panes = "A2"

file_name = "camping_info.xlsx"
wb.save(file_name)

print(f"✅ {file_name} 파일 저장 완료")

HTTPError: 401 Client Error: Unauthorized for url: https://apis.data.go.kr/B551011/GoCamping/basedList?numOfRows=50&pageNo=1&MobileOS=ETC&MobileApp=camping&serviceKey=RGzR0pEvB08eGZWqjj0mYonhz1%252Bkj6rzw2MBbGWGY99AroOuOwtjHo8LOJESQ8Q6jyV9jhaIcfndl%252BG6pi4v0A%253D%253D

## selenium (셀레니움) -> React.js 와 같은 자바 스크립트 라이브러리를 활용하여 만들어진 SPA 사이트에서 정상적으로 크롤링해올수 있도록 도와주는 라이브러리 모듈

- 방법: 가상의 웹브라으저를 생성에서 크롱링하고자하는 사이트로 브라우저를 보내는 방식

- CSR(Client Side Rendering) -> 브라우저를 위임하는 방식이기 때문에 브라우저가 있어야 서버로부터 값을 받아올 수 있음

- 가상의 브라우저를 생성한다 = 실제 브라우저와 동일한 버전 및 모드 유지
- 로컬 컴퓨터에 설치된 웹 브라우저 드라이버 버전 = 가상 브라우저와 일치해야함



In [9]:
pip install selenium

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [10]:
pip install webdriver-manager

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [11]:
pip show selenium webdriver-manager

Name: selenium
Version: 4.39.0
Summary: Official Python bindings for Selenium WebDriver
Home-page: https://www.selenium.dev
Author: 
Author-email: 
License: Apache-2.0
Location: C:\Users\user\AppData\Roaming\Python\Python313\site-packages
Requires: certifi, trio, trio-websocket, typing_extensions, urllib3, websocket-client
Required-by: 
---
Name: webdriver-manager
Version: 4.0.2
Summary: Library provides the way to automatically manage drivers for different browsers
Home-page: https://github.com/SergeyPirogov/webdriver_manager
Author: Sergey Pirogov
Author-email: automationremarks@gmail.com
License: 
Location: C:\Users\user\AppData\Roaming\Python\Python313\site-packages
Requires: packaging, python-dotenv, requests
Required-by: 
Note: you may need to restart the kernel to use updated packages.


In [19]:
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager #-> 로컬컴퓨터의 브라우저의 드라이브를 설치할 수 잇음
import time

#로컬 컴퓨터의 브라우저 드라이버와 동일한 버전으로 설치$ 객체생성
service = Service(ChromeDriverManager().install())

#가상 브라우저가 실제처럼 보일 수 있도록 설정하는 옵션
options = Options()
options.add_argument("--headless") #-> 가상의 브라우저가 띄워져도 우리 눈에 안나타나도록
options.add_argument("--disable-gpu") #-> headless를 하는데 굳이 가상브라우저를 눈에 보이지 않게 했다면 , gpu 작동 불필요. (headless랑 짝꿍)
options.add_argument("--disable-dev-shm-usage") # 가상 메모리 사용하지 말라
options.add_argument("--window-size=1920,1080") #가상브라우저의 사이즈 정보 설정
options.add_argument("--start-maximized") #특정 사이트: 반응형사이트(:화면의 사이즈나 환경에 따라 특정탭이 사라지거나 생기는 등 반응하는 사이트) -> 데스크탑에 맞춰라
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36")
options.add_argument("--lang=ko_KR") #브라우저를 사용하는 해당 국가의 모국어
options.add_argument("--no-snadbox") #sandbox : 규제 -> 크롤링 자체를 정책적으로 차단하는 가이드, 메뉴얼
#브라우저 드라이버 정보값을 가지고 있는 객체를 매개변수로 받아서 크롤링 준비 완료
driver = webdriver.Chrome(service=service) #-> 크롬브라우저로 갈거야
driver.get("https://davelee-fun.github.io/")

elements = driver.find_elements(By.CSS_SELECTOR, "div.wrapthumbnail img")

for element in elemnets :
    print(element.get_attribute("src"))
    
driver.quit()



# requests.get() -> 특정 url주소에 방문해서 값을 찾아와라

https://static.coupangcdn.com/image/retail/images/2018/09/18/11/8/6964dd11-7ff2-448d-8462-db07e3ca2a5f.jpg
https://static.coupangcdn.com/image/retail/images/2017/05/15/16/3/cd40fc67-e838-4f5d-b90a-45b0f0336729.jpg
https://static.coupangcdn.com/image/product/image/vendoritem/2015/10/16/3000156691/82761df2-59fb-4970-a67e-cea8bfcd8cac.jpg
https://static.coupangcdn.com/image/retail/images/2020/02/25/12/2/a775b261-1ad7-4bad-873e-85ed4221f091.jpg


### selenium 문법
0(복습). requests :  (find (단일 태그를 기준으로 값을 찾아옴) / find_all(복수 태그)/ select(복수의 선택자) / select one(단일 선택자)
1. find_elements :  복수의 값을 찾아온다 -> 리스트형태 -> 동일한 요소를 전체 다 찾아서 가져온다
2. find_element : 단수의 값을 찾아온다. -> 위에서부터 문서를 읽다가 최초로 발견한 값을 찾아오고 종료
3. By : .TAG_NAME(태그중심), .ID(아이디중심) -> 문서 1번밖에 사용불가, .CSS_SELECTOR(선택자 중심->  클래스,태그, 아이디 등 여러가지 조합 가능)
   .NAME :직접 속성값을 찾아옴
5. get_attribute() : 특정 속성의 속성값을 찾아오고자 할 때
6. .clear() : 특정 영역 내 값을 삭제(Form 요소 기준)
7. .send_keys() : 어떤 값 혹은 키보드의 키값을 전달
8. Keys: 키보드의 키를 입력하고자 할 때
9. sleep(N) : N초의 시간동안 지연시키고자 할 때
10. screenshot(filename) : filename 으로 스크린 캡쳐가능
11. set_window_size(가로, 세로) : 윈도우 창을 가로,세로 사이즈로 조정
----
requests : html,css,js로 만들어짐 -> 사이트 문서를 다 받아놓고 해당문서를 다 읽고서 그 안에서 원하는 요소를 찾아오는 방식
selenium : 현재 브라우저에 출력된 데이터를 참고해서 값을 최대한 찾아오는 방식
        -> 브라우저 출력 기준= 최초로 브라우저가 문서를 읽어온 만큼만=한번 스크롤하는 만큼이 해당
    

In [47]:
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager #-> 로컬컴퓨터의 브라우저의 드라이브를 설치할 수 잇음
import time

#로컬 컴퓨터의 브라우저 드라이버와 동일한 버전으로 설치$ 객체생성
service = Service(ChromeDriverManager().install())

#가상 브라우저가 실제처럼 보일 수 있도록 설정하는 옵션
options = Options()
# options.add_argument("--headless") #-> 가상의 브라우저가 띄워져도 우리 눈에 안나타나도록
# options.add_argument("--disable-gpu") #-> headless를 하는데 굳이 가상브라우저를 눈에 보이지 않게 했다면 , gpu 작동 불필요. (headless랑 짝꿍)
options.add_argument("--disable-dev-shm-usage") # 가상 메모리 사용하지 말라
options.add_argument("--window-size=1920,1080") #가상브라우저의 사이즈 정보 설정
options.add_argument("--start-maximized") #특정 사이트: 반응형사이트(:화면의 사이즈나 환경에 따라 특정탭이 사라지거나 생기는 등 반응하는 사이트) -> 데스크탑에 맞춰라
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36")
options.add_argument("--lang=ko_KR") #브라우저를 사용하는 해당 국가의 모국어
options.add_argument("--no-snadbox") #sandbox : 규제 -> 크롤링 자체를 정책적으로 차단하는 가이드, 메뉴얼
#브라우저 드라이버 정보값을 가지고 있는 객체를 매개변수로 받아서 크롤링 준비 완료
driver = webdriver.Chrome(service=service) #-> 크롬브라우저로 갈거야
driver.get("https://davelee-fun.github.io/")

# time.sleep(1)

# #이 2가지 검사가 안되면 해당 사이트가 selenium 자체가 차단되는 것
# print(driver.title)
# print(driver.current_url)
# #드라이버의 타이틀과 url을 안다면 드라이버 타이틀(창에 보이는 이름)에 특정 단어가 포함되는지를 검사하면 됨
# assert "Teddy" in driver.title

# element = driver.find_element(By.TAG_NAME, "h1")
# print(element, element.text)

# elements = driver.find_elements(By.TAG_NAME, "h4")
# for element in elements :
#     print(element.text)

# element = driver.find_element(By.ID,"navbarMediumish")
# print(element.text)

elements = driver.find_elements(By.CSS_SELECTOR,"div.card-body > h4")
for element in elements :
    print(element.text)

# elements = driver.find_elements(By.CSS_SELECTOR,"a.text-dark")
# for element in elements :
#     print(element.text)
#     print(element.get_attribute("class")) #-> class라는 속성(=attribute)의 속성 값
#     print(element.get_attribute("href"))

# driver.quit() #-> 셀레니움을 활용한 가상브라우저의 종료



# requests.get() -> 특정 url주소에 방문해서 값을 찾아와라

상품명: 보몽드 순면스퀘어 솔리드 누빔매트커버, 다크블루
상품명: 슈에뜨룸 선인장 리플 침구 세트, 베이지
상품명: 선우랜드 레인보우 2단 문걸이용 옷걸이 _중형, 화이트, 상세페이지참조
상품명: 보드래 헬로우 누빔 매트리스커버, 핑크
상품명: 보드래 퍼펙트 누빔 매트리스커버, 차콜
상품명: 피아블 클래식 방수 매트리스커버, 화이트
상품명: 더자리 에코항균 마이크로 매트리스커버, 밀키차콜그레이
상품명: 더자리 프레쉬 퓨어 매트리스 커버, 퓨어 차콜그레이
상품명: 몽쉐어 알러스킨 항균 매트리스 커버, 카키그레이
상품명: 쿠팡 브랜드 - 코멧 홈 40수 트윌 순면 100% 홑겹 매트리스커버, 그레이
상품명: 패브릭아트 항균 마이크로 원단 매트리스 커버, 아이보리
상품명: 바숨 순면 누빔 침대 매트리스커버, 차콜
상품명: WEMAX 다용도 문옷걸이, 화이트, 1개
상품명: 타카타카 프리미엄 나노 화이바 누빔 매트리스 커버, 젠틀핑핑
상품명: 보몽드 순면스퀘어 누빔매트커버, 다크그레이
상품명: 보드래 국내산 순면 60수 누빔 매트리스커버, 그레이


In [42]:
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager #-> 로컬컴퓨터의 브라우저의 드라이브를 설치할 수 잇음
import time

#로컬 컴퓨터의 브라우저 드라이버와 동일한 버전으로 설치$ 객체생성
service = Service(ChromeDriverManager().install())

#가상 브라우저가 실제처럼 보일 수 있도록 설정하는 옵션
options = Options()
# options.add_argument("--headless") #-> 가상의 브라우저가 띄워져도 우리 눈에 안나타나도록
# options.add_argument("--disable-gpu") #-> headless를 하는데 굳이 가상브라우저를 눈에 보이지 않게 했다면 , gpu 작동 불필요. (headless랑 짝꿍)
options.add_argument("--disable-dev-shm-usage") # 가상 메모리 사용하지 말라
options.add_argument("--window-size=1920,1080") #가상브라우저의 사이즈 정보 설정
options.add_argument("--start-maximized") #특정 사이트: 반응형사이트(:화면의 사이즈나 환경에 따라 특정탭이 사라지거나 생기는 등 반응하는 사이트) -> 데스크탑에 맞춰라
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36")
options.add_argument("--lang=ko_KR") #브라우저를 사용하는 해당 국가의 모국어
options.add_argument("--no-snadbox") #sandbox : 규제 -> 크롤링 자체를 정책적으로 차단하는 가이드, 메뉴얼

#브라우저 드라이버 정보값을 가지고 있는 객체를 매개변수로 받아서 크롤링 준비 완료
driver = webdriver.Chrome(service=service) #-> 크롬브라우저로 갈거야
driver.get("https://davelee-fun.github.io/")

driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")  #-> 현 문서에서 내려갈 수 있는 만큼 최대로 스크롤을 내려라
# element = driver.find_element(By.CSS_SELECTOR, "div.mc-field-group > input")
# print(element.get_attribute("name"))

element = driver.find_element(By.NAME, "EMAIL")
element.clear() #placeholder 내부값을 제거
element.send_keys("hayeonkim1@daum.net")
time.sleep(4)

element.send_keys(Keys.RETURN)
time.sleep(4)

print(element)

driver.quit() #-> 셀레니움을 활용한 가상브라우저의 종료



# requests.get() -> 특정 url주소에 방문해서 값을 찾아와라

<selenium.webdriver.remote.webelement.WebElement (session="1e1322fc78211d1a700d5e091b1a9577", element="f.647C0AF3E316BA0D6096CFA921258588.d.27BE4ED67700663A18CF7BC5CC119F49.e.4")>


In [45]:
from selenium import webdriver 
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from webdriver_manager.chrome import ChromeDriverManager #-> 로컬컴퓨터의 브라우저의 드라이브를 설치할 수 잇음
import time

#로컬 컴퓨터의 브라우저 드라이버와 동일한 버전으로 설치$ 객체생성
service = Service(ChromeDriverManager().install())

#가상 브라우저가 실제처럼 보일 수 있도록 설정하는 옵션
options = Options()
# options.add_argument("--headless") #-> 가상의 브라우저가 띄워져도 우리 눈에 안나타나도록
# options.add_argument("--disable-gpu") #-> headless를 하는데 굳이 가상브라우저를 눈에 보이지 않게 했다면 , gpu 작동 불필요. (headless랑 짝꿍)
options.add_argument("--disable-dev-shm-usage") # 가상 메모리 사용하지 말라
options.add_argument("--window-size=1920,1080") #가상브라우저의 사이즈 정보 설정
options.add_argument("--start-maximized") #특정 사이트: 반응형사이트(:화면의 사이즈나 환경에 따라 특정탭이 사라지거나 생기는 등 반응하는 사이트) -> 데스크탑에 맞춰라
options.add_argument("--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36")
options.add_argument("--lang=ko_KR") #브라우저를 사용하는 해당 국가의 모국어
options.add_argument("--no-snadbox") #sandbox : 규제 -> 크롤링 자체를 정책적으로 차단하는 가이드, 메뉴얼

#브라우저 드라이버 정보값을 가지고 있는 객체를 매개변수로 받아서 크롤링 준비 완료
driver = webdriver.Chrome(service=service) #-> 크롬브라우저로 갈거야
driver.get("https://davelee-fun.github.io/")

driver.set_window_size(1400, 1000)
element = driver.find_element(By.TAG_NAME, "body")

element.screenshot("crawlingsite.png")

time.sleep(4)

element.send_keys(Keys.RETURN)
time.sleep(4)

driver.quit() #-> 셀레니움을 활용한 가상브라우저의 종료

# requests.get() -> 특정 url주소에 방문해서 값을 찾아와라