# 🕸️ Browser

### 📥 라이브러리 준비

> 적절한 커널을 선택한 뒤에 실행하세요. 

In [62]:
!python.exe -m pip install --upgrade pip
!pip install selenium==4.17.0, typing-extensions openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


In [2]:
!pip show selenium

Name: selenium
Version: 4.17.0
Summary: 
Home-page: https://www.selenium.dev
Author: 
Author-email: 
License: Apache 2.0
Location: g:\zer0ken\ms-ai-school\.venv\Lib\site-packages
Requires: certifi, trio, trio-websocket, urllib3
Required-by: 


## ✅ Selenium

### 📟 웹 드라이버 객체 생성
- 웹 드라이버 : 브라우저 조작을 위한 도구입니다.
- `selenium.webdriver` 모듈에서 다양한 브라우저를 제어하기 위한 클래스를 제공합니다.
- Chrome, Edge는 모두 Chromium 엔진 기반 브라우저이기 때문에 사용법이 동일합니다.

In [21]:
# 크롬, 엣지 웹 드라이버 클래스 import
from selenium.webdriver import Chrome, Edge

# 웹 드라이버 객체 생성
chrome_driver = Chrome()
edge_driver = Edge()
drivers = [chrome_driver, edge_driver]

### ⌨️ 브라우저 제어
- `get(URL)` : 페이지로 이동하기
- `back()` : 뒤로가기
- `forward()` : 앞으로가기
- `refresh()` : 새로고침
- `maximize_window()` : 브라우저크기 최대화
- `minimize_window()` : 브라우저크기 최소화
- `close()` : 웹드라이버로 생성한 현재 창 종료
- `quit()` : 웹드라이버로 생성한 모든 창 종료

In [22]:
# 페이지 이동1
for d in drivers:
    d.get('https://google.com')
    d.get('https://naver.com')

# 새로고침
for d in drivers:
    d.refresh()

# 이전으로 가기
for d in drivers:
    d.back()
    
# 웹드라이버로 생성한 모든 창 종료
for d in drivers:
    d.close()

### 🔍 요소 가져오기
- `find_element(요소선택방법, 선택자)` : 첫번째 요소 한개만만 가져오기
- `find_elements(요소선택방법, 선택자)` : 요소 모두 가져오기 (리스트)

In [32]:
from selenium.webdriver.common.by import By

# 웹 드라이버 객체 생성
chrome_driver = Chrome()
edge_driver = Edge()
drivers = [chrome_driver, edge_driver]

# 이동하기 (http://www.naver.com)
for d in drivers:
    d.get('https://www.naver.com')

# 검색창 선택하기
search = []
for d in drivers:
    s = d.find_element(By.CSS_SELECTOR, '#query')
    # 아래 코드와 동일합니다.
    # search = d.find_element(By.ID, 'query')
    
    search.append(s)

search

[<selenium.webdriver.remote.webelement.WebElement (session="2295cb172206b27081a9b6a03a6941b3", element="f.EFE1475D6D88218303BE09DF6A022192.d.40782FA1CA70E7A68A35B1185BE6DC1E.e.99")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1324de9690088da624d12f3bf279c13a", element="f.1507B7284675AD2813B1A73E543000F5.d.AB87840E85AE365E135B190938EE8019.e.3")>]

### 🕹️ 요소 제어하기
- `click()` : 요소 클릭
- `send_keys()` : 키 입력

In [33]:
from selenium.webdriver.common.keys import Keys

for s in search:
    s.click()
    s.send_keys('인공지능\n')

""" 
# 이렇게도 할 수 있습니다.

for s in search:
    s.click()
    s.send_keys('인공지능')
    s.send_keys(Keys.ENTER)
""";

In [34]:
# 브라우저 닫기
for d in drivers:
    d.quit()

## 💸 네이버페이 증권

### ✂️ 스크랩

In [76]:
from selenium.webdriver.common.by import By

def scrap_articles(driver, url):
    # url이 가리키는 페이지로 이동합니다.
    driver.get(url)
    
    # 페이지에서 .block1 클래스를 가진 모든 요소를 리스트로 받습니다.
    raw_articles = driver.find_elements(By.CSS_SELECTOR, '.block1')
    articles = []

    # .block1 클래스를 가진 요소 안에서 다른 요소들을 찾아 데이터를 구성합니다.
    for article in raw_articles:
        subject = article.find_element(By.CSS_SELECTOR, '.articleSubject').text
        summary = article.find_element(By.CSS_SELECTOR, '.articleSummary').text
        press = article.find_element(By.CSS_SELECTOR, '.press').text
        wdate = article.find_element(By.CSS_SELECTOR, '.wdate').text
        link = article.find_element(By.CSS_SELECTOR, '.articleSubject>a').get_attribute('href')

        data = {
            'subject': subject,
            'summary': summary,
            'press': press,
            'wdate': wdate,
            'link': link
        }
        articles.append(data)
    
    return articles

In [119]:
# driver = Chrome()
# 저는 엣지를 사용하겠습니다.
driver = Edge()
url = 'https://finance.naver.com/news/mainnews.naver'

articles = scrap_articles(driver, url)

for article in articles[:3]:
    display(article)

{'subject': "저가매수 타이밍? '딥시크 타격' HD현대일렉트릭 순매수 1위[주식 초고수는 지금]",
 'summary': '미래에셋증권(006800)에서 거래하는 고수익 투자자들이 24일 오전 가장 많이 순매수한 종목은 HD현대일렉트릭(267260)으로 나타.. 서울경제 | 2025-01-31 11:53:10',
 'press': '서울경제',
 'wdate': '2025-01-31 11:53:10',
 'link': 'https://n.news.naver.com/mnews/article/011/0004445246'}

{'subject': '딥시크발 ‘딥쇼크’… SK하이닉스 장중 11% 급락',
 'summary': '코스피 전체는 0.1% 하락 출발 한미반도체 6%·삼성전자 2%↓ 인프라 관련 투자 감소 우려에 전력기기 종목들도 낙폭 커져 미국 3대.. 문화일보 | 2025-01-31 11:47:31',
 'press': '문화일보',
 'wdate': '2025-01-31 11:47:31',
 'link': 'https://n.news.naver.com/mnews/article/021/0002687009'}

{'subject': 'SEC, 비트코인·이더리움 혼합 ETF 승인…알트코인 ETF 출시 가속화 기대',
 'summary': '비트와이즈, 도지코인 ETF도 신청 미국에서 가상자산을 담고 있는 상장지수펀드(ETF) 출시가 탄력을 받고 있다. 이에 따라 알트코인 .. 매일경제 | 2025-01-31 11:45:08',
 'press': '매일경제',
 'wdate': '2025-01-31 11:45:08',
 'link': 'https://n.news.naver.com/mnews/article/009/0005436313'}

### 🏷️ JSON으로 저장하기

In [68]:
import os
import json

# 출력할 디렉토리를 먼저 생성해줍시다.
os.makedirs('./data', exist_ok=True)

with open('./data/finance.json', 'w', encoding='utf-8') as f:
    json.dump(articles, f, ensure_ascii=False, indent=2)

### 📊 데이터프레임으로 저장하기

In [69]:
import pandas as pd

# 각각의 기사에 대한 정보의 열 이름이 dict의 키값에 들어가있으므로 
# DataFrame이 알잘딱 생성해줍니다 ~.~
df = pd.DataFrame(articles)

# 출력할 디렉토리를 먼저 생성해줍시다.
os.makedirs('./data', exist_ok=True)

df.to_csv('./data/finance.csv', encoding='utf-8', index=False)
df.to_excel('./data/finance.xlsx')
df.head()

Unnamed: 0,subject,summary,press,wdate,link
0,"삼성전자·SK하이닉스 '철렁'…""다음 주까지 긴가민가""","● 삼성전자·SK하이닉스 급락, 조정일까 위기일까 '딥시크(Deepseek) 쇼크'...",한국경제TV,2025-01-31 11:12:33,https://n.news.naver.com/mnews/article/215/000...
1,"딥시크 충격에 전력인프라주 '줄비명'…""과도한 우려""",인공지능(AI) 서비스 확산 기대감에 한동안 올랐던 전력인프라주들이 일제 하락세를 ...,한국경제,2025-01-31 11:03:16,https://n.news.naver.com/mnews/article/015/000...
2,기업거버넌스포럼 “파행적 고려아연 임시 주총에 국격 추락”,최대주주 영풍의 의결권을 기습적으로 배제하면서 파행적으로 진행된 고려아연의 임시주주...,데일리안,2025-01-31 10:56:13,https://n.news.naver.com/mnews/article/119/000...
3,"암호화폐 베테랑 ""비트코인 2~3월 13만달러 돌파""",월가에서 암호화폐 베테랑으로 불리는 제프 켄드릭 스탠다드차타드(SC) 애널리스트가 ...,한국경제TV,2025-01-31 10:43:15,https://n.news.naver.com/mnews/article/215/000...
4,"삼성운용 'KODEX 200타겟위클리커버드콜', 두 달만에 순자산 1000억 돌파",최근 ‘세금 없는’ 국내 주식 시세차익과 장내 파생상품 수익을 활용해 매월 고배당과...,파이낸셜뉴스,2025-01-31 10:34:36,https://n.news.naver.com/mnews/article/014/000...


### 📅 입력한 날짜의 기사 스크랩

In [75]:
hint = '검색할 날짜(yyyy-MM-DD):'
date = input(hint)
print(hint, date)

url = f'https://finance.naver.com/news/mainnews.naver?date={date}'

articles = scrap_articles(driver, url)

for article in articles[:3]:
    display(article)

검색할 날짜(yyyy-MM-DD): 2024-11-21


{'subject': '"엔비디아, 시가총액 5조달러 합리적으로 기대 가능"-NH',
 'summary': '엔비디아 시가총액이 5조달러(약 6981조원)에 달할 수 있다는 관측이 나왔다. 현 주가에서 39%대 상승 여력이 있다고 본 것이다. .. 머니투데이 | 2024-11-21 23:03:06',
 'press': '머니투데이',
 'wdate': '2024-11-21 23:03:06',
 'link': 'https://n.news.naver.com/mnews/article/008/0005117838'}

{'subject': '“기대가 너무 컸나”…엔비디아 실적 선방했지만 반도체 주가는 시들',
 'summary': '엔비디아 3분기 매출 94% 증가 지속성장세 의문에 시간외 2.5% 뚝 SK하이닉스 하루만에 1% 떨어져 반도체 업종 주가 가늠자로 통.. 매일경제 | 2024-11-21 22:56:08',
 'press': '매일경제',
 'wdate': '2024-11-21 22:56:08',
 'link': 'https://n.news.naver.com/mnews/article/009/0005400906'}

{'subject': '갑질에도 왜 가만히 있나 했더니…구글-게임사 담합…"7천억 원 부당 수익"',
 'summary': '지난해 구글이 다른 앱스토어에 게임을 출시하지 못하도록 부당한 압력을 넣었다는 사실이 밝혀졌는데요. 이번에는 구글과 일부 게임사가 단독.. MBN | 2024-11-21 20:18:15',
 'press': 'MBN',
 'wdate': '2024-11-21 20:18:15',
 'link': 'https://n.news.naver.com/mnews/article/057/0001855252'}

### 📖 모든 페이지 스크랩

In [118]:
from selenium.common.exceptions import NoSuchElementException

hint = '검색할 날짜(yyyy-MM-DD):'
date = input(hint)
print(hint, date)

url = f'https://finance.naver.com/news/mainnews.naver?date={date}'
page = 1
articles = []

# 페이지를 1씩 늘리면서 반복합니다.
while True:
    # 페이지가 포함된 url이 가리키는 페이지에 방문하고
    # 그 페이지의 기사를 모두 스크랩 한 다음에
    # 스크랩된 데이터를 articles의 뒤에 덧붙입니다.
    articles.extend(scrap_articles(driver, url + f'&page={page}'))
    
    # 만약 [맨뒤] 버튼이 없다면 마지막 페이지이므로 반복문을 탈출합니다.
    try:
        driver.find_element(By.CSS_SELECTOR, '.pgRR')
    except NoSuchElementException:
        break
    
    # 위에서 반복문을 탈출하지 않았다면 고오오냥 바로 다음 페이지로 ㅋㅋ
    page += 1

for article in articles[:3]:
    display(article)

검색할 날짜(yyyy-MM-DD): 2025-1-31


NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: MicrosoftEdge=132.0.2957.127)
Stacktrace:
	GetHandleVerifier [0x00007FF7E8FF0AF5+13637]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF7E927BC04+2078868]
	Microsoft::Applications::Events::EventProperty::empty [0x00007FF7E91D66E6+1401718]
	(No symbol) [0x00007FF7E8D47A27]
	(No symbol) [0x00007FF7E8DD39C5]
	(No symbol) [0x00007FF7E8DE83EA]
	(No symbol) [0x00007FF7E8DCDA33]
	(No symbol) [0x00007FF7E8DA32F4]
	(No symbol) [0x00007FF7E8DA2626]
	(No symbol) [0x00007FF7E8DA2EE1]
	(No symbol) [0x00007FF7E8E2E194]
	(No symbol) [0x00007FF7E8ED607F]
	(No symbol) [0x00007FF7E8E31B83]
	Microsoft::Applications::Events::EventProperty::to_string [0x00007FF7E93381F9+269801]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF7E8F871B1+519377]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF7E8F824A4+499652]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF7E8F825E9+499977]
	Microsoft::Applications::Events::ILogConfiguration::operator* [0x00007FF7E8F77566+454790]
	BaseThreadInitThunk [0x00007FFDBED7E8D7+23]
	RtlUserThreadStart [0x00007FFDBFD9FBCC+44]


In [87]:
df = pd.DataFrame(articles)

# 출력할 디렉토리를 먼저 생성해줍시다.
os.makedirs('./data', exist_ok=True)

df.to_csv(f'./data/finance-{date}.csv', encoding='utf-8', index=False)
df.head()

Unnamed: 0,subject,summary,press,wdate,link
0,상장 미뤘더니 탄핵정국 한파…공모주 될 곳만 된다,이 기사는 2025년01월01일 21시14분에 마켓인 프리미엄 콘텐츠로 선공개 되었...,이데일리,2025-01-01 23:15:09,https://n.news.naver.com/mnews/article/018/000...
1,"“서학개미는 이 앱 무조건 깔겠네”…美증시 동향, 비서가 즉각 보고해준다는데","매경 월가월부, 언론사 최초 AI 투자정보 서비스 서학개미 관심 기업 400여곳 텔...",매일경제,2025-01-01 20:17:07,https://n.news.naver.com/mnews/article/009/000...
2,지난해 120% 오른 비트코인 “올해 두배 간다” 정말?,전문가들 “기관 유입 증가” 이유로 꼽아 “8만 달러로 하락” 전망도 비트코인이 2...,문화일보,2025-01-01 20:03:09,https://n.news.naver.com/mnews/article/021/000...
3,'과일 강세' 연말 물가…고환율에 위협받는 새해 물가,지난달 소비자물가는 1.9%로 넉 달 연속 1%를 기록했지만 앞으로가 문제입니다. ...,MBN,2025-01-01 19:55:07,https://n.news.naver.com/mnews/article/057/000...
4,공사로 300m 줄어든 19번 활주로…동체착륙 활주 거리 짧아졌나,"급박한 상황에서도 동체 착륙은 잘 들어간 것 같았는데, 결국 둔덕에 충돌하면서 대형...",MBN,2025-01-01 19:33:07,https://n.news.naver.com/mnews/article/057/000...


## 🛍️ 네이버 쇼핑몰

In [105]:
url = "https://search.shopping.naver.com/search/all?query=노트북"
driver = Edge()
driver.get(url)
driver.maximize_window()

### ⤵️ 스크롤 내려보기
페이지 전체를 로드하기 위해 스크롤을 내리는 방법을 쓸 수 있습니다.

In [117]:
import time

driver.refresh()

# 무한스크롤
# 페이지의 스크롤 높이 받아오기
last_height = driver.execute_script("return document.body.scrollHeight")

while True:
    # 스크롤 끝까지 내리기
    driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
 
    # 현재 스크롤 위치 받아오기
    current_height = driver.execute_script("return document.body.scrollHeight")
 
    # 마지막스크롤 = 현재스크롤이면 반복 벗어나기  
    if last_height == current_height: break
 
    # 현재 스크롤을 마지막 스크롤로 업데이트 하기
    last_height = current_height

    time.sleep(2.0)