# 🕸️ Browser

### 📥 라이브러리 준비

> 적절한 커널을 선택한 뒤에 실행하세요. 

In [62]:
!python.exe -m pip install --upgrade pip
!pip install selenium==4.17.0, typing-extensions openpyxl

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5


In [2]:
!pip show selenium

Name: selenium
Version: 4.17.0
Summary: 
Home-page: https://www.selenium.dev
Author: 
Author-email: 
License: Apache 2.0
Location: g:\zer0ken\ms-ai-school\.venv\Lib\site-packages
Requires: certifi, trio, trio-websocket, urllib3
Required-by: 


## ✅ Selenium

### 📟 웹 드라이버 객체 생성
- 웹 드라이버 : 브라우저 조작을 위한 도구입니다.
- `selenium.webdriver` 모듈에서 다양한 브라우저를 제어하기 위한 클래스를 제공합니다.
- Chrome, Edge는 모두 Chromium 엔진 기반 브라우저이기 때문에 사용법이 동일합니다.

In [21]:
# 크롬, 엣지 웹 드라이버 클래스 import
from selenium.webdriver import Chrome, Edge

# 웹 드라이버 객체 생성
chrome_driver = Chrome()
edge_driver = Edge()
drivers = [chrome_driver, edge_driver]

### ⌨️ 브라우저 제어
- `get(URL)` : 페이지로 이동하기
- `back()` : 뒤로가기
- `forward()` : 앞으로가기
- `refresh()` : 새로고침
- `maximize_window()` : 브라우저크기 최대화
- `minimize_window()` : 브라우저크기 최소화
- `close()` : 웹드라이버로 생성한 현재 창 종료
- `quit()` : 웹드라이버로 생성한 모든 창 종료

In [22]:
# 페이지 이동1
for d in drivers:
    d.get('https://google.com')
    d.get('https://naver.com')

# 새로고침
for d in drivers:
    d.refresh()

# 이전으로 가기
for d in drivers:
    d.back()
    
# 웹드라이버로 생성한 모든 창 종료
for d in drivers:
    d.close()

### 🔍 요소 가져오기
- `find_element(요소선택방법, 선택자)` : 첫번째 요소 한개만만 가져오기
- `find_elements(요소선택방법, 선택자)` : 요소 모두 가져오기 (리스트)

In [32]:
from selenium.webdriver.common.by import By

# 웹 드라이버 객체 생성
chrome_driver = Chrome()
edge_driver = Edge()
drivers = [chrome_driver, edge_driver]

# 이동하기 (http://www.naver.com)
for d in drivers:
    d.get('https://www.naver.com')

# 검색창 선택하기
search = []
for d in drivers:
    s = d.find_element(By.CSS_SELECTOR, '#query')
    # 아래 코드와 동일합니다.
    # search = d.find_element(By.ID, 'query')
    
    search.append(s)

search

[<selenium.webdriver.remote.webelement.WebElement (session="2295cb172206b27081a9b6a03a6941b3", element="f.EFE1475D6D88218303BE09DF6A022192.d.40782FA1CA70E7A68A35B1185BE6DC1E.e.99")>,
 <selenium.webdriver.remote.webelement.WebElement (session="1324de9690088da624d12f3bf279c13a", element="f.1507B7284675AD2813B1A73E543000F5.d.AB87840E85AE365E135B190938EE8019.e.3")>]

### 🕹️ 요소 제어하기
- `click()` : 요소 클릭
- `send_keys()` : 키 입력

In [33]:
from selenium.webdriver.common.keys import Keys

for s in search:
    s.click()
    s.send_keys('인공지능\n')

""" 
# 이렇게도 할 수 있습니다.

for s in search:
    s.click()
    s.send_keys('인공지능')
    s.send_keys(Keys.ENTER)
""";

In [34]:
# 브라우저 닫기
for d in drivers:
    d.quit()

## 💸 네이버페이 증권 실습

### 📖 페이지 방문

In [39]:
from selenium.webdriver import Chrome, Edge

url = 'https://finance.naver.com/news/mainnews.naver'

# driver = Chrome()
# 저는 엣지를 사용하겠습니다.
driver = Edge()
driver.get(url)

### ✂️ 스크랩

In [51]:
from selenium.webdriver.common.by import By

raw_articles = driver.find_elements(By.CSS_SELECTOR, '.block1')
articles = []

for article in raw_articles:
    subject = article.find_element(By.CSS_SELECTOR, '.articleSubject').text
    summary = article.find_element(By.CSS_SELECTOR, '.articleSummary').text
    press = article.find_element(By.CSS_SELECTOR, '.press').text
    wdate = article.find_element(By.CSS_SELECTOR, '.wdate').text
    link = article.find_element(By.CSS_SELECTOR, '.articleSubject>a').get_attribute('href')
    
    data = {
        'subject': subject,
        'summary': summary,
        'press': press,
        'wdate': wdate,
        'link': link
    }
    articles.append(data)

for article in articles[:3]:
    display(data)

{'subject': '기다리던 엔비디아 HBM 납품 소식인데…삼성전자, 2%대 하락[핫종목]',
 'summary': '삼성전자(005930)가 엔비디아에 5세대 고대역폭메모리(HBM) HBM3E 8단 제품을 납품했다는 소식에도 31일 하락 중이다. 이날.. 뉴스1 | 2025-01-31 09:34:41',
 'press': '뉴스1',
 'wdate': '2025-01-31 09:34:41',
 'link': 'https://n.news.naver.com/mnews/article/421/0008047854'}

{'subject': '기다리던 엔비디아 HBM 납품 소식인데…삼성전자, 2%대 하락[핫종목]',
 'summary': '삼성전자(005930)가 엔비디아에 5세대 고대역폭메모리(HBM) HBM3E 8단 제품을 납품했다는 소식에도 31일 하락 중이다. 이날.. 뉴스1 | 2025-01-31 09:34:41',
 'press': '뉴스1',
 'wdate': '2025-01-31 09:34:41',
 'link': 'https://n.news.naver.com/mnews/article/421/0008047854'}

{'subject': '기다리던 엔비디아 HBM 납품 소식인데…삼성전자, 2%대 하락[핫종목]',
 'summary': '삼성전자(005930)가 엔비디아에 5세대 고대역폭메모리(HBM) HBM3E 8단 제품을 납품했다는 소식에도 31일 하락 중이다. 이날.. 뉴스1 | 2025-01-31 09:34:41',
 'press': '뉴스1',
 'wdate': '2025-01-31 09:34:41',
 'link': 'https://n.news.naver.com/mnews/article/421/0008047854'}

### 🏷️ JSON으로 저장하기

In [55]:
import json

with open('./data/finance.json', 'w', encoding='utf-8') as f:
    json.dump(articles, f, ensure_ascii=False, indent=2)

### 📊 데이터프레임으로 저장하기

In [64]:
import pandas as pd

df = pd.DataFrame(articles)
df.to_csv('./data/finance.csv', encoding='utf-8', index=False)
df.to_excel('./data/finance.xlsx')
df.head()

PermissionError: [Errno 13] Permission denied: './data/finance.xlsx'