### Selenium vs. BeautifulSoup
- 둘 다 웹 스크래핑을 위한 파이썬 라이브러리입니다. 그러나 이들은 목적과 사용 방법이 다릅니다.
- BeautifulSoup: 웹 페이지의 HTML 코드를 파싱하고 분석하여 원하는 데이터를 추출하는 데 사용됩니다. HTML 코드를 처리하는데 최적화되어 있으며, [정적인 웹 페이지에서 사용]됩니다.
- Selenium: 웹 브라우저를 자동화하고 웹 페이지 상호작용을 자동화하는 데 사용됩니다. JavaScript와 같은 동적 웹 페이지에서 데이터를 추출하고 [자동화된 테스트를 실행하는 데 적합]합니다.
- [ 웹 페이지가 정적이라면 BeautifulSoup을 사용]하여 HTML 코드에서 데이터를 추출하는 것이 좋고, [웹 페이지가 동적이라면 Selenium을 사용]하여 웹 페이지를 자동으로 제어하고 데이터를 추출하는 것이 좋습니다. 
- 또한 [두 라이브러리는 서로 보완적으로 사용]될 수 있습니다. 예를 들어 Selenium으로 웹 페이지를 열고, BeautifulSoup으로 데이터를 추출할 수 있습니다.

### Selenium
Selenium의 다양한 함수와 기능을 이용하여 [웹 브라우저를 자동화하고 웹 페이지 상호작용을 자동화]할 수 있습니다. 예를 들어, webdriver 모듈로 웹 드라이버를 생성한 후, get() 메서드로 웹 페이지를 로드하고, find_element_by_*() 함수로 HTML 요소를 찾아 click() 메서드로 클릭 이벤트를 발생시키거나, send_keys() 메서드로 입력 이벤트를 발생시키는 등의 작업을 수행할 수 있습니다.

selenium 모듈
- 웹 어플리케이션 테스트를 위한 프레임워크 : 홈페이지 테스트용으로 사용
- 사용자가 아닌 프로그램이 웹 브라우저를 제어할 수 있도록 지원
- 웹 브라우저마다 클라이언트 프로그램(Web Driver)이 별도로 필요(웹 브라우저 <-> 프로그램간 통신 목적)
- 크롤링 보다는 웹을 제어하는 목적이 더 큼
- pip install selenium
- web driver 설치(크롬 버전 확인) : https://chromedriver.chromium.org/downloads
- 압축 해제한 후 chromedriver.exe를 적당한 경로로 이동
- selenium 모듈 호출 후 설치한 web driver 경로를 지정

이벤트로 제어하기 : 브라우저를 직접 제어하기 때문에 직접 컨트롤하여 마우스 클릭, 키보드 입력, 자바 스크립트 이벤트 처리 가능
- 마우스 클릭 : click()
- 키보드 입력 : send_keys()
- 자바스크립트 코드 실행 : execute_script()
- 다양한 창 및 프레임을 제어 : switch_to
- 입력 양식 전송 : submit()
- 스크린샷 : screenshot(파일이름)
- 글자 지움 : clear()
- 뒤로 가기 : back()
- 앞으로 가기 : forward()

#### 셀레니움 변경 - 버전4 메서드

- https://goodthings4me.tistory.com/696

- from selenium.webdriver.common.by import By : By 모듈은 요소를 찾을 때 사용되는 방법을 정의
- driver.find_element(By.CLASS_NAME, " ") : class 속성이 " "인 요소를 찾음
- driver.find_element(By.ID, " ")
- driver.find_element(By.CSS_SELECTOR, " ")
- driver.find_element(By.LINK_TEXT, " ")
- driver.find_element(By.NAME, " ")
- driver.find_element(By.PARTIAL_LINK_TEXT, " ")
- driver.find_element(By.TAG_NAME, " ")
- driver.find_element(By.XPATH, " ")
- driver.find_elements(By.CLASS_NAME, " ")
- driver.find_elements(By.ID, " ")
- driver.find_elements(By.CSS_SELECTOR, " ")
- driver.find_elements(By.LINK_TEXT, " ")
- driver.find_elements(By.NAME, " ")
- driver.find_elements(By.PARTIAL_LINK_TEXT, " ")
- driver.find_elements(By.TAG_NAME, " ")
- driver.find_elements(By.XPATH, " ")

셀레니움 사용법 : https://greeksharifa.github.io/references/2020/10/30/python-selenium-usage/

In [1]:
!pip install selenium



In [1]:
!pip list

Package                       Version
----------------------------- ---------------
alabaster                     0.7.12
anaconda-client               1.11.1
anaconda-navigator            2.4.0
anaconda-project              0.11.1
anyio                         3.5.0
appdirs                       1.4.4
argon2-cffi                   21.3.0
argon2-cffi-bindings          21.2.0
arrow                         1.2.3
astroid                       2.14.2
astropy                       5.1
asttokens                     2.0.5
async-generator               1.10
atomicwrites                  1.4.0
attrs                         22.1.0
Automat                       20.2.0
autopep8                      1.6.0
Babel                         2.11.0
backcall                      0.2.0
backports.functools-lru-cache 1.6.4
backports.tempfile            1.0
backports.weakref             1.0.post1
bcrypt                        3.2.0
beautifulsoup4                4.11.1
binaryornot                   0.4.4
black  

In [4]:
# 네이버 사이트 불러오기
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys #대문자 K
url = 'http://naver.com'
path = 'C:/tool/chromedriver'
driver = webdriver.Chrome(path)
driver.get(url)

  driver = webdriver.Chrome(path)


In [88]:
print(driver.current_url)

https://www.naver.com/


In [5]:
# 브라우저 닫기
driver.close()

In [9]:
# 브라우저 창을 띄우지 않고 수행
import warnings
warnings.filterwarnings('ignore')

options = webdriver.ChromeOptions()

# options.add_argument('start-maximized')

options.add_argument('headless')
driver = webdriver.Chrome('C:/tool/chromedriver',options=options)
driver.get('https://google.com')
print(driver.current_url)
driver.close()

https://www.google.com/


In [90]:
#브라우저 최소화 / 최대화

from selenium import webdriver

driver = webdriver.Chrome('C:/tool/chromedriver')
driver.get('https://www.google.com')
driver.minimize_window() 
driver.maximize_window()

- driver.close() : 단일 창 또는 탭을 닫을 때 사용
- driver.quit() : WebDriver 세션을 종료할 때 사용
- 다른 세션을 시작하기 위해서는 quit을 호출해야 함

In [15]:
#Implicit Waits(암묵적 대기) : 찾으려는 element가 로드될 때까지 지정한 시간만큼 대기할 수 있도록 설정

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome('C:/tool/chromedriver')
driver.get('https://www.google.com')
try:
    element = WebDriverWait(driver,5).until(
        EC.presence_of_element_located((By.CLASS_NAME,'gLFyf'))
    )
finally:
    driver.quit()
    

In [None]:
from time import sleep
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys

options = webdriver.ChromeOptions()
options.add_argument('window_size=1920,1080')

driver = webdriver.Chrome('C:/tool/chromedriver.exe',options=options)
driver.maximize_window()
driver.implicitly_wait(time_to_wait=5)

driver.get(url='https://google.com/')
driver.quit()

파이썬으로 selenium 웹 자동화 라이브러리를 이용하여 크롬 브라우저를 조작하고, 구글에서 "빅데이터"라는 검색어로 검색

In [16]:
#By.NAME
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver')

# 구글 검색창으로 이동합니다.
driver.get('https://www.google.com/')

# 검색어 입력 요소를 찾아서 검색어를 입력합니다.
search_box = driver.find_element(By.NAME, 'q') 

# 검색창에 '빅데이터'라는 검색어를 입력
search_box.send_keys('인공지능')

# 검색어 입력 요소에서 Enter 키를 입력합니다.
search_box.send_keys(Keys.ENTER)
# # 브라우저 세션을 종료합니다.
# driver.quit()

In [None]:
# Q. 다음 사이트에서 인공지능을 검색하는 것을 셀레니움으로 수행하세요.
driver = webdriver.Chrome('C:/tool/chromedriver.exe')

# 구글 검색창으로 이동합니다.
driver.get('https://www.google.com')

In [None]:
from time import sleep

# 검색어 입력 요소를 찾아서 검색어를 입력합니다.
search_box = driver.find_element(By.NAME, 'q') 

# 검색창에 '빅데이터'라는 검색어를 입력
search_box.send_keys('빅데이터')

# 검색어 입력 요소에서 Enter 키를 입력합니다.
search_box.send_keys(Keys.ENTER)

elements = driver.find_elements(By.XPATH, '//*[@id="twaColl"]/div/c-container/c-card/div/c-doc-web/div/div/c-contents-desc/p/a')

for element in elements:
    print(element.text)
    print(element.text, file=open('test1.txt', 'a', encoding='utf-8'))
    
sleep(3)
driver.close()

빅데이터(big data)란 복잡하고 다양한 대규모 데이터세트 자체는 물론 이 데이터세트로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술을 뜻한다. 수치 데이터 등 기존의 정형화된 정보뿐 아니라 텍스트 ・ 이미지 ・ 오디오 ・ 로그기...
거기에 더해 단순한 문자 데이터에서 벗어나 녹음, 사진, 동영상 등 데이터의 종류가 다양해지고 데이터의 용량 자체도 큰 폭으로 늘어났다. 이런 빅 데이터는 기존의 기술이나 도구로는 원활한 수집과 처리가 불가능할 정도로 성질이 달라졌으므로 빅 데이터에서 유용한 정보를 추합하거나 가치를 뽑아내기 위해서 고안

In [41]:
# 네이버에서 ID로 빅데이터 검색 
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from time import sleep

# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver.exe')

# 네이버 검색 페이지로 이동합니다.
driver.get('https://www.naver.com/')

# 검색창을 찾아서 검색어를 입력합니다.
search_box = driver.find_element(By.ID, 'query')
search_box.send_keys('빅데이터')

# 검색어를 입력하고 검색을 실행합니다.
search_box.send_keys(Keys.RETURN)

# 검색 결과 페이지가 로드될 때까지 3초간 대기합니다.
driver.implicitly_wait(3)

# 웹 드라이버를 종료합니다.
# driver.quit()


### 과제2_0502.
- 구글에서 "빅데이터"라는 검색어로 검색한 후 검색 결과를 가져와서 출력하고 파일로 저장
- 네이버 홈페이지에서 원하는 내용을 조회해서 그 결과물을 출력하고 파일에 저장

In [None]:
# 빅데이터 검색 및 저장 //*[@id="APjFqb"]
from time import sleep
from selenium.webdriver.common.by import By  # Selenium 라이브러리에서 HTML element를 찾는 데 사용되는 모듈
from selenium import webdriver
from selenium.webdriver.common.keys import Keys # Selenium 라이브러리에서 키보드 입력을 조작하는 데 사용되는 모듈

# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver.exe')

# 구글 검색창으로 이동합니다.
driver.get('https://www.google.com/')

# 검색어 입력 요소를 찾아서 검색어를 입력합니다.
search_box = driver.find_element(By.NAME, 'q') 

# 검색창에 '빅데이터'라는 검색어를 입력
search_box.send_keys('빅데이터')

# 검색어 입력 요소에서 Enter 키를 입력합니다.
search_box.send_keys(Keys.ENTER)

# 검색 결과 페이지에서 검색 결과에 해당하는 elements를 찾습니다. 
elements = driver.find_elements(By.XPATH, '//*[@id="rso"]/div/div/div/div/div/a/h3')

for element in elements:
    print(element.text)
    print(element.text, file=open('dataset/test_sel.txt','a',encoding='utf-8')) # 검색 결과를 파일로 저장

sleep(3)
driver.close()

빅 데이터란 무엇인가 - Oracle
빅데이터(Big Data) – 빅데이터, 정의, 특징, 활용 사례
빅데이터(Big Data)란? | 알테어
빅데이터분석기사 - 데이터자격시험
빅데이터(big data) 상세 정보: 정의, 분석, 기술, 특징, 사례 연구 ...

In [None]:
# 다음사이트에서 인공지능 검색
driver = webdriver.Chrome('C:/tool/chromedriver')


driver.get('https://www.daum.net')


search_box = driver.find_element(By.NAME,'q') #실행 브라우저 기준으로 적용

search_box.send_keys('빅데이터')

search_box.send_keys(Keys.RETURN)
driver.implicitly_wait(3)

In [30]:
with open('text1.txt','w') as f:
    f.write('test1')

In [75]:
# from time import sleep
# search_box = driver.find_element(By.NAME,'q') #실행 브라우저 기준으로 적용

# # search_box.send_keys('빅데이터')

# search_box.send_keys(Keys.ENTER)

elements = driver.find_elements(By.XPATH,'//*[@id="twaColl"]/div/c-container/c-card/div/c-doc-web/div/div/c-contents-desc/p/a')

for element in elements:
    print(element.text)
    print(element.text, file=open('text1.txt','a',encoding='utf-8'))
    
sleep(3)
driver.close()
driver.quit()

빅데이터(big data)란 복잡하고 다양한 대규모 데이터세트 자체는 물론 이 데이터세트로부터 정보를 추출하고 결과를 분석하여 더 큰 가치를 창출하는 기술을 뜻한다. 수치 데이터 등 기존의 정형화된 정보뿐 아니라 텍스트 ・ 이미지 ・ 오디오 ・ 로그기...
거기에 더해 단순한 문자 데이터에서 벗어나 녹음, 사진, 동영상 등 데이터의 종류가 다양해지고 데이터의 용량 자체도 큰 폭으로 늘어났다. 이런 빅 데이터는 기존의 기술이나 도구로는 원활한 수집과 처리가 불가능할 정도로 성질이 달라졌으므로 빅 데이터에서 유용한 정보를 추합하거나 가치를 뽑아내기 위해서 고안...


In [None]:
입맛에 맞게 커스터마이징 된 서비스를 제공하는게 목표

In [76]:
# 네이버에서 ID로 빅데이터 검색 
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from time import sleep

driver = webdriver.Chrome('C:/tool/chromedriver')


driver.get('https://www.naver.com')


search_box = driver.find_element(By.ID,'query')

# 검색창에 입력
search_box.send_keys('빅데이터')

#검색어를 입력하고 검색을 실행합니다.
search_box.send_keys(Keys.RETURN)

#검색 결과 페이지가 로드 될 떄까지 3초간 대기합니다.
driver.implicitly_wait(3)

#웹 드라이버를 종료합니다
# driver.quit()


In [77]:
elements = driver.find_elements(By.XPATH,'//*[@id="main_pack"]/section/div/div/div/div/div/div')

for element in elements:
    print(element.text)
    print(element.text, file=open('text1.txt','a',encoding='utf-8'))
    
sleep(3)
driver.close()
driver.quit()

빅데이터의 등장] 오늘날 정보통신 분야에서의 화두는 단연 빅데이터이다. 빅데이터는 기존 데이터보다 너무 방대하여 기존의 방법이나 도구로 수집/저장/분석 등이 어려운 정형 및 비정형 데이터들을 의미한다.그림 1과 같이 1분 동안 구글에서는 200만 건의 검색, 유튜브에서는 72시간의 비디오, twitter에서는 27만 건의 트윗이 생성된다.세계적인 컨설팅 기관인 매켄지...
1. 빅데이터의 정의와 등장 배경, 2. 빅데이터의 특징과 의미
국립중앙과학관 - 빅데이터
빅데이터는 데이터에 관한 것이 아니다! "Big Data is not about the data!" "데이터는 많고 구하기 쉽지만 실제 가치는 데이터 분석에 있다." - Gary King, Harvard University - [빅데이터란?] 빅데이터(big data)란 대규모, 빠른 생성 속도, 다양한 형태라는 특징을 가진, 기존의 정보 관리 기술로는 저장/관리/분석하기 어려울 정도의 큰 규모의 정형 또는 비정형 를 의미한다....
창의융합 프로젝트 아이디어북
전문가들은 데이터를 분석하는 빅 데이터가 인터넷 이후 기업에 가장 큰 영향을 미칠 것으로 보고 있다. 그런데 우리 기업은 엄두도 못 내고 있다. 해외 유수 기업들은 이미 데이터 분석을 통해 생산성을 배가하고 새로운 비즈니스 기회를 선점하고 있는데 말이다. 미래의 경쟁무기로 자리 잡기 시작한 빅 데이터에 대해 알아보자. [데이터의 폭발과 의 출현] 미국의 시장 조사 업체인 IDC에 따르면 올해 전 세계에서 생성되는 디지털 정보량은 약...
기업을바꾼10대정보시스템
저자
조재근
출판
한국문학사
발행
2017.07.05.
리뷰
별점4.8(4)
랭킹
자연/과학 부문 132위






## 도전과제1_0502.
네이버 로그인 화면으로 이동해서 ID와 PW를 입력하고 로그인을 실행하세요.

In [92]:
# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver')

# 네이버 로그인 페이지로 이동합니다
driver.get('http://naver.com')


In [None]:
# 네이버 자동 로그인 이슈
from selenium import webdriver

# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver.exe')

# 네이버 로그인 페이지로 이동합니다.
driver.get('http://naver.com')

# 로그인 버튼 클릭
elem = driver.find_element(By.CLASS_NAME,'link_login')
elem.click()

# 아이디와 비밀번호를 입력하고 로그인 버튼을 클릭합니다.
id_box = driver.find_element(By.ID,'id')
pw_box = driver.find_element(By.ID,'pw')
id_box.send_keys('')  # 여기에 자신의 네이버 아이디를 입력하세요.
pw_box.send_keys('')  # 여기에 자신의 네이버 비밀번호를 입력하세요.
login_button = driver.find_element(By.CSS_SELECTOR, '#log\.login')
login_button.click()

# 로그인이 완료될 때까지 대기합니다.
driver.implicitly_wait(5)

# 로그인 이후 동작을 수행합니다.
# ...

# 웹 드라이버를 종료합니다.
# driver.quit()

In [87]:
#GPT챤스
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

# 크롬 드라이버를 로드합니다.
driver = webdriver.Chrome('C:/tool/chromedriver')

# 네이버 로그인 페이지로 이동합니다
driver.get('https://nid.naver.com/nidlogin.login')

# ID와 PW 입력란을 찾아서 값을 입력합니다.
id_input = driver.find_element(By.CSS_SELECTOR, '#id')
pw_input = driver.find_element(By.CSS_SELECTOR, '#pw')

id_input.send_keys('')
pw_input.send_keys('')

# 로그인 버튼을 클릭합니다.
login_button = driver.find_element(By.CSS_SELECTOR, '#log\.login')
login_button.click()

# 로그인이 성공적으로 이루어졌는지 확인하기 위해 네이버 메인페이지로 이동합니다.
driver.get('https://www.naver.com')

# 현재 페이지의 타이틀을 출력합니다.
print(driver.title)

# 드라이버를 종료합니다.
 driver.quit()


IndentationError: unexpected indent (2352645853.py, line 29)

## 과제3_0502.
URL = 'https://news.naver.com/main/main.naver?mode=LSD&mid=shm&sid1=102' 사이트에 업로드되는 실시간 뉴스 제목을 가져와서 출력하세요. 단 사이트에 있는 뉴스와 일치해야 함.

## 과제4_0502.
'https://www.naver.com/%27%EC%97%90%EC%84%9C 뉴스 > 사회 카테고리 클릭하고 뉴스 제목을 출력하세요.

## 과제5_0502.
한빛출판네트워크 사이트에 로그인 해서 마일리지 점수를 가져와서 출력하세요.