#### 셀레니움 함수

- https://goodthings4me.tistory.com/696

- from selenium.webdriver.common.by import By

- find_element(By.ID, " "): id 속성을 사용하여 접근
- find_element(s)(By.CLASS_NAME, " "): 클래스를 사용하여 접근
- find_element(s)(By.NAME, " "): name 속성을 사용하여 접근
- find_element(s)(By.XPATH, " "): xpath 속성을 사용하여 접근
- find_element(s)(By.LINK_TEXT, " "): 앵커태그(a 태그)에 사용되는 텍스트로 접근
- find_element(s)(By.PARTIAL_LINK_TEXT, " "): 앵커태그(a 태그)에 사용되는 일부 텍스트로 접근
- find_element(s)(By.TAG_NAME, " "): 태그를 사용하여 접근
- find_element(s)(By.CSS_SELECTOR, " "): CSS 선택자를 사용하여 접근<br><br>
셀레니움 사용법 : https://greeksharifa.github.io/references/2020/10/30/python-selenium-usage/ 

In [1]:
# 동적 콘텐츠 로딩 : selenium 사용
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

driver = webdriver.Chrome()
url = 'https://naver.com'
driver.get(url)
time.sleep(1)

In [2]:
# 켜진 브라우저의 Url을 나타내고 종료함
print(driver.current_url)
driver.close()

https://www.naver.com/


In [3]:
# 브라우저 창을 띄우지 않고 수행
options = webdriver.ChromeOptions()
options.add_argument('headless')
driver = webdriver.Chrome(options=options)
driver.get('https://google.com')
print(driver.current_url)
driver.close()

https://www.google.com/


- driver.close(): 현재 활성화된 탭이나 창을 닫습니다. 브라우저 세션은 계속 유지
- driver.quit(): 모든 열려 있는 탭과 창을 닫고, 브라우저 세션을 종료합니다. WebDriver 인스턴스가 완전히 종료

In [10]:
# Implicit waits(암묵적 대기) : 찾으려는 elements가 로드 될 때까지 지정한 시간만큼 대기할 수 있도록 설정
# By 클래스는 Selenium에서 HTML 요소를 찾기 위한 다양한 방법을 제공
# WebDriverWait 클래스는 특정 조건이 충족될 때까지 대기하는 기능
# expected_conditions 모듈은 여러 가지 조건을 미리 정의하여 특정 요소가 나타나거나 특정 상태가 될 때까지 기다릴 수 있도록 함

from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

driver = webdriver.Chrome()
driver.get(url='https://google.com/')
try:
    element = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.CLASS_NAME, 'gLFyf')))
    # 요소가 존재하면 텍스트 출력 (이 경우에는 입력창이므로 text가 없을 수 있음)
    print("Element found : ", element.get_attribute('title'))
    time.sleep(3)
except Exception as e:
    # 예외 발생 시 메시지 출력
    print('An error occurred : ', e)
finally:
    # WebDriver 종료
    driver.quit()

Element found :  검색


In [1]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import time

# Chrome 옵션 설정
options = Options()
options.add_argument('--start-maximized')       # 브라우저를 최대화된 상태로 시작하도록 설정
options.add_experimental_option('detach', True) # 스크립트가 종료된 후에도 브라우저가 닫히지 않도록 설정

# Webdriver 실행
driver = webdriver.Chrome(options=options)

# Google 웹사이트 열기
driver.get('https://www.google.com')


In [13]:
"""
<textarea class="gLFyf" aria-controls="Alh6id" aria-owns="Alh6id" autofocus="" title="검색" value="" jsaction="paste:puy29d;" aria-label="검색" 
aria-autocomplete="both" aria-expanded="false" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" id="APjFqb" 
maxlength="2048" name="q" role="combobox" rows="1" spellcheck="false" data-ved="0ahUKEwiTqeqlquWGAxVSh68BHeVpBlkQ39UDCAY"></textarea>
"""

'\n<textarea class="gLFyf" aria-controls="Alh6id" aria-owns="Alh6id" autofocus="" title="검색" value="" jsaction="paste:puy29d;" aria-label="검색" \naria-autocomplete="both" aria-expanded="false" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" id="APjFqb" \nmaxlength="2048" name="q" role="combobox" rows="1" spellcheck="false" data-ved="0ahUKEwiTqeqlquWGAxVSh68BHeVpBlkQ39UDCAY"></textarea>\n'

In [16]:
#1. find_element(By.ID, 'id_name'): id 속성을 사용하여 접근
try:
    element_by_id = driver.find_element(By.ID, 'APjFqb')
    print('Element found by ID:', element_by_id.get_attribute('name'))  # 찾은 요소의 alt 속성 값을 가져온다
except:
    print('Element not found by ID')

Element found by ID: q


In [17]:
#2. find_element(By.Class_NAME, 'class_name) : 클래스를 사용하여 접근
try:
    element_by_class_name = driver.find_element(By.CLASS_NAME, 'gLFyf')
    print('Element found by CLASS_NAME : ', element_by_class_name.get_attribute('title'))
except:
    print('Element not found by CLASS_NAME')

Element found by CLASS_NAME :  검색


In [2]:
#3. find_element(By.Name, 'name) : name 속성을 사용하여 접근
try:
    element_by_name = driver.find_element(By.NAME, 'q')
    print('Element found by NAME : ', element_by_name.get_attribute('title'))
except:
    print('Element not found by NAME')

Element not found by NAME


Task1_0621. https://www.google.com 사이트에서 셀레니움을 이용해서 다음을 수행하세요.
- xpath 속성을 사용하여 접근하여 요소를 추출
- 앵커태그(a 태그)에 사용되는 텍스트로 접근하여 요소를 추출
- 앵커태그(a 태그)에 사용되는 일부 텍스트로 접근하여 요소를 추출
- 태그를 사용하여 접근하여 요소를 추출
- CSS 선택자를 사용하여 접근하여 요소를 추출

In [21]:
"""
<textarea class="gLFyf" aria-controls="Alh6id" aria-owns="Alh6id" autofocus="" title="검색" value="" jsaction="paste:puy29d;" aria-label="검색" 
aria-autocomplete="both" aria-expanded="false" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" id="APjFqb" 
maxlength="2048" name="q" role="combobox" rows="1" spellcheck="false" data-ved="0ahUKEwiTqeqlquWGAxVSh68BHeVpBlkQ39UDCAY"></textarea>
"""

'\n<textarea class="gLFyf" aria-controls="Alh6id" aria-owns="Alh6id" autofocus="" title="검색" value="" jsaction="paste:puy29d;" aria-label="검색" \naria-autocomplete="both" aria-expanded="false" aria-haspopup="false" autocapitalize="off" autocomplete="off" autocorrect="off" id="APjFqb" \nmaxlength="2048" name="q" role="combobox" rows="1" spellcheck="false" data-ved="0ahUKEwiTqeqlquWGAxVSh68BHeVpBlkQ39UDCAY"></textarea>\n'

In [11]:
import selenium
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get(url='https://google.com/')

# - xpath 속성을 사용하여 접근하여 요소를 추출
try:
    element_by_xpath = driver.find_element(By.XPATH, '//*[@id="APjFqb"]')
    print('Element found by XPATH : ', element_by_xpath.get_attribute('title'), '\n')
except:
    print('Element not found by XPATH')

# - 앵커태그(a 태그)에 사용되는 텍스트로 접근하여 요소를 추출
# 5.find_element(By.LINK TEXT, 'link text): 앵커태그 (a 태그)에 사용되는 텍스트로 접근
# 링크 텍스트(Link Text) : HTML에서 앵커 태크(<a>) 사이에 위치한 텍스트를 의미하며 웹브라우저는 이 텍스트를 사용하여 사용자가 클릭할 수 있는 링크를 표시
try:
    element_by_a_tag = driver.find_element(By.LINK_TEXT, 'Gmail')
    print('Element found by Tag : ', element_by_a_tag.get_attribute('aria-label'), '\n')
except:
    print('Element not found by TAG')
    
# - 앵커태그(a 태그)에 사용되는 일부 텍스트로 접근하여 요소를 추출
try:
    element_by_p_tag = driver.find_element(By.PARTIAL_LINK_TEXT, '이미지')
    print('Element found by Tag : ', element_by_p_tag.get_attribute('aria-label'), '\n')
except:
    print('Element not found by TAG')

# - 태그를 사용하여 접근하여 요소를 추출
try:
    element_by_id = driver.find_element(By.ID, 'gbwa')
    element_by_tagname = element_by_id.find_element(By.TAG_NAME, 'a')
    print('Element found by Tag : ', element_by_tagname.get_attribute('href'), '\n')
except:
    print('Element not found by TAG')

# - CSS 선택자를 사용하여 접근하여 요소를 추출
try:
    element_by_css = driver.find_element(By.CSS_SELECTOR, 'body > div > div > form > div > div > div > div > div > div > span > img')
    print('Element found by CSS : ', element_by_css.get_attribute('src'), '\n')
except:
    print('Element not found by CSS')


driver.close()

Element found by XPATH :  검색 

Element found by Tag :  Gmail  

Element found by Tag :  이미지 검색  

Element found by Tag :  https://www.google.co.kr/intl/ko/about/products 

Element found by CSS :  https://www.google.com/tia/tia.png 



# 강사님 버전

In [19]:
# - xpath 속성을 사용하여 접근하여 요소를 추출
try:
    element_by_xpath = driver.find_element(By.XPATH, '//*[@id="APjFqb"]')
    print('Element found by XPATH : ', element_by_xpath.get_attribute('title'), '\n')
except:
    print('Element not found by XPATH')

Element found by XPATH :  검색 



In [4]:
# - 앵커태그(a 태그)에 사용되는 텍스트로 접근하여 요소를 추출
# 5.find_element(By.LINK TEXT, 'link text): 앵커태그 (a 태그)에 사용되는 텍스트로 접근
# 링크 텍스트(Link Text) : HTML에서 앵커 태크(<a>) 사이에 위치한 텍스트를 의미하며 웹브라우저는 이 텍스트를 사용하여 사용자가 클릭할 수 있는 링크를 표시
try:
    element_by_a_tag = driver.find_element(By.LINK_TEXT, 'Gmail')
    print('Element found by Tag : ', element_by_a_tag.text, '\n')
except:
    print('Element not found by TAG')

Element found by Tag :  Gmail 



In [12]:
# - 앵커태그(a 태그)에 사용되는 일부 텍스트로 접근하여 요소를 추출
try:
    element_by_p_tag = driver.find_element(By.PARTIAL_LINK_TEXT, 'Gm')
    print('Element found by Tag : ', element_by_p_tag.text, '\n')
except:
    print('Element not found by TAG')

# - 태그를 사용하여 접근하여 요소를 추출

Element found by Tag :  Gmail 



In [18]:
# - 태그를 사용하여 접근하여 요소를 추출
try:
    # element_by_id = driver.find_element(By.ID, 'gbwa')
    element_by_tagname = driver.find_element(By.TAG_NAME, 'input')
    print('Element found by Tag : ', element_by_tagname.get_attribute('value'))
except:
    print('Element not found by TAG')

Element found by Tag :  Google 검색


In [21]:
# - CSS 선택자를 사용하여 접근하여 요소를 추출
try:
    element_by_css = driver.find_element(By.CSS_SELECTOR, 'input.gNO89b')
    print('Element found by CSS : ', element_by_css.get_attribute('value'), '\n')
except:
    print('Element not found by CSS')


Element found by CSS :  Google 검색 



Task2_0621. 한빛 네트워크 사이트 https://www.hanbit.co.kr/ 로그인 후 마일리지 점수 가져와서 출력하세요.

In [25]:
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time

id = 'rys2596'
ps = 'Rys1018729!'

driver = webdriver.Chrome()
url = 'https://www.hanbit.co.kr/'
driver.get(url)
# <a href="https://www.hanbit.co.kr/member/login.html" class="login">로그인</a>
login = driver.find_element(By.XPATH, '//*[@id="wrap_nav"]/ul[2]/li[1]/a').click()
time.sleep(2)

setup_id = driver.find_element(By.ID, 'm_id')
setup_id.send_keys(id)
time.sleep(2)

setup_ps = driver.find_element(By.ID, 'm_passwd')
setup_ps.send_keys(ps)
time.sleep(2)

enter = driver.find_element(By.CSS_SELECTOR, '#login_btn').click()
time.sleep(2)

enter_my = driver.find_element(By.CLASS_NAME, 'top_dropdown')
enter_mileage = enter_my.find_element(By.TAG_NAME, 'a').click()
time.sleep(2)

# show_mileage = driver.find_elements(By.CSS_SELECTOR, '#container > div > div > dl > dd > span')
# show_mileage = driver.find_elements(By.CLASS_NAME, 'mileage_section1')
# show_mileage = driver.find_elements(By.CSS_SELECTOR, '#frm > dl.mileage_section1 > dd > span')
# show_mileage = driver.find_elements(By.XPATH, '//*[@id="frm"]/dl[1]/dd/spann')
# 
# print(show_mileage.text)
# my_mileage = show_mileage.get_attribute('span')
bs = BeautifulSoup(driver.page_source,'html.parser')
element = bs.select_one('#container > div > div.sm_mymileage > dl.mileage_section1 > dd > span')
print(element.text)

driver.close()

2,000


# 강사님 버전

In [None]:
# 한빛 네트워크 사이트 로그인 후 점수 가져오기
import selenium
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from bs4 import BeautifulSoup
import time

driver = webdriver.Chrome()
driver.get('https://www.hanbit.co.kr/')
element = driver.find_element(By.CLASS_NAME,'login')
element.click()

m_id  = ''
m_pw = ''
element = driver.find_element(By.ID,'m_id')
element.send_keys(m_id)
time.sleep(1)
element = driver.find_element(By.ID,'m_passwd')
element.send_keys(m_pw)
time.sleep(1)
# driver.execute_script("document.getElementById('m_id').value=\'" + m_id + "\'")
# time.sleep(2)
# driver.execute_script("document.getElementById('m_pw').value=\'" + m_pw + "\'")
# time.sleep(2)

element = driver.find_element(By.CLASS_NAME,'btn_login').click()
time.sleep(1)
driver.maximize_window()
driver.find_element(By.XPATH,'//*[@id="wrap_nav"]/ul[2]/li[2]/a').click()
time.sleep(2)

bs = BeautifulSoup(driver.page_source,'html.parser')
element = bs.select_one('#container > div > div.sm_mymileage > dl.mileage_section1 > dd > span')
print(element.text)
time.sleep(3)
driver.close()


# 네이버와 다음 사이트 이동

In [41]:
# 네이버 사이트 불러오기
url = 'https://www.naver.com'
driver = webdriver.Chrome()
driver.get(url)
# driver.maximize_window()

In [42]:
# 로그인 이동 > 홈 이동
import time
from selenium.webdriver.common.by import By

# 로그인 버튼 클릭
# 2개 모두 로그인 버튼 눌러지는데 이상없지만 최대한 정확한 곳 찍는것이 좋음
# 하위는 큰 버튼
# driver.find_element(By.XPATH, '//*[@id="account"]/div/a').click()\
# 하위는 버튼 안에 naver 글씨
driver.find_element(By.XPATH, '//*[@id="account"]/div/a/i').click()

time.sleep(2)

# 후 다시 홈으로 돌어옴
driver.back()

In [43]:
# 로그인 이동
driver.forward()

In [44]:
# 새로고침 > 홈 이동
driver.refresh()
time.sleep(2)
driver.back()

In [49]:
# 검색어 입력

elem = driver.find_element(By.ID, 'query')
elem.send_keys('빅데이터')


In [50]:
# 검색 실행
from selenium.webdriver.common.keys import Keys

# 그 후 엔터버튼 침
elem.send_keys(Keys.ENTER)

In [51]:
# a 태그
elem = driver.find_element(By.TAG_NAME, 'a')
elem

<selenium.webdriver.remote.webelement.WebElement (session="81e4e71eeb05ebb29224d6a48d4af072", element="f.342DD9FB9C986E91F7A9D8E5C53CFC2F.d.999EDE248D59ABE140981AB738DCBF04.e.432")>

In [52]:
# 모든 a 태그의 href 속성
elems = driver.find_elements(By.TAG_NAME, 'a')
for e in elems:
    print(e.get_attribute('href'))

https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#lnb
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#content
https://www.naver.com/
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#
https://help.naver.com/alias/search/word/word_35.naver
https://help.naver.com/alias/search/word/word_35.naver
https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query=%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0#
https://help.naver.com/support/alias/search/word/word_29.naver
https://search.naver.com/search.naver?where=nexearch&sm=top_ht

In [53]:
# 다음 사이트로 이동
driver.get('http:www.daum.net')

In [54]:
# 검색어 입력 및 실행
elem = driver.find_element(By.NAME, 'q')
elem.send_keys('빅데이터')
elem.send_keys(Keys.ENTER)

In [55]:
# 다음 사이트 홈 이동
driver.back()

In [58]:
# 검색어 입력 및 실행
elem = driver.find_element(By.NAME, 'q')
elem.send_keys('빅데이터')
time.sleep(1)

elem = driver.find_element(By.XPATH, '//*[@id="daumSearch"]/fieldset/div/div/button[3]')
elem.click()


In [59]:
driver.refresh()

In [67]:
# css selector
elem = driver.find_element(By.CSS_SELECTOR, '#dnsColl > div > ul > li:nth-child(1) > div.c-item-content > div.item-bundle-mid > div.item-title > strong > a')
print(elem.text)

용인특례시, AI 활용 빅데이터 분석 전문가 양성


In [74]:
# 뉴스 타이틀 모두 출력
elems = driver.find_elements(By.CSS_SELECTOR, '#dnsColl > div > ul > li > div.c-item-content > div.item-bundle-mid > div.item-title > strong > a')
for e in elems:
    print(e.text)

용인특례시, AI 활용 빅데이터 분석 전문가 양성
빅데이터는 알고 있다 … 당신이 올여름 뭘 할지
빅데이터로 본 온열질환…예방책은?
현대제철, AI·빅데이터 페스티벌 개최…서강현 사장 “임직원 아이디어로 공정 개선 기대”


In [70]:
# 뉴스 타이틀 링크 1개 가져오기
elem = driver.find_element(By.CSS_SELECTOR, '#dnsColl > div > ul > li:nth-child(1) > div.c-item-content > div.item-bundle-mid > div.item-title > strong > a')
print(elem.get_attribute('href'))

http://v.daum.net/v/20240620084428441


In [75]:
# 뉴스 타이틀 링크 여러개 가져오기
elems = driver.find_elements(By.CSS_SELECTOR, '#dnsColl > div > ul > li > div.c-item-content > div.item-bundle-mid > div.item-title > strong > a')
for e in elems:
    print(e.get_attribute('href'))

http://v.daum.net/v/20240620084428441
http://v.daum.net/v/20240623163632333
http://v.daum.net/v/20240619215911006
http://v.daum.net/v/20240620161129888


Task3_0621. 네이버 로그인한 후 않읽은 메일의 개수를 가져와서 출력하세요

Javascript 선택자 : https://hianna.tistory.com/485

1. getElementById()
 - 파라미터로 찾으려는 id를 전달하여, 해당 element를 찾을 수 있습니다. id는 유일한 값이므로, 하나의 element만 리턴합니다.
2. getElementsByClassName()
 - 클래스 이름으로 element를 찾아서,이 클래스 이름을 가지는 모든 element 목록을 리턴합니다.이 함수의 이름을 자세히 보면 getElementsByClassName으로 Element's'가 복수 형태인 것은 이 함수가 목록을 리턴하기 때문입니다.
3. getElementByTagName()
 - 위 코드는 'div' 태그를 가지는 모든 element 목록을 찾아줍니다.이 함수 역시, 다수의 element를 리턴하기 때문에 함수명에 복수형의 'elements'가 포함되어 있습니다.
4. querySelector()
 - DOM에서 원하는 element를 찾기 위해서 querySelector() 를 사용할 수도 있는데, 이 함수는 파라미터로 입력받은 CSS선택자를 사용해서, element를 찾아줍니다.
 - querySelector() 함수는, 파라미터로 입력받은 CSS 선택자로 찾은 여러개의 element 중 첫번째 element를 리턴합니다.
 - 태그 이름으로 element를 찾을 때는 태그명을 문자열로 넘겨줍니다.위 예제는 div태그를 가지는 element 중 첫번째 element를 리턴합니다.
5. querySelectorAll()
 - 사용법은 querySelector() 와 같습니다. 다만, querySelectorAll()은 이름에서 알수 있듯이, CSS선택자(파라미터로 넘겨준)로 찾은 모든 element 목록을 리턴합니다.

In [76]:
# DOM 요소 선택 및 텍스트 추출
from selenium import webdriver

driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫 번째 책의 제목을 추출
book_title = driver.execute_script("return document.querySelector('article.product_pod h3 a').innerText;")
print('First book title : ', book_title)

driver.quit()

First book title :  A Light in the ...


In [77]:
# DOM 요소 선택 및 속성 추출
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫 번째 책의 속성을 추출
book_url = driver.execute_script("return document.querySelector('article.product_pod h3 a').getAttribute('href');")
print('First book URL : ', book_url)

driver.quit()


First book URL :  catalogue/a-light-in-the-attic_1000/index.html


In [78]:
# DOM 요소 생성 및 추가
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 새로운 요소 생성 및 추가
new_div_id = driver.execute_script("""
    var newElement = document.createElement('div');
    newElement.id = 'newDiv';
    newElement.innerText = 'Hello, Book Lovers!';
    document.body.appendChild(newElement);
    return newElement.id;                                                                                             
""")

print("New div id : ", new_div_id)

driver.quit()

New div id :  newDiv


In [80]:
# 클릭 이벤트 트리거
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫 번째 책의 링크 클릭
driver.execute_script("document.querySelector('article.product_pod h3 a').click();")
# 밑에 주소도 가능
# driver.execute_script("document.querySelector('article.product_pod div a').click();")
time.sleep(2)
driver.quit()

In [20]:
# 자동 클릭 이벤트 추가 트리거
from selenium import webdriver
import time

driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫 번째 책에 클릭 이벤트리스너 추가
driver.execute_script("""
    document.querySelector('article.product_pod h3 a').addEventListener('click', function() {
                        alert('Book clicked!');
                      });
                    """)
# 첫번째 책 링크 클릭
first_book_link = driver.find_element(By.CSS_SELECTOR, 'article.product_pod h3 a')
first_book_link.click()

time.sleep(3)
driver.quit()

In [21]:
# 스크롤 이벤트 트리거
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 페이지 맨 아래로 스크롤
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
time.sleep(5)
driver.quit()

In [84]:
# 스타일 변경
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫 번째 책의 링크 클릭
driver.execute_script("document.querySelector('article.product_pod').style.backgroundColor = 'yellow';")
time.sleep(3)
driver.quit()

In [None]:
# 폼 필드 값 설정 (이 사이트에는 폼이 없지만 예제로 추가)
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')    # 예제로만

# 첫 번째 책의 링크 클릭
driver.execute_script("document.querySelector('#inputField').value = 'new value';")

In [89]:
# 이벤트 리스너 추가
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 첫번째 클릭 이벤트 리스너 추가
driver.execute_script("""
                      document.querySelector('article.product_pod h3 a').addEventListener('click', function() {
                      alert('Book Clicked!');
                      });
                      """)


time.sleep(3)
driver.quit()

In [87]:
# 다수의 요소 선택 및 데이터 추출
driver = webdriver.Chrome()
driver.get('http://books.toscrape.com/')

# 모든 책 제목 추출
book_titles = driver.execute_script("""
                                    var elements = document.querySelectorAll('article.product_pod h3 a');
                                    var data = [];
                                    elements.forEach(function(element) {
                                        data.push(element.innerText);
                                    });
                                    return data;
                                    """)

print("Book titles :", book_titles)
time.sleep(3)
driver.quit()

Book titles : ['A Light in the ...', 'Tipping the Velvet', 'Soumission', 'Sharp Objects', 'Sapiens: A Brief History ...', 'The Requiem Red', 'The Dirty Little Secrets ...', 'The Coming Woman: A ...', 'The Boys in the ...', 'The Black Maria', 'Starving Hearts (Triangular Trade ...', "Shakespeare's Sonnets", 'Set Me Free', "Scott Pilgrim's Precious Little ...", 'Rip it Up and ...', 'Our Band Could Be ...', 'Olio', 'Mesaerion: The Best Science ...', 'Libertarianism for Beginners', "It's Only the Himalayas"]


Selenium only vs with JavaScript
- Selenium만 사용하는 경우: 코드가 더 직관적이고 Python만으로 작성되며, 디버깅과 유지보수가 용이합니다. 하지만, 속도가 느릴 수 있습니다.
- JavaScript를 사용하는 경우: 복잡한 DOM 조작과 빠른 실행이 가능하지만, 코드가 복잡해지고 유지보수가 어려울 수 있습니다.

In [None]:
# 폼 필드 값 설정 (이 사이트에는 폼이 없지만 예제로 추가) - file.html

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 인스턴스 생성 (여기서는 Chrome을 예로 사용)
driver = webdriver.Chrome()

# 로컬 HTML 파일 경로
file_path = 'http://127.0.0.1:5501/file.html'  # 실제 파일 경로로 변경

# HTML 파일 열기
driver.get(file_path)

# 2초 대기 (웹 페이지가 완전히 로드되도록)
time.sleep(2)

# 입력 필드에 새로운 값을 설정하는 JavaScript 실행
driver.execute_script("document.querySelector('#inputField').value = 'new value';")

# 2초 대기 (변경이 반영되도록)
time.sleep(2)

# 제출 버튼 클릭
driver.find_element(By.ID, 'submitButton').click()

# 2초 대기 (알림을 확인하도록)
time.sleep(5)

# 웹 드라이버 종료
driver.quit()


In [10]:
# 폼 필드 값 설정 (이 사이트에는 폼이 없지만 예제로 추가) - file.html
# 여기에서 셀레니움 ID로 쓰기

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 인스턴스 생성 (여기서는 Chrome을 예로 사용)
driver = webdriver.Chrome()

# 로컬 HTML 파일 경로
file_path = 'http://127.0.0.1:5501/file.html'  # 실제 파일 경로로 변경

# HTML 파일 열기
driver.get(file_path)

# 2초 대기 (웹 페이지가 완전히 로드되도록)
time.sleep(2)

input_field = driver.find_element(By.ID, 'inputField')
input_field.clear()
input_field.send_keys('new value')

# 2초 대기 (변경이 반영되도록)
time.sleep(2)

# 제출 버튼 클릭
submit_button = driver.find_element(By.ID, 'submitButton')
submit_button.click()
# driver.find_element(By.ID, 'submitButton').click()

# 2초 대기 (알림을 확인하도록)
time.sleep(5)

# 웹 드라이버 종료
driver.quit()


In [13]:
# 폼 필드 값 설정 (이 사이트에는 폼이 없지만 예제로 추가) - file.html
# 자바 스크립트

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 인스턴스 생성 (여기서는 Chrome을 예로 사용)
driver = webdriver.Chrome()

# 로컬 HTML 파일 경로
file_path = 'http://127.0.0.1:5501/file.html'  # 실제 파일 경로로 변경

# HTML 파일 열기
driver.get(file_path)

# 2초 대기 (웹 페이지가 완전히 로드되도록)
time.sleep(2)

# 입력 필드에 새로운 값을 설정하는 JavaScript 실행
driver.execute_script("document.querySelector('#inputField').value = 'new value';")

# 2초 대기 (변경이 반영되도록)
time.sleep(2)

# 제출 버튼 클릭 JavaScript 실행
driver.execute_script("document.querySelector('#submitButton').click();")
# driver.find_element(By.ID, 'submitButton').click()

# 2초 대기 (알림을 확인하도록)
time.sleep(5)

# 웹 드라이버 종료
driver.quit()


In [19]:
# 폼 필드 값 설정 (이 사이트에는 폼이 없지만 예제로 추가) - file_js.html
# 자바 스크립트

from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 인스턴스 생성 (여기서는 Chrome을 예로 사용)
driver = webdriver.Chrome()

# 로컬 HTML 파일 경로
file_path = 'http://127.0.0.1:5501/file_js.html'  # 실제 파일 경로로 변경

# HTML 파일 열기
driver.get(file_path)

# 2초 대기 (웹 페이지가 완전히 로드되도록)
time.sleep(2)

# 복잡한 DOM 조작 및 이벤트 리스터 추가하는 JavaScript 실행
script = """
document.querySelectorAll('.target').forEach(function(element)  {
    // 배경색 변경
    element.style.backgroundColor = 'magenta';

    // 클릭 이벤트 리스너 추가
    element.addEventListener('click', function() {
        alert('Element clicked: ' + element.textContent);
    });
});
"""
driver.execute_script(script)
# 2초 대기 (변경이 반영되도록)
time.sleep(2)

# 첫번째 요소 클릭하여 이벤트 트리거
first_element = driver.find_element(By.CSS_SELECTOR, '.target')
first_element.click()

# 2초 대기 (알림을 확인하도록)
time.sleep(5)

# 웹 드라이버 종료
driver.quit()


Task1_0625. 다음 Selenium execute_script 메서드에 사용할 수 있는 JavaScript 명령어를 이용한 사례를 작성해서 실행 결과를 확인하세요.
- document.getElementById(id) : 특정 ID를 가진 요소를 선택합니다.
- document.getElementsByClassName(className) : 특정 클래스 이름을 가진 요소를 선택합니다.
- document.getElementsByTagName(tagName) : 특정 태그 이름을 가진 요소를 선택합니다.
- document.querySelector(selector) : CSS 선택자를 사용하여 첫 번째 일치하는 요소를 선택합니다.
- document.querySelectorAll(selector) : CSS 선택자를 사용하여 일치하는 모든 요소를 선택합니다.
- element.innerText : 요소의 텍스트 콘텐츠를 설정하거나 가져옵니다.
- element.innerHTML : 요소의 HTML 콘텐츠를 설정하거나 가져옵니다.
- element.value : 입력 필드의 값을 설정하거나 가져옵니다.
- element.style.property : 요소의 CSS 스타일 속성을 설정합니다.
- element.click() : 요소를 클릭합니다.
- element.focus() : 요소에 포커스를 설정합니다.
- element.blur() : 요소에서 포커스를 제거합니다.
- window.scrollTo(x, y) : 페이지를 지정된 좌표로 스크롤합니다.
- window.scrollBy(x, y) : 현재 위치에서 지정된 거리만큼 페이지를 스크롤합니다.
- alert(message) : 경고창을 표시합니다.
- confirm(message) : 확인창을 표시하고 사용자의 응답을 반환합니다.
- prompt(message, default) : 입력창을 표시하고 사용자의 입력을 반환합니다.
- form.submit() : 폼을 제출합니다.
- form.reset() : 폼을 초기화합니다.

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import time

# 웹 드라이버 인스턴스 생성 (여기서는 Chrome을 예로 사용)
driver = webdriver.Chrome()

# 로컬 HTML 파일 경로
file_path = 'http://127.0.0.1:5501/file_task1.html'  # 실제 파일 경로로 변경

# HTML 파일 열기
driver.get(file_path)

# 2초 대기 (웹 페이지가 완전히 로드되도록)
time.sleep(2)

# 복잡한 DOM 조작 및 이벤트 리스터 추가하는 JavaScript 실행
script = """

# 입력 필드에 새로운 값을 설정하는 JavaScript 실행
driver.execute_script("document.querySelector('#inputField').value = 'new value';")

# 2초 대기 (변경이 반영되도록)
time.sleep(2)

# 제출 버튼 클릭 JavaScript 실행
driver.execute_script("document.querySelector('#submitButton').click();")
# driver.find_element(By.ID, 'submitButton').click()


In [23]:
from datetime import datetime

date = str(datetime.now())
print(date)
print(date.rfind(':'))  # 인덱스
date = date[:date.rfind(':')].replace(' ', '_')    # date 문자열에서 마지막 : 문자의 인덱스를 반환 (슬라이싱)
print(date)
date = date.replace(':', '시') + '분'
print(date)


2024-06-25 11:11:28.808552
16
2024-06-25_11:11
2024-06-25_11시11분


query = query.replace(' ', '+') 를 사용하는 이유
- 검색어에서 공백을 + 문자로 대체하는 코드로 HTTP GET 요청에서 검색어를 전달할 때 사용하는 일반적인 방법
- HTTP GET 요청에서는 URL의 일부분으로 검색어를 전달해야 하는데, 이때 공백은 URL에서 특별한 의미를 가지는 문자이기 때문에, 검색어에서 공백을 + 문자로 대체하여 URL에 포함시켜야 함
- python web scraping은 python+web+scraping으로 나타낸다.

네이버 뉴스 키워드 검색 (무한 스크롤)

In [30]:
#5번 스크롤 다운
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import re

query = input('검색 키워드를 입력하세요 : ')

# news_url = 'https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={}'
news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

driver = webdriver.Chrome()

driver.get(news_url.format(query))

time.sleep(1)

for i in range(5):
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    time.sleep(1)

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
items = soup.select('.news_tit')

for e, item in enumerate(items, 1):
    print(f'{e} : {item.text}')

driver.quit()

1 : "애플, 오픈AI 이어 메타와 인공지능 협력 논의"
2 : 인공지능 주목하는 레노버, AI 혁신 위한 MOU 체결
3 : 카카오임팩트, 새 이사장에 류석영 카이스트 교수 선임
4 : 당진시, 인공지능(AI 돌봄 로봇 효돌 추가 보급
5 : 22대 국회, 인공지능(AI) 바람 분다
6 : 국제표준 산업 인공지능 인증서, 국내에서 발급 가능
7 : 광주광역시, 초거대 인공지능 개발 위한 초고성능 컴퓨팅 지원 본격 시작
8 : 이글루코퍼레이션, KISA ‘AI 보안관제 전문인력 양성 사업’ 수행
9 : 'K-주소체계' 전문가들 모여 인공지능 시대 주소 체계 전망 토의
10 : 충남교육청, 우즈베키스탄에 인공지능 교육 모델 전수
11 : 'K-주소체계' 전문가들 모여 인공지능 시대 주소 체계 전망 토의
12 : 저작권위원회, 인공지능 학습 원천데이터 활성화 지원
13 : 충남교육청, 우즈베키스탄에 인공지능 교육 모델 전수
14 : SK 사업전략 'BBC 아닌 ABC?'…리밸런싱으로 인공지능 강화
15 : AI(Artificial Intelligent:인공지능)
16 : 인공지능(AI) 칩 선두주자 엔비디아 6%대 급락…다우 0.67%↑나스닥 1.09%↓[...
17 : 인공지능으로 농산물 원산지 가려낸다
18 : 챗GPT 인공지능지도사협회 창립
19 : 삼성전자, '갤럭시 AI' 언어 모델 연내 20개까지 지원
20 : <뉴스브릿지> 영화에 도전하는 인공지능…국내 최초 AI 영화 경쟁 부문 신설
21 : 손정의 "초인공지능(ASI), 인간 지능의 1만배"
22 : 동의대 인공지능그랜드ICT연구센터, 캘거리대와 글로벌 업무 협약
23 : 대신자산운용, 인공지능 생태계 투자 ETF 출시 나흘만에 완판
24 : 인공지능 탑재한 리얼돌 나온다…중국, 출시 임박
25 : 세종시 연남초, 인공지능 소통 교실 눈길
26 : 퍼즐에이아이, 인공지능 간호 의무기록 사업화 추진
27 : 비즈메트릭스, '2024 인공지능&빅데이터쇼'에서 'BzEngage' 및 'BzWorks' 

Q. 검색 키워드와 뉴스 기사 수를 입력한 후 다음 사항을 수행하는 크롤링 프로그램을 작성하세요.
- 크롤링한 내용에서 타이틀과 링크를 추출 
- 추출한 데이터를 판다스 데이터 프레임으로 변환하고 csv 파일로 저장
- csv 파일을 다시 불러와서 데이터 프레임으로 출력 

In [31]:
from selenium import webdriver
from selenium.webdriver.common.by import By
import requests
import time
import pandas as pd
from bs4 import BeautifulSoup
import re
from datetime import datetime
import os

# date = str(datetime.now())
# date = date[:date.rfind(':')].replace(' ', '_')
# date = date.replace(':','시') + '분'

# 사용자로부터 검색 키워드와 필요한 뉴스 기사 수 입력 받기
query = input('검색 키워드를 입력하세요 : ')
news_num = int(input('총 필요한 뉴스기사 수를 입력해주세요(숫자만 입력) : '))
# query = query.replace(' ', '+') # 검색 키워드 공백 처리

# 네이버 뉴스 검색 URL
news_url = 'https://search.naver.com/search.naver?where=news&sm=tab_jum&query={}'

# Selenium Webdriver 설정
driver = webdriver.Chrome()
driver.get(news_url.format(query))

SCROLL_PAUSE_TIME = 2
news_dict = {}
idx = 0
last_height = driver.execute_script("return document.body.scrollHeight")

print('크롤링 중...')

while idx < news_num:
    # 페이지의 HTML 소스를 가져와 BeautifulSoup으로 파싱\
    html = driver.page_source
    soup = BeautifulSoup(html, 'html.parser')
    items = soup.select('.news_tit')
    for item in items:
        if idx >= news_num:
            break
        title = item.get_text()
        url = item.get('href')
        news_dict[idx] = {'title' : title, 'url' : url}
        idx += 1

    if idx >= news_num:
        break
    # 페이지를 끝까지 스크롤
    driver.execute_script('window.scrollTo(0, document.body.scrollHeight);')

    # 새로운 높이가 로드될 떄까지 대기
    time.sleep(SCROLL_PAUSE_TIME)
    new_height = driver.execute_script("return document.body.scrollHeight")
    if new_height == last_height:
        break   # 더 이상 스크롤할 내용이 없으면 종료

    last_height = new_height

driver.quit()

print('크롤링 완료')

print('데이터프레임 변환')
news_df = pd.DataFrame(news_dict).T
# 결과 출력
# print(news_df)

forder_path = os.getcwd()
file_name = f'네이버뉴스_{query}.cvs'
news_df.to_csv(file_name, index=False)
print(f'파일 저장 완료 | 경로 : {forder_path}\\{file_name}')
df = pd.read_csv(file_name)
df


크롤링 중...
크롤링 완료
데이터프레임 변환
파일 저장 완료 | 경로 : d:\kdt_240424\workspace\m3_분석라이브러리\crawling\네이버뉴스_AI.cvs


Unnamed: 0,title,url
0,카카오톡 AI 프로필 서비스 문 닫는다,https://www.newsis.com/view/NISX20240624_00027...
1,방언에 성조까지 분석…16개 언어 지원하는 '갤럭시 AI' 개발 과정은,https://www.sedaily.com/NewsView/2DALOFD53L
2,"LGU+, 생성형 AI '익시젠' 출시…챗 에이전트 등에 우선 적용",https://www.yna.co.kr/view/AKR2024062503520001...
3,"LG유플러스, 생성형 AI ‘익시젠’ 출시",https://news.heraldcorp.com/view.php?ud=202406...
4,"현대차그룹 추월했다…""AI 덕에 HBM 수요↑""",http://www.wowtv.co.kr/NewsCenter/News/Read?ar...
...,...,...
495,"하나은행, AI가 수출환어음매입 업무 본다",https://isplus.com/article/view/isp202406240165
496,AI가 대체 불가능한 인간의 일,https://www.hani.co.kr/arti/economy/it/1146201...
497,"라이프시맨틱스, 피부암 진단 보조 AI 솔루션 식약처 품목허가 획득",https://news.heraldcorp.com/view.php?ud=202406...
498,"경북도, 구글과 AI 전문인재 양성",http://www.fnnews.com/news/202406250848109246
