# Selenium
* 브라우저를 직접 실행하여 자동화하고 브라우저 상에 있는 데이터를 수집
* 웹 테스트 자동화

Selenium은 웹 브라우저를 자동화하기 위한 도구입니다. 주로 웹 애플리케이션을 테스트하기 위해 사용되지만, 데이터를 수집하거나 반복적인 작업을 자동화하는 데에도 유용합니다. Selenium을 사용하면 코드로 브라우저를 제어하여, 사용자가 직접 브라우저에서 클릭하거나 입력하는 등의 행동을 자동으로 수행할 수 있습니다.



Selenium의 주요 사용 용도는 다음과 같습니다:



- 웹 테스트 자동화: 웹 애플리케이션이 예상대로 작동하는지 확인하기 위해 자동화된 테스트를 실행.
- 데이터 수집: 웹에서 데이터를 스크래핑하여 자동으로 수집.
- 반복 작업 자동화: 반복적으로 해야 하는 웹 상의 작업을 자동으로 처리.


> 전반적인 코드의 흐름


1. ChromeDriver 설치 및 설정: Selenium이 Chrome 브라우저를 제어할 수 있도록 ChromeDriver를 설치하고 설정합니다.
2. 웹 페이지 열기: 지정된 URL의 웹 페이지를 브라우저에서 엽니다.
3. 웹 요소 조작: 웹 페이지에서 특정 요소를 찾아 클릭하거나, 텍스트를 입력하는 등 다양한 작업을 수행합니다.
4. 데이터 수집: 특정 요소들을 찾아내어 데이터를 수집하고, 이를 리스트에 저장합니다.
5. 반복 작업 수행: 여러 해에 걸쳐 데이터를 다운로드하는 작업을 자동화합니다.


In [79]:
from selenium import webdriver  # Selenium의 WebDriver 모듈을 가져옴 (브라우저를 제어하기 위해 사용)
from selenium.webdriver.chrome.service import Service  # ChromeDriver의 서비스 관리 모듈을 가져옴
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriver를 자동으로 관리해주는 모듈을 가져옴

* `webdriver` : 파이썬과 브라우저를 연결하기위한 객체
* `Service` : [최신 버전] 어떤 브라우저를 사용하게 할건지 선택
* `ChromeDriverManager` : [최신 버전] Chrome을 사용하기 위한 드라이버 설정

> 터미널에 chromedriver 입력 후 아래와 같이 나오는지 확인 후 진행

(ml-env) khb43@gimhyeonbin-ui-MacBook-Pro-M1-Max HANKYUNG_WITH_TOSS_BANK(2) % chromedriver



Starting ChromeDriver 127.0.6533.119 (bdef6783a05f0b3f885591e7d2c7b2aec1a89dea-refs/branch-heads/6533@{#1999}) on port 9515
Only local connections are allowed.
Please see https://chromedriver.chromium.org/security-considerations for suggestions on keeping ChromeDriver safe.
ChromeDriver was started successfully.


In [80]:
# ChromeDriver를 설치하고 설정하는 함수 정의
def get_chrome_driver():
    # 1. 크롬 옵션 세팅
    chrome_options = webdriver.ChromeOptions()  # Chrome에 대한 추가 옵션을 설정하기 위한 객체 생성

    # 2. ChromeDriver 생성 (설치된 최신 버전 사용)
    driver = webdriver.Chrome(
        service=Service(ChromeDriverManager().install()),  # ChromeDriver를 설치하고 이를 서비스로 설정
        options=chrome_options  # 위에서 정의한 Chrome 옵션을 적용
    )
    return driver  # 설정이 완료된 ChromeDriver 객체를 반환

In [81]:
# ChromeDriver 실행
driver = get_chrome_driver()  # 위에서 정의한 함수로 ChromeDriver 객체를 생성하고 이를 실행

In [82]:
# 특정 웹 페이지(Naver) 열기
driver.get("https://www.naver.com")  # ChromeDriver를 사용하여 네이버 웹사이트를 염

In [83]:
# By : 어떤 것을 기준으로 선택을 할지 지정~
#  - CSS_SELECTOR, XPATH, ...
from selenium.webdriver.common.by import By # 요소를 찾을 때 사용할 위치 선택자(By)를 가져옴

# 검색창에 텍스트 입력
driver.find_element(By.CSS_SELECTOR, "#query").send_keys("집에가고싶다")  
# 네이버 페이지의 검색창 요소(검색창의 CSS 선택자는 '#query')를 찾아서 '집에가고싶다'라는 텍스트를 입력


In [84]:
# 검색창 내용 지우기 후 다시 텍스트 입력
driver.find_element(By.CSS_SELECTOR, "#query").clear()  # 검색창 요소를 찾아 기존의 입력된 텍스트를 모두 지움
# 검색창 요소에 '바보야'라는 텍스트를 다시 입력
driver.find_element(By.CSS_SELECTOR, "#query").send_keys("바보야")  



셀레니움은 기본적으로 FrontEnd를 테스팅하기 위한 도구. 따라서 눈에 보이지 않으면 element가 안잡혀요

In [85]:
# 브라우저 윈도우 사이즈 조절
driver.set_window_size(500, 500)  
# 브라우저 창의 크기를 가로 500픽셀, 세로 500픽셀로 조정

In [86]:
# 스크롤 위치 조정 (JavaScript 코드 사용)

# 브라우저 창의 스크롤을 수직으로 600픽셀, 수평으로 50픽셀만큼 이동
driver.execute_script("window.scrollTo(50, 600)")  

In [87]:
# 브라우저 창의 스크롤을 가장 아래로 이동 (99999999이라는 큰 값 사용)
driver.execute_script("window.scrollTo(50, 99999999)")  

In [88]:
# 웹 페이지 닫기
driver.quit() # ChromeDriver와 열려있는 브라우저 창을 닫아 메모리를 해제하고 세션을 종료

# 셀레니움으로 네이버 뉴스 기사 크롤링

In [89]:
# 뉴스 페이지에서 특정 기사 목록 가져오기
URL = "https://news.naver.com/section/105"  

# 네이버 뉴스의 IT/과학 섹션 URL 저장
CSS_SELECTOR = ".section_latest .section_component .section_latest_article .section_article ul li" # 기사 목록을 나타내는 CSS 선택자 정의 (이 선택자를 사용해 해당 요소들을 찾음)

In [90]:
driver = get_chrome_driver() # 새롭게 ChromeDriver 객체를 생성

In [91]:
driver.get(URL) # 정의된 URL의 네이버 뉴스 페이지를 염

In [92]:
# CSS 셀렉터를 통해 기사 목록을 가져옴

articles = driver.find_elements(
    By.CSS_SELECTOR, CSS_SELECTOR
) # 기사 목록에 해당하는 모든 요소들을 CSS 선택자를 사용해 가져와 리스트로 저장

In [93]:
# 기사 개수 확인
len(articles)  
# 가져온 기사 목록 요소들의 개수를 확인

36

In [94]:
# 첫 번째 기사의 텍스트 출력
print(articles[0].text)  
# 첫 번째 기사 요소의 텍스트 내용을 출력 (기사의 전체 내용)

소프트뱅크, 인텔과 AI 반도체 생산 논의 결렬...TSMC 접촉
일본 소프트뱅크가 엔비디아에 대항할 인공지능(AI) 칩을 생산하기 위해 인텔 파운드리와 협력하는 방안을 논의했지만 협상이 결렬된 것으로 알려졌다. 15일(현지시간) 영국 파이낸셜타임스(FT)는 소식통을 인용해 소프트
지디넷코리아
17분전


In [95]:
# 첫 번째 기사의 제목만 추출
print(articles[0].find_element(By.CSS_SELECTOR, "strong.sa_text_strong").text)  
# 첫 번째 기사 요소 내의 제목만을 추출해 출력 (제목의 CSS 선택자는 'strong.sa_text_strong')

소프트뱅크, 인텔과 AI 반도체 생산 논의 결렬...TSMC 접촉


In [96]:
# 전체 기사 제목을 리스트에 저장
article_list = []  # 제목을 저장할 빈 리스트 생성
for article in articles:  # 기사 목록에서 하나씩 반복
    title = article.find_element(By.CSS_SELECTOR, "strong.sa_text_strong")  # 각 기사에서 제목 요소를 찾음
    if title:  # 제목 요소가 존재하면
        article_list.append(title.text)  # 해당 제목의 텍스트를 리스트에 추가

article_list # 모든 기사 제목들이 저장된 리스트를 출력

['소프트뱅크, 인텔과 AI 반도체 생산 논의 결렬...TSMC 접촉',
 '"10년 같았던 2년3개월…관사 짐빼기 전날 처음 TV 켰다"',
 '질병청, 코로나 치료제 품귀 \'사과\'…"이달 말 26만명분 공급"(종합)',
 "미래 먹거리 '투명 디스플레이'가 뜬다…버스·상업시설 공략",
 '국내 계열사 138→125…몸집 줄여가는 카카오',
 '2조원 투자했는데… 삼성전기, 기판 사업 수익성 악화 고심',
 '"급격하게 늙는 나이 있었다"…44세, 60세가 노화의 두 변곡점',
 "韓 OLED 경쟁력 믿는다…고객사 확보 나선 디스플레이 '소부장' [K-디스플레이 24]",
 '‘블아·퍼디 흥행 겹경사’… 넥슨게임즈, 동서양서 K-게임 신드롬',
 '두 개의 로터를 탑재한 초대형 부유식 풍력 발전기 오션 X [고든 정의 TECH+]',
 '2분기 OLED 태블릿 패널 출하량 최고치…"아이패드 프로 때문"',
 "'IT서비스' 아이티센의 변신…크립토뱅크 꿈꾸는 '디지털자산 기업'으로",
 '체이널리시스 "거래소로 몰리는 해커…피해액 84% 급증"',
 '인텔 소프트웨어 정의車용 칩, 미국 내 첫 고객사 확보',
 'IT셧다운 공포가 멀티 벤더 수요로…국내 클라우드 기업 반사이익 얻을까?',
 "'사이버 레커 수익 몰수' '국회 차원 제재'…청원 잇따라",
 "'빗장 푼 애플' 아이폰서 삼성·구글페이 결제 가능…한국은 대상국서 제외",
 "SK하이닉스, 2분기 D램 시장 점유율↑… 삼성전자는 'D램 매출' 1위 수성",
 "전공의 추가모집 오늘 마감인데 지원자 '미미'…병원들 각자 도생",
 '루게릭병이 뺏어간 목소리, 뇌전극과 AI로 되찾았다',
 '고임금 시대 음식점의 미래는 … 푸드테크와 스마트 기술 [똑똑한 장사]',
 '엔씨소프트, 비용·사채 줄였는데…효과는',
 "'자동차 보험료 20% 깎는 꿀팁' 인기 끌더니…대박 터졌다",
 '"DX로 불황 극복"...IT서비스기업 상반기 호실적 달성',
 '비트코인, 6만 달러 못 넘고 또 급락…"당분간 약세"

# COFIX 공시 지표 파일 다운로드

In [97]:
# COFIX 공시 지표 파일 다운로드 자동화

urls = "https://portal.kfb.or.kr/fingoods/cofix.php?BasicYear_W=&BasicYear={}"  
# COFIX 공시 지표를 다운로드할 수 있는 URL 패턴 정의 (연도별 데이터 수집을 위해)

driver.get(urls.format(2019))  # 정의된 URL에 2019년을 입력해 해당 페이지를 염

In [98]:
# 버튼을 찾아서 클릭
button_elem = driver.find_element(
    By.CSS_SELECTOR, 
    "li.leftArea span.btnArea a.btn01"
)

# 파일 다운로드를 위한 버튼 요소를 CSS 선택자로 찾아 저장
button_elem.click()  # 해당 버튼을 클릭하여 파일 다운로드를 시작


In [99]:
# 드롭다운 리스트에서 연도별 옵션 가져오기
year_dropdown_list = driver.find_elements(
    By.CSS_SELECTOR,
    "#BasicYear option"
)

# 연도 선택 드롭다운에서 모든 연도 옵션 요소를 가져옴

len(year_dropdown_list)

15

In [100]:
# 연도 리스트 생성
year_list = [year_option.text for year_option in year_dropdown_list]  
# 각 연도 옵션 요소에서 텍스트를 추출해 리스트로 저장
year_list

['2024',
 '2023',
 '2022',
 '2021',
 '2020',
 '2019',
 '2018',
 '2017',
 '2016',
 '2015',
 '2014',
 '2013',
 '2012',
 '2011',
 '2010']

In [101]:
# 각 연도별로 파일 다운로드 자동화
for year in year_list:  # 연도 리스트에서 하나씩 반복
    driver.get(urls.format(year))  # 해당 연도의 페이지를 염

    button_elem = driver.find_element(By.CSS_SELECTOR, "li.leftArea span.btnArea a.btn01")  
    # 파일 다운로드 버튼을 찾아 저장
    button_elem.click()  # 다운로드 버튼 클릭

    download_btn_elem = driver.find_element(By.CSS_SELECTOR, "li.rightArea  span.btnArea a.btn01")  
    # 실제 다운로드를 위한 버튼 요소를 찾아 저장
    download_btn_elem.click()  # 해당 버튼 클릭해 파일 다운로드

In [102]:
driver.quit()