## Selenium
* 브라우저를 직접 실행해 자동화하고 브라우저 상에 있는 데이터 수집
* 웹 테스트 자동화

In [1]:
from selenium import webdriver # 파이썬과 브라우저 연결
from selenium.webdriver.chrome.service import Service # 어떤 브라우저를 사용할지 선택
from webdriver_manager.chrome import ChromeDriverManager # Chrome 을 사용하기 위한 드라이버 설정

* Chrome 드라이버 설치
  - 브라우저 버전에 맞게 설치하는 코드

In [3]:
def get_chrome_driver():
    # 1. 크롬 옵션 세팅
    chrome_options = webdriver.ChromeOptions()
    # 2. Driver 생성
    driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()),
    options=chrome_options
    )

    return driver

In [4]:
driver = get_chrome_driver()

* 각종 제어들을 알아보자

In [7]:
driver.get('https://www.naver.com') # 주소 변경

In [8]:
# 검색창에 검색어를 입력하기 위해 알맞은 selector 찾기
from selenium.webdriver.common.by import By # 어떤 것을 기준으로 선택할지 지정

driver.find_element(By.CSS_SELECTOR, '#query').send_keys('집에가고싶다') # element 에 key 전달

In [9]:
driver.find_element(By.CSS_SELECTOR, '#query').clear()
driver.find_element(By.CSS_SELECTOR, '#query').send_keys('토스뱅크')

* 셀레니움은 기본적으로 FE를 테스트하기 위한 도구. 따라서 눈에 보이지 않으면  element 가 잡히지 않음
  

In [15]:
# window size 조절
driver.set_window_size(500, 500)

In [20]:
# 스크롤 위치 조정 - JS 활용
driver.execute_script('window.scrollTo(50, 600)')
# 이를 이용하면 무한 스크롤 구현해 인스타그램 크롤링 가능

In [21]:
driver.quit()

## 네이버 뉴스 기사 크롤링

In [33]:
URL = 'https://news.naver.com/section/105'
CSS_SELECTOR = ".section_latest .section_component .section_latest_article .section_article ul li"

In [34]:
driver = get_chrome_driver()

In [35]:
driver.get(URL)

In [36]:
articles = driver.find_elements(
    By.CSS_SELECTOR,
    CSS_SELECTOR
)

len(articles)

36

In [37]:
articles[0].text

'2분기 OLED 태블릿 패널 출하량 최고치…"아이패드 프로 때문"\n지난 2분기 OLED 태블릿 패널 출하량이 급증했다고 IT매체 폰아레나가 시장조사업체 DSCC 보고서를 인용해 15일(현지시간) 보도했다. 보고서에 따르면, 2024년 한 해 OLED 태블릿 패널 출하량은 전년 대비\n지디넷코리아\n21분전'

In [38]:
articles[0].find_element(By.CSS_SELECTOR, 'strong.sa_text_strong').text

'2분기 OLED 태블릿 패널 출하량 최고치…"아이패드 프로 때문"'

In [39]:
article_list = []

for article in articles:
    title = article.find_element(By.CSS_SELECTOR, 'strong.sa_text_strong')
    if title:
        article_list.append(title.text)

article_list

['2분기 OLED 태블릿 패널 출하량 최고치…"아이패드 프로 때문"',
 '인텔 소프트웨어 정의車용 칩, 미국 내 첫 고객사 확보',
 'IT셧다운 공포가 멀티 벤더 수요로…국내 클라우드 기업 반사이익 얻을까?',
 "'사이버 레커 수익 몰수' '국회 차원 제재'…청원 잇따라",
 "'빗장 푼 애플' 아이폰서 삼성·구글페이 결제 가능…한국은 대상국서 제외",
 "SK하이닉스, 2분기 D램 시장 점유율↑… 삼성전자는 'D램 매출' 1위 수성",
 "전공의 추가모집 오늘 마감인데 지원자 '미미'…병원들 각자 도생",
 '루게릭병이 뺏어간 목소리, 마음 읽는 뇌 임플란트가 되찾았다',
 '고임금 시대 음식점의 미래는 … 푸드테크와 스마트 기술 [똑똑한 장사]',
 '엔씨소프트, 비용·사채 줄였는데…효과는',
 "'자동차 보험료 20% 깎는 꿀팁' 인기 끌더니…대박 터졌다",
 '"DX로 불황 극복"...IT서비스기업 상반기 호실적 달성',
 '비트코인, 6만 달러 못 넘고 또 급락…"당분간 약세"',
 '업비트, 자동적립식 ‘코인 모으기’ 출시',
 '접거나 긁혀도 고장안나는 폴더블 회로 나왔다',
 '한국시장 노리는 중국...삼성과 ‘중저가 스마트폰’ 격돌',
 '전신마비 앓으면서 OTT 기업 창업자, 강남세브란스에 3000만원 기부',
 '"공룡 멸종시킨 충돌체 정체는 목성 너머에서 온 탄소질 소행성"',
 'HBM 덕? 작년 4분기 글로벌 D램 매출 25% 성장',
 "[생성 AI 갈라잡이] 대화형 검색 서비스 '퍼플렉시티'",
 'HK이노엔, 공동개발 자가면역질환 신약 중국사에 기술이전',
 '“전공의 이탈 의료 공백 속 ‘뺑뺑이’ 환자 17.2% 늘었다”',
 "美 증시 상승에도…비트코인, 5만7000달러 '하락세'",
 "갤럭시도 디자인 통일?…갤S25 울트라 '각' 없어질 듯",
 '카카오 몸집줄이기…카카오VX, 골프용품·헬스케어·NFT 사업 철수',
 'HK이노엔-아이엠바이오, 자가면역질환 신약 中 기술이전…4300억 규모',
 '성심당, 임차료보다

## COFIX 통계 자동 크롤링

In [41]:
driver = get_chrome_driver()

In [44]:
urls = 'https://portal.kfb.or.kr/fingoods/cofix.php?BasicYear_W=&BasicYear={}'
driver.get(urls.format(2020))

In [45]:
# 보기 버튼 클릭
button_elem = driver.find_element(
    By.CSS_SELECTOR,
    'li.leftArea span.btnArea a.btn01'
)

button_elem.click()

In [47]:
# 다운 버튼 클릭
download_button_elem = driver.find_element(
    By.CSS_SELECTOR,
    'li.rightArea  span.btnArea a.btn01'
)

download_button_elem.click()

In [51]:
# dropdown 메뉴에서 연도 선택
year_dropdown_list = driver.find_elements(
    By.CSS_SELECTOR,
    '#BasicYear option'
)

len(year_dropdown_list)

15

In [52]:
year_list = [ year_option.text for year_option in year_dropdown_list ]
year_list

['2024',
 '2023',
 '2022',
 '2021',
 '2020',
 '2019',
 '2018',
 '2017',
 '2016',
 '2015',
 '2014',
 '2013',
 '2012',
 '2011',
 '2010']

In [54]:
for year in year_list:
    driver.get(urls.format(year))
    download_button_elem = driver.find_element(
    By.CSS_SELECTOR,
    'li.rightArea  span.btnArea a.btn01'
    )
    download_button_elem.click()