# Dynamic Crawling

- Uses `selenium` package, controls `ChromeDriver`
- Links into a certain URL, then accesses different pages by clicking, logging-in etc.

## 0. Before going in...
- `driver.get(url)` : goes to the url
- `driver.find_element(By.~)` : gets the element pointed by the selector / path
- `driver.find_elements(By.~)` : gets all the elements pointed by the selector / path -> returns an array
- `driver.send_keys()` : input
- `click()` : click

## 1. Selenium and accessing URL

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [13]:
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
import time

query = input('Search for Keyword : ')

url = 'https://www.naver.com'
driver = webdriver.Chrome('chromedriver.exe')
driver.get(url)
time.sleep(3)

## 2. Accessing the wanted page by selenium

In [14]:
# entering query to search box
search_box = driver.find_element(By.CSS_SELECTOR, "input#query")
search_box.send_keys(query)
search_box.send_keys(Keys.RETURN)
time.sleep(3)

# clicking the news tab (the XPATH needs changing for different queries)
driver.find_element(By.XPATH, '/html/body/div[3]/div[1]/div/div[2]/div[1]/div/ul/li[8]/a').click()
time.sleep(2)

## 3. Retrieving wanted information using selenium

In [15]:
# using find_elements
news_titles = driver.find_elements(By.CSS_SELECTOR, '.news_tit')

for i in news_titles :
    title = i.text
    print(title)

뉴진스, 한국대중음악상 3관왕 영예
리바이스, 150주년 기념 뉴진스 글로벌 앰버서더 발탁
뉴진스, 日 최대 패션축제 뜨자 '들썩'
250, 한국대중음악상 ‘올해의 음반’ 등 4관왕…뉴진스 3관왕
뉴진스의, 봄[화보]
250, '올해의 음악인' 등 한대음 4관왕…뉴진스는 3관왕
좋은 곡은 뉴진스에게 먼저?…'SM 사태' 우려 혹은 오류 [연계소문]
'한대음' 뉴진스 3관왕·250 4관왕..윤하 올해의 노래상[종합]
대세 입증 뉴진스, '쿠키'도 스포티파이 스트리밍 1억회 돌파
BTS·뉴진스·르세라핌 꽃길 걷나…"하이브, 세계 톱4 될 것" [윤현주의 主食...


In [16]:
# getting the entire HTML(page_source)
from bs4 import BeautifulSoup as bs

html = driver.page_source
soup = bs(html, 'html.parser')

titles = soup.select('a.news_tit')

for i in titles :
    title = i.get_text()
    print(title)

뉴진스, 한국대중음악상 3관왕 영예
리바이스, 150주년 기념 뉴진스 글로벌 앰버서더 발탁
뉴진스, 日 최대 패션축제 뜨자 '들썩'
250, 한국대중음악상 ‘올해의 음반’ 등 4관왕…뉴진스 3관왕
뉴진스의, 봄[화보]
250, '올해의 음악인' 등 한대음 4관왕…뉴진스는 3관왕
좋은 곡은 뉴진스에게 먼저?…'SM 사태' 우려 혹은 오류 [연계소문]
'한대음' 뉴진스 3관왕·250 4관왕..윤하 올해의 노래상[종합]
대세 입증 뉴진스, '쿠키'도 스포티파이 스트리밍 1억회 돌파
BTS·뉴진스·르세라핌 꽃길 걷나…"하이브, 세계 톱4 될 것" [윤현주의 主食...


---

## Extracting text : `.text`

In [17]:
news_titles = driver.find_elements(By.CSS_SELECTOR, '.news_tit')

for i in news_titles :
    title = i.text
    print(title)

뉴진스, 한국대중음악상 3관왕 영예
리바이스, 150주년 기념 뉴진스 글로벌 앰버서더 발탁
뉴진스, 日 최대 패션축제 뜨자 '들썩'
250, 한국대중음악상 ‘올해의 음반’ 등 4관왕…뉴진스 3관왕
뉴진스의, 봄[화보]
250, '올해의 음악인' 등 한대음 4관왕…뉴진스는 3관왕
좋은 곡은 뉴진스에게 먼저?…'SM 사태' 우려 혹은 오류 [연계소문]
'한대음' 뉴진스 3관왕·250 4관왕..윤하 올해의 노래상[종합]
대세 입증 뉴진스, '쿠키'도 스포티파이 스트리밍 1억회 돌파
BTS·뉴진스·르세라핌 꽃길 걷나…"하이브, 세계 톱4 될 것" [윤현주의 主食...


## Extracting links : `.get_attribute('href')`

In [18]:
for i in news_titles :
    href = i.get_attribute('href')
    print(href)

https://sports.donga.com/article/all/20230306/118185903/1
http://www.edaily.co.kr/news/newspath.asp?newsid=02220566635540696
http://www.newsis.com/view/?id=NISX20230305_0002214495&cID=10601&pID=10600
https://www.hani.co.kr/arti/culture/music/1082241.html
http://sports.khan.co.kr/news/sk_index.html?art_id=202303060907003&sec_id=540101&pt=nv
https://www.nocutnews.co.kr/news/5904755
https://www.hankyung.com/life/article/2023030354007
https://www.starnewskorea.com/stview.php?no=2023030516460369555
http://mbn.mk.co.kr/pages/news/newsView.php?category=mbn00007&news_seq_no=4909051
https://www.hankyung.com/finance/article/202302274477i


## Images : `.get_attribute('src')`

In [19]:
news_thumbnail = driver.find_elements(By.CSS_SELECTOR, 'img.thumb.api_get')
link_thumbnail = []

for img in news_thumbnail :
    link_thumbnail.append(img.get_attribute('src'))

# making a file to store the images
import os

path_folder = 'file_path'

if not os.path.isdir(path_folder) :
    os.mkdir(path_folder)

# downloading the image
from urllib.request import urlretrieve
i = 0
for link in link_thumbnail :
    i += 1
    urlretrieve(link, path_folder + f'{i}.jpg')