# 크롤링 예제 : 티스토리 블로그 공감 누르기 자동화

먼저 크롬 브라우저를 열겠습니다.

In [1]:
import chromedriver_autoinstaller
from selenium import webdriver
from selenium.webdriver.common.by import By

In [2]:
chromedriver_autoinstaller.install()
driver = webdriver.Chrome()

티스토리 블로그에 접속해봅시다.

(티스토리는 로그인 없이 공감버튼 클릭이 가능하므로 로그인은 생략하겠습니다.)

In [3]:
# 티스토리 블로그 접속
driver.get("https://ilco.tistory.com")

첫 번째 포스팅을 클릭해보겠습니다.

먼저 브라우저에서 첫 번째 글의 제목에 마우스 커서를 대고 우클릭한 후 "검사"를 누릅니다.

![](https://i.ibb.co/BBrHZY2/2023-06-29-160124.png)

개발자도구(우측 창)의 `<span class="title">테스트2</span>`이라는 문자열에

하이라이트가 되어 있네요.

저 태그를 우클릭해서 Copy - Copy Selector 를 선택합니다.

![](https://i.ibb.co/3SJvt2w/2023-06-29-155948.png)

클립보드에 복사된 문자열은 아래와 같습니다.

In [None]:
"#content > div.inner > div:nth-child(1) > a > span.title"

**위 문자열은 특정 태그나 태그들의 목록을 가리키는 일종의 "주소"와 비슷합니다.**

우리 한국IT교육원의 주소는

"[41223] 대한민국 대구광역시 동구 동대구로 566 (신암동)" 인데요.

대한민국 사람이라면

[우편번호]나 "대한민국", 또는 "대구광역시 동구"라는 단어까지 빼고 말해도

이를테면 "동대구로 566"만 듣고도 우리 학원에 찾아오실 수 있을 거예요.

위에 붙여넣기한 저 문자열("#content > div.inner > ...")도

CSS SELECTOR 라고 불리는 문법으로,

특정 태그(첫 번째 글의 제목)를 가리키는 유연한 주소 개념이라고 이해하시면 됩니다.

간단한 문법만 몇 가지 알려드리면,

① "a" : 현재 html 소스 내에 있는 모든 a 태그들을 가리킴

② "body > a" : body 태그 바로 아래(body의 자식)에 있는 a 태그들만 가리킴

③ "body a" : body 태그 아래 어딘가 있는(body의 자손) 모든 a 태그들을 가리킴

④ "a.asdfqwer" : a 태그 중에 <a class="asdfqwer" ..> 라고 정의된 태그들만 가리킴

⑤ "#zxcvasdf" : 태그 종류와 무관하게 아이디(id)가 zxcvasdf인 태그를 가리킴

⑥ "div > a:nth-child(#)" : html소스코드 내 모든 div 중에 바로 아래 a 태그가 여러 개 있는 경우, 그 a태그 중 각각 #번째 a태그들을 가리킴

⑦ "div[class]" : div태그 중에 class라는 속성을 가진 태그들을 가리킴

⑧ "div[id^='qwer']" : div 태그 중에 id가 "qwer"로 시작하는 태그들을 가리킴

⑨ "div[id$='qwer']" : div 태그 중에 id가 "qwer"로 끝나는 태그를 가리킴

⑩ "div[id*='qwer']" : div 태그 중에 id 속성에 "qwer" 문자열이 포함된 태그들을 가리킴

이밖에도 다양한 CSS 선택자들이 있으나 우리 학습의 범위를 벗어납니다.

그래도 학습의욕이 있는 분들을 위해 w3schools의 관련 페이지 링크를 남겨둡니다.

https://www.w3schools.com/cssref/css_selectors.php

## 본론으로 돌아와서

첫 번째 글의 CSS선택자부터 네 번째 글의 CSS선택자까지

동일한 과정으로 각각 아래 붙여넣기 해보면 다음과 같습니다.

In [4]:
첫번째글 = "#content > div.inner > div:nth-child(1) > a > span.title"
두번째글 = "#content > div.inner > div:nth-child(2) > a > span.title"
세번째글 = "#content > div.inner > div:nth-child(3) > a > span.title"
네번째글 = "#content > div.inner > div:nth-child(4) > a > span.title"

차이점이 딱 한 군데 있네요. 가운데쯤의 `div:nth-child(#)` 부분인데요.

여기서 ":nth-child(#)"를 지우고 "div"만 남기면

네 개의 글을 전부 선택할 수 있는 주소가 됩니다.

이걸 "글목록" 변수에 저장해줍니다.

In [6]:
글목록_선택자 = "#content > div.inner > div > a > span.title"

이제 글목록_선택자를 통해 글제목을 가리키는 span 태그 네 개를 선택해보겠습니다.

선택자를 통해 태그를 선택하는 명령어는

driver.find_element(몇 개가 됐든지 첫 번째만 리턴), 또는

driver.find_elements(몇 개든 리스트에 담아 리턴. 한 개라도 리스트에 담음)

입니다.

In [8]:
글제목_태그목록 = driver.find_elements(By.CSS_SELECTOR, 글목록_선택자)
for 글제목 in 글제목_태그목록:
    print(글제목.text)

테스트2
테스트1
이커머스
qwerqwer


해당 글제목이 전부 출력되었습니다.

이번엔 글제목을 하나씩 클릭해서 포스팅에 들어갔다가

driver.back()으로 메인화면으로 돌아오는 코드를 실행해볼까요?

(미리 말씀드리지만 오류가 발생합니다.)

In [9]:
글제목_태그목록 = driver.find_elements(By.CSS_SELECTOR, 글목록_선택자)
for 글제목 in 글제목_태그목록:
    글제목.click()
    driver.back()

StaleElementReferenceException: Message: stale element reference: stale element not found
  (Session info: chrome=114.0.5735.199); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#stale-element-reference-exception
Stacktrace:
Backtrace:
	GetHandleVerifier [0x00F26E73+48323]
	(No symbol) [0x00EB9661]
	(No symbol) [0x00DC5308]
	(No symbol) [0x00DCE553]
	(No symbol) [0x00DC8A28]
	(No symbol) [0x00DC7BB3]
	(No symbol) [0x00DC9991]
	(No symbol) [0x00DC9A30]
	(No symbol) [0x00DF1EC9]
	(No symbol) [0x00DE9F4D]
	(No symbol) [0x00E0A8DC]
	(No symbol) [0x00DE9BD6]
	(No symbol) [0x00E0AC34]
	(No symbol) [0x00E1CAC2]
	(No symbol) [0x00E0A6D6]
	(No symbol) [0x00DE847C]
	(No symbol) [0x00DE957D]
	GetHandleVerifier [0x0118FD5D+2575277]
	GetHandleVerifier [0x011CF86E+2836158]
	GetHandleVerifier [0x011C96DC+2811180]
	GetHandleVerifier [0x00FB41B0+626688]
	(No symbol) [0x00EC314C]
	(No symbol) [0x00EBF4B8]
	(No symbol) [0x00EBF59B]
	(No symbol) [0x00EB21B7]
	BaseThreadInitThunk [0x760C00C9+25]
	RtlGetAppContainerNamedObjectPath [0x77A87B4E+286]
	RtlGetAppContainerNamedObjectPath [0x77A87B1E+238]


StaleElementReferenceException 오류는 왜 발생하게 된 걸까요?

사실 find_elements를 통해 추출한 태그정보는 일회성입니다.

페이지가 변경되거나 새로고침될 때 다시 얻어와야 합니다.

새로고침된 태그들은 (주소나 속성은 완전히 동일할지언정)

이전의 태그들과 다른 객체(인스턴스)이기 때문에,

기존의 태그 리스트로 접근할 수 없습니다.

조금 번거롭지만 아래와 같이 수정하면 실행할 수는 있습니다.

In [12]:
글_갯수 = len(driver.find_elements(By.CSS_SELECTOR, 글목록_선택자))

for 글번호 in range(글_갯수):
    글제목_태그목록 = driver.find_elements(By.CSS_SELECTOR, 글목록_선택자)
    글제목_태그목록[글번호].click()
    driver.back()

1페이지의 글 4개를 모두 들어갔다 나왔습니다.

하지만 좋은 방법은 아닙니다.

태그목록을 매번 조회하는 방법이 다소 비효율적이네요.

더 좋은 방법이 없을까요?

# 바로 span 태그 상단의 a 태그를 이용하는 방식입니다.

a태그 안에는 해당 글의 URL이 들어있는데,

이 문자열을 통해 driver.get으로 직접 접근하면 될 것 같아요.

그러면 매번 글제목 태그의 목록을 조회하지 않아도 되겠습니다.

# 새로운 방법(a태그의 href 속성을 이용)

html 소스코드 내에서 사용자와 상호작용하는 태그는 주로

a, input, button 등입니다. 특히 a는 anchor의 약자로

다른 페이지로 이동할 수 있게 해줍니다.

아까 우리가 제목을 클릭했지만, 실제로 행동했던 태그는

바로 상단의 a태그입니다.

![](https://i.ibb.co/sqSgRbs/2023-06-29-173218.png)

(그리고 자세히 보시면 a태그 안에 네 개의 span이 전부 들어있는 것도 확인할 수 있습니다.)

아까와 동일한 과정으로 a태그의 선택자를 복사해와봅시다.


In [13]:
첫번째글_a태그 = "#content > div.inner > div:nth-child(1) > a"
두번째글_a태그 = "#content > div.inner > div:nth-child(2) > a"
세번째글_a태그 = "#content > div.inner > div:nth-child(3) > a"
네번째글_a태그 = "#content > div.inner > div:nth-child(4) > a"

이번에도 동일하게 ":nth-child(#)"이 붙어있네요.

제거하고 find_element를 실행해보겠습니다.

In [14]:
주소선택자 = "#content > div.inner > div > a"
driver.find_elements(By.CSS_SELECTOR, 주소선택자)

[<selenium.webdriver.remote.webelement.WebElement (session="4699d0b05821192494dae9e693a6f80e", element="F646481B5B56FE04BF311B139185E845_element_580")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4699d0b05821192494dae9e693a6f80e", element="F646481B5B56FE04BF311B139185E845_element_587")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4699d0b05821192494dae9e693a6f80e", element="F646481B5B56FE04BF311B139185E845_element_588")>,
 <selenium.webdriver.remote.webelement.WebElement (session="4699d0b05821192494dae9e693a6f80e", element="F646481B5B56FE04BF311B139185E845_element_589")>]

In [15]:
[i.get_attribute("href") for i in driver.find_elements(By.CSS_SELECTOR, 주소선택자)]

['https://ilco.tistory.com/8',
 'https://ilco.tistory.com/7',
 'https://ilco.tistory.com/4',
 'https://ilco.tistory.com/3']

네 개의 포스팅 주소가 추출되었습니다.

이걸 이용하면 태그를 찾고 클릭하고 back() 으로 돌아오고 하는 과정 없이

한 번에 네 개의 포스팅을 빠르게 돌 수 있겠습니다.

다음은 페이지를 옮기는 방식입니다.

# 작성중

In [33]:
# 내 블로그의 마지막 페이지가 몇 번인지 확인할 수 있을까?
page_num = 1
while True:
    driver.get(f"https://ilco.tistory.com/?page={page_num}")

    주소선택자 = "#content > div.inner > div > a"
    주소태그목록 = driver.find_elements(By.CSS_SELECTOR, 주소선택자)
    주소목록 = [i.get_attribute("href") for i in driver.find_elements(By.CSS_SELECTOR, 주소선택자)]

    for 포스팅 in 주소목록:
        driver.get(포스팅)

        공감클릭()

    driver.get(f"https://ilco.tistory.com/?page={page_num}")
    if "no-more-next" in driver.find_element(By.CSS_SELECTOR, "#content > div.pagination > a.next").get_attribute("class"):
        break
    page_num += 1
print(page_num)

2


In [32]:
공감클릭()

In [25]:
def 공감클릭():
    공감_선택자 = "button > div > span.ico_postbtn.ico_like"
    if "like_on" not in driver.find_element(By.CSS_SELECTOR, "div[id^='reaction-'] > button > div").get_attribute("class"):
        공감버튼 = driver.find_element(By.CSS_SELECTOR, 공감_선택자)
        공감버튼.click()