# 파이썬 기초 003

### 다루는 내용
- 웹 원리
- HTML/CSS/JS
- 검색엔진
- 셀레니움

웹 홈페이지는 어떤 원리일까요?

코로나 바이러스 현황 홈페이지에 들어갈 때 어떤 일이 벌이지는지 간단하게 알아볼게요.

![](https://i.imgur.com/0ci9XaT.png)

우리가 크롬 창에서 주소를 적고 엔터를 쳤을 때 크롬은 서버에 연결됩니다.

![](https://i.imgur.com/3a7ltti.png)

그리고 서버에서는 `index.html` 라는 파일을 보냅니다.

![](https://i.imgur.com/wlqNP82.png)

HTML 파일의 내용을 한국어로 보면 이렇습니다.

![](https://i.imgur.com/rlS3IWH.png)

HTML 언어로는 이렇게 생겼어요.

![](https://i.imgur.com/RYW9zMl.png)

그럼 홈페이지의 그림이나 이런건 어디에 있냐구요?

![](https://i.imgur.com/Sn9by2g.png)

이렇게 이미지 라는 태그를 통해서 가져옵니다.

![](https://i.imgur.com/JL72dOx.png)

마찬가지로 CSS/JS 파일들도 이렇게 가져옵니다.

![](https://i.imgur.com/ANf8ncx.png)

검색엔진은 다만 HTML 만 보게 됩니다.

이미지가 이쁜지, 적절한지 몰라요.

글씨크기가 적당한지, 가독성이 어떤지.

움직이는 메뉴가 사용하기 편리한지 전혀 몰라요.

(물론 요새 발전한 검색엔진은 조금 더 다양한 것을 보긴 합니다만 기초는 동일합니다.)

사람과의 관계에서 첫인상이 매우 중요하듯 검색엔진에게도 HTML 이 매우 중요합니다.

따라서 HTML 을 잘 다듬어 주어야 해요. 어떻게 다듬을 수 있을까요?

1) HTML 태그 짝 맞추기

```html
<h1>안녕하세요</h1> <!-- 제 짝 맞춘 태그 -->
<h2>감사합니다 <!-- 닫힘이 없는 태그 -->
<h3>반갑습니다</h4> <!-- 짝이 다른 태그 -->
```

2) 표준에 맞춘 태그 맞추기

```html
<gif-video></gif-video> <!-- 어떤 태그들은 특정 브라우저 전용(크롬은 되고 익스플로러는 안되고) 일 수 있습니다 -->
<video></video> <!-- 위의 태그 대신 이 태그를 써야합니다. -->
```

3) 접근성 높여주기 (ARIA)

```html
<a href="https://naver.com">네이버</a>
```

물론 위 태그는 잘못된 태그가 아니에요.

제 짝도 있고 표준 태그이기도 해요.

다만 예를 들면 시각장애인을 위한 설명문이 없는 점?

```html
<a href="https://naver.com" alt="네이버 링크" role="contentinfo">네이버</a>
```

더 자세한 내용은 [MDN ARIA](https://developer.mozilla.org/en-US/docs/Web/Accessibility/ARIA) 에서 찾아보실 수 있어요.

자 이번엔 크롬을 조종해서 원하는 데이터를 마음껏 가져와 볼게요.

우선 우리는 크롬을 조종하기 위해 셀레니움(Selenium) 이라는 라이브러리를 사용할 거에요.

소스를 먼저 간단하게 볼게요.

In [1]:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('https://coronaboard.kr')
driver.close()

WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home


아마 이런 오류가 뜨실 거에요.

```bash
/usr/local/bin/python3.7 /Users/danny/dev/python-lesson/test/003.py
Traceback (most recent call last):
  File "/usr/local/lib/python3.7/site-packages/selenium/webdriver/common/service.py", line 76, in start
    stdin=PIPE)
  File "/usr/local/Cellar/python/3.7.7/Frameworks/Python.framework/Versions/3.7/lib/python3.7/subprocess.py", line 800, in __init__
    restore_signals, start_new_session)
  File "/usr/local/Cellar/python/3.7.7/Frameworks/Python.framework/Versions/3.7/lib/python3.7/subprocess.py", line 1551, in _execute_child
    raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: 'chromedriver': 'chromedriver'

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/Users/danny/dev/python-lesson/test/003.py", line 21, in <module>
    driver = webdriver.Chrome()
  File "/usr/local/lib/python3.7/site-packages/selenium/webdriver/chrome/webdriver.py", line 73, in __init__
    self.service.start()
  File "/usr/local/lib/python3.7/site-packages/selenium/webdriver/common/service.py", line 83, in start
    os.path.basename(self.path), self.start_error_message)
selenium.common.exceptions.WebDriverException: Message: 'chromedriver' executable needs to be in PATH. Please see https://sites.google.com/a/chromium.org/chromedriver/home


Process finished with exit code 1
```

크롬 드라이버(chrome driver) 가 없다고 오류가 나고 있어요.

사실 우리는 크롬을 직접 조종하지 않아요.

![](https://i.imgur.com/UGCQsSN.png)

위 그림과 같이 중간에 셀레니움 웹드라이버(Selenium Webdriver) 가 필요해요.

우리는 셀레니움 웹드라이버를 조종하면 웹드라이버가 크롬을 조종하죠.

크롬을 위해서는 크롬 드라이버(Chrome driver)

사파리를 위해서는 사파리 드라이버(Safari driver) 등이 필요하죠.

이건 직접 인터넷에가서 다운로드 받으셔야해요. 설치할 필요는 없구요.

[https://selenium-python.readthedocs.io/installation.html#downloading-python-bindings-for-selenium](https://selenium-python.readthedocs.io/installation.html#downloading-python-bindings-for-selenium)

위 링크에 접속하신 뒤에

![](https://i.imgur.com/W1FvfPc.png)

 1.3. Drivers 에서 자신에게 맞는 드라이버를 클릭해주세요.

잠깐, 버전 확인은 자신의 크롬에서 확인하실 수 있어요.

![](https://i.imgur.com/p7MJmB7.png)
![](https://i.imgur.com/TnaxGNg.png)

제 버전은 81이군요.

![](https://i.imgur.com/2x90KMB.png)

이후 나오는 곳에서 자신의 브라우저 버전에 맞는 드라이버를 설치해주세요.

대게의 경우 크롬은 항상 최신버전입니다. 제일 위에 것을 클릭해 다운로드 받아주세요.

![](https://i.imgur.com/1VkC2Tt.png)

이후 압축을 꼭 풀어주세요.

다운로드 받은 위치를 잘 기억해주세요.

아니면 아싸리 C드라이브나 바탕화면에 다운로드 받아주세요.

다시 소스로 돌아와 아래와 같이 드라이버 위치를 넣어줍시다.

In [None]:
from selenium import webdriver
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://coronaboard.kr')
driver.close()

잠깐 접속되었다가 꺼졌죠? 중간에 잠깐 잠자게 만들어서 지켜볼까요

In [None]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://coronaboard.kr')
time.sleep(10) # 초 단위
driver.close()

자 그럼 원하는 내용을 가져와볼까요?

전세 격리해제 인원수를 가져와보도록 하죠.

![](https://i.imgur.com/VVUpyHZ.png)

소스는 아래와 같아요.

In [2]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://coronaboard.kr')
time.sleep(10)
released = driver.find_element_by_css_selector('p.released.number')
print(released.text)
driver.close()

1,760,609


잘 출력 되었나요? 자, 딱 두 줄.

정확히는 한 줄 만에 원하는 글자를 가져왔네요. 정말 신기하죠.

driver 의 `find_element_by_css_selector` 라는 함수를 실행시키네요.

넘겨주는 값으로는 `p.released.number` 를 주었구요.

`find_element_by_css_selector` 라는 함수는

css selector 를 기반으로 객체(element) 를 가져옵니다.

css selector 가 궁금해지네요.

css selector 의 자세한 정의는 뒤로 하고 간단히 말씀드리자면

객체 주소 시스템 입니다.

![](https://i.imgur.com/i4CkwPC.png)

위 그림에서 보이는 모든 빨간 박스들이 다 고유 주소를 가지고 있습니다.

css selector 는 아래와 같은 구조를 지닙니다.

```css
html:selector.class#id[attribute=value]

```

네 물론 아셔야 할 부분을 추려드렸지요. 아래와 같습니다.

```css
div
```
```html
<div>가나다</div>
```
```css
div.red
/* red 클래스를 가진 div 태그 */
```
```html
<div class="red">가나다</div>
```
```css
div.red.blue
/* red, blue 클래스를 가진 div 태그 */
```
```html
<div class="red blue">가나다</div>
```
```css
div#send
/* send 아이디를 가진 div 태그 */
```
```html
<div id="send">가나다</div>
```

조금 어렵죠. 실전을 통해 보겠습니다.

우리가 위에서 격리해제 인원수를 가져왔을때 썼던 css selector 는 아래와 같아요.

```css
p.released.number
```

이 뜻은 p 라는 html 태그가 released 와 number 라는 클래스를 가지고 있는 것 이거든요.

한번 실제로 그렇게 가지는지 보도록하죠.

우선 크롬을 켜서 coronaboard.kr 에 접속합니다.

그리고 Ctrl + Shift + C 를 눌러보세요.

그럼 이제 개발자도구가 열리면서 각 객체를 분석하게 될 수 있는데요.

그때 격리해제에 마우스를 가져다 대보세요.

![](https://i.imgur.com/Htmtkmc.png)

네 이렇게 한번에 css selector 를 가져올 수 있네요.

이 상태에서 클릭까지 해보시면 html 소스로 이동합니다.

![](https://i.imgur.com/BHop1Fr.png)

실제로 p html 태그에 released 와 number 클래스가 있네요.

좋습니다. 이제 이렇게 웹페이지에 있는 원하는 객체를

css selector 로 찾아낼 수 있게 되었습니다.

자 그럼 이제 좀 응용해서

이번에는 네이버에서 뉴스 목록을 가져와볼까요?

네이버 뉴스 목록의 css selector 가 필요하겠네요.

그럼 우선 크롬으로 접속해서 Ctrl + Shift + C 로 찾아내야겠네요.

[https://news.naver.com/main/ranking/popularDay.nhn](https://news.naver.com/main/ranking/popularDay.nhn)

위 사이트로 접속 하신 뒤 우측에 가장 많이 본 뉴스를 Ctrl + Shift + C 로 볼까요

![](https://i.imgur.com/D1fSe6o.png)
![](https://i.imgur.com/EE9STdE.png)
![](https://i.imgur.com/ZOtNojN.png)

자 css selector 를 뽑아볼까요?

보니 `nclicks(rig.rankpol)` 이란 클래스가 있네요.

이걸 테스트하려면 개발자도구에서 바로 옆에 콘솔(Console)에 가셔서

```js
document.querySelectorAll('.nclicks(rig.rankpol)')
```

![](https://i.imgur.com/JaCHLic.png)

아 무슨 오류가 뜨네요. 제대로 된 css selector 가 아니라네요.

이걸 해결할 방법은 더 있겠지만, 우리는 좀더 실용적인 방법으로 가보죠.

html 태그들은 구조로 되어있어요.

어떤 것 아래에 어떤 것. 또 그 아래의 어떤 것.

따라서 그렇게 구조적(hierarchy) 표현을 css selector 에서는 띄어쓰기로 해요.

```css
div span a
```

```html
<div>
    <span>
        <a>가나다</a>
    </span>
</div>
```

자 다시 뉴스 검색 html 소스를 볼까요.

![](https://i.imgur.com/ZOtNojN.png)

이제 눈에 익으시면 이런 구조가 한번에 눈에 띄실거에요.

```html
<ul class="section_list_ranking">
    <li>
        <span></span>
        <a>기사제목</a>
    <li>
    <li></li>
    <li></li>
</ul>
```

그럼 css selector 를 만들어볼까요.

```css
ul.section_list_ranking li a
```

크롬 개발자도구 콘솔에 가서 테스트해볼까요.

```js
document.querySelectorAll('ul.section_list_ranking li a')
```

![](https://i.imgur.com/9WufXol.png)

70개나 나오네요.

한번 첫번째꺼를 뽑아서 무슨 내용이 있나 볼까요?

우선 첫번째는 컴퓨터에서 0 인거 잊지 마시구요,

안의 내용은 `innerText` 로 알 수 있어요.

```js
document.querySelectorAll('ul.section_list_ranking li a')[0].innerText
```

![](https://i.imgur.com/Cizszlv.png)

오 잘 나왔네요.

자 이제 파이썬 코드로 만들어볼까요.

In [3]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://news.naver.com/main/ranking/popularDay.nhn')
time.sleep(10)
released = driver.find_element_by_css_selector('ul.section_list_ranking li a')
print(released.text)
driver.close()

홍준표, 진중권에 역공 "X개 눈에는 X개만 보여"


잘 나왔네요~

아까 70개가 있었는데 이걸 다 가져올 순 없을까요?

그래서 준비된 함수가 있습니다.

```js
find_element_by_css_selector()
find_elements_by_css_selector()
```

차이점은 element -> elements 복수형이 되었어요.

여러개를 가져오겠다는 거죠.

우리는 여러개를 가져와서 for 문으로 배열을 돌리면 될 것 같아요.

In [4]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://news.naver.com/main/ranking/popularDay.nhn')
time.sleep(10)
titles = driver.find_elements_by_css_selector('ul.section_list_ranking li a')
for title in titles[:10]: # 열개까지
    print(title.text)
driver.close()


홍준표, 진중권에 역공 "X개 눈에는 X개만 보여"
"X개 눈엔 X개만 보인다"…진중권 'X개'에 되받아친 홍준표
민주당, '윤미향 펜션 술파티' 논란에도 "친일 세력 공세"
통합당 '5·18 망언'사과…'40주년' 이틀 앞두고
"진중권은 좌파 부처님" 홍준표, 'X개도 아니고' 비판에 맞대응
민경욱 “검사, 우와 무서워! 라면 먹고 힘내야지”
주호영 "죄송한 마음" 사과…5·18 망언 당사자는?
홍준표, 진중권에 "X개 눈에는 X개만 보여…그만 자중하라"
[여랑야랑]윤미향의 ‘이상한 사과’ / 사라진 보수 대선주자
"1980년 박근혜, 총선 출마 원했다"…전두환도 지원


좋습니다, 이제 마지막으로 유투브 검색어 별 채널/구독자수를 가져와볼게요.

이 예제는 정말 응용하기 좋은 예제라고 생각이 되네요.

유투브도 일단 구글을 열어 html 분석을 해볼까요?

[https://youtube.com](https://youtube.com)

우선 우리는 검색을 해야하니 검색 입력칸을 클릭해서 거기에 키보드를 쳐야해요.

검색 입력칸을 먼저 css selector 를 따내볼게요.

![](https://i.imgur.com/2W4nlDb.png)

```css
input#search
```

바로 콘솔에서 테스트해볼게요.
```js
document.querySelectorAll('input#search')
```

![](https://i.imgur.com/D9KEBtg.png)

자 그럼 검색어 치는 것을 파이썬 코드로 짜볼게요.

In [None]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://youtube.com')
time.sleep(3)
search = driver.find_element_by_css_selector('input#search')
search.send_keys('주식')
time.sleep(3)
driver.close()


![](https://i.imgur.com/8WyvGgm.png)

잘 되네요!

자 그럼 이제 검색을 하려면 검색버튼을 눌러야할까요?

팁을 드리자면, 우리가 엔터쳐서 검색하듯 엔터를 입력시키면 돼요.

컴퓨터에서 엔터는 좀 특별해요. \n 이라고 치면 돼요.

In [None]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://youtube.com')
time.sleep(3)
search = driver.find_element_by_css_selector('input#search')
search.send_keys('주식\n')
time.sleep(3)
driver.close()


이번엔 각 검색 결과에서 채널들을 클릭해볼까요?

네 당연히 바로 html 분석해야해요.

![](https://i.imgur.com/ZlXnKYc.png)
![](https://i.imgur.com/OFH08UI.png)

한 눈에 들어오는 건 없어보이네요.

쉽지 않겠지만 천천히 그리고 자세히 보다보면 `ytd-channel-name` 클래스가 있네요.

그럼 그렇게 해서 한번 콘솔에서 테스트해볼까요?

```css
.ytd-channel-name
```

```js
document.querySelectorAll('.ytd-channel-name')[0].innerText
```

![](https://i.imgur.com/RW68KCc.png)

흠 슈카월드? 하지만 우리는 연합인포맥스TV 가 나와야하거든요.

![](https://i.imgur.com/wxdPBLn.png)

아무래도 저 클래스를 가진 객체가 엄청많나봐요.

이럴땐 더 **구체화** 시켜주어야해요.

단순히 `대한빌딩` 이라고만 하면 전국에 있는 모든 대한빌딩이 다 검색되겠죠?

대신에 `서울시 강남구 테헤란로 대한빌딩` 이라고 한다면?

거의 정확하게 우리가 원하는 것을 찾아주듯 css selector 도 마찬가지에요.

자, 그럼 더 위쪽으로 올라가보죠.

![](https://i.imgur.com/SfzxHG0.png)

마우스를 더 위로 올려가다보면 이런 큰 객체가 하나 있어요.

우리는 이 객체 안에 있는 `ytd-channel-name` 을 가져오면 되잖아요?

그래서 이렇게 css selector 를 만들어보아요.

```css
.ytd-video-renderer .ytd-channel-name
```

```js
document.querySelectorAll('.ytd-video-renderer .ytd-channel-name')[0].innerText
```

![](https://i.imgur.com/M0lFomz.png)

오! 잘나오네요.

그런데 혹시나해서 첫번째말고 한 다섯번째 (배열로는 4) 를 넣어봤더니

![](https://i.imgur.com/fxwlHgZ.png)

음 뭔가 이상하네요. 다른 css selector 를 찾아야겠어요.

아예 다른 css selector 를 구했어요.

```css
#channel-name a
```

```js
document.querySelectorAll('#channel-name a')[0].innerText
document.querySelectorAll('#channel-name a')[1].innerText
document.querySelectorAll('#channel-name a')[2].innerText
document.querySelectorAll('#channel-name a')[3].innerText
document.querySelectorAll('#channel-name a')[4].innerText
document.querySelectorAll('#channel-name a')[5].innerText
```

![](https://i.imgur.com/LVvs6Ie.png)

이렇게 하니, 2개씩 연속으로 나오긴 하지만 잘 나오는 것 같네요.

이런식으로 우리가 크롬으로 어떤 데이터를 가져올때 가장 중요한 것은 **css selector** 이에요.

이 부분에 대해서 아직까지 아주 깔끔한 방법은 없어요.

왜냐면 애초에 홈페이지 만드는 사람들이 css selector 를 참조하기 쉽게 만들지 않거든요~

자, 이제 다음으로 이걸 클릭할거에요.

클릭해야지 해당 채널의 구독자 수를 가져올 수 있잖아요?

그런데 클릭은 사실 어렵지 않아서, 일단 다음 단계로 넘어가서 채널 화면에서 구독자수를 가져오기 위해

해당 css selector 를 또 구해보도록 하죠.

![](https://i.imgur.com/zrGl8Pr.png)
![](https://i.imgur.com/UEEZHvc.png)

자 보시면 # 으로시작하는 id 가 있죠?

id 는 한 문서에서 **고유/유일** 한 것으로 약속되어 있어요.

뭐 여러개 쓸 수 없는 것은 아닌데 그렇게 되면 잘못된 홈페이지에요.

따라서 # 으로 시작하는 id 가 있다하면 css selector 는 그거 하나만 써도 돼요!

엄청 편한... **심봤다!**

```css
#subscriber-count
```

```js
document.querySelectorAll('#subscriber-count')[0].innerText
```

![](https://i.imgur.com/Yqq1sU8.png)

자 이제 파이썬 코드로 정리해볼게요.

우선 유튜브에 접속해서, 원하는 키워드로 검색하고

채널명을 찾아 클릭해 들어가서 구독자 수를 가져오고

그리고 스크린샷까지 찍어서 저장!

In [None]:
from selenium import webdriver
import time
driver = webdriver.Chrome('/Users/danny/Downloads/driver/chromedriver')
driver.get('https://youtube.com')
time.sleep(3)
search = driver.find_element_by_css_selector('input#search')
search.send_keys('주식\n')
time.sleep(3)

for no in range(5):
    channel = driver.find_elements_by_css_selector('#channel-name a')[no * 2] # 이부분 2배 하는 이유 주의
    channel_text = channel.text
    print(channel_text)
    channel.click() # 이렇게 클릭 할 수 있어요
    time.sleep(5)
    subscriber = driver.find_element_by_css_selector('#subscriber-count')
    print(subscriber.text)

    driver.save_screenshot(channel_text + '.png') # 이렇게 스크린샷 저장할 수 있어요

    driver.back() # 이렇게 뒤로가기 할 수 있어요
    time.sleep(4)

driver.close()

![](https://i.imgur.com/xoEv9HN.png)
![](https://i.imgur.com/q2ANiUN.png)



