## urllib 라이브러리

- urllib은 표준 파이썬 라이브러리입니다.

- requests 라는 라이브러리는 설치가 필요하지만 urllib는 뭔가 추가로 설치할 필요가 없습니다. requests는 다음에 다룹니다.

- urllib는 웹을 통해 데이터를 요청하는 함수, 쿠키를 처리하는 함수, 심지어 헤더나 유저 에이전트 같은 메타데이터를 바꾸는 함수도 포함하는 통합 패키지 입니다.

- urllib 패키지에서 포함한 함수인 urlopen은 네트워크를 통해 원격 객체를 읽습니다. urlopen은 HTML파일이나 이미지 파일, 기타 파일 스트림을 쉽게 열 수 있는 매우 범용적인 라이브러리입니다. 여기서는 우선 urlopen으로 HTML 파일 소스코드를 읽어왔습니다. 이 읽어온 HTML 파일은 BeautifulSoup 이라는 패키지에서 처리하여 데이터화 시킵니다.

- BeautifulSoup 객체에 들어 있는 태그에 접근할 때마다 그 태그가 실제 존재하는지 체크하는 편이 좋습니다. 가능한 에러를 모두 체크하고 처리하는 게 처음에는 지겨워 보일 수 있지만, 코드를 조금만 수정하면 좀 더 쉽게 읽을 수 있게 만들 수 있습니다.

- 이 예제에서는 페이지 타이틀을 반환하거나, 어떤 문제가 있으면 None 객체를 반환하는 getTitle 함수를 만듭니다.

In [1]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        soup = BeautifulSoup(html.read(), "html.parser")
        # soup 객체의 첫번째 body를 찾고 그 다음 첫번째 h1 을 찾는다
        title = soup.body.h1
    except AttributeError as e:
        return None
    return title


title = getTitle("http://www.pythonscraping.com/pages/page1.html")
if title == None:
    print("Title could not be found")
else:
    print(title)

<h1>An Interesting Title</h1>


## Request 라이브러리

- 이번에는 request를 사용해서 웹 요청을 합니다.

In [2]:
import requests

# HTTP GET Request
url = 'http://pythonscraping.com/pages/files/form.html'

# 해당 url으로 request.get 를 이용하여 GET 요청을 보낸다.
req = requests.get(url)
print(req)
print('req was printed')
print('\n')

# HTML 소스 가져오기
html = req.text
print(html)
print('html was printed')
print('\n')

# HTTP Header 가져오기
header = req.headers
print(header)
print('header was printed')
print('\n')

print(type(header))
print('\n')

# HTTP Status 가져오기 (200: 정상적으로 get 요청이 되었음)
status = req.status_code
print(status)
print('\n')

# HTTP가 정상적으로 되었는지 (True/False)
is_ok = req.ok
print(is_ok)
print('\n')


<Response [200]>
req was printed


<h2>Tell me your name!</h2>
<form method="post" action="processing.php">
First name: <input type="text" name="firstname"><br>
Last name: <input type="text" name="lastname"><br>
<input type="submit" value="Submit" id="submit">
</form>
html was printed


{'Date': 'Tue, 08 Sep 2020 18:25:13 GMT', 'Server': 'Apache', 'Last-Modified': 'Sat, 09 Jun 2018 19:16:01 GMT', 'ETag': '"4121be2-e9-56e3a58da861a"', 'Accept-Ranges': 'bytes', 'Content-Length': '233', 'Cache-Control': 'max-age=1209600', 'Expires': 'Tue, 22 Sep 2020 18:25:13 GMT', 'Keep-Alive': 'timeout=5, max=100', 'Connection': 'Keep-Alive', 'Content-Type': 'text/html'}
header was printed


<class 'requests.structures.CaseInsensitiveDict'>


200


True




## BeautifulSoup 기초

- find() 와 findAll() : find()와 findAll()은 BeautifulSoup에서 가장 자주 쓰는 함수입니다. 이 함수를 쓰면 HTML 페이지에서 원하는 태그를 다양한 속성에 따라 쉽게 필터링할 수 있습니다. 두 함수는 거의 비슷합니다.

- 함수의 정의
    
    - findAll(tag, attributes, recursive, text, limit, keyword)
    
    - find(tag, attributes, recursive, text, keyword)

- tag 매개변수는 태그 이름인 문자열을 넘기거나, 태그 이름으로 이루어진 파이썬 리스트를 넘길 수도 있습니다. 

- attritubes 매개변수는 속성으로 이루어진 파이썬 딕셔너리를 받고, 그 중 하나에 일치하는 태그를 찾습니다. 

- 예를 들어 다음 함수는 HTML 문서에서 녹색과 빨간색 span 태그를 모두 반환 합니다.

    - findAll("span",{"class":{"green","red"}")

- recursive 매개변수는 불리언입니다. 문서에서 얼마나 깊이 찾아 들어가고 싶은지를 지정합니다. 웬만하면 그대로 두는 것이 좋습니다.

- text 매개변수는 태그의 속성이 아니라 텍스트 콘텐츠에 일치하는 걸 찾습니다.

- limit 매개변수는 페이지의 항목 처음 몇 개에만 관심 있을 때 사용합니다. find는 findAll을 호출하면서 limit을 1로 지정한 것과 같습니다.

- keyword 매개변수는 특정 속성이 포함된 태그를 선택할 때 사용합니다.
    - *keyword 매개변수는 사실 tag, attritutes의 조합으로도 표현 가능합니다. 다만 간결한 표현이 가능하다는 점이 다릅니다.

In [3]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html1 = urlopen("http://www.pythonscraping.com/pages/warandpeace.html")
soup1 = BeautifulSoup(html1, "html.parser")

nameList = soup1.findAll("span",{"class":"green"})

for name in nameList:
    print(name.text)
print('------------------------------------------')

Anna
Pavlovna Scherer
Empress Marya
Fedorovna
Prince Vasili Kuragin
Anna Pavlovna
St. Petersburg
the prince
Anna Pavlovna
Anna Pavlovna
the prince
the prince
the prince
Prince Vasili
Anna Pavlovna
Anna Pavlovna
the prince
Wintzingerode
King of Prussia
le Vicomte de Mortemart
Montmorencys
Rohans
Abbe Morio
the Emperor
the prince
Prince Vasili
Dowager Empress Marya Fedorovna
the baron
Anna Pavlovna
the Empress
the Empress
Anna Pavlovna's
Her Majesty
Baron
Funke
The prince
Anna
Pavlovna
the Empress
The prince
Anatole
the prince
The prince
Anna
Pavlovna
Anna Pavlovna
------------------------------------------


### children And descendants(자식과 자손)

- BeautifulSoup 라이브러리는 자식과 자손을 구별합니다. 

- 자식은 항상 부모보다 한 태그 아래에 있고, 자손은 조상보다 몇 단계든 아래에 있을 수 있습니다. 

- 예를들어 앞에서 tr 태그는 table 태그의 자식이며 tr과 th, td, img, span은 모두 table 태그의 자손입니다.

- 일반적으로 BeautifulSoup 함수는 항상 현재 선택된 태그의 자손을 다룹니다.

- soup.div.findAll("img")는 문서의 첫 번째 div 태그를 찾고, 그 div 태그의 자손인 모든 img 태그의 목록을 가져옵니다. 

- 자식만 찾을 때는 .children을 사용합니다.

- 다음 코드는 giftList 테이블에 들어 있는 제품 행 목록을 출력합니다. 


In [4]:
html2 = urlopen("http://www.pythonscraping.com/pages/page3.html")
soup2 = BeautifulSoup(html2,"html.parser")

for child in soup2.find("table",{"id":"giftList"}).children:
    print(child)
print('------------------------------------------')



<tr><th>
Item Title
</th><th>
Description
</th><th>
Cost
</th><th>
Image
</th></tr>


<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg">
</img></td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg">
</img></td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/im

### 형제 다루기

- BeaufifulSoup의 next_siblings() 함수는 테이블에서 데이터를 쉽게 수집할 수 있으며, 특히 테이블에 타이틀 행이 있을 때 유용합니다.

- 타이틀 행을 선택하고 next_sibling을 호출했으므로, 타이틀 행 자체를 제외한 모든 테이블 행을 선택하게 됩니다. 

- next_siblings를 보완하는 previous_siblings 함수도 있습니다.



In [5]:
for sibling in soup2.find("table",{"id":"giftList"}).tr.next_siblings:
    print(sibling)
print('------------------------------------------')



<tr class="gift" id="gift1"><td>
Vegetable Basket
</td><td>
This vegetable basket is the perfect gift for your health conscious (or overweight) friends!
<span class="excitingNote">Now with super-colorful bell peppers!</span>
</td><td>
$15.00
</td><td>
<img src="../img/gifts/img1.jpg">
</img></td></tr>


<tr class="gift" id="gift2"><td>
Russian Nesting Dolls
</td><td>
Hand-painted by trained monkeys, these exquisite dolls are priceless! And by "priceless," we mean "extremely expensive"! <span class="excitingNote">8 entire dolls per set! Octuple the presents!</span>
</td><td>
$10,000.52
</td><td>
<img src="../img/gifts/img2.jpg">
</img></td></tr>


<tr class="gift" id="gift3"><td>
Fish Painting
</td><td>
If something seems fishy about this painting, it's because it's a fish! <span class="excitingNote">Also hand-painted by trained monkeys!</span>
</td><td>
$10,005.00
</td><td>
<img src="../img/gifts/img3.jpg">
</img></td></tr>


<tr class="gift" id="gift4"><td>
Dead Parrot
</td><td>
Thi

### 부모다루기

- 가끔 자식이나 형제가 아니라 부모를 찾아야 할 때도 있습니다.  

- 가끔 .parent 와 parents가 필요할 때가 있다는 말입니다.


- 다음 코드는 ../img/gifts/img1.jpg 이미지가 나타내는 객체의 가격을 출력합니다.

In [6]:
print(soup2.find("img",{"src":"../img/gifts/img1.jpg"}).parent.previous_sibling.text)



$15.00



### 간단히 미국 나스닥 종목의 재무 데이터 크롤링 해보기

- http://finviz.com/quote.ashx?t=NVDA 는 미국주식 NVIDIA에 대한 데이터 테이블이 있습니다.

- 이 테이블은 HTML코드로 정렬되어 있는데 CSV 파일로 만들 전에 이것들을 제거 해야 합니다.

- BeautifulSoup와 getText() 함수를 써서 짧은 코드로 그 일을 할 수 있습니다.

In [7]:
# Finviz 사이트의 nvda에 웹 요청을 통해 데이터를 가져온다.
# headers와 같이 요청해주어야 한다.
# urllib으로 headers를 요청할 수도 있지만, 모듈을 몇개 더 불러와야하기 때문에 간단한 requests를 사용하겠다.
import csv
import requests
from bs4 import BeautifulSoup as bs

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}


ticker = "NVDA".lower()
url = f'http://finviz.com/quote.ashx?t={ticker}'

req = requests.get(url, headers=headers)
html = req.text

# html을 기본 파서로 사용하지만, lxml 파서가 더 빨리 작동하므로 lxml을 사용한다.
# 기본으로 BeautifulSoup 객체를 다운로드 받게된다.
soup = bs(html, 'lxml')
print(soup)

ite-space:nowrap"><a class="tab-link" href="http://www.sec.gov/Archives/edgar/data/1045810/000104581020000026/xslF345X03/wf-form4_158223960751638.xml">Feb 20 06:00 PM</a></td></tr><tr class="insider-option-row" onmouseout="this.className='insider-option-row'" onmouseover="this.className='insider-light-row-h'" valign="top"><td><a class="tab-link" href="insidertrading.ashx?oc=1219888&amp;tc=7">HUDSON DAWN E</a></td><td style="white-space:nowrap">Director</td><td>Feb 18</td><td align="center" style="white-space:nowrap">Option Exercise</td><td align="right">15.23</td><td align="right">35,177</td><td align="right">535,774</td><td align="right">66,214</td><td align="center" style="white-space:nowrap"><a class="tab-link" href="http://www.sec.gov/Archives/edgar/data/1045810/000104581020000025/xslF345X03/wf-form4_158223958858737.xml">Feb 20 06:00 PM</a></td></tr><tr class="insider-sale-row-2" onmouseout="this.className='insider-sale-row-2'" onmouseover="this.className='insider-light-row-h'" val

In [8]:
# 그리고 P/E 텍스트의 위치를 찾는다.

d = soup.find(text="P/E")
print(d)

"""
<HTML 코드>
P/E</td><td width="8%" class="snapshot-td2" align="left"><b>92.53</b></td>
파이썬 코드는 
"""

d_ = d.find_next(class_='snapshot-td2').text
print(d_)

P/E
92.57


In [9]:
"""
함수로 구현
"""
def getFinancialRatioUS(symbol, item):
    try:
        symbol = symbol.lower()
        url = f'http://finviz.com/quote.ashx?t={symbol}'

        req = requests.get(url, headers=headers)
        html = req.text
        soup = bs(html, 'lxml')
        pb = soup.find(text=item)
        pb_ = pb.find_next(class_='snapshot-td2').text
        return pb_
    except Exception as e:
        print(e)

# NVDA psr 파싱
psr = getFinancialRatioUS("NVDA","P/S")
print(psr)

24.59


In [10]:
# nvda의 모든 재무데이터를 csv로 파일 저장

csvFile = open("nvda_fundamental.csv", "wt")
writer = csv.writer(csvFile)

# 항목이름 all
names = soup.findAll(class_='snapshot-td2-cp')
# 항목 값 all
datas = soup.findAll(class_='snapshot-td2')

try:
    for i in range(len(names)):
        name = names[i].text
        data = datas[i].text
        writer.writerow(("NVDA", name, data))
finally:
    csvFile.close()


## 동적 크롤링

### 동적 크롤링에 앞서 간단한 웹 용어와 구조를 확인해보자

- 자바스크립트 : 최신 웹 페이지에 거의 어디서나 쓰인다.

    - 자바 스크립트는 현재 웹에서 가장 널리 쓰이고 가장 잘 지원되는 클라이언트 스크립트 언어이다. 

    - 자바스크립트는 사용자 추적을 위한 정보 수집, 폼을 새로 고치지 않은 상태에서의 정보 전송, 멀티미디어 파일 등에 쓰이며 심지어 게임도 만들 수 있다. 

    - 아주 단순해 보이는 페이지에도 자바스크립트가 많이 들어 있다. 

    - 자바스크립트는 페이지의 소스 코드에서 <script> 태그 부분에 들어 있다.

- 제이쿼리
    
    - 제이쿼리(jQuery)는 대단히 널리 쓰이는 자바스크립트 라이브러리이다. 
    
    - 유명한 인터넷 사이트의 70%가 제이쿼리를 사용하고, 다른 사이트 들도 30% 정도는 제이쿼리를 사용했다. 
    
    - 제이쿼리를 사용하는 사이트는 코드 어딘가에 다음과 같이 제이쿼리를 불러오는 임포트 문이 있으므로 쉽게 구별할 수 있다.

    - <scrpit src = "http://ajax.googleapis.com/ajax/libs/jquery/1.9.1/jquery.min.js"></script>
    
    - 사이트에서 제이쿼리를 사용한다면 반드시 조심해서 스크랩해야 한다. 
    
    - 제이쿼리는 자바스크립트가 실행된 다음에 동적으로 HTML 콘텐츠를 생성할 수 있기 때문입니다. 
    
    - 앞에서 사용한 방법대로 정적크롤링을 이용해 페이지 콘텐츠를 스크랩하면 자바스크립트로 생성한 콘텐츠는 모두 놓치게 된다.


- Ajax와 동적 HTML

    - 여태까지 우리가 웹 서버와 한 통신은 페이지를 가져올 때 일종의 HTTP 요청을 보낸 것 뿐이다. 
    
    - 페이지를 새로 고치지 않고 폼을 전송하거나 서버에서 정보를 가져온 경험이 있다면 그건 아마 Ajax를 통한 것이다.

    - Ajax는 비동기 자바스크립트와 xml의 약자이며, 서버에 별도의 페이지를 요청하지 않고 정보를 주고 받기 위해 사용된다. 

    - Ajax와 마찬가지로 DHTML(Dynamic HTML)도 같은 목적을 위해 함께 사용하는 기술을 묶어 부르는 말이다. 
    
    - DHTML은 클라이언트 쪽 스크립트가 페이지의 HTML 요소 바뀜에 따라 바뀌는 HTML이거나 CSS 이다. 
    
    - 사용자가 커서를 움직여야만 버튼이 나타나거나, 클릭에 따라 배경색이 바뀌거나 Ajax 요청으로 새로운 콘텐츠가 나타날 수도 있다.

    - 다양한 웹사이트에서 아주 많이 스크랩한다면 곧 브라우저에 보이는 콘텐츠가 사이트에서 스크랩한 소스 코드와는 맞지 않는 상황이 발생할 것이다. 
    
    - 스크레이퍼가 내놓은 결과를 보고 브라우저에서 보던 내용이 다 어디로 사라졌는지 궁금해 질 것이다. 
    
    - 또한 페이지에서 리다이렉트가 일어나서 다른 페이지로 이동했지만, 페이지 URL은 전혀 바뀌지 않을 수도 있다.

    - 이런 모든 상황은 자바스크립트가 페이지에서 하는 일을 스크레이퍼는 하지 못하기 때문에 일어나는 일이다. 

    - 자바스크립트가 없다면 HTML은 그냥 가만히 있을 뿐이며, 자바스크립트를 잘 실행하는 웹 브라우저에서 보이는 것과는 매우 다르게 보일 수 있다.

    - 페이지가 Ajax나 DHTML을 써서 콘텐츠를 바꾸거나 불러올 때 어쨋든 스크랩을 하려면 해결책은 두가지 뿐이다.  
        
        - (1) 자바 스크립트를 분석해 콘텐츠를 직접 스크랩하는 것 
        
        - (2) 자바스크립트 자체를 실행할 수 있는 파이썬 패키지를 써서 웹사이트를 브라우저에 보이는 그대로 스크랩하는 것

### 셀레니움

- 셀리니움은 강력한 웹 스크래이핑 도구이다. 

- 셀리니움은 브라우저가 웹사이트를 불러오고 필요한 데이터를 가져오고, 스크린 샷을 찍거나, 특정 행동에 대한 것들을 자동화 한다.

- 셀리니움에는 자체적인 웹 브라우저가 들어 있지 않으므로 다른 브라우저가 있어야 동작한다. 

- 팬텀JS라는 브라우저를 사용하면 그래픽을 전혀 렌더링 하지 않기 때문에  셀리니움과 팬텀JS를 결합하면 대단히 강력한 웹 스크래이퍼를 갖게 된다.

- 하지만 팬텀js는 과거에 주로 사용하던 구시대적인 방법이고 요즘에는 크롬에 헤드리스 옵션을 준 브라우저를 사용하면 훨씬 메모리도 적게 들고 성능이 좋다.

In [13]:
# 다음 코드는 테스트 페이지에서 Ajax의 '벽' 뒤에 있는 텍스트를 가져옵니다.

from selenium import webdriver
import time
import os

# 크롬 드라이버가 있는 파일 경로를 설정한다.
path = os.getcwd()

# working directory를 변경
os.chdir(path)

# 셀레니움 웹드라이브가 웹페이지를 따로 열지 않고도 데이터를 가져올 수 있게 해주는 장치이다.
# 만약 없으면 코드 실행 중 페이지가 자동으로 열린다.
options = webdriver.ChromeOptions()
options.add_argument('headless') # headless: 크롤링 할때 브라우저가 안뜨도록 설정

# 설치한 크롬드라이브의 위치를 webdriver에게 알려줘야 한다. chromedriver.exe가 있는 경로를 설정해준다.
driver = webdriver.Chrome('chromedriver.exe', options=options)

URL = "http://pythonscraping.com/pages/javascript/ajaxDemo.html"
driver.get(URL)

time.sleep(3)

print(driver.find_element_by_id("content").text)
driver.close()

Here is some important text you want to retrieve!
A button to click!


- 이전에는 find와 findAll 같은 BeautifulSoup 선택지를 써서 페이지 요소를 선택했습니다. 

- 셀리니움은 웹드라이버의 DOM(문서 객체 모델)에서 요소를 찾을 떄 완전히 새로운 선택자를 사용합니다.

- 예제에서는 선택자 find_element_by_id를 사용했지만 다음과 같이 다른 선택자를 사용했어도 된다.

    - driver.find_element_by_css_selector("#content")
    - driver.find_element_by_tag_name("div")

- 이 콘텐츠를 BeautifulSoup으로 파싱하는 것도 가능합니다. 웹드라이버의 page_source 함수는 현 시점의 DOM을 문자열로 반환합니다.

- 모든 것이 정확히 설치되고 설정됐다면 스크립트를 실행하고 몇 초 뒤에는 텍스트를 출력할 것이다. (위에서 time.sleep(3)줬음) 다만 이 방법은 좀 비효율 적이고, 문제가 생길 소지도 있다. 

- 더 효율적인 방법은 페이지를 완전히 불러왔을 때만 존재하는 요소를 계속해서 확인하다가, 그 요소가 존재할 때만 데이터를 가져오는 것이다.

- 여러가지 예상 조건을 사용할 수 있는데, 그중에서도 자주 쓰이는 것은 다음과 같다.

    - 알림 박스 팝업
    - 요소(텍스트 박스 등) 선택 상태로 바뀜
    - 페이지 타이틀이 바뀌거나, 어떤 텍스트가 페이지 또는 특정 요소안에 표시됨
    - 보이지 않던 요소가 DOM상에 보이게 되거나, 반대로 어떤 요소가 DOM에서 사라짐

- 물론 예상 조건을 사용하려면 어떤 요소를 지켜볼지 지정해야 합니다. 지켜볼 요소는 위치 지정자로 정한다. 

- 위치 지정자는 선택자와는 다르다. 위치 지정자는 By객체를 사용하는 추상 쿼리 언어이다. By 객체는 다양한 방법으로 사용될 수 있는데, 선택자를 만들 때도 쓸 수 있다.

- By 객체와 함꼐 쓸 수 있는 위치 지정자는 다음과 같습니다.

    - ID : id 속성으로 요소를 찾는다.

    - CLASS_NAME : class 속성으로 요소를 찾는다. 

    - CSS_SELECTOR : class, id, tag 이름으로 요소를 찾습니다. 표기법은 각각 #idName, .className, tagName이다.

    - LINK_TEXT : 링크 텍스트로 <a> 태그를 찾는다. 

    - PARTIAL_LINK_TEXT : LINK_TEXT와 비슷하지만 문자열 일부에 일치하는 텍스트를 찾는다.

    - NAME : name 속성으로 요소를 찾는다. 폼을 다룰 때 편리하다.

    - TAG_NAME : 태그 이름으로 요소를 찾는다.

- 다음 코드는 네이버의 메인 페이지를 캡쳐해서 "NaverTitle.png" 라는 이름으로 저장합니다.

- 크롬 헤드리스 드라이버를 추출한 다음 드라이버가 URL의 웹 페이지를 읽어 들이고, 

- 화면을 캡처해서 파일로 저장합니다. close() 메서드로 크롬 브라우저를 종료합니다.

In [14]:
from selenium import webdriver
import os

# 크롬 드라이버가 있는 파일 경로를 설정한다.
path = os.getcwd()

# working directory를 변경
os.chdir(path)

# 셀레니움 웹드라이브가 웹페이지를 따로 열지 않고도 데이터를 가져올 수 있게 해주는 장치이다.
# 만약 없으면 코드 실행 중 페이지가 자동으로 열린다.
options = webdriver.ChromeOptions()
options.add_argument('headless')  # headless: 크롤링 할때 브라우저가 안뜨도록 설정

# 설치한 크롬드라이브의 위치를 webdriver에게 알려줘야 한다. chromedriver.exe가 있는 경로를 설정해준다.
driver = webdriver.Chrome('chromedriver.exe', options=options)

url = "http://www.naver.com"

# URL 읽어들이기
driver.get(url)

# 화면 캡쳐하기
driver.save_screenshot("NaverTitle.png")

# 브라우저 종료하기
driver.close()

- 기본적으로 알아두면 좋은 Selenium의 메서드는 다음과 같습니다.

    - URL에 접근 : get(url)

    - 페이지의 단일 element에 접근
        
        - find_element_by_name('HTML_name')
        
        - find_element_by_id('HTML_id')
        
        - find_element_by_xpath('/html/body/some/xpath')

    - 페이지의 여러 elements에 접근

        - find_element_by_css_selector('#css > div.selector')

        - find_element_by_class_name('some_class_name')

        - find_element_by_tag_name('h1')

- 굉장히 다양한 메서드가 있는데 기초적인 것은 여기까지 알아보겠습니다.

- 더 다양한 메서드를 알고 싶다면 https://selenium-python.readthedocs.io/ 에서 찾아보시기 바랍니다.