# 1장. 웹 크롤링(crawling)
## 1. 웹 페이지 데이터 추출
* 데이터 분석을 할 때 우리가 원하는 모든 데이터셋이 준비가 되어 있는 것은 아니기 때문에 직접 데이터를 수집해야하는 경우가 생긴다.
* 웹 페이지를 그대로 가져와서 데이터를 추출해내는 스크레이핑(scraping)은 유용한 데이터 수집방법이 될 수 있고, 반복적이고 자동화된 스크레이핑을 크롤링(crawling)이라고 한다. 

## 2. 웹 문서의 구조
* 웹 크롤링을 하기 위해서는 웹 사이트의 구조를 알아야 한며, 이를 위해서는 HTML과 CSS 선택자에 대한 이해가 필수적이다. 

### 1. 마크업 언어(mark-up language)
* 마크업 언어는 원래 텍스트 외의 원고의 교정부호와 주석을 표현하기 위한 것이었지만 용도가 확장되어 문서의 구조를 표현하는 역할을 하게 되며, 프로그래밍 언어와는 구별된다. 
* 마크업언어는 꺾쇠 괄호(<,>)에 둘러싸인 태그(tag)와 태그 내부의 속성(attribute)을 통해 데이터를 기술(description)한다. 
* 현재 이 문서를 기술하고 있는 마크다운(Markdown)도 마크업 언어의 일종이다. 

### 2. HTML(Hyper-Text Mark-up Language)
* 우리 눈에 보이는 웹페이지의 모습은 보이지 않는 마크업 언어인 HTML의 태그와 속성에 의해 그 구조와 내용이 기술되고, 요소로서 구현된다. 
* 문서 객체 모델(DOM: The Document Object Model)은 HTML 문서의 프로그래밍 인터페이스로서, 웹 문서의 구조화된 표현을 제공한다. 상위요소와 하위요소가 있는 나무 모델을 생각하면 이해하기 쉽다. 
* 우리는 DOM을 통해 프로그래밍 언어로 웹 문서에 접근하여 문서 구조, 스타일, 내용 등을 변경할 수 있게 된다. 
* 크롬(Chrome)의 경우 개발자 도구(Ctrl + Shift + I)를 통해 HTML 구조와 DOM 요소를 확인할 수 있다.

In [41]:
# HTML 예시

In [22]:
%%html

<!DOCTYPE HTML>
<html>
    <head>
        <title>문서의 제목으로서 브라우저에서는 탭의 이름에 해당한다.</title>
    </head>
    <body>
        <h1>
            <a href="https:www.samsung.net", target="_blank">가장 높은 수준의 제목</a>
        </h1>
        
        <h2>두 번째 수준의 제목 1 </h2>
            <center>
            
                <img src="https://i.ytimg.com/vi/dHmyY0iX0ww/hqdefault.jpg", width = 300, alt="강아지 두 마리의 사진">
            
            </center>
            
            <p> 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
                문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
                문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. </p>
            
            <p> <b>문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
                문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
                문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. </b></p>
        
        <h2>두 번째 수준의 제목 2 </h2>
        
            <center>
            
                <img src="https://i.ytimg.com/vi/w3aXTGahEo4/maxresdefault.jpg", width = 300, alt="고양이 두 마리의 사진">
            
            </center>

            <p> <i>문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
            문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
            문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용.</i></p>

            <p> <ins>문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
            문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
            문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. </ins></p>
    </body>
</html>

### 3. CSS 선택자(CSS selector)
#### 1. 웹페이지 내 요소의 식별
* 웹크롤링을 하기 위해서는 웹 페이지 내의 HTML 요소에 접근해야한다. 
* 개발자 도구를 열어 DOM 구조를 확인해보면 간단해 보이는 웹페이지에도 수많은 요소들이 존재한다는 것을 알 수 있다.
* CSS 선택자는 우리가 수많은 요소 중 우리가 원하는 것을 특정(specify)할 수 있도록 도와준다. 
* 선택자를 잘 활용하면 구조가 복잡합 HTML 페이지라도 한 번에 원하는 데이터를 추출할 수 있다.
* 'XPATH'라는 것을 이용해 HTML 요소에 접근할 수도 있지만 본 강의에서는 다루지 않는다. 

#### 2. 요소 간의 관계
* HTML의 각 요소들은 서로간의 관계에 따라 조상 요소, 자손 요소, 부모 요소, 자식 요소가 될 수 있다. 
    * 한 요소의 모든 하위 요소를 자손 요소, 한 요소의 __모든 상위 요소__를 조상 요소라고 한다. 
    * 한 요소의 모든 직속 하위 요소를 자식 요소, 한 요소의 __모든 _직속_ 상위 요소__를 부모 요소라고 한다. 

#### 3. CSS 선택자 서식
##### 1. 선택자 기본 서식
* *: 모든 요소 선택
* 요소이름: 요소 기반 선택
* 요소이름.클래스이름: 클래스 기반 선택
* #id: id 속성 기반 선택

##### 2. 선택자 관계 지정 서식

* 요소이름, 요소이름: 쉼표로 구분된 여러개의 선택자 모두 선택
* 요소이름 요소이름: 앞 선택자의 후손 중 뒤 선택자에 해당하는 것 모두 선택(하위요소 다)
* 요소이름 > 요소이름: 앞 선택자의 자손 중 뒤 선택자에 해당하는 것 모두 선택(직속 하위요소만)
* 선택자1 + 선택자2: 같은 계층에서 바로 뒤에 있는 요소 선택(선택자1 제외)
* 선택자1 ~ 선택자2: 선택자1부터 선택자2까지의 요소 모두 선택(선택자1 제외)

##### 3. 선택자 속성 기반 서식

* 요소[속성]: 해당 속성을 가진 요소 선택
* 요소[속성="val"]: 속성의 값이 정확하게 'val'과 일치하는 요소 선택
* 요소[속성|="val"]: 속성의 값이 정확하게 'val'이거나 val-'로 시작하는 요소 선택
* 요소[속성^="val"]: 속성의 값이 val'로 시작하면 선택
* 요소[속성$="val"]: 속성의 값이 val'로 끝나면 선택
* 요소[속성*="val"]: 속성의 'val'을 포함하고 있다면 선택
* 요소[속성~="val"]: 속성의 값에 'val'이 포함되는 요소(공백으로 분리된 값이 일치해야 함)

##### 4. 위치 또는 상태를 지정하는 서식

* 요소:root: 루트 요소
* 요소:nth-child(n): n번째 자식 요소
* 요소:nth-last-child(n): 뒤에서부터 n번째 자식 요소
* 요소:nth-of-type(n): n번째 해당 종류의 요소(BeautifulSoup에서 유일하게 지원)
* 요소:first-child: 첫번째 자식요소
* 요소:last-child: 마지막 자식요소
* 요소:first-of-type: 첫 번째 해당 종류의 요소
* 요소:last-of-type: 마지막 해당 종류의 요소
* 요소:only-child: 자식으로 유일한 요소
* 요소:only-of-type: 자식으로 유일한 종류의 요소
* 요소:empty: 내용이 없는 요소
* 요소:lang(code): 특정 언어로 code를 지정한 요소
* 요소:not(s): s이외의 요소      
* 요소:enabled: 활성화된 UI 요소
* 요소:disabled: 비활성화된 UI 요소
* 요소:checked: 체크되어 있는 UI 요소 선택

# 2장. Selenium 라이브러리
## 1. 웹 페이지의 종류
* 웹 페이지라고 해서 모두 똑같은 웹페이지가 아니라, 웹 서버에서 웹 페이지로 데이터가 전달되는 방식에 따라 정적 웹 페이지(Static Web Page)와 동적 웹 페이지(Dynamic Web Page)로 구분된다. 

### 1. 정적 웹 페이지
![정적 웹 페이지 원리](https://t1.daumcdn.net/cfile/tistory/24148634579822C52B)
* 정적 웹 페이지는 서버에 미리 저장된 파일이 그대로 보내진다.
* 사용자는 서버에 저장된 데이터가 변경되지 않는 한 고정된 웹 페이지를 보게 된다.

### 2. 동적 웹 페이지
![동적 웹 페이지 원리](http://i1.wp.com/lh3.googleusercontent.com/-1jVzhuqATjw/Vqd54V1mrtI/AAAAAAAAACc/Cjt-etlXrHc/w720-o/dynamic-web.png?w=734&ssl=1)
* 동적 웹 페이지는 서버에 있는 데이터들을 스크립트에 의해 가공처리한 후 생성되어 보내진다.
* 사용자는 상황, 시간, 요청 등에 따라 달라지는 웹 페이지를 보게 된다.
* 다양한 서비스 제공자의 요구를 충족시키기 위해 현재 대부분의 웹 페이지는 동적 웹 페이지이다. 

## 2. Selenium 사용법
* 정적 웹 페이지의 경우에는 Beautifulsoup 라이브러리를 통해 손쉽게 HTML 문서를 파싱할 수 있지만, 웹 페이지와 상호작용해야하는 동적 웹 페이지를 스크레이핑하기 위해서는 Selenium 라이브러리를 사용해야 한다. 

### 1. 웹드라이버 불러오기
* Selenium 라이브러리를 사용하기 위해서는 웹 드라이버가 필요하다. 크롬 웹드라이버는 아래의 링크에서 다운받을 수 있다.
* 다운로드 URL: http://chromedriver.chromium.org/downloads
* 웹 드라이버를 사용해 네이버에 접속해보자. 

In [11]:
# 웹드라이버 불러오기
from selenium import webdriver as driver
driver = driver.Chrome("C:\chromedriver.exe")
driver.get("http://www.naver.com")

# 창 최대화
driver.maximize_window()

### 2. 요소에 접근하기
* 웹드라이버를 통해 웹 페이지의 요소에 접근할 수 있으며 변수로 할당할 수 있다. 
* 네이버 뉴스 페이지로 가는 링크를 포함하고 있는 `<a>` 태그에 접근해보자. 
* 개발자 도구에서 `<a>` 태그를 확인해보면 다음과 같다.  
`<a href="http://news.naver.com/" class="an_a mn_news" data-clk="svc.news">
    <span class="an_icon"></span>
    <span class="an_txt">뉴스</span>
</a>`
* 앞서 배운 CSS 선택자를 활용하여 우리는 위의 `<a>` 태그에 접근할 수 있다. `<a>` 태그의 조상 요소를 살펴보면 `<ul>` 이라는 태그가 있는 것을 알 수 있다.
* `<ul>` 태그가 식별자인 'id' 속성을 가지고 있기 때문에 이를 이용하여 우리가 관심있는 `<a>` 태그를 특정할 수 있게 된다. 
* 따라서 CSS 선택자는 다음과 같다
    * ul#PM_ID_serviceNavi > li:nth-child(2) > a
    * 이는 'PM_ID_serviceNavi'이라는 id를 가진 요소 `<ul>`의 자식 요소 중 두 번째 `<li>`의 자식요소 `<a>`에 접근하겠다는 의미이다. 

In [12]:
# 네이버 '뉴스' 아이콘 찾기
naver_news_icon = driver.find_element_by_css_selector("ul#PM_ID_serviceNavi > li:nth-child(2) > a"); naver_news_icon

<selenium.webdriver.remote.webelement.WebElement (session="2b0b702435edf7fee73aca443ed11b7a", element="0.0716075821582689-1")>

* 해당 요소의 자식 요소 중에 `<span>`은 텍스트값 '뉴스'를 갖고 있다. 이 텍스트 값에 접근하려면 다음과 같이 하면 된다.

In [13]:
# <a>의 하위요소 중 <span> 요소의 텍스트에 접근하기
naver_news_icon.text

'뉴스'

### 3. 요소와 상호작용하기
* 이제 우리의 필요에 맞게 접근한 요소와 상호작용을 할 수 있다. 뉴스 아이콘을 클릭해서 뉴스 페이지로 들어가보자.

In [14]:
# 네이버 '뉴스' 아이콘 요소 클릭
naver_news_icon.click()

* 네이버 뉴스 메인 페이지로 들어왔다. 이 중에서 내가 원하는 기사를 검색해보자. 기사를 검색하기 위해서는 검색어 필드에 접근해야한다. 
* 크롬 브라우저의 개발자 도구를 열어보면 기사 검색창의 HTML 태그는 다음과 같은 것을 알 수 있다.  
`<input type="text" title="뉴스 검색" name="query" accesskey="s" class="text_index" style="ime-mode:active;">`
* 우리는 send_keys() 메소드를 이용해 검색창에 텍스트를 보낼 수 있다

In [15]:
# 검색창에 검색어 보내기
text_field = driver.find_element_by_css_selector(r"form#lnb\2e searchForm > fieldset > input.text_index")
text_field.send_keys("미세먼지")

* 검색어를 입력했으면 이제 엔터키를 눌러보자. 키를 입력하기 위해서는 새로운 모듈을 불러와야 한다.

In [16]:
# 엔터키 누르기
from selenium.webdriver.common.keys import Keys
text_field.send_keys(Keys.ENTER)

### 4. 요소 스크레이핑하기
* 이제 네이버 뉴스 메인 페이지로 돌아가서 우측의 '가장 많이 본 뉴스' 제목들을 스크레이핑 해보자.

In [17]:
# 탭 이동
main_window = driver.current_window_handle
driver.switch_to_window(main_window)

  This is separate from the ipykernel package so we can avoid doing imports until


* '가장 많이 본 뉴스'의 기사 제목들은 `<li>` 태그의 자식요소인 `<a>` 태그의 값인 것을 알 수 있다.
* `<ㅣi>` 요소들은 `<ul>` 요소의 자식 요소이지만,  `<ul>` 요소의 'class' 속성인 'section_list_ranking'은 다른 요소도 동일하게 갖고 있기 때문에 요소를 식별하는 데에 사용될 수 없다. 
* `<ㅣi>` 요소의 조상 요소 중에 `<div>` 요소는 식별자인 'id' 속성('container')을 갖고 있기 때문에 `<a>` 요소를 식별하는 데에 사용될 수 있다. 

In [20]:
# 헤드라인 찾기
headlines = driver.find_elements_by_css_selector("div#container div[class='main_aside'] ul.section_list_ranking")
for headline in headlines:
    print(headline.text)

1 "세월호 CCTV 조작 가능성…누군가 상황 알고 싶었을 수도"
2 '조두순법' '블라인드 채용법' 국회 본회의 통과(종합)
3 야 3당, 靑 대변인 고가 건물 매입 비판…"누가 봐도 투기"(종합)
4 박영선 "6년 전 황교안, 김학의 얘기에 당황…귀까지 빨개져"(종합)
5 5분도 안 돼 깨진 민경욱의 "박영선=망상환자"
6 국회 정경두 국방장관 해임안 발의…72시간 내 표결 처리
7 박영선·이용주의 '의미심장'한 웃음…'김학의 특검' 끌려나온 황교안
8 신보라 "아기와 국회 출석…출산·양육 어려움 알리고 싶었다"
9 “박근혜 따라한 것 아냐” 이언주 청문회 패션 시끌
10 황교안-박영선, 김학의 임명 직전 만나..黃 논란 인지 시점은








In [21]:
# 웹드라이버 종료
driver.quit()

# 3장. Amazon 웹사이트 크롤링 실습
* 이번 장에서는 독일, 영국, 스페인, 이탈리아, 프랑스의 Amazon 웹사이트에서 데이터를 크롤링하는 과정을 살펴본다. 
* 지금까지 배운 개념을 떠올리며 코드를 한 줄씩 이해해보자.

## 1. 기본 세팅
* 대부분의 프로젝트에서 제일 먼저 해야할 일은 필요한 모듈을 불러오고 작업 공간(working space)을 지정하는 일이다. 
* 작업 공간이란 우리가 프로그래밍을 하면서 모듈이나 파일을 읽어올 때 그것들이 어디에 저장되어 있는지 Python에게 알려주는 것이다.
* 작업 공간을 지정하지 않으면 Python은 모듈이나 파일을 찾지 못하고 오류 메세지를 내게 된다. 

In [24]:
# 필요한 라이브러리 불러오기
from os import *
from selenium import webdriver
import selenium.common.exceptions as selexcept
import time
import pandas as pd

In [25]:
# Set the working directory
wd = r"C:\wd"
chdir(wd)
getcwd()

'C:\\wd'

## 2. 변수 정의
* 다음 단계는 프로그램 전반에 걸쳐서 사용할 변수들을 앞부분에 미리 정의해주는 것이다. 
* 이 프로젝트의 경우 웹 브라우징을 위한 URL 및 수집되는 데이터들을 저장하기 위한 변수를 미리 정의하게 된다. 

In [26]:
# 각 국가의 페이지에 접속하기 위한 URL의 기본형과 그것들을 저장할 딕셔너리를 정의한다.  
url_de_base = "https://www.amazon.de/gp/bestsellers/ce-de/364935031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_uk_base = "https://www.amazon.co.uk/Best-Sellers-Electronics-Mobile-Phone-Cases-Covers/zgbs/electronics/340321031/ref=zg_bs_pg_2?_encoding=UTF8&pg="

url_es_base = "https://www.amazon.es/gp/bestsellers/electronics/934178031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_it_base = "https://www.amazon.it/gp/bestsellers/electronics/473264031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_fr_base = "https://www.amazon.fr/gp/bestsellers/electronics/15427624031/ref=zg_bs_pg_2?ie=UTF8&pg="

urls_base = {
        "de": url_de_base, 
        "uk": url_uk_base, 
        "es": url_es_base, 
        "it": url_it_base, 
        "fr": url_fr_base }

# URL의 기본형을 조합하여 완전한 URL을 생성해내고, 이를 딕셔너리에 저장한다. 
urls = {} 
for country in list(urls_base.keys()):
    for i in range(2):
        urls_ = [urls_base[country] + str(i+1) for i in range(2)] 
        urls[country] = urls_

# 웹 크롤링을 통해 수집될 데이터들을 저장할 리스트와 딕셔너리를 정의한다. 
data = {}    
country = []
for v in list(urls.keys()):
    for i in range(100):
        country.append(v)
ranking = []
manufacturer = []
product = []
rating = []
num_review = []
price = []
feature = []
current_url = []
description = []
review = []

## 3. 웹 크롤링
* 이제 사전 작업을 마치고 본격적으로 웹 크롤링을 할 차례이다. 
* 우선 웹 드라이버를 불러온다. 

In [29]:
# 웹 드라이버를 불러오고, 불러오기가 완료될 때까지 3초간 기다린다. 
driver = webdriver.Chrome(r"C:\chromedriver.exe")
driver.maximize_window()
driver.implicitly_wait(3)

* 웹 크롤링을 시작한다. 

In [30]:
# 각 페이지에 접속해서 요소들을 크롤링한다.
for item in list(urls.keys()):
    for url in urls[item]:
        driver.implicitly_wait(10)
        driver.get(url)
        for i in range(50):
            # 랭킹 수집
            ranking.append(driver.find_elements_by_css_selector("span[class='zg-badge-text']")[i].text)
            
            # Price
            try:
                price.append(driver.find_elements_by_css_selector("span.p13n-sc-price")[i].text)
            
            # In case there is no price
            except:
                price.append("")
            
            # Number of reviews
            try:
                num_review.append(driver.find_elements_by_css_selector("#zg-ordered-list a.a-size-small.a-link-normal")[i].text)
            
            # In case there is no reviews
            except:
                num_review.append("")
                pass
        for i in range(50):
            
            # Get to each item page
            try:
                driver.find_elements_by_css_selector("#zg-ordered-list > li > span > div > span > a")[i].click()
            except:
                pass
            
            # Descriptions
            try:
                n_description = len(driver.find_elements_by_css_selector("ul[class='a-unordered-list a-vertical a-spacing-none'] li > span.a-list-item"))
                description_set = []
                for j in range(1, n_description):
                    description_set.append(driver.find_elements_by_css_selector("ul[class='a-unordered-list a-vertical a-spacing-none'] li > span.a-list-item")[j].text)
                description.append(description_set)
            except:
                description.append("")
                pass
            
            # URL
            current_url.append(driver.current_url)
            
            # Manufacturer
            manufacturer.append(driver.find_element_by_css_selector("a#bylineInfo").text);
            
            # Product
            product.append(driver.find_element_by_css_selector("#productTitle").text)
            
            # Rating
            try:
                rating.append(driver.find_element_by_css_selector("span[data-hook= rating-out-of-text]").text)
            except:
                # Append 0 when there is no rating yet
                rating.append(0)
                pass
            
            # Feature
            try:
                n_features = len(driver.find_elements_by_css_selector("#cr-summarization-attribute- div.a-fixed-right-grid-col.a-col-left > div > span"))
                feature_set = []
                for j in range(n_features):
                    feature_set.append(driver.find_elements_by_css_selector("#cr-summarization-attribute- div.a-fixed-right-grid-col.a-col-left > div > span")[j].text)
                feature.append(feature_set)
            except:
                feature.append([""])
                pass
            
            # Reviews
            try:
                # Get to "See all reviews"
                driver.find_element_by_css_selector("a[class='a-link-emphasis a-text-bold']").click()
                review_set = []
                    
                # Scrape the reviews page by page
                page_continue = True
                while page_continue: 
                    driver.implicitly_wait(3)
                    n_review_page = len(driver.find_elements_by_css_selector("div[class='a-row a-spacing-small review-data']"))
                    driver.implicitly_wait(3)
                    for k in range(n_review_page):
                        review_set.append(driver.find_elements_by_css_selector("div[class='a-row a-spacing-small review-data']")[k].text)
                    try:
                        driver.find_element_by_css_selector("ul.a-pagination > li.a-last > a").click()
                        driver.implicitly_wait(3)
                    except selexcept.NoSuchElementException:
                        page_continue = False
                
                # Save a set of reviews for an item
                review.append(review_set)
            except selexcept.NoSuchElementException:
                review.append("")
            
            # Get back to the item list page
            driver.get(url)
            
            print(len(ranking), len(price), len(num_review), len(manufacturer), len(product), len(rating), len(feature),len(current_url), len(description), len(review), sep = " / ")
          

WebDriverException: Message: unknown error: Element <a href="/Kompatibel-Einteilige-Transparent-Schutzhülle-042CS20926-UH-Schwarz/product-reviews/B01M1SCIOV/ref=cm_cr_arp_d_paging_btm_2?ie=UTF8&amp;pageNumber=2&amp;reviewerType=all_reviews">...</a> is not clickable at point (835, 908). Other element would receive the click: <div class="a-section cr-list-loading reviews-loading"></div>
  (Session info: chrome=73.0.3683.86)
  (Driver info: chromedriver=73.0.3683.20 (8e2b610813e167eee3619ac4ce6e42e3ec622017),platform=Windows NT 10.0.17134 x86_64)


## 4. 데이터 저장
* 이제 웹 크롤링을 통해 수집된 데이터를 딕셔너리에 할당하고 'csv'파일로 저장하는 마지막 단계이다. 

In [None]:
# 메타데이터를 키로 하고 수집된 데이터를 값으로 가지는 딕셔너리 생성.
data["country"] = country
data["ranking"] = ranking          
data["manufacturer"] = manufacturer 
data["product"] = product
data["rating"] = rating
data["num_review"] = num_review 
data["price"] = price
data["feature"] = feature
data["current_url"] = current_url
data["description"] = description
data["review"] = review

* 'Pandas'라는 라이브러리를 이용하여 딕셔너리를 데이터프레임 형태로 만들어주고 'csv' 파일로 저장한다.
* '데이터프레임'은 행과 열이 있는 테이블 형태의 자료형을 의미한다. 

In [1]:
# 데이터 프레임 생성하기.
amazon = pd.DataFrame(data=data)

# 'csv' 파일로 저장하기.
amazon.to_csv("amazon.csv", index=False)

WebDriverException: Message: unknown error: Element <a href="/Kompatibel-Einteilige-Transparent-Schutzhülle-042CS20926-UH-Schwarz/product-reviews/B01M1SCIOV/ref=cm_cr_getr_d_paging_btm_3?ie=UTF8&amp;pageNumber=3&amp;reviewerType=all_reviews&amp;pageSize=10">...</a> is not clickable at point (398, 657). Other element would receive the click: <div class="a-section cr-list-loading reviews-loading"></div>
  (Session info: chrome=73.0.3683.86)
  (Driver info: chromedriver=2.45.615291 (ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387),platform=Windows NT 10.0.17134 x86_64)
