# Python을 이용한 웹 스크레이핑 실습

# 1. Python
## 1. 설치 및 개발환경 구축
### 1. 통합 개발 환경(Integrated Development Environment, IDE)
* 코딩, 디버깅, 컴파일, 배포 등  프로그램 개발에 관련된 모든 작업을 하나의 프로그램 안에서 처리하는 환경을 제공하는 소프트웨어
    * IDLE (Integrated Development and Learning Environment) 
        * [Python](https://www.python.org/downloads/)에서 설치 가능
        * 가장 기본적인 IDE
    * Pycharm
        * JetBrains사에서 개발한 Python 특화 IDE
    * Jupyter Notebook
        * Markdown과 연동하여 Python 코드 블록을 포함한 문서 작성 가능
        * 현재 이 교육자료는 Jupyter Notebook으로 제작
    * Spyder
        * 과학 분야의 프로그래밍을 위해 개발된 IDE
        * Line-by-line 실행이 편리하여 초보자에게 적합하므로 본 교육세션에서 사용
    
### 2. 아나콘다(Anaconda)
* Python 및 R을 과학연구 및 기계학습 분야에서 활용하기 편하도록 각종 라이브러리와 개발환경을 설치해주는 소프트웨어
    * 아나콘다를 사용하는 것은 자동차를 살 때 옵션을 선택하는 것과 같다.
    * 즉, 아나콘다 없이 옵션이 없는 순정차(기본 Python)을 사용해도 문제는 없지만 옵션을 선택하는 것이 편리한 것과 같음
* 본 교육세션에서는 아나콘다를 이용하여 Python 설치
    * [아나콘다 다운로드 페이지](https://www.anaconda.com/products/individual)에서 자신의 운영체제에 맞는 Individual Edition 설치
    * Anaconda를 설치하면 Spyder와 Jupyter Notebook도 자동으로 설치

## 2. Spyder 기본 사용법
* 스크립트(script): 실제로 코드를 짜는 부분
* 콘솔(console): 코드의 실행결과가 나타나는 부분
* 변수 탐색기(variable explorer): 내가 정의한 변수의 목록과 값을 확인할 수 있는 창.
* 실행과 디버깅(run and debug)
* 한 줄 실행 단축키 설정: F9 → Ctrl + E

## 2. 변수(variables)
### 1. 변수의 할당(assignment)
* 프로그램이 데이터를 기억하는 방식으로서 컴퓨터의 메모리의 공간에 이름을 붙이는 것으로 음식 재료를 사다가 그릇안에 담아 놓은 것
* 엑셀의 "이름정의"와 유사
* 바뀔 수 없는 리터럴(literal)과 달리 바뀔 수 있기(variable) 때문에 변수만 새롭게 정의하면 해당 변수가 사용된 모든 곳에 변화가 적용된다. 
* Python은 `=` 연산자를 사용하여 변수의 선언(declaration)과 할당(assignment)를 동시에 할 수 있다.
* input() 함수를 이용하면 사용자로부터 변수를 입력받을 수도 있다.

### 2. 변수의 명명(naming)
* 변수의 명명은 프로그래머의 자유이나 서로 다른 변수들끼리 식별될 수 있도록 몇 가지 규칙을 따라야 한다.
    * 변수의 이름은 영문자와 숫자, 밑줄 문자(_)로 이루어진다.
    * 식별자의 중간에 공백이 들어가면 안된다.
    * 식별자의 첫 글자는 반드시 영문자 또는 밑줄 문자(_)이어야 한다. 즉, 숫자로 시작할 수 없다. 
    * 대문자와 소문자는 구별된다. (case-sensitive)
* 또한 미리 정의된 Python 키워드(keyword)는 변수명으로 사용될 수 없다. (e.g. True, False, for, while 등)
* 변수의 이름은 해당 변수의 내용을 잘 설명하도록 지어야 한다. 변수의 이름이 잘 지어져야 읽기 쉬운 프로그램이 된다. 
* 중구난방으로 지어진 변수는 프로그램이 조금만 길어지거나 오랜만에 다시 보게 코드의 가독성을 떨어뜨린다.
* 명명 규칙(Case Naming Convention)
    * R: lowerCamelCase (e.g. `myPython`)
    * Python: snake_case (e.g. `my_python`)

In [45]:
# 변수의 명명 및 할당
my_variable = 10
_my_variable = 20
my_variable_ = 30

In [46]:
print(my_variable)
print(_my_variable)
print(my_variable_)

10
20
30


## 3. 연산(operation)
* 수식(expression)이란 피연산자(operand)들과 연산자(operator)들의 조합이다.
* 피연산자는 연산의 대상이 되는 것을 의미한다. 
* 연산자는 어떤 연산을 나타내는 기호를 의미한다. 
* 컴퓨터는 인간을 위하여 복잡한 계산을 대신 해주지만, 우리가 올바른 수식을 알려주지 않는다면 그 계산 결과도 틀릴 것이다. 
* 올바른 수식을 작성하기 위해서는 연산자의 기능과 올바른 순서를 알고 있어야 한다. 

In [59]:
# 사칙연산 연산자
print(2+3)
print(2-3)
print(2*3)
print(2/3)

5
-1
6
0.6666666666666666


In [60]:
# 나눗셈의 몫과 나머지
p = 10
q = 3
quotient = 10 // 3
remainder = 10 % 3
print(p,"/",q,"의 몫은 ",quotient, ", 나머지는 ", remainder, "입니다.")

10 / 3 의 몫은  3 , 나머지는  1 입니다.


In [61]:
# 거듭제곱
print(2 ** 3)

8


In [62]:
# 할당
powered = 2 ** 3
print(powered)

8


In [64]:
# 논리연산자
print(1 == 1)
print(1 < 0)

True
False


## 4. 자료형(data type)
* 변수가 음식을 담는 그릇이라면 자료형은 그릇의 모양
* Python의 자료형에는 대표적으로 정수(int), 실수(float), 불(bool), 문자열(str), 리스트(list), 튜플(tuple), 집합(set), 딕셔너리(dict)가 있음
* `type()` 함수를 통해 자료형을 확인 가능

In [50]:
# 정수
data = 1
print(type(data))

<class 'int'>


In [52]:
# 실수
data = 1.2
print(type(data))

<class 'float'>


In [65]:
# 불
data = 1 == 1
print(data)
print(type(data))

True
<class 'bool'>


In [66]:
# 문자열
data = "abc"
print(data[0])
print(type(data))

a
<class 'str'>


In [68]:
# 리스트
data = [1, 2, 3, 4]
print(data[1])
print(type(data))

2
<class 'list'>


In [70]:
# 튜플
data = (1, 2, 3)
print(data[2])
print(type(data))

3
<class 'tuple'>


In [72]:
# 집합
data = {1, 2, 3, 3, 2, 1}
print(data)
print(type(data))

{1, 2, 3}
<class 'set'>


In [75]:
# 딕셔너리
data = {
    "사과": 1,
    "배": 2,
    "포도": 3
}
print(data["사과"])
print(type(data))

1
<class 'dict'>


## 5. 조건문(conditional statement)
* 프로그래밍을 하다보면 조건에 따라 서로 다른 명령을 실행해야하는 경우가 있다.
* 프로그래밍 언어에서 선택 구조를 실행할 수 있는 구문을 '조건문(conditional statement)'라고 한다.

### 1. `if`와 `else`
* 조건이 한 개밖에 없는 경우 키워드 'if'와 'else'만으로 조건문을 만들 수 있다.

In [1]:
# 합격/불합격 판별기
score = int(input("성적을 입력하시오: "))

if score >= 60:
    print("합격입니다.")
else:
    print("불합격입니다.")

성적을 입력하시오: 100
합격입니다.


In [82]:
# 홀짝 구분기
num = int(input("정수를 입력하시오: "))

if num % 2 == 0:
    print("짝수입니다.")
else:
    print("홀수입니다.")

정수를 입력하시오: 1
홀수입니다.


### 2. `elif`
* 조건이 두 개 이상인 경우 키워드 'elif'를 사용하여 조건을 추가할 수 있다.

In [83]:
# 정수 부호 판별기
num = int(input("정수를 입력하시오: "))

if num > 0:
    print("양수입니다.")
elif num == 0:
    print("0입니다.")
else:
    print("음수입니다")

정수를 입력하시오: 2
양수입니다.


### 3. 중첩 `if`문(nested `if` statement)
* if문 안에 다른 if문이 들어가는 것을 중첩 if문이라고 한다. 

In [84]:
# 중첩 if문
num = int(input("정수를 입력하시오: "))

if num >= 0:
    if num == 0:
        print("0입니다.")
    else:
        print("양수입니다.")
else:
    print("음수입니다.")

정수를 입력하시오: 0
0입니다.


## 6. 반복문(repetition statetment)
* 우리가 컴퓨터를 쓰는 이유는 인간의 수고를 덜기 위함이다. 
* 동일한 작업은 반복 구조를 이용하여 프로그래밍하는 것이 효율적이다. 
* 프로그래밍에서 반복적인 작업을 실행할 수 있도록 하는 구문을 '반복문(repetition statement)'라고 한다.
* Python에는 2가지 종류의 반복이 있다:
    * 횟수 제어 반복(`for`문): 정해진 횟수만큼 반복.
    * 조건 제어 반복(`while`문): 특정한 조건이 만족되면 계속 반복.

### 1. `for`문 (횟수 제어 반복)
* 많은 프로그래밍 언어에서 for문을 이용하여 횟수 제어 반복을 제공하고 있다. 
* 반복 횟수를 알고 있을 때 사용한다. 

In [92]:
# for문 예시
numbers = ["하나", "둘", "셋", "넷", "다섯"]
for number in numbers:
    print(number+"!")

하나!
둘!
셋!
넷!
다섯!


* `range()`는 옵션에 따라 특정한 규칙대로 숫자들을 반환하는 함수이다. 
* `range(시작값, 종료값+1, 증분값)`의 형태로 사용하며, 기본값으로서 시작값은 0, 증분값은 1이다. 

In [93]:
# range() 함수 1
print(range(5))
print(list(range(5)))

range(0, 5)
[0, 1, 2, 3, 4]


In [94]:
# range() 함수 2
print(range(1, 6))
print(list(range(1, 6)))

range(1, 6)
[1, 2, 3, 4, 5]


In [95]:
# range() 함수 3
print(range(0, 10, 2))
print(list(range(0, 10, 2)))

range(0, 10, 2)
[0, 2, 4, 6, 8]


In [96]:
# 리스트의 인덱스로서의 range() 함수 1
for index in range(len(numbers)):
    print(numbers[index])

하나
둘
셋
넷
다섯


In [97]:
# 리스트의 인덱스로서의 range() 함수 2
for index in [0, 1, 2, 3, 4]:
    print(numbers[index])

하나
둘
셋
넷
다섯


### 2. `while`문 (조건 제어 반복)

* Python에서는 조건 제어 반복을 위하여 while문을 제공하고 있다.  
* 반복해야하는 조건을 알고 있을 때 사용한다. 

In [101]:
# while문 예시
counter = 1
while counter <= 5:
    print(f"{counter}번!")
    counter = counter + 1

1번!
2번!
3번!
4번!
5번!


## 7. 함수(function)
### 1. 추상화(abstraction)와 문제 분해(decomposition)
* 프로그래밍은 문제의 해결과정이며, 추상화와 문제 분해는 효과적인 문제 해결 방법이다.  
* 어떠한 것이 "어떻게"보다는 "무엇을"하는지에 초점을 맞추는 방법을 추상화라고 한다. 
* 큰 문제를 여러가지의 작은 문제로 쪼개어서 생각하는 것을 문제 분해라고 한다.

### 2. 함수의 정의
* 함수는 일을 수행하는 코드의 덩어리로서, 큰 프로그램을 구축하기 위한 추상화와 문제 분해의 유용한 도구이다. 
* 함수는 입력을 받아서 정해진 규칙에 따라 출력을 내보내는 블랙박스로 생각할 수 있다. 
* 함수는 한 번 정의해놓으면 매번 똑같은 동작을 반복하기 때문에 편리하다. 
* 함수는 정의되더라도 호출되기 전까지는 실행되지 않는다.
* 함수를 정의하는 방법
    * 함수 정의는 키워드 'def'로 시작된다.
    * 공백을 한 칸 띄우고 함수의 이름을 입력한다. 함수의 이름에는 공백이 들어갈 수 없다. 
    * 함수의 이름 바로 뒤에 소괄호를 입력하고, 인자(arguement)가 있으면 입력한다.
    * 바로 뒤에 콜론(:)을 입력한 뒤, 다음 줄부터 함수 내용에 해당하는 블록을 입력한다. 블록은 반드시 들여쓰기가 되어야 한다. 

In [102]:
# 함수의 정의 예시
def print_my_address():
    print("양지성: ", "대전광역시 유성구")
    print("John Doe: ", "Chapel Hill, North Carolina")
    
# 함수의 호출 예시
print_my_address()

홍길동:  서울특별시 종로구
John Doe:  Chapel Hill, North Carolina


### 3. 인수(arguement)와 매개변수(parameter)
* 외부에서 함수에 전달하는 값을 인수라고 한다. 정의하기에 따라 함수는 인수를 갖지 않을 수도 있다. 
* 함수가 정의될 때 인수가 입력되는 변수를 매개변수라고 한다. 
* 인수는 두 개 이상이 될 수도 있다. 

In [105]:
# name, address는 매개변수에 해당한다. 
def print_my_address(name, address):
    print(name, address)
    
# "홍길동", "서울특별시 종로구"는 인수에 해당한다. 
print_my_address("양지성", "대전광역시 유성구")

양지성 대전광역시 유성구


## 8. 라이브러리(library)
### 1. 모듈(module)과 패키지(package)
* 프로그래밍이 무에서 유를 창조하는 매우 유용한 활동이다. 하지만 그렇다고 해서 다른 사람이 이미 만들어놓은 것이 있는데 굳이 새롭게 처음부터 만들 필요는 없을 것이다.
* 모듈이란 이런 비효율의 문제를 피하기 위해 전역변수, 함수 등을 모아놓은 프로그램의 부품과 같은 것으로서 대부분의 프로그래밍 언어에서 지원한다. 
* 패키지는 여러 모듈들이 구조화되어 모여있는 것을 의미한다. 

## 2. 라이브러리 불러오기
* 라이브러리는 모듈과 패키지로 구성되어 있다.  
* Python에서는 다양한 목적을 위한 라이브러리를 지원하고 있고, 키워드 'from'과 'import'를 활용하여 이루어진다.
* 라이브러리를 불러오는 방법은 크게 다음과 같다:
    * import 라이브러리
    * import 라이브러리 as 별명
    * from 라이브러리 import 모듈

## 3. `random` 라이브러리
* `random`은 숫자를 무작위로 생성할 때 유용하게 사용할 수 있는 라이브러리이다. 

In [106]:
# import 라이브러리
import random
random.randint(0, 10)

7

In [107]:
# import 라이브러리 as 별명
import random as rd
rd.randint(0, 10)

3

In [108]:
# from 라이브러리 import 모듈
from random import randint
randint(0, 10)

2

# 2. 웹 스크레이핑(Web Scraping)
## 1. 웹(Web)
* World Wide Web (WWW, W3)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 세계적 정보 공간
* 간단하게 줄여서 웹(the Web)이라고 부른다

## 2. HTTP (HyperText Transfer Protocol)
* HTTP는 웹 상에서 정보를 주고 받을 수 있는 프로토콜(규약)이다.
* 클라이언트(client)와 서버(server) 사이에 이루어지는 요청(request)/응답(response)로 이루어진다. 

### 1. 클라이언트(client)

### 2. 서버(server)

## 3. 문서 객체 모델(Document Object Model, DOM)
### 1. HTML
### 2. CSS
### 3. JavaScript

# 3. 웹 스크레이핑 실습
* 웹 페이지는 웹 서버에서 웹 페이지로 데이터가 전달되는 방식에 따라 정적 웹 페이지(Static Web Page)와 동적 웹 페이지(Dynamic Web Page)로 구분된다. 

## 1. 정적 웹 페이지(Static Web Page)

![정적 웹 페이지 원리](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FM6DAd%2FbtqCaSq2Sv0%2FRNXKD9dKanpwuLToXslkYk%2Fimg.png)
* 정적 웹 페이지는 서버에 미리 저장된 파일이 그대로 보내진다.
* 사용자는 서버에 저장된 데이터가 변경되지 않는 한 고정된 웹 페이지를 보게 된다.

## 2. 동적 웹 페이지(Dynamic Web Page)

![동적 웹 페이지 원리](https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FxbJio%2FbtqB7OwZ6VQ%2FqIyZStWfnICs8HkXeqaSZK%2Fimg.png)
* 동적 웹 페이지는 서버에 있는 데이터들을 스크립트에 의해 가공처리한 후 생성되어 보내진다.
* 사용자는 상황, 시간, 요청 등에 따라 달라지는 웹 페이지를 보게 된다.
* 다양한 서비스 제공자의 요구를 충족시키기 위해 현재 대부분의 웹 페이지는 동적 웹 페이지이다.

In [41]:
# HTML 예시

In [43]:
%%html

<!DOCTYPE HTML>
<html>
    <head>
        <title>Python을 이용한 웹 스크레이핑 실습</title>
    </head>
    <body>
        <h1>
            <a href="https://ct.kaist.ac.kr/main.php?lang=2", target="_blank">가장 높은 수준의 제목</a>
        </h1>
        
        <h2>두 번째 수준의 제목 1 </h2>
            <center>
            
                <img src="https://ct.kaist.ac.kr/images/KAIST_CT_KE.jpg", width = 300, alt="카이스트 문화기술 대학원">
            
            </center>
            
            <p> 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
                문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
                문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. </p>
            
            <p> <b>문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
                문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
                문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. </b></p>
        
        <h2>두 번째 수준의 제목 2 </h2>
        
            <center>
            
                <img src="https://avatars.githubusercontent.com/u/46237445?v=4", width = 300, alt="내 사진">
            
            </center>

            <p> <i>문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
            문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 
            문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용. 문단 1의 내용.</i></p>

            <p> <ins>문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
            문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 
            문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. 문단 2의 내용. </ins></p>
    </body>
</html>

### 3. CSS 선택자(CSS selector)
#### 1. 웹페이지 내 요소의 식별
* 웹크롤링을 하기 위해서는 웹 페이지 내의 HTML 요소에 접근해야한다. 
* 개발자 도구를 열어 DOM 구조를 확인해보면 간단해 보이는 웹페이지에도 수많은 요소들이 존재한다는 것을 알 수 있다.
* CSS 선택자는 우리가 수많은 요소 중 우리가 원하는 것을 특정(specify)할 수 있도록 도와준다. 
* 선택자를 잘 활용하면 구조가 복잡합 HTML 페이지라도 한 번에 원하는 데이터를 추출할 수 있다.
* 'XPATH'라는 것을 이용해 HTML 요소에 접근할 수도 있지만 본 강의에서는 다루지 않는다. 

#### 2. 요소 간의 관계
* HTML의 각 요소들은 서로간의 관계에 따라 조상 요소, 자손 요소, 부모 요소, 자식 요소가 될 수 있다. 
    * 한 요소의 모든 하위 요소를 자손 요소, 한 요소의 __모든 상위 요소__를 조상 요소라고 한다. 
    * 한 요소의 모든 직속 하위 요소를 자식 요소, 한 요소의 __모든 _직속_ 상위 요소__를 부모 요소라고 한다. 

#### 3. CSS 선택자 서식
##### 1. 선택자 기본 서식
* *: 모든 요소 선택
* 요소이름: 요소 기반 선택
* 요소이름.클래스이름: 클래스 기반 선택
* #id: id 속성 기반 선택

##### 2. 선택자 관계 지정 서식

* 요소이름, 요소이름: 쉼표로 구분된 여러개의 선택자 모두 선택
* 요소이름 요소이름: 앞 선택자의 후손 중 뒤 선택자에 해당하는 것 모두 선택(하위요소 다)
* 요소이름 > 요소이름: 앞 선택자의 자손 중 뒤 선택자에 해당하는 것 모두 선택(직속 하위요소만)
* 선택자1 + 선택자2: 같은 계층에서 바로 뒤에 있는 요소 선택(선택자1 제외)
* 선택자1 ~ 선택자2: 선택자1부터 선택자2까지의 요소 모두 선택(선택자1 제외)

##### 3. 선택자 속성 기반 서식

* 요소[속성]: 해당 속성을 가진 요소 선택
* 요소[속성="val"]: 속성의 값이 정확하게 'val'과 일치하는 요소 선택
* 요소[속성|="val"]: 속성의 값이 정확하게 'val'이거나 val-'로 시작하는 요소 선택
* 요소[속성^="val"]: 속성의 값이 val'로 시작하면 선택
* 요소[속성$="val"]: 속성의 값이 val'로 끝나면 선택
* 요소[속성*="val"]: 속성의 'val'을 포함하고 있다면 선택
* 요소[속성~="val"]: 속성의 값에 'val'이 포함되는 요소(공백으로 분리된 값이 일치해야 함)

##### 4. 위치 또는 상태를 지정하는 서식

* 요소:root: 루트 요소
* 요소:nth-child(n): n번째 자식 요소
* 요소:nth-last-child(n): 뒤에서부터 n번째 자식 요소
* 요소:nth-of-type(n): n번째 해당 종류의 요소(BeautifulSoup에서 유일하게 지원)
* 요소:first-child: 첫번째 자식요소
* 요소:last-child: 마지막 자식요소
* 요소:first-of-type: 첫 번째 해당 종류의 요소
* 요소:last-of-type: 마지막 해당 종류의 요소
* 요소:only-child: 자식으로 유일한 요소
* 요소:only-of-type: 자식으로 유일한 종류의 요소
* 요소:empty: 내용이 없는 요소
* 요소:lang(code): 특정 언어로 code를 지정한 요소
* 요소:not(s): s이외의 요소      
* 요소:enabled: 활성화된 UI 요소
* 요소:disabled: 비활성화된 UI 요소
* 요소:checked: 체크되어 있는 UI 요소 선택

### 4. BeautifulSoup
#### 1. 개요
* HTML 및 XML으로부터 데이터를 추출하는 Python 라이브러리

In [7]:
# CSS 선택자를 이용한 요소 접근
from bs4 import BeautifulSoup

html = """
    <!DOCTYPE HTML>
    <html>
        <head>
            <title>Python을 이용한 웹크롤링 실습</title>
        </head>
        <body>
            <h1>
                <a href="https://ct.kaist.ac.kr/main.php?lang=2", target="_blank">첫 번째 수준의 제목입니다 </a>
            </h1>

            <h2> 두 번째 수준의 제목입니다 </h2>
                <center>

                    <img src="https://ct.kaist.ac.kr/images/KAIST_CT_KE.jpg", width = 300, alt="카이스트 문화기술 대학원">

                </center>

                <p> 보통 글씨의 첫번째 문단입니다 </p>

                <p> <b> 굵은 글씨의 두 번째 문단입니다. </b></p>

        </body>
    </html>
"""

soup = BeautifulSoup(html, "html.parser")

In [19]:
# CSS 선택자
title_css = "head > title"
h1_css = "body > h1"
p_css = "body p"

In [42]:
# Title에 접근
title = soup.select(title_css)
print(title)
print(title[0].text)

[<title>Python을 이용한 웹크롤링 실습</title>]
Python을 이용한 웹크롤링 실습


In [40]:
# H1에 접근
h1 = soup.select(h1_css)
# print(h1)
h1.attrs

AttributeError: ResultSet object has no attribute 'attrs'. You're probably treating a list of elements like a single element. Did you call find_all() when you meant to call find()?

In [14]:
# Paragraph에 접근
soup.select(p_css)

[<p> 보통 글씨의 첫번째 문단입니다 </p>, <p> <b> 굵은 글씨의 두 번째 문단입니다. </b></p>]

# 2장. Selenium 라이브러리
## 1. 웹 페이지의 종류
* 웹 페이지라고 해서 모두 똑같은 웹페이지가 아니라, 웹 서버에서 웹 페이지로 데이터가 전달되는 방식에 따라 정적 웹 페이지(Static Web Page)와 동적 웹 페이지(Dynamic Web Page)로 구분된다. 

### 1. 정적 웹 페이지
![정적 웹 페이지 원리](https://t1.daumcdn.net/cfile/tistory/24148634579822C52B)
* 정적 웹 페이지는 서버에 미리 저장된 파일이 그대로 보내진다.
* 사용자는 서버에 저장된 데이터가 변경되지 않는 한 고정된 웹 페이지를 보게 된다.

### 2. 동적 웹 페이지
![동적 웹 페이지 원리](http://i1.wp.com/lh3.googleusercontent.com/-1jVzhuqATjw/Vqd54V1mrtI/AAAAAAAAACc/Cjt-etlXrHc/w720-o/dynamic-web.png?w=734&ssl=1)
* 동적 웹 페이지는 서버에 있는 데이터들을 스크립트에 의해 가공처리한 후 생성되어 보내진다.
* 사용자는 상황, 시간, 요청 등에 따라 달라지는 웹 페이지를 보게 된다.
* 다양한 서비스 제공자의 요구를 충족시키기 위해 현재 대부분의 웹 페이지는 동적 웹 페이지이다. 

## 2. Selenium 사용법
* 정적 웹 페이지의 경우에는 Beautifulsoup 라이브러리를 통해 손쉽게 HTML 문서를 파싱할 수 있지만, 웹 페이지와 상호작용해야하는 동적 웹 페이지를 스크레이핑하기 위해서는 Selenium 라이브러리를 사용해야 한다. 

### 1. 웹드라이버 불러오기
* Selenium 라이브러리를 사용하기 위해서는 웹 드라이버가 필요하다. 크롬 웹드라이버는 아래의 링크에서 다운받을 수 있다.
* 다운로드 URL: http://chromedriver.chromium.org/downloads
* 웹 드라이버를 사용해 네이버에 접속해보자. 

In [11]:
# 웹드라이버 불러오기
from selenium import webdriver as driver
driver = driver.Chrome("C:\chromedriver.exe")
driver.get("http://www.naver.com")

# 창 최대화
driver.maximize_window()

### 2. 요소에 접근하기
* 웹드라이버를 통해 웹 페이지의 요소에 접근할 수 있으며 변수로 할당할 수 있다. 
* 네이버 뉴스 페이지로 가는 링크를 포함하고 있는 `<a>` 태그에 접근해보자. 
* 개발자 도구에서 `<a>` 태그를 확인해보면 다음과 같다.  
`<a href="http://news.naver.com/" class="an_a mn_news" data-clk="svc.news">
    <span class="an_icon"></span>
    <span class="an_txt">뉴스</span>
</a>`
* 앞서 배운 CSS 선택자를 활용하여 우리는 위의 `<a>` 태그에 접근할 수 있다. `<a>` 태그의 조상 요소를 살펴보면 `<ul>` 이라는 태그가 있는 것을 알 수 있다.
* `<ul>` 태그가 식별자인 'id' 속성을 가지고 있기 때문에 이를 이용하여 우리가 관심있는 `<a>` 태그를 특정할 수 있게 된다. 
* 따라서 CSS 선택자는 다음과 같다
    * ul#PM_ID_serviceNavi > li:nth-child(2) > a
    * 이는 'PM_ID_serviceNavi'이라는 id를 가진 요소 `<ul>`의 자식 요소 중 두 번째 `<li>`의 자식요소 `<a>`에 접근하겠다는 의미이다. 

In [12]:
# 네이버 '뉴스' 아이콘 찾기
naver_news_icon = driver.find_element_by_css_selector("ul#PM_ID_serviceNavi > li:nth-child(2) > a"); naver_news_icon

<selenium.webdriver.remote.webelement.WebElement (session="2b0b702435edf7fee73aca443ed11b7a", element="0.0716075821582689-1")>

* 해당 요소의 자식 요소 중에 `<span>`은 텍스트값 '뉴스'를 갖고 있다. 이 텍스트 값에 접근하려면 다음과 같이 하면 된다.

In [13]:
# <a>의 하위요소 중 <span> 요소의 텍스트에 접근하기
naver_news_icon.text

'뉴스'

### 3. 요소와 상호작용하기
* 이제 우리의 필요에 맞게 접근한 요소와 상호작용을 할 수 있다. 뉴스 아이콘을 클릭해서 뉴스 페이지로 들어가보자.

In [14]:
# 네이버 '뉴스' 아이콘 요소 클릭
naver_news_icon.click()

* 네이버 뉴스 메인 페이지로 들어왔다. 이 중에서 내가 원하는 기사를 검색해보자. 기사를 검색하기 위해서는 검색어 필드에 접근해야한다. 
* 크롬 브라우저의 개발자 도구를 열어보면 기사 검색창의 HTML 태그는 다음과 같은 것을 알 수 있다.  
`<input type="text" title="뉴스 검색" name="query" accesskey="s" class="text_index" style="ime-mode:active;">`
* 우리는 send_keys() 메소드를 이용해 검색창에 텍스트를 보낼 수 있다

In [15]:
# 검색창에 검색어 보내기
text_field = driver.find_element_by_css_selector(r"form#lnb\2e searchForm > fieldset > input.text_index")
text_field.send_keys("미세먼지")

* 검색어를 입력했으면 이제 엔터키를 눌러보자. 키를 입력하기 위해서는 새로운 모듈을 불러와야 한다.

In [16]:
# 엔터키 누르기
from selenium.webdriver.common.keys import Keys
text_field.send_keys(Keys.ENTER)

### 4. 요소 스크레이핑하기
* 이제 네이버 뉴스 메인 페이지로 돌아가서 우측의 '가장 많이 본 뉴스' 제목들을 스크레이핑 해보자.

In [17]:
# 탭 이동
main_window = driver.current_window_handle
driver.switch_to_window(main_window)

  This is separate from the ipykernel package so we can avoid doing imports until


* '가장 많이 본 뉴스'의 기사 제목들은 `<li>` 태그의 자식요소인 `<a>` 태그의 값인 것을 알 수 있다.
* `<ㅣi>` 요소들은 `<ul>` 요소의 자식 요소이지만,  `<ul>` 요소의 'class' 속성인 'section_list_ranking'은 다른 요소도 동일하게 갖고 있기 때문에 요소를 식별하는 데에 사용될 수 없다. 
* `<ㅣi>` 요소의 조상 요소 중에 `<div>` 요소는 식별자인 'id' 속성('container')을 갖고 있기 때문에 `<a>` 요소를 식별하는 데에 사용될 수 있다. 

In [20]:
# 헤드라인 찾기
headlines = driver.find_elements_by_css_selector("div#container div[class='main_aside'] ul.section_list_ranking")
for headline in headlines:
    print(headline.text)

1 "세월호 CCTV 조작 가능성…누군가 상황 알고 싶었을 수도"
2 '조두순법' '블라인드 채용법' 국회 본회의 통과(종합)
3 야 3당, 靑 대변인 고가 건물 매입 비판…"누가 봐도 투기"(종합)
4 박영선 "6년 전 황교안, 김학의 얘기에 당황…귀까지 빨개져"(종합)
5 5분도 안 돼 깨진 민경욱의 "박영선=망상환자"
6 국회 정경두 국방장관 해임안 발의…72시간 내 표결 처리
7 박영선·이용주의 '의미심장'한 웃음…'김학의 특검' 끌려나온 황교안
8 신보라 "아기와 국회 출석…출산·양육 어려움 알리고 싶었다"
9 “박근혜 따라한 것 아냐” 이언주 청문회 패션 시끌
10 황교안-박영선, 김학의 임명 직전 만나..黃 논란 인지 시점은








In [21]:
# 웹드라이버 종료
driver.quit()

# 3장. Amazon 웹사이트 크롤링 실습
* 이번 장에서는 독일, 영국, 스페인, 이탈리아, 프랑스의 Amazon 웹사이트에서 데이터를 크롤링하는 과정을 살펴본다. 
* 지금까지 배운 개념을 떠올리며 코드를 한 줄씩 이해해보자.

## 1. 기본 세팅
* 대부분의 프로젝트에서 제일 먼저 해야할 일은 필요한 모듈을 불러오고 작업 공간(working space)을 지정하는 일이다. 
* 작업 공간이란 우리가 프로그래밍을 하면서 모듈이나 파일을 읽어올 때 그것들이 어디에 저장되어 있는지 Python에게 알려주는 것이다.
* 작업 공간을 지정하지 않으면 Python은 모듈이나 파일을 찾지 못하고 오류 메세지를 내게 된다. 

In [24]:
# 필요한 라이브러리 불러오기
from os import *
from selenium import webdriver
import selenium.common.exceptions as selexcept
import time
import pandas as pd

In [25]:
# Set the working directory
wd = r"C:\wd"
chdir(wd)
getcwd()

'C:\\wd'

## 2. 변수 정의
* 다음 단계는 프로그램 전반에 걸쳐서 사용할 변수들을 앞부분에 미리 정의해주는 것이다. 
* 이 프로젝트의 경우 웹 브라우징을 위한 URL 및 수집되는 데이터들을 저장하기 위한 변수를 미리 정의하게 된다. 

In [26]:
# 각 국가의 페이지에 접속하기 위한 URL의 기본형과 그것들을 저장할 딕셔너리를 정의한다.  
url_de_base = "https://www.amazon.de/gp/bestsellers/ce-de/364935031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_uk_base = "https://www.amazon.co.uk/Best-Sellers-Electronics-Mobile-Phone-Cases-Covers/zgbs/electronics/340321031/ref=zg_bs_pg_2?_encoding=UTF8&pg="

url_es_base = "https://www.amazon.es/gp/bestsellers/electronics/934178031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_it_base = "https://www.amazon.it/gp/bestsellers/electronics/473264031/ref=zg_bs_pg_2?ie=UTF8&pg="

url_fr_base = "https://www.amazon.fr/gp/bestsellers/electronics/15427624031/ref=zg_bs_pg_2?ie=UTF8&pg="

urls_base = {
        "de": url_de_base, 
        "uk": url_uk_base, 
        "es": url_es_base, 
        "it": url_it_base, 
        "fr": url_fr_base }

# URL의 기본형을 조합하여 완전한 URL을 생성해내고, 이를 딕셔너리에 저장한다. 
urls = {} 
for country in list(urls_base.keys()):
    for i in range(2):
        urls_ = [urls_base[country] + str(i+1) for i in range(2)] 
        urls[country] = urls_

# 웹 크롤링을 통해 수집될 데이터들을 저장할 리스트와 딕셔너리를 정의한다. 
data = {}    
country = []
for v in list(urls.keys()):
    for i in range(100):
        country.append(v)
ranking = []
manufacturer = []
product = []
rating = []
num_review = []
price = []
feature = []
current_url = []
description = []
review = []

## 3. 웹 크롤링
* 이제 사전 작업을 마치고 본격적으로 웹 크롤링을 할 차례이다. 
* 우선 웹 드라이버를 불러온다. 

In [29]:
# 웹 드라이버를 불러오고, 불러오기가 완료될 때까지 3초간 기다린다. 
driver = webdriver.Chrome(r"C:\chromedriver.exe")
driver.maximize_window()
driver.implicitly_wait(3)

* 웹 크롤링을 시작한다. 

In [30]:
# 각 페이지에 접속해서 요소들을 크롤링한다.
for item in list(urls.keys()):
    for url in urls[item]:
        driver.implicitly_wait(10)
        driver.get(url)
        for i in range(50):
            # 랭킹 수집
            ranking.append(driver.find_elements_by_css_selector("span[class='zg-badge-text']")[i].text)
            
            # Price
            try:
                price.append(driver.find_elements_by_css_selector("span.p13n-sc-price")[i].text)
            
            # In case there is no price
            except:
                price.append("")
            
            # Number of reviews
            try:
                num_review.append(driver.find_elements_by_css_selector("#zg-ordered-list a.a-size-small.a-link-normal")[i].text)
            
            # In case there is no reviews
            except:
                num_review.append("")
                pass
        for i in range(50):
            
            # Get to each item page
            try:
                driver.find_elements_by_css_selector("#zg-ordered-list > li > span > div > span > a")[i].click()
            except:
                pass
            
            # Descriptions
            try:
                n_description = len(driver.find_elements_by_css_selector("ul[class='a-unordered-list a-vertical a-spacing-none'] li > span.a-list-item"))
                description_set = []
                for j in range(1, n_description):
                    description_set.append(driver.find_elements_by_css_selector("ul[class='a-unordered-list a-vertical a-spacing-none'] li > span.a-list-item")[j].text)
                description.append(description_set)
            except:
                description.append("")
                pass
            
            # URL
            current_url.append(driver.current_url)
            
            # Manufacturer
            manufacturer.append(driver.find_element_by_css_selector("a#bylineInfo").text);
            
            # Product
            product.append(driver.find_element_by_css_selector("#productTitle").text)
            
            # Rating
            try:
                rating.append(driver.find_element_by_css_selector("span[data-hook= rating-out-of-text]").text)
            except:
                # Append 0 when there is no rating yet
                rating.append(0)
                pass
            
            # Feature
            try:
                n_features = len(driver.find_elements_by_css_selector("#cr-summarization-attribute- div.a-fixed-right-grid-col.a-col-left > div > span"))
                feature_set = []
                for j in range(n_features):
                    feature_set.append(driver.find_elements_by_css_selector("#cr-summarization-attribute- div.a-fixed-right-grid-col.a-col-left > div > span")[j].text)
                feature.append(feature_set)
            except:
                feature.append([""])
                pass
            
            # Reviews
            try:
                # Get to "See all reviews"
                driver.find_element_by_css_selector("a[class='a-link-emphasis a-text-bold']").click()
                review_set = []
                    
                # Scrape the reviews page by page
                page_continue = True
                while page_continue: 
                    driver.implicitly_wait(3)
                    n_review_page = len(driver.find_elements_by_css_selector("div[class='a-row a-spacing-small review-data']"))
                    driver.implicitly_wait(3)
                    for k in range(n_review_page):
                        review_set.append(driver.find_elements_by_css_selector("div[class='a-row a-spacing-small review-data']")[k].text)
                    try:
                        driver.find_element_by_css_selector("ul.a-pagination > li.a-last > a").click()
                        driver.implicitly_wait(3)
                    except selexcept.NoSuchElementException:
                        page_continue = False
                
                # Save a set of reviews for an item
                review.append(review_set)
            except selexcept.NoSuchElementException:
                review.append("")
            
            # Get back to the item list page
            driver.get(url)
            
            print(len(ranking), len(price), len(num_review), len(manufacturer), len(product), len(rating), len(feature),len(current_url), len(description), len(review), sep = " / ")
          

WebDriverException: Message: unknown error: Element <a href="/Kompatibel-Einteilige-Transparent-Schutzhülle-042CS20926-UH-Schwarz/product-reviews/B01M1SCIOV/ref=cm_cr_arp_d_paging_btm_2?ie=UTF8&amp;pageNumber=2&amp;reviewerType=all_reviews">...</a> is not clickable at point (835, 908). Other element would receive the click: <div class="a-section cr-list-loading reviews-loading"></div>
  (Session info: chrome=73.0.3683.86)
  (Driver info: chromedriver=73.0.3683.20 (8e2b610813e167eee3619ac4ce6e42e3ec622017),platform=Windows NT 10.0.17134 x86_64)


## 4. 데이터 저장
* 이제 웹 크롤링을 통해 수집된 데이터를 딕셔너리에 할당하고 'csv'파일로 저장하는 마지막 단계이다. 

In [None]:
# 메타데이터를 키로 하고 수집된 데이터를 값으로 가지는 딕셔너리 생성.
data["country"] = country
data["ranking"] = ranking          
data["manufacturer"] = manufacturer 
data["product"] = product
data["rating"] = rating
data["num_review"] = num_review 
data["price"] = price
data["feature"] = feature
data["current_url"] = current_url
data["description"] = description
data["review"] = review

* 'Pandas'라는 라이브러리를 이용하여 딕셔너리를 데이터프레임 형태로 만들어주고 'csv' 파일로 저장한다.
* '데이터프레임'은 행과 열이 있는 테이블 형태의 자료형을 의미한다. 

In [1]:
# 데이터 프레임 생성하기.
amazon = pd.DataFrame(data=data)

# 'csv' 파일로 저장하기.
amazon.to_csv("amazon.csv", index=False)

WebDriverException: Message: unknown error: Element <a href="/Kompatibel-Einteilige-Transparent-Schutzhülle-042CS20926-UH-Schwarz/product-reviews/B01M1SCIOV/ref=cm_cr_getr_d_paging_btm_3?ie=UTF8&amp;pageNumber=3&amp;reviewerType=all_reviews&amp;pageSize=10">...</a> is not clickable at point (398, 657). Other element would receive the click: <div class="a-section cr-list-loading reviews-loading"></div>
  (Session info: chrome=73.0.3683.86)
  (Driver info: chromedriver=2.45.615291 (ec3682e3c9061c10f26ea9e5cdcf3c53f3f74387),platform=Windows NT 10.0.17134 x86_64)
