# Python을 활용한 web scraping 기초

2021.08.11

---

# 목차 

0. 개요

1. Web Crawling vs Web Scraping

2. 웹스크래핑 문제

3. 환경 설정  
3-1. anaconda / miniconda 설치  
3-2. 가상환경 설정  
3-3. Packages  
3-4. Chrome & chromedriver  
3-5. jupyter lab / jupyter notebook  

4. Python 소개  
4-1. 데이터 타입  
4-2. 데이터 구조  
4-3. 조건문  
4-4. 반복문  

5. Web 구조와 웹페이지 이해    
5-1. Internet Protocol   
5-2. 웹페이지 기본 구조  

6. 웹페이지 데이터 가져오기    
6-0. Open API?  
6-1. 과정  
6-2. 예제 1: 대통령 연설문  
6-2-1. 웹페이지 가져오기 - Selenium  
6-2-2. 페이지 구조 분석  
6-2-3. 필요한 부분 추출  
6-2-4. 데이터 저장  
6-2-5. 정리  

7. 연결된 웹페이지 데이터 가져오기      
7-1. 연결된 웹페이지 분석  
7-2. 추출 자동화  

8. 다음 페이지로 넘어가는 방법: Pagination  

---

# 0. 개요

* 초보자 대상
* 기본 구조를 이해하고 활용하기 위한 기초 단계 
* 가장 기본적인 방법을 통해 데이터를 가져오기


> ( 데이터 수집 > 저장 ) > 정리 > 분석 > 시각화/리포트

---

# 1. Web Crawling vs Web Scraping

![data_meme](https://memecreator.org/static/images/memes/5065598.jpg)

웹크롤링과 웹스크래핑은 밀접하게 관련되어 있고 두 용어를 혼용하는 경우도 많지만 둘 간에는 차이가 존재  

* 웹 상에 존재하는 데이터를 자동으로 탐색하여 데이터를 수집하는 경우: 웹크롤링  
검색엔진에서 링크 내 컨텐츠를 추출하고 다른 링크를 확인하는 등 웹사이트의 구조를 파악하거나 복사본 등을 만들 때 활용

* 웹페이지에서 원하는 특정 데이터를 추출하는 경우: 웹스크래핑   
필요한 데이터를 중심으로 가공  

---

# 2. 웹스크래핑이 문제 되는 경우

웹사이트에서 원하는 데이터를 추출하기 위해 서버에 요청을 **반복적**으로 보냄  
* 자동화된 프로그램으로 정보를 요청하기 때문에 서버에 지나치게 많은 요청을 보내게 되면 서버 부하가 발생할 수 있음  
* 더 빠르게 데이터를 수집하기 위해 서버에 부하를 줄 정도로 반복하는 경우 문제  

웹사이트 별로 자동화 프로그램에 대한 정책을 명시해놓는 경우가 많음  

## robots.txt  
robots.txt의 내용이 강제성이 있는 것은 아닌 권고안 정도의 의미

* User-agent:* 모든 접속자가 아래 내용을 따라달라는 의미  
* Disallow: / 모든 페이지에 대해 접근을 허용하지 않음  
* Allow: /$ 첫 페이지에 대해서는 접근을 허용  

> https://www.google.com/robots.txt

이외에도 요청 빈도 등에 대해 별도로 명시해 놓은 경우도 있음

---

# 3. Python 환경 설정

## 3-1. anaconda / miniconda 설치
* anaconda: https://www.anaconda.com/products/individual
* miniconda: https://docs.conda.io/en/latest/miniconda.html

## 3-2. 가상환경 설정
```python
conda create -n web python=3.8
activate web
```

## 3-3. Packages
* jupyter lab: https://jupyter.org/
* pandas: https://pandas.pydata.org/  
* selenium: https://www.selenium.dev/
* requests: https://docs.python-requests.org/en/master/
* beautifulsoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
conda install jupyterlab
conda install pandas
conda install selenium

conda install requests
conda install beautifulsoup4

```

## 3-4. Chrome & chromedriver

* google chrome: https://www.google.com/chrome/
* chromedriver: https://chromedriver.chromium.org/downloads
  * webdriver-manager: https://github.com/SergeyPirogov/webdriver_manager

## 3-5. jupyter lab / notebook

* markdown: https://www.markdownguide.org/basic-syntax/
* code

In [None]:
print('python')

In [None]:
print(8+11)

In [None]:
num1 = 8
num2 = 11
print(num1 + num2)
print(num1 * num2)

In [None]:
name = input('name: ')
print('hello, ', name)

---

# 4. Python 소개

## 4-1. 데이터 타입

* int
* float
* str
* bool

### string

In [None]:
name = 'python'
len(name)

## 4-2. 데이터구조

* list
* dictionary
* tuple
* set

### list

In [None]:
list1 = ['name1', 'name2', 'name3']
print(list1)

In [None]:
print(list1[0])

In [None]:
list1.append('name4')
print(list1)

### dictionary

dictionary는 key와 value로 이루어져있음

In [1]:
dict1 = {'key1':'value1', 'key2':'value2'}
print(dict1)

{'key1': 'value1', 'key2': 'value2'}


In [2]:
print(dict1['key1'])

value1


## 4-3. 조건문

```python
if 조건1:
    실행1
elif 조건2:
    실행2
else:
    실행3
```

### comparison operators

* a == b  
* a != b  
* a < b  
* a > b  
* a <= b  
* a >= b  

In [None]:
a = 1
b = 2
if a < b:
    print('a < b')
else:
    print('a >= b')

## 4-4. 반복문

* for
* while

### for

```python 
for var in list:
    run1
```

* 리스트 내용 출력하기

In [None]:
list1 = ['name1', 'name2', 'name3']
for name in list1:
    print(name)

* 1~10 출력하기

In [None]:
for n in range(1,11):
    print(n)

### while

```python
while 조건1:
    실행1
```

* 리스트에 1~10 입력하기

In [None]:
list1 = []
n = 0
while n <= 10:
    list1.append(n)
    n += 1
print(list1)

---

# 5. Web에 대한 기초

![network image1](./img/network_1.jpg)

## 5-1. Internet Protocol

* 서로 연결하기 위한 프로토콜 - 어떻게 동작할 것인가에 대해 합의: 어떠한 요청을 할 수 있는지, 정보는 어떠한 형식으로 교환할 것인지 등  

* Internet Protocol
  * Physical Layer  
  * Network Layer: 예)IP Address
  * Transport Layer: 예)TCP(Transmission Control Protocol)
  * Application Layer: 예)HTTP(Hypertext Transport Protocol), FTP

![network image2](./img/network_2.jpg)


웹페이지 동작
- 주소로 접속하여 해당 컴퓨터에 특정 요청을 함
- 요청 받은 파일을 전달함
- 웹브라우저가 코드를 변환하여 화면에 표시함

## 5-2. 웹페이지 기본 구조


* HTML: 구조
* CSS: 디자인
* javascript: 기능

### HTML - Hypertext Markup Language

Hypertext: Linked documents  
Markup: Instruction text (Publishing)

- 우클릭 > 페이지 소스보기

```html
<!DOCTYPE html>
<html>
    <head>
        <title>Title</title>
    </head>
    <body>
        Body
        <a href="http://">link</a>
    </body>
</html>
```


* tag
```html
<a> anchor </a> 
```
* attribute, value
```html
<a href="http://">hypertext reference</a>
<body class="bodyclass">body</body>
```

### CSS - Cascading Style Sheets

font size, color 등 웹페이지의 디자인을 담당  

property와 value로 구성

```css
h1 {
    color: red;
}
.bodyclass {
    color: blue;
    font-style: bold;
}
```

---

# 6. Web Scraping 기초

## 6-0. Open API?

외부에서 누구나 사용할 수 있도록 공개된 프로그래밍 인터페이스  


* 공공데이터포털: https://www.data.go.kr/
* 네이버: https://developers.naver.com/products/intro/plan/plan.md  
  네이버 뉴스: https://developers.naver.com/docs/serviceapi/search/news/news.md#%EB%89%B4%EC%8A%A4
* 카카오: https://developers.kakao.com/product


1. API 이용신청
2. Application 등록 - localhost / 127.0.0.1
3. Documentation 활용

## 6-1. 과정

1. 웹페이지 가져오기 - selenium / requests
2. 페이지 구조 분석 - selenium / beautifulsoup 
3. 필요한 부분 추출 - css selector / xpath
4. 데이터 저장 - pandas

## 6-2. 예제 1: 대통령 연설문

### 6-2-1. 웹페이지 가져오기 - Selenium

청와대 홈페이지 연설문: https://www1.president.go.kr/c/president-speeches

In [None]:
from selenium import webdriver

In [None]:
driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

#### Selenium 소개

In [None]:
more_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/div')
more_button.click()

In [None]:
driver.back()

In [None]:
search_button = driver.find_element_by_css_selector('#webNavi > p > a')
search_button.click()

In [None]:
search_field = driver.find_element_by_id('query')
search_field.send_keys('연설문')

In [None]:
from selenium.webdriver.common.keys import Keys
search_field.send_keys(Keys.ENTER)

In [None]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

In [None]:
driver.quit()

In [None]:
from selenium import webdriver

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

### 6-2-2. 페이지 구조 분석

웹페이지에서 필요한 부분만을 추출하기 위해 해당 페이지의 대략적인 구조 파악  

div, p 등 동일한 tag가 반복적으로 사용되기 때문에 상대적인 위치, tag의 속성과 속성값까지 활용  

#### CSS Selector

* element 우클릭 > Copy selector
  * #cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3


#### XPath

* element 우클릭 > Copy XPath
  * //*[@id="cont_view"]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/h3
  * /html/body/div[2]/div[2]/section[2]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/h3
* / : 절대경로
* // : 문서 내에서 검색
* //@href : href 속성이 있는 모든 태그 선택
* //*[@id='id1'] : 'id' 속성에 'id1' 속성값을 가진 모든 태그 선택 

### 6-2-3. 필요한 부분 추출

#### Selenium

* find_element_by_id
* find_element_by_name
* find_element_by_tag_name
* find_element_by_class_name
* find_element_by_css_selector
* find_element_by_xpath

In [None]:
# 제목 1:
speech_title = driver.find_element_by_css_selector('#cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3')
print(speech_title.text)

In [None]:
speech_titles = driver.find_elements_by_css_selector('h3')
for num, title in enumerate(speech_titles):
    print(num, title.text)

In [None]:
speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
for num, title in enumerate(speech_titles):
    print(num, title.text)

In [None]:
speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')

In [None]:
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
for num, url in enumerate(speech_urls):
    print(num, url.text)

### 6-2-4. 데이터 저장

In [None]:
speech_list = []
for n in range(len(speech_dates)):
    speech_list.append(
        {
            'title': speech_titles[n].text,
            'summary': speech_summaries[n].text,
            'date': speech_dates[n].text,
            'url': speech_urls[n].get_attribute('href')
        })

In [None]:
import pandas as pd

In [None]:
speech_df = pd.DataFrame(speech_list)

In [None]:
speech_df.head()

In [None]:
speech_df.to_csv('president_speech_ex1.csv', encoding='utf-8-sig')

### 6-2-5. 정리

#### 방식 1

In [None]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')

speech_list = []
for n in range(len(speech_dates)):
    speech_list.append(
        {
            'title': speech_titles[n].text,
            'summary': speech_summaries[n].text,
            'date': speech_dates[n].text,
            'url': speech_urls[n].get_attribute('href')
        })
    
driver.quit()

speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_ex1.csv', encoding='utf-8-sig')

#### 방식 2

In [None]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

speeches = driver.find_elements_by_xpath('//*[@id="cont_view"]/div[2]/div/div[3]/div/div')

speech_list = []
for speech in speeches:
    title = speech.find_element_by_xpath('div/div[1]/a/div[1]/h3').text
    summary = speech.find_element_by_xpath('div/div[1]/a/div[2]').text
    date = speech.find_element_by_xpath('div/div[1]/a/p').text
    url = speech.find_element_by_xpath('div/div[1]/a').get_attribute('href')
    speech_list.append({'title':title, 'summary':summary, 'date':date, 'url':url})
    
driver.quit()

speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_ex2.csv', encoding='utf-8-sig')

# 7. 연결된 웹페이지 데이터 가져오기

* 연설문 목록의 일부를 가져왔지만, 연설문 전문이 필요

* 연설문 전문이 있는 웹페이지 링크는 이미 가져옴

In [None]:
speech_list

In [None]:
speech_list[0]['url']

In [None]:
for speech in speech_list:
    print(speech['url'])

In [None]:
speech_df

## 7-1. 연결된 웹페이지 분석  

가져오고자 하는 연설문 전문 웹페이지에서 패턴 분석

* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible > table > tbody
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible

In [None]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')

In [None]:
url = speech_list[0]['url']
driver.get(url)
speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
print(speech_body)

In [None]:
speech_list[0]['body'] = speech_body

In [None]:
speech_list[0]

In [None]:
speech_list[0]['body']

## 7-2. 추출 자동화  

In [None]:
import time

for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(2)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body

In [None]:
speech_list

In [None]:
speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_fulltext.csv', encoding='utf-8-sig')

# 8. 다음 페이지로 넘어가는 방법: Pagination  



짧은 시간에 페이지 호출을 너무 많이 하게 되면 서버에서 접속을 차단할 수도 있음

## 8-1. 비효율적인 방법

In [None]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

In [None]:
page_2_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]')
page_2_button.click()

In [None]:
page_2_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]')
page_2_button.click()
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")b

* page2: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]
* page3: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[3]
* Next: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a

In [None]:
import time

for page_n in range(2,11):
    page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[{page_n}]')
    page_button.click()
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(2)

In [None]:
for page_10_n in range(1, 3):
    for page_n in range(2,11):
        page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[{page_n}]')
        page_button.click()
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
        time.sleep(2)
    page_next_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a')
    page_next_button.click()
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(2)

## 8-2. 조금 더 효율적인 방법

In [None]:
from selenium import webdriver
import pandas as pd
import time
driver = webdriver.Chrome('./chromedriver')

In [None]:
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

In [None]:
url_base = 'https://www1.president.go.kr/c/president-speeches?page='
for page_number in range(1,4):
    url = url_base + str(page_number)
    print(url)

In [None]:
url_base = 'https://www1.president.go.kr/c/president-speeches?page='
speech_list = []
for page_number in range(1,4):
    url = url_base + str(page_number)
    driver.get(url)
    time.sleep(2)
    speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
    speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
    speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
    speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
    for n in range(len(speech_dates)):
        speech_list.append(
            {
                'title': speech_titles[n].text,
                'summary': speech_summaries[n].text,
                'date': speech_dates[n].text,
                'url': speech_urls[n].get_attribute('href')
            })

In [None]:
speech_list

In [None]:
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(2)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body

In [None]:
speech_df = pd.DataFrame(speech_list)

In [None]:
speech_df.head()

In [None]:
speech_df.to_csv('president_speech_pp1-3.csv', encoding='utf-8-sig')

## 8-3. 정리

### 8-3-1. 방식 1

In [None]:
from selenium import webdriver
import pandas as pd
import time

driver = webdriver.Chrome('./chromedriver')
url_base = 'https://www1.president.go.kr/c/president-speeches?page='

speech_list = []
for page_number in range(1,4):
    url = url_base + str(page_number)
    driver.get(url)
    time.sleep(2)
    
    speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
    speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
    speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
    speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
    
    for n in range(len(speech_dates)):
        speech_list.append(
            {
                'title': speech_titles[n].text,
                'summaries': speech_summaries[n].text,
                'date': speech_dates[n].text,
                'url': speech_urls[n].get_attribute('href')
            })
        
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(2)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body
    
driver.quit()
speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_pp1-3.csv', encoding='utf-8-sig')