# Python을 활용한 web scraping 기초

2021.08.11

---

# 목차 

0. 개요

1. Web Crawling vs Web Scraping

2. 웹스크래핑 문제

3. 환경 설정  
3-1. anaconda / miniconda 설치  
3-2. 가상환경 설정  
3-3. Packages  
3-4. Chrome & chromedriver  
3-5. jupyter lab / jupyter notebook  

4. Python 소개  
4-1. 데이터 타입  
4-2. 데이터 구조  
4-3. 조건문  
4-4. 반복문  

5. Web 구조와 웹페이지 이해    
5-1. Internet Protocol   
5-2. 웹페이지 기본 구조  

6. 웹페이지 데이터 가져오기    
6-0. Open API?  
6-1. 과정  
6-2. 예제 1: 대통령 연설문  
6-2-1. 웹페이지 가져오기 - Selenium  
6-2-2. 페이지 구조 분석  
6-2-3. 필요한 부분 추출  
6-2-4. 데이터 저장  
6-2-5. 정리  

7. 연결된 웹페이지 데이터 가져오기      
7-1. 연결된 웹페이지 분석  
7-2. 추출 자동화  

8. 다음 페이지로 넘어가는 방법: Pagination  

---

# 0. 개요

* 초보자 대상
* 기본 구조를 이해하고 활용하기 위한 기초 단계 
* 가장 기본적인 방법을 통해 데이터를 가져오기


![enough_for_today](https://tutorial.eyehunts.com/wp-content/uploads/2021/07/208073311_1453256311692332_8313631719648907675_n.jpg)

> ( 데이터 수집 > 저장 ) > 정리 > 분석 > 시각화/리포트

---

# 1. Web Crawling vs Web Scraping

![data_meme](https://memecreator.org/static/images/memes/5065598.jpg)

웹크롤링과 웹스크래핑은 밀접하게 관련되어 있고 두 용어를 혼용하는 경우도 많지만 둘 간에는 차이가 존재  

* 웹 상에 존재하는 데이터를 자동으로 탐색하여 데이터를 수집하는 경우: 웹크롤링  
검색엔진에서 링크 내 컨텐츠를 추출하고 다른 링크를 확인하는 등 웹사이트의 구조를 파악하거나 복사본 등을 만들 때 활용

* 웹페이지에서 원하는 특정 데이터를 추출하는 경우: 웹스크래핑   
필요한 데이터를 중심으로 가공  

---

# 2. 웹스크래핑이 문제 되는 경우

웹사이트에서 원하는 데이터를 추출하기 위해 서버에 요청을 **반복적**으로 보냄  
* 자동화된 프로그램으로 정보를 요청하기 때문에 서버에 지나치게 많은 요청을 보내게 되면 서버 부하가 발생할 수 있음  
* 더 빠르게 데이터를 수집하기 위해 서버에 부하를 줄 정도로 반복하는 경우 문제  

웹사이트 별로 자동화 프로그램에 대한 정책을 명시해놓는 경우가 많음  

## robots.txt  
robots.txt의 내용이 강제성이 있는 것은 아닌 권고안 정도의 의미

* User-agent:* 모든 접속자가 아래 내용을 따라달라는 의미  
* Disallow: / 모든 페이지에 대해 접근을 허용하지 않음  
* Allow: /$ 첫 페이지에 대해서는 접근을 허용  

> https://www.google.com/robots.txt

이외에도 요청 빈도 등에 대해 별도로 명시해 놓은 경우도 있음

---

# 3. Python 환경 설정

## 3-1. anaconda / miniconda 설치

* anaconda: https://www.anaconda.com/products/individual
* miniconda: https://docs.conda.io/en/latest/miniconda.html

## 3-2. 가상환경 설정

https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#

```python
conda create -n web python=3.8
conda activate web
```

## 3-3. Packages

* jupyter lab: https://jupyter.org/
* pandas: https://pandas.pydata.org/  
* selenium: https://www.selenium.dev/
* requests: https://docs.python-requests.org/en/master/
* beautifulsoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

```python
conda install jupyterlab
conda install pandas
conda install selenium

conda install requests
conda install beautifulsoup4

```

## 3-4. Chrome & chromedriver

* google chrome: https://www.google.com/chrome/
* chromedriver: https://chromedriver.chromium.org/downloads
  * webdriver-manager: https://github.com/SergeyPirogov/webdriver_manager

## 3-5. jupyter lab / notebook

* markdown: https://www.markdownguide.org/basic-syntax/
* code

In [None]:
print('python')

In [None]:
print(8+11)

In [None]:
num1 = 8
num2 = 11
print(num1 + num2)
print(num1 * num2)

In [None]:
name = input('name: ')
print('hello, ', name)

---

# 4. Python 소개

## 4-1. 데이터 타입

* int
* float
* str
* bool

### string

In [2]:
name = 'python'
len(name)

6

In [3]:
name_with_space = '  python  '
len(name_with_space)

10

In [5]:
print('print variable1:{}, print variable2:{}'.format(name, name_with_space))

print variable1:python, print variable2:  python  


In [6]:
name_with_space.strip()

'python'

In [7]:
split_string = 'section1|section2|section3'
section = split_string.split('|')

In [8]:
print(section[0]) 

section1


In [9]:
print(section[2])

section3


## 4-2. 데이터구조

* list
* dictionary
* tuple
* set

### list

In [10]:
list1 = ['name1', 'name2', 'name3']
print(list1)

['name1', 'name2', 'name3']


In [11]:
print(list1[0])

name1


In [12]:
print(list1[1])

name2


In [13]:
list1.append('name4')
print(list1)

['name1', 'name2', 'name3', 'name4']


In [14]:
print(list1[3])

name4


In [17]:
print(len('name1'))

5


In [18]:
print(len(list1[0]))

5


### dictionary

dictionary는 key와 value로 이루어져있음

In [19]:
dict1 = {'key1':'value1', 'key2':'value2'}
print(dict1)

{'key1': 'value1', 'key2': 'value2'}


In [20]:
print(dict1['key1'])

value1


In [21]:
print(dict1.keys())

dict_keys(['key1', 'key2'])


In [22]:
print(dict1.values())

dict_values(['value1', 'value2'])


In [23]:
dict1['key3']='value3'
print(dict1)

{'key1': 'value1', 'key2': 'value2', 'key3': 'value3'}


## 4-3. 조건문

```python
if 조건1:
    실행1
elif 조건2:
    실행2
else:
    실행3
```

### comparison operators

* a == b  
* a != b  
* a < b  
* a > b  
* a <= b  
* a >= b  

In [28]:
a = 1
b = 2
if a < b:
    print('a < b')
else:
    print('a >= b')

IndentationError: expected an indented block (<ipython-input-28-6f912c1da355>, line 4)

## 4-4. 반복문

* for
* while

### for

```python 
for var in list:
    run1
```

* 리스트 내용 출력하기

In [30]:
list1 = ['name1', 'name2', 'name3']
for q in list1:
    print(q)

name1
name2
name3


* 1~10 출력하기

In [33]:
for n in range(1,11):
    print(n)

1
2
3
4
5
6
7
8
9
10


* 1~10 더하기

In [34]:
result = 0
for n in range(1,11):
    result = result + n
print(result)

55


In [35]:
result1 = 0
result2 = 0
for n in range(1,11):
    result1 = result1 + n
    result2 += n
print('result1: ', result1)
print('result2: ', result2)

result1:  55
result2:  55


### while

```python
while 조건1:
    실행1
```

* 1~10 출력하기

In [36]:
n = 0
while n < 10:
    n += 1
    print(n)

1
2
3
4
5
6
7
8
9
10


* 리스트에 1~10 입력하기

In [38]:
list1 = []
n = 1
while n <= 10:
    list1.append(n)
    n += 1 
print(list1)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


---

# 5. Web에 대한 기초

![network image1](./img/network_1.jpg)

## 5-1. Internet Protocol

* 서로 연결하기 위한 프로토콜 - 어떻게 동작할 것인가에 대해 합의: 어떠한 요청을 할 수 있는지, 정보는 어떠한 형식으로 교환할 것인지 등  

* Internet Protocol
  * Physical Layer  
  * Network Layer: 예)IP Address
  * Transport Layer: 예)TCP(Transmission Control Protocol)
  * Application Layer: 예)HTTP(Hypertext Transport Protocol), FTP

![network image2](./img/network_2.jpg)

웹페이지 동작

* 주소로 접속하여 해당 컴퓨터에 특정 요청을 함
* 요청 받은 파일을 전달함
* 웹브라우저가 코드를 변환하여 화면에 표시함

## 5-2. 웹페이지 기본 구조


* HTML: 구조
* CSS: 디자인
* javascript: 기능

### HTML - Hypertext Markup Language

Hypertext: Linked documents  
Markup: Instruction text (Publishing)

- 우클릭 > 페이지 소스보기

```html
<!DOCTYPE html>
<html>
    <head>
        <title>Title</title>
    </head>
    <body>
        Body
        <a href="http://">link</a>
        <a href="">link2</a>
    </body>
</html>
```


* tag
```html
<a> anchor </a> 
```
* attribute, value
```html
<a href="http://naver.com">hypertext reference</a>
<body class="bodyclass">body</body>
```

### CSS - Cascading Style Sheets

font size, color 등 웹페이지의 디자인을 담당  

property와 value로 구성

```css
h1 {
    color: red;
}
.bodyclass {
    color: blue;
    font-style: bold;
}
```

---

# 6. Web Scraping 기초

## 6-0. Open API?

외부에서 누구나 사용할 수 있도록 공개된 프로그래밍 인터페이스  


* 공공데이터포털: https://www.data.go.kr/
* 네이버: https://developers.naver.com/products/intro/plan/plan.md  
  네이버 뉴스: https://developers.naver.com/docs/serviceapi/search/news/news.md#%EB%89%B4%EC%8A%A4
* 카카오: https://developers.kakao.com/product


1. API 이용신청
2. Application 등록 - localhost / 127.0.0.1
3. Documentation 활용

## 6-1. 과정

1. 웹페이지 가져오기 - selenium / requests
2. 페이지 구조 분석 - selenium / beautifulsoup 
3. 필요한 부분 추출 - css selector / xpath
4. 데이터 저장 - pandas

## 6-2. 예제 1: 대통령 연설문

### 6-2-1. 웹페이지 가져오기 - Selenium

청와대 홈페이지 연설문: https://www1.president.go.kr/c/president-speeches

In [1]:
from selenium import webdriver

In [2]:
driver = webdriver.Chrome('./chromedriver')

In [3]:
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

#### Selenium 소개

In [42]:
more_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/div')
more_button.click()

In [43]:
driver.back()

In [45]:
search_button = driver.find_element_by_css_selector('#webNavi > p > a')
search_button.click()

In [46]:
search_field = driver.find_element_by_id('query')
search_field.send_keys('연설문')

In [47]:
from selenium.webdriver.common.keys import Keys
search_field.send_keys(Keys.ENTER)

In [48]:
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

In [49]:
driver.quit()

In [50]:
from selenium import webdriver

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

### 6-2-2. 페이지 구조 분석

웹페이지에서 필요한 부분만을 추출하기 위해 해당 페이지의 대략적인 구조 파악  

div, p 등 동일한 tag가 반복적으로 사용되기 때문에 상대적인 위치, tag의 속성과 속성값까지 활용하여 필요한 부분을 특정함  

#### CSS Selector

* element 우클릭 > Copy selector
  * #cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3


#### XPath

* element 우클릭 > Copy XPath
  * //*[@id="cont_view"]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/h3
  * /html/body/div[2]/div[2]/section[2]/div[2]/div/div[3]/div/div[1]/div/div[1]/a/div[1]/h3
* / : 절대경로
* // : 문서 내에서 검색
* //@href : href 속성이 있는 모든 태그 선택
* //*[@id='id1'] : 'id' 속성에 'id1' 속성값을 가진 모든 태그 선택 

### 6-2-3. 필요한 부분 추출

#### Selenium

* find_element_by_id
* find_element_by_name
* find_element_by_tag_name
* find_element_by_class_name
* find_element_by_css_selector
* find_element_by_xpath

https://selenium-python.readthedocs.io/locating-elements.html

In [53]:
#cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3

speech_title = driver.find_element_by_css_selector('#cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3')
speech_title


# # 제목 1:
# speech_title = driver.find_element_by_css_selector('#cont_view > div.cs_area > div > div.sub_container1.fff > div > div:nth-child(1) > div > div.list_txt > a > div.list_txt_title > h3')
print(speech_title.text)

수석보좌관회의 모두발언


In [71]:
speech_titles = driver.find_elements_by_css_selector('h3')
# print(speech_titles.text)


# for title in speech_titles:
#     print(title.text)


for num, title in enumerate(speech_titles):
    print(num, title.text)

0 메뉴
1 
2 
3 
4 
5 
6 
7 
8 문재인 대통령 연설문집
9 수석보좌관회의 모두발언
10 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다
11 근대5종 남자 개인전 전웅태 선수 축전
12 우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다
13 폭염 대응 소방관서 격려 방문 모두발언
14 K-글로벌 백신 허브화 비전 및 전략 보고대회 모두발언
15 배드민턴 여자 복식 국가대표 선수 축전
16 기계체조 남자 도마 신재환 선수 축전
17 제34회 국무회의 모두발언
18 수석보좌관회의 모두발언
19 기계체조 여자 도마 여서정 선수 축전
20 펜싱 사브르 여자 단체 축전
21 양궁 여자 개인 안 산 선수 축전
22 펜싱 에페 남자 단체 축전
23 사격 여자 권총 김민정 선수 축전
24 문재인 대통령
25 청와대 뉴스룸
26 정책정보
27 국민소통 광장
28 청와대 알림판


In [72]:
# div.list_txt_title > h3

speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
for num, title in enumerate(speech_titles):
    print(num, title.text)

0 수석보좌관회의 모두발언
1 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다
2 근대5종 남자 개인전 전웅태 선수 축전
3 우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다
4 폭염 대응 소방관서 격려 방문 모두발언
5 K-글로벌 백신 허브화 비전 및 전략 보고대회 모두발언
6 배드민턴 여자 복식 국가대표 선수 축전
7 기계체조 남자 도마 신재환 선수 축전
8 제34회 국무회의 모두발언
9 수석보좌관회의 모두발언
10 기계체조 여자 도마 여서정 선수 축전
11 펜싱 사브르 여자 단체 축전
12 양궁 여자 개인 안 산 선수 축전
13 펜싱 에페 남자 단체 축전
14 사격 여자 권총 김민정 선수 축전


In [73]:
speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')

In [74]:
for a in speech_summaries:
    print(a.text)

  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...
도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...
  근대5종 남자 개인전 전웅태 선수   2020 도쿄올림픽 동메달 획득을 축하합니다. 대한민국 근대5종 사상 최초의 올림픽 메달입니다. 정진화 선수와 함께 말로 표현할 수 없이 멋진 경기를 펼쳐주었고, 두 선수가 경기 후 나눈 우정의 포옹은 뭉클한 감동을 주었습니다. 이제 전 선수의 희망처럼 대한민국 근대5종은 국...
우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다.  원팀의 힘으로 세계 강호들과 대등하게 맞섰고, 매 경기 모든 걸 쏟아내는 모습에 국민 모두 자부심을 느꼈습니다.  아름다운 도전이었습니다.  아쉬워하지 말기 바랍니다.  또 하면 됩니다.  지금까지처럼 자신감을 가져주길 바랍니다. ...
인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들을 제가 차근차근 다 이렇게 지킬 수 있어서 아주 다행스럽게 생각합니다. 그런데 오늘은 그 때문에 온 것은 아니고, 정말 요즘 아주 역대급 폭염이죠. 연일 계속되고 있어서 여러분들 정말 고생이 많습니다. 원래...
국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘 첫 회의를 열게 되었습니다. 관련 부처들과 함께, 백신 분야 최고의 전문가들이 민간위원으로 참여하고 있습니다. 오늘 회의에는 백신 개발과 생산 기업 대표들도 함께해 주

In [75]:
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
for num, url in enumerate(speech_urls):
    print(num, url.text)

0 수석보좌관회의 모두발언
more
  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...
2021-08-09
1 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다
more
도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...
2021-08-08
2 근대5종 남자 개인전 전웅태 선수 축전
more
  근대5종 남자 개인전 전웅태 선수   2020 도쿄올림픽 동메달 획득을 축하합니다. 대한민국 근대5종 사상 최초의 올림픽 메달입니다. 정진화 선수와 함께 말로 표현할 수 없이 멋진 경기를 펼쳐주었고, 두 선수가 경기 후 나눈 우정의 포옹은 뭉클한 감동을 주었습니다. 이제 전 선수의 희망처럼 대한민국 근대5종은 국...
2021-08-08
3 우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다
more
우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다.  원팀의 힘으로 세계 강호들과 대등하게 맞섰고, 매 경기 모든 걸 쏟아내는 모습에 국민 모두 자부심을 느꼈습니다.  아름다운 도전이었습니다.  아쉬워하지 말기 바랍니다.  또 하면 됩니다.  지금까지처럼 자신감을 가져주길 바랍니다. ...
2021-08-08
4 폭염 대응 소방관서 격려 방문 모두발언
more
인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들을 제가 차근차근 다 이렇게 지킬 수 있어서

In [76]:
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
for num, url in enumerate(speech_urls):
    print(num, url.get_attribute('href'))

0 https://www1.president.go.kr/articles/10852
1 https://www1.president.go.kr/articles/10849
2 https://www1.president.go.kr/articles/10848
3 https://www1.president.go.kr/articles/10847
4 https://www1.president.go.kr/articles/10843
5 https://www1.president.go.kr/articles/10834
6 https://www1.president.go.kr/articles/10826
7 https://www1.president.go.kr/articles/10825
8 https://www1.president.go.kr/articles/10821
9 https://www1.president.go.kr/articles/10815
10 https://www1.president.go.kr/articles/10814
11 https://www1.president.go.kr/articles/10813
12 https://www1.president.go.kr/articles/10812
13 https://www1.president.go.kr/articles/10811
14 https://www1.president.go.kr/articles/10810


### 6-2-4. 데이터 저장

In [78]:
print(speech_titles[1].text)
print(speech_summaries[1].text)
print(speech_dates[1].text)
print(speech_urls[1].get_attribute('href'))

갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다
도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...
2021-08-08
https://www1.president.go.kr/articles/10849


In [79]:
speech_list = []
for n in range(len(speech_dates)):
    speech_list.append(
        {
            'title': speech_titles[n].text,
            'summary': speech_summaries[n].text,
            'date': speech_dates[n].text,
            'url': speech_urls[n].get_attribute('href')
        })

In [80]:
speech_list

[{'title': '수석보좌관회의 모두발언',
  'summary': '  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...',
  'date': '2021-08-09',
  'url': 'https://www1.president.go.kr/articles/10852'},
 {'title': '갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다',
  'summary': '도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10849'},
 {'title': '근대5종 남자 개인전 전웅태 선수 축전',
  'summary': '  근대5종 남자 개인전 전웅태 선수   2020 도쿄올림픽 동메달 획득을 축하합니다. 대한민국 근대5종 사상 최초의 올림픽 메달입니다. 정진화 선수와 함께 말로 표현할 수 없이 멋진 경기를 펼쳐주었고, 두 선수가 경기 후 나눈 우정의 포옹은 뭉클한 감동을 주었습니다. 이제 전 선수의 희망처럼 대한민국 근대5종은 국...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10848'},
 {'title': '우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습

In [81]:
import pandas as pd

In [82]:
speech_df = pd.DataFrame(speech_list)

In [83]:
speech_df

Unnamed: 0,title,summary,date,url
0,수석보좌관회의 모두발언,"오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원...",2021-08-09,https://www1.president.go.kr/articles/10852
1,갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내...,도쿄올림픽이 끝났습니다. 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 ...,2021-08-08,https://www1.president.go.kr/articles/10849
2,근대5종 남자 개인전 전웅태 선수 축전,근대5종 남자 개인전 전웅태 선수 2020 도쿄올림픽 동메달 획득을 축하합니...,2021-08-08,https://www1.president.go.kr/articles/10848
3,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. 원팀의 힘으로 ...,2021-08-08,https://www1.president.go.kr/articles/10847
4,폭염 대응 소방관서 격려 방문 모두발언,"인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들...",2021-08-06,https://www1.president.go.kr/articles/10843
5,K-글로벌 백신 허브화 비전 및 전략 보고대회 모두발언,국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘...,2021-08-05,https://www1.president.go.kr/articles/10834
6,배드민턴 여자 복식 국가대표 선수 축전,2020 도쿄올림픽 동메달 획득을 축하합니다. 함께 경기한 네 선수 모두 최선을 다...,2021-08-03,https://www1.president.go.kr/articles/10826
7,기계체조 남자 도마 신재환 선수 축전,2020 도쿄올림픽 금메달 획득을 축하합니다. 대한민국을 가장 높은 지점에서 빛내 ...,2021-08-03,https://www1.president.go.kr/articles/10825
8,제34회 국무회의 모두발언,제34회 국무회의를 시작하겠습니다. 코로나 위기 속에서 국민들은 여전히 힘겨운 시기...,2021-08-03,https://www1.president.go.kr/articles/10821
9,수석보좌관회의 모두발언,오늘 외부 전문가로 우리 권기홍 동반성장위원회 위원장님 그리고 또 정중교 주식회사 ...,2021-08-02,https://www1.president.go.kr/articles/10815


In [None]:
speech_df.head()

In [84]:
speech_df.to_csv('president_speech_ex1.csv', encoding='utf-8-sig')

### 6-2-5. 정리

#### 방식 1

In [5]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')

speech_list = []
for n in range(len(speech_dates)):
    speech_list.append(
        {
            'title': speech_titles[n].text,
            'summary': speech_summaries[n].text,
            'date': speech_dates[n].text,
            'url': speech_urls[n].get_attribute('href')
        })
    
driver.quit()

speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_ex1.csv', encoding='utf-8-sig')

In [6]:
speech_df

Unnamed: 0,title,summary,date,url
0,건강보험 보장성 강화대책 4주년 성과 보고대회,"존경하는 국민 여러분, ‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발표 4...",2021-08-12,https://www1.president.go.kr/articles/10865
1,수석보좌관회의 모두발언,"오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원...",2021-08-09,https://www1.president.go.kr/articles/10852
2,갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내...,도쿄올림픽이 끝났습니다. 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 ...,2021-08-08,https://www1.president.go.kr/articles/10849
3,근대5종 남자 개인전 전웅태 선수 축전,근대5종 남자 개인전 전웅태 선수 2020 도쿄올림픽 동메달 획득을 축하합니...,2021-08-08,https://www1.president.go.kr/articles/10848
4,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. 원팀의 힘으로 ...,2021-08-08,https://www1.president.go.kr/articles/10847
5,폭염 대응 소방관서 격려 방문 모두발언,"인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들...",2021-08-06,https://www1.president.go.kr/articles/10843
6,K-글로벌 백신 허브화 비전 및 전략 보고대회 모두발언,국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘...,2021-08-05,https://www1.president.go.kr/articles/10834
7,배드민턴 여자 복식 국가대표 선수 축전,2020 도쿄올림픽 동메달 획득을 축하합니다. 함께 경기한 네 선수 모두 최선을 다...,2021-08-03,https://www1.president.go.kr/articles/10826
8,기계체조 남자 도마 신재환 선수 축전,2020 도쿄올림픽 금메달 획득을 축하합니다. 대한민국을 가장 높은 지점에서 빛내 ...,2021-08-03,https://www1.president.go.kr/articles/10825
9,제34회 국무회의 모두발언,제34회 국무회의를 시작하겠습니다. 코로나 위기 속에서 국민들은 여전히 힘겨운 시기...,2021-08-03,https://www1.president.go.kr/articles/10821


#### 방식 2

In [None]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

speeches = driver.find_elements_by_xpath('//*[@id="cont_view"]/div[2]/div/div[3]/div/div')

speech_list = []
for speech in speeches:
    title = speech.find_element_by_xpath('div/div[1]/a/div[1]/h3').text
    summary = speech.find_element_by_xpath('div/div[1]/a/div[2]').text
    date = speech.find_element_by_xpath('div/div[1]/a/p').text
    url = speech.find_element_by_xpath('div/div[1]/a').get_attribute('href')
    speech_list.append({'title':title, 'summary':summary, 'date':date, 'url':url})
    
driver.quit()

speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_ex2.csv', encoding='utf-8-sig')

#### 방식 3

In [None]:
from selenium import webdriver
import csv

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')

with open('president_speech_csv.csv', 'a', newline='') as f:
    writer = csv.writer(f)
    for n in range(len(speech_dates)):
        writer.writerow([speech_titles[n].text, speech_summaries[n].text, speech_dates[n].text, speech_urls[n].get_attribute('href')])
driver.quit()

# 7. 연결된 웹페이지 데이터 가져오기

* 연설문 목록의 일부를 가져왔지만, 연설문 전문이 필요

* 연설문 전문이 있는 웹페이지 링크는 이미 가져옴

In [85]:
speech_list

[{'title': '수석보좌관회의 모두발언',
  'summary': '  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...',
  'date': '2021-08-09',
  'url': 'https://www1.president.go.kr/articles/10852'},
 {'title': '갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다',
  'summary': '도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10849'},
 {'title': '근대5종 남자 개인전 전웅태 선수 축전',
  'summary': '  근대5종 남자 개인전 전웅태 선수   2020 도쿄올림픽 동메달 획득을 축하합니다. 대한민국 근대5종 사상 최초의 올림픽 메달입니다. 정진화 선수와 함께 말로 표현할 수 없이 멋진 경기를 펼쳐주었고, 두 선수가 경기 후 나눈 우정의 포옹은 뭉클한 감동을 주었습니다. 이제 전 선수의 희망처럼 대한민국 근대5종은 국...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10848'},
 {'title': '우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습

In [87]:
speech_list[0]['url']

'https://www1.president.go.kr/articles/10852'

In [88]:
for speech in speech_list:
    print(speech['url'])

https://www1.president.go.kr/articles/10852
https://www1.president.go.kr/articles/10849
https://www1.president.go.kr/articles/10848
https://www1.president.go.kr/articles/10847
https://www1.president.go.kr/articles/10843
https://www1.president.go.kr/articles/10834
https://www1.president.go.kr/articles/10826
https://www1.president.go.kr/articles/10825
https://www1.president.go.kr/articles/10821
https://www1.president.go.kr/articles/10815
https://www1.president.go.kr/articles/10814
https://www1.president.go.kr/articles/10813
https://www1.president.go.kr/articles/10812
https://www1.president.go.kr/articles/10811
https://www1.president.go.kr/articles/10810


In [None]:
speech_df

## 7-1. 연결된 웹페이지 분석  

가져오고자 하는 연설문 전문 웹페이지에서 패턴 분석
#cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible > p > table > tbody > tr > td > 

#cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > 
div.text.left.cb.text_wrap.motion.fadeIn.visible

#cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible

* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible > table > tbody
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
* #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible

In [11]:
speech_list

[{'title': '건강보험 보장성 강화대책 4주년 성과 보고대회',
  'summary': '존경하는 국민 여러분,  ‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발표 4주년을 맞아 그동안의 성과와 보완 과제를 살펴보는 자리를 마련했습니다. 직접 경험한 사례를 들려주기 위해 도쿄올림픽 태권도 동메달리스트 인교돈 선수와 김성준, 곽동훈, 조은영, 정원희 님이 함께해주셨습니다. 김민석 국회 보건복지위...',
  'date': '2021-08-12',
  'url': 'https://www1.president.go.kr/articles/10865'},
 {'title': '수석보좌관회의 모두발언',
  'summary': '  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...',
  'date': '2021-08-09',
  'url': 'https://www1.president.go.kr/articles/10852'},
 {'title': '갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다',
  'summary': '도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10849'},
 {'title': '근대5종 남자 개인전 전웅태 선수 축전',
  'summa

In [8]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = speech_list[0]['url']
driver.get(url)

In [9]:
url = speech_list[0]['url']
driver.get(url)

In [10]:
speech_body = driver.find_element_by_css_selector('#cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible')
print(speech_body.text)

존경하는 국민 여러분, 

‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발표 4주년을 맞아 그동안의 성과와 보완 과제를 살펴보는 자리를 마련했습니다.
직접 경험한 사례를 들려주기 위해 도쿄올림픽 태권도 동메달리스트 인교돈 선수와 김성준, 곽동훈, 조은영, 정원희 님이 함께해주셨습니다.
김민석 국회 보건복지위원장님도 참석하셨습니다. 
감사합니다.

건보 보장성 강화는 ‘돈이 없어 치료받지 못하고, 치료비 때문에 가계가 파탄나는 일이 없도록 하자’는 정책입니다.
우리 사회 전체의 회복력을 높여 민생과 경제 활력을 뒷받침하는 길이기도 합니다. 
그 정책에 의해 우리는 개인 질환뿐 아니라 코로나 예방과 진단, 치료비용부터 야간 간호료와 의료인력 지원 비용에 이르기까지 감염병과 연관되는 모든 분야에서 신속하고 적절하게 대응할 수 있었습니다.
건강보험이 코로나 방역의 최후방 수비수 역할을 든든하게 해줬습니다. 

국민들의 지지 덕분에 정부는 ‘문재인 케어’를 과감하게 시행할 수 있었고, 국민들로부터 가장 좋은 평가를 받는 정책 중 하나가 되었습니다.
건보 보장성 강화를 위해 노력해주신 건보공단과 의료진, 관계자들께 진심으로 감사드립니다.

정부는 특히 의료비 부담이 큰 암을 비롯한 중증질환을 중심으로 보장성 강화에 노력해왔습니다. 
특진비로 불렸던 선택진료비를 폐지하고, 상급 병실료에 건강보험을 적용하였으며, 간호ㆍ간병 통합 서비스를 확대했습니다.
MRI와 초음파 검사의 보장 범위를 확대하고, 응급실과 중환자실, 의약품 중 비급여 항목의 급여전환도 지속적으로 추진하고 있습니다.

또한 의료비 때문에 생계가 어려워지는 것을 막기 위해 저소득층 4대 중증질환에 대해서는, 재난적 의료비 지원을 제도화했습니다.
이제 모든 질환에 대해 최대 3,000만 원을 지원받을 수 있고, 연간 본인 부담 상한액을 인하하여 최대 150만 원 이내에서 진료비 걱정 없이 치료받으실 수 있게 되었습니다. 

특히, 병원 찾을 일이 많은 5세 이하 어린이와 65세 이상 어르신, 장애인들의 보장

In [None]:
speech_list[0]['body'] = speech_body

In [None]:
speech_list[0]

In [None]:
speech_list[0]['body']

## 7-2. 추출 자동화  

In [12]:
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"div.text.left.cb.text_wrap.motion.fadeIn.visible"}
  (Session info: chrome=92.0.4515.131)


In [15]:
driver.get('https://www1.president.go.kr/articles/10834')
time.sleep(3)
speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text

print(speech_body)

국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘 첫 회의를 열게 되었습니다.
관련 부처들과 함께, 백신 분야 최고의 전문가들이 민간위원으로 참여하고 있습니다.
오늘 회의에는 백신 개발과 생산 기업 대표들도 함께해 주셨습니다.
감사합니다. 

전파력이 강한 델타 변이바이러스가 확산하며 전 세계적으로 코로나 상황이 다시 악화하고 있습니다.
끝이 잘 보이지 않는 코로나와의 전쟁에서 가장 효과적인 방어수단은 백신입니다.
최근 발생한 확진자와 사망자 대부분이 백신 미접종자 중에서 나오고 있고, 백신 접종이 위중증률과 치명률을 크게 낮추는 등 백신은 코로나로부터 인류의 생명과 안전을 지켜 주는 핵심 역할을 하고 있습니다. 

하지만, 세계적인 백신 부족 상태가 지속되고 있고, 특히 백신 보급의 국가별 격차가 심각하여 일부 백신 부국들은 ‘부스터 샷’을 계획하는 반면 다수의 저소득 국가는 내년까지도 접종 완료가 어려운 백신 불평등이 심화되고 있습니다.
모든 나라에 백신이 충분히 보급되지 않고서는 계속되는 변이의 발생과 코로나 확산을 막을 수 없습니다.
결국 문제 해결의 근본 해법은 백신 공급을 획기적으로 늘리는 것일 수밖에 없습니다.

대한민국이 문제 해결에 앞장서겠습니다.
‘글로벌 백신 허브’를 국가전략으로 강력히 추진하여 인류 공동의 감염병 위기 극복에 기여하겠습니다.
우리는 충분한 역량을 가지고 있습니다.
세계 최고 수준의 바이오의약품 생산 능력을 갖추고 있고, 현재 세계적으로 안전성과 효과성을 인정받는 코로나 백신 네 종을 생산, 공급하고 있습니다.
백신 산업에 대한 기업들의 도전 의지와 정부의 육성 의지도 확고합니다.

바이오산업은 우리의 산업 혁신을 이끌 3대 신산업으로 성장하여 주력 수출 산업으로 도약하고 있습니다.
그러나 백신 분야에 있어서는 여전히 기술 격차가 크고 해외 의존도가 높으며, 글로벌 시장 점유율도 낮습니다.
지금이 글로벌 백신 허브를 향해 과감하게 도전해야 할 적기입니다.
정부는 역량과 자원을 총동원하여 인류

In [16]:
import time

for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(5)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    
    #cont_view > div > div > div.cs_view.cs_v1.wrap.text.left > div.text.left.cb.text_wrap.motion.fadeIn.visible
    speech_list[n]['body'] = speech_body
    print(url)

https://www1.president.go.kr/articles/10865
https://www1.president.go.kr/articles/10852
https://www1.president.go.kr/articles/10849
https://www1.president.go.kr/articles/10848
https://www1.president.go.kr/articles/10847
https://www1.president.go.kr/articles/10843
https://www1.president.go.kr/articles/10834
https://www1.president.go.kr/articles/10826
https://www1.president.go.kr/articles/10825
https://www1.president.go.kr/articles/10821
https://www1.president.go.kr/articles/10815
https://www1.president.go.kr/articles/10814
https://www1.president.go.kr/articles/10813
https://www1.president.go.kr/articles/10812
https://www1.president.go.kr/articles/10811


In [93]:
speech_list

[{'title': '수석보좌관회의 모두발언',
  'summary': '  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...',
  'date': '2021-08-09',
  'url': 'https://www1.president.go.kr/articles/10852',
  'body': ' \n\n오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다.\n감사합니다.\n박수로 맞아주시기 바랍니다.\n\n코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다.\n국민 여러분의 심정도 같을 것입니다.\n하지만 그동안 시행한 고강도 방역 조치가 확산세를 꺾지는 못했어도, 급격한 확산세를 차단하는 데는 분명한 효과가 있었습니다.\n백신 접종이 진행되는 데도 불구하고 무서운 기세로 확산하는 델타 변이로 인해 전 세계 확진자 수가 6주 연속 증가하고, 역대 최대 확진자 수를 기록하는 나라가 속출하는 등 또다시 새로운 위기를 맞고 있습니다.\n이에 비하면 우리나라는 국민들께서 협조해 주신 덕분에 방역의 수위와 긴장도를 최고로 높이고 우리의 방역·의료체계 안에서 코로나를 관리해낼 수 있었습니다.\n앞으로가 문제입니다.\n여전히 중대한 고비가 지속되고 있습니다.\n지금 국민의 생명과 안전을 지키기 위해 우리가 할 수 있는 방법은 두 가지밖에 없습니다.\n하나는 코로나 확산을 차단하는 데 전력을 다하는 것이고, 다른 하나는 백신 접종률을 높이는 것입니다.\n우선 코로나 상황을 진정시키는 것이 무엇보다 중요합니다.\n특히 2학기 개학을 앞두고 아이들의 안전한 등교 수업을 위해서라도 방역의 고삐를 더욱 단단히 조여야 하겠습니다.\n백신 접종률을

In [94]:
speech_df = pd.DataFrame(speech_list)
speech_df

Unnamed: 0,title,summary,date,url,body
0,수석보좌관회의 모두발언,"오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원...",2021-08-09,https://www1.president.go.kr/articles/10852,"\n\n오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가..."
1,갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내...,도쿄올림픽이 끝났습니다. 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 ...,2021-08-08,https://www1.president.go.kr/articles/10849,도쿄올림픽이 끝났습니다. \n갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진...
2,근대5종 남자 개인전 전웅태 선수 축전,근대5종 남자 개인전 전웅태 선수 2020 도쿄올림픽 동메달 획득을 축하합니...,2021-08-08,https://www1.president.go.kr/articles/10848,근대5종 남자 개인전 전웅태 선수\n 2020 도쿄올림픽 동메달 획득을 축하합...
3,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. 원팀의 힘으로 ...,2021-08-08,https://www1.president.go.kr/articles/10847,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. \n원팀의 힘으로...
4,폭염 대응 소방관서 격려 방문 모두발언,"인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들...",2021-08-06,https://www1.president.go.kr/articles/10843,"인력 2만 명 증원, 그리고 지금 진행되고 있습니다만 국립소방병원 건립 이런 약속들..."
5,K-글로벌 백신 허브화 비전 및 전략 보고대회 모두발언,국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘...,2021-08-05,https://www1.president.go.kr/articles/10834,국무총리를 위원장으로 하는 민관합동 ‘글로벌 백신 허브화 추진위원회’가 출범해 오늘...
6,배드민턴 여자 복식 국가대표 선수 축전,2020 도쿄올림픽 동메달 획득을 축하합니다. 함께 경기한 네 선수 모두 최선을 다...,2021-08-03,https://www1.president.go.kr/articles/10826,2020 도쿄올림픽 동메달 획득을 축하합니다.\n함께 경기한 네 선수 모두 최선을 ...
7,기계체조 남자 도마 신재환 선수 축전,2020 도쿄올림픽 금메달 획득을 축하합니다. 대한민국을 가장 높은 지점에서 빛내 ...,2021-08-03,https://www1.president.go.kr/articles/10825,2020 도쿄올림픽 금메달 획득을 축하합니다.\n대한민국을 가장 높은 지점에서 빛내...
8,제34회 국무회의 모두발언,제34회 국무회의를 시작하겠습니다. 코로나 위기 속에서 국민들은 여전히 힘겨운 시기...,2021-08-03,https://www1.president.go.kr/articles/10821,제34회 국무회의를 시작하겠습니다.\n\n코로나 위기 속에서 국민들은 여전히 힘겨운...
9,수석보좌관회의 모두발언,오늘 외부 전문가로 우리 권기홍 동반성장위원회 위원장님 그리고 또 정중교 주식회사 ...,2021-08-02,https://www1.president.go.kr/articles/10815,오늘 외부 전문가로 우리 권기홍 동반성장위원회 위원장님 그리고 또 정중교 주식회사 ...


In [96]:
speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_fulltext.csv', encoding='utf-8')

# 8. 다음 페이지로 넘어가는 방법: Pagination  



짧은 시간에 페이지 호출을 너무 많이 하게 되면 서버에서 접속을 차단할 수도 있음

## 8-1. 비효율적인 방법

In [17]:
from selenium import webdriver
import pandas as pd

driver = webdriver.Chrome('./chromedriver')
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

In [18]:
page_2_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]')
page_2_button.click()

In [21]:
page_2_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]')
page_2_button.click()
driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")

* page2: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]

//*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a[2]

* page3: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[3]
* page3: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[4]

//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[4]
//*[@id="cont_view"]/div[2]/div/div[4]/div/div[3]/a


* Next: //*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a

In [22]:
import time

for page_n in range(2,11):
    page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[{page_n}]')
    page_button.click()
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(2)

In [23]:
for page_10_n in range(1, 3):
    for page_n in range(2,11):
        page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[{page_n}]')
        page_button.click()
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
        time.sleep(2)
    page_next_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a')
    page_next_button.click()
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(2)

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[2]"}
  (Session info: chrome=92.0.4515.131)


In [None]:
for page_10_n in range(1, 3):
    for page_n in range(2,11):
        if page_10_n == 1:
            page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[1]/a[{page_n}]')
        else:
            page_button = driver.find_element_by_xpath(f'//*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a[{page_n}]')
        page_button.click()
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
        time.sleep(2)
    if page_10_n == 1:
        page_next_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[2]/a')
    else:
        page_next_button = driver.find_element_by_xpath('//*[@id="cont_view"]/div[2]/div/div[4]/div/div[3]/a')
    page_next_button.click()
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight)")
    time.sleep(2)

## 8-2. 조금 더 효율적인 방법

In [None]:
from selenium import webdriver
import pandas as pd
import time
driver = webdriver.Chrome('./chromedriver')

In [None]:
url = 'https://www1.president.go.kr/c/president-speeches'
driver.get(url)

In [26]:
a = 'a'
b = 2
print(a + b)

TypeError: can only concatenate str (not "int") to str

In [24]:
url_base = 'https://www1.president.go.kr/c/president-speeches?page='
for page_number in range(1,4):
    url = url_base + str(page_number)
    print(url)

https://www1.president.go.kr/c/president-speeches?page=1
https://www1.president.go.kr/c/president-speeches?page=2
https://www1.president.go.kr/c/president-speeches?page=3


In [27]:
url_base = 'https://www1.president.go.kr/c/president-speeches?page='
speech_list = []
for page_number in range(1,4):
    url = url_base + str(page_number)
    driver.get(url)
    time.sleep(2)
    speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
    speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
    speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
    speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
    for n in range(len(speech_dates)):
        speech_list.append(
            {
                'title': speech_titles[n].text,
                'summary': speech_summaries[n].text,
                'date': speech_dates[n].text,
                'url': speech_urls[n].get_attribute('href')
            })

In [28]:
speech_list

[{'title': '건강보험 보장성 강화대책 4주년 성과 보고대회 모두발언',
  'summary': '존경하는 국민 여러분,  ‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발표 4주년을 맞아 그동안의 성과와 보완 과제를 살펴보는 자리를 마련했습니다. 직접 경험한 사례를 들려주기 위해 도쿄올림픽 태권도 동메달리스트 인교돈 선수와 김성준, 곽동훈, 조은영, 정원희 님이 함께해주셨습니다. 김민석 국회 보건복지위...',
  'date': '2021-08-12',
  'url': 'https://www1.president.go.kr/articles/10865'},
 {'title': '수석보좌관회의 모두발언',
  'summary': '  오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원장님이 참석해서 토론에 함께해 주시겠습니다. 감사합니다. 박수로 맞아주시기 바랍니다. 코로나 확산세가 좀처럼 꺾이지 않고, 강화된 거리두기 단계를 연장하게 되어 매우 안타까운 마음입니다. 국민 ...',
  'date': '2021-08-09',
  'url': 'https://www1.president.go.kr/articles/10852'},
 {'title': '갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다',
  'summary': '도쿄올림픽이 끝났습니다.  갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내주신 국민들께 깊이 감사드립니다. 여전히 어려운 시기에 열린 이번 올림픽에서 우리 선수들은 정직한 땀방울을 통해 국민들에게 위로와 희망의 메시지를 전해주었습니다.  메달 소식도 자주 들려주었습니다.  첫 메달이었던...',
  'date': '2021-08-08',
  'url': 'https://www1.president.go.kr/articles/10849'},
 {'title': '근대5종 남자 개인전 전웅태 선수 축전',
  '

In [29]:
len(speech_list)

45

In [30]:
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(5)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body

In [31]:
speech_df = pd.DataFrame(speech_list)

In [32]:
speech_df.head()

Unnamed: 0,title,summary,date,url,body
0,건강보험 보장성 강화대책 4주년 성과 보고대회 모두발언,"존경하는 국민 여러분, ‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발표 4...",2021-08-12,https://www1.president.go.kr/articles/10865,"존경하는 국민 여러분, \n\n‘문재인 케어’라고 불린 건강보험 보장성 강화대책 발..."
1,수석보좌관회의 모두발언,"오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가원 원...",2021-08-09,https://www1.president.go.kr/articles/10852,"\n\n오늘 외부 전문가로 김용익 건보공단 이사장님, 그다음에 김선민 건보심사평가..."
2,갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 그리고 아낌없는 응원을 보내...,도쿄올림픽이 끝났습니다. 갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진 ...,2021-08-08,https://www1.president.go.kr/articles/10849,도쿄올림픽이 끝났습니다. \n갈고닦은 기량을 마음껏 펼쳐준 대한민국 선수들과 코치진...
3,근대5종 남자 개인전 전웅태 선수 축전,근대5종 남자 개인전 전웅태 선수 2020 도쿄올림픽 동메달 획득을 축하합니...,2021-08-08,https://www1.president.go.kr/articles/10848,근대5종 남자 개인전 전웅태 선수\n 2020 도쿄올림픽 동메달 획득을 축하합...
4,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. 원팀의 힘으로 ...,2021-08-08,https://www1.president.go.kr/articles/10847,우리 여자 배구 선수들이 도쿄올림픽에서 특별한 감동을 주었습니다. \n원팀의 힘으로...


In [33]:
speech_df.to_csv('president_speech_pp1-3.csv', encoding='utf-8-sig')

## 8-3. 정리

### 8-3-1. 방식 1

In [None]:
from selenium import webdriver
import pandas as pd
import time

driver = webdriver.Chrome('./chromedriver')
url_base = 'https://www1.president.go.kr/c/president-speeches?page='

speech_list = []
for page_number in range(1,4):
    url = url_base + str(page_number)
    driver.get(url)
    time.sleep(2)
    
    speech_urls = driver.find_elements_by_css_selector('div.list_txt > a')
    speech_titles = driver.find_elements_by_css_selector('div.list_txt_title > h3')
    speech_summaries = driver.find_elements_by_css_selector('div.list_txt_cont')
    speech_dates = driver.find_elements_by_css_selector('p.list_txt_date')
    
    for n in range(len(speech_dates)):
        speech_list.append(
            {
                'title': speech_titles[n].text,
                'summaries': speech_summaries[n].text,
                'date': speech_dates[n].text,
                'url': speech_urls[n].get_attribute('href')
            })
        
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(2)
    speech_body = driver.find_element_by_css_selector('div.text.left.cb.text_wrap.motion.fadeIn.visible').text
    speech_list[n]['body'] = speech_body
    
driver.quit()
speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_pp1-3.csv', encoding='utf-8-sig')

### 8-3-1. 방식 2

* selenium waits: https://selenium-python.readthedocs.io/waits.htm

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd
import time

driver = webdriver.Chrome('./chromedriver')
driver.implicitly_wait(10)
url_base = 'https://www1.president.go.kr/c/president-speeches?page='

speech_list = []
for page_number in range(1,4):
    url = url_base + str(page_number)
    driver.get(url)
    time.sleep(2)
    speech_urls = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.list_txt > a')))
    speech_titles = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.list_txt_title > h3')))
    speech_summaries = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'div.list_txt_cont')))
    speech_dates = WebDriverWait(driver, 10).until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, 'p.list_txt_date')))
    
    for n in range(len(speech_dates)):
        speech_list.append(
            {
                'title': speech_titles[n].text,
                'summaries': speech_summaries[n].text,
                'date': speech_dates[n].text,
                'url': speech_urls[n].get_attribute('href')
            })
        
for n in range(len(speech_list)):
    url = speech_list[n]['url']
    driver.get(url)
    time.sleep(2)
    speech_body = WebDriverWait(driver, 10).until(EC.visibility_of_element_located((By.CSS_SELECTOR, 'div.text.left.cb.text_wrap.motion.fadeIn.visible')))
    speech_list[n]['body'] = speech_body.text
    
driver.quit()
speech_df = pd.DataFrame(speech_list)
speech_df.to_csv('president_speech_pp1-3.csv', encoding='utf-8-sig')