## 업무 자동화를 위한 웹사이트에서 원하는 정보 확인하고, 가져오기

### 1. 크롤링 (crawling) 이란?
  - 웹사이트에서 원하는 정보를 수집하는 기술
  - 기술적으로 설명하면
    - 웹페이지를 **가져와서**, 웹페이지를 구성하는 HTML/CSS 코드를 **파싱**하고, 필요한 데이터만 추출하는 기법

> 파싱 (parsing): 일종에 분석하는 과정으로 이해하면 됨

### 2. 이해가 필요한 기술
- 웹사이트 구성
- 웹페이지를 표현하는 HTML/CSS 언어
  - 두 언어를 원하는 정보를 가져올만큼만 이해하면 됨
  
> 다음 웹페이지를 통해 가볍게 웹사이트 구성에 대해 이해하기로 함 <br>
> https://davelee-fun.github.io/blog/crawl_test_css

- 크롬 브라우저로 HTML/CSS 이해하기
  1. 오픈 크롬 브라우저
  2. 오픈 크롬 개발자 모드
     - Command + Alt + i (맥) 
     - Ctrl + Shift + i 또는 F12 (윈도우)


### HTML/CSS 
- 기본 구성

```html
<태그 속성1=속성값 속성2=속성값>데이터</태그>
```

- 속성 중 id 와 class 가 핵심
- css 는 보통 태그 안에 class=CSS이름 으로 표기되는 경우가 많음

```html
<태그 id=속성값 class=속성값>데이터</태그>
```

### 웹페이지 확인을 위한 주요 태그
- **ul, li태그**
  - 리스트로 표기된 데이터를 읽을 때 사용
- **table, tr, td 태그**
  - 테이블로 구성된 데이터를 읽을 때 사용
- **a 태그와 href 속성**
  - 웹페이지 주소를 얻을 때 사용

### 3. 웹페이지 확인 기술: 크롤링 기본
- 패턴으로 코드를 이해하고, 필요한 부분만 수정하기

### 파이썬의 특장점
- 라이브러리란?
  - 라이브러리란 미리 만들어놓은 함수 집합
- 파이썬에서는 다양한 라이브러리이 있기 때문에, 적절한 라이브러리의 함수를 사용해서, 복잡한 기능을 빠르게 구현할 수 있음
- 라이브러리는 필요할 때 자신의 PC에 설치해서 사용
- anaconda 는 파이썬 컴파일러, 주피터 노트북뿐만 아니라, 주요 라이브러리도 함께 설치함

### 라이브러리 사용법
- import 라이브러리명 을 코드 최상단에 적으면 됨

```python
import requests
```

- import 후, 해당 라이브러리 안에 있는 함수는 라이브러리명.함수명 으로 호출하면 됨

- 라이브러리 내의 특정 함수만 다음과 같이 import 할 수 있음
  - 이 때에는 해당 함수명 으로만 호출하면 됨

```python
from bs4 import BeautifulSoup
```

### 라이브러리 설치가 안되어 있다면
- import 명령 실행시 다음과 같은 에러가 출력됨

```bash
ModuleNotFoundError: No module named '라이브러리명'
```

- 라이브러리 설치 방법
```bash
!pip install 라이브러리명
```

In [None]:
!pip install requests

### 크롤링 기본 기술을 위한 라이브러리
- requests
- bs4

In [3]:
# 일반적으로 이와 같이 import 합니다.
import requests
from bs4 import BeautifulSoup

### 웹페이지 가져오기
- res = requests.get(주소)
  - 변수에 가져온 웹페이지가 저장됨
  - 변수 이름은 res 로 하기로 함

### 변수에 저장될 수 있는 데이터 범위
- 이제부터 변수에는 문자, 숫자, boolean 이외에도 객체가 저장될 수 있다고 이해하기로 합니다.
- 프로그래밍 용어로 객체라고 부름
- 객체에는 내부에 변수와 함수가 있음
  - 객체.내부변수, 또는 객체.내부함수 로 객체 내부의 변수와 함수를 호출할 수 있음

In [4]:
res = requests.get('https://davelee-fun.github.io/blog/crawl_html_css')

In [5]:
res

<Response [200]>

In [6]:
res.content

b'<!doctype html>\n<html lang="ko">\n<head>\n<meta charset="utf-8" />\n<title>\xea\xb8\xb0\xeb\xb3\xb8 \xec\xbb\xa4\xeb\xa6\xac\xed\x81\x98\xeb\x9f\xbc</title>\n<style>\n#logo {\n    max-width: 100%;\n}\n.course {\n    font-size: 14px;\n}\n</style>\n</head>\n<body>\n<h1>\xec\x9e\x94\xec\x9e\xac\xeb\xaf\xb8\xec\xbd\x94\xeb\x94\xa9 \xed\x81\xac\xeb\xa1\xa4\xeb\xa7\x81 \xed\x85\x8c\xec\x8a\xa4\xed\x8a\xb8 \xed\x8e\x98\xec\x9d\xb4\xec\xa7\x80 (\xec\xbb\xa4\xeb\xa6\xac\xed\x81\x98\xeb\x9f\xbc)</h1>\n\n<h3>\xeb\x82\x98\xeb\xa7\x8c\xec\x9d\x98 \xec\x97\xa3\xec\xa7\x80\xec\x9e\x88\xeb\x8a\x94 \xeb\xb8\x94\xeb\xa1\x9c\xea\xb7\xb8 \xec\x82\xac\xec\x9d\xb4\xed\x8a\xb8 \xeb\xa7\x8c\xeb\x93\xa4\xea\xb8\xb0 (\xec\xb7\xa8\xeb\xaf\xb8\xeb\xa1\x9c \xec\x9d\xb5\xed\x9e\x88\xeb\x8a\x94 IT)</h3>\n<ul id="hobby_course_list">\n    <li class="course" id=\'start\'><a href="https://www.fun-coding.org">(\xec\x99\x95\xec\xb4\x88\xeb\xb3\xb4) - \xed\x81\xb4\xeb\x9e\x98\xec\x8a\xa4 \xec\x86\x8c\xea\xb0\x9c</a></li

### 웹페이지 파싱하기
- 웹페이지 분석이라고 이해하기로 함
- 웹페이지의 HTML/CSS 언어를 분석해서, 구조화하는 것임
- soup = BeautifulSoup(res.content, 'html.parser')
  - res 에 웹페이지 객체가 저장되며, 웹페이지 데이터를 res.content 내부변수에서 불러올 수 있음

### 원하는 데이터 선택하기
- 웹페이지가 HTML/CSS 로 구성되어 있으므로, CSS Selector 라고하는 문법으로 필요한 데이터를 선택해야 함
- soup.select() 함수를 사용해서, 해당 데이터를 리스트 형태로 가져옴
- 리스트의 각 아이템을 반복문으로 추출하고, item.get_text() 로 실제 데이터를 가져올 수 있음

In [9]:

datas1 = soup.select('li')
for item in datas1:
    print (item.get_text())

NameError: name 'soup' is not defined

### 전체 패턴 코드

In [10]:
import requests
from bs4 import BeautifulSoup

res = requests.get('https://davelee-fun.github.io/blog/crawl_html_css')
soup = BeautifulSoup(res.content, 'html.parser')
datas1 = soup.select('li')
for item in datas1:
    print (item.get_text())

(왕초보) - 클래스 소개
(왕초보) - 블로그 개발 필요한 준비물 준비하기
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기
(왕초보) - 초간단 페이지 만들어보기
(왕초보) - 이쁘게 테마 적용해보기
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


### 템플릿 코드1: 크롤링(타이틀)
- 사용법
  - crawling_template(웹주소, css selector)

In [1]:
import requests
from bs4 import BeautifulSoup

def crawling_template(url, css_selector):
    return_data = list()
    res = requests.get(url)
    soup = BeautifulSoup(res.content, 'html.parser')
    datas1 = soup.select(css_selector)
    for item in datas1:
        return_data.append(item.get_text())
    return return_data

### 템플릿 코드 활용
- 웹주소와 CSS Selector 만 선택하면 원하는 데이터가 리스트로 나옴

### 4. CSS Selector
> 테스트 사이트를 기반으로 CSS Selector 주요 선택 방법을 익혀봅니다. <br>
> https://davelee-fun.github.io/blog/crawl_test_css

### 크롬 브라우저로 CSS Selector 확인하기
* 오픈 크롬 브라우저
* 오픈 크롬 개발자 모드
  - Command + Alt + i (맥) 
  - Ctrl + Shift + i 또는 F12 (윈도우)
* 개발자 모드 화면에서 마우스 표시 선택 후, 마우스로 원하는 데이터 선택

> 단, 실제 태그 관계를 확인해서, CSS Selector를 직접 만들어야 제대로 크롤링이 가능함 <br>

### 4.1. CSS Selector 선택: 태그 선택

In [5]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'li')

['(왕초보) - 클래스 소개',
 '(왕초보) - 블로그 개발 필요한 준비물 준비하기',
 '(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기',
 '(왕초보) - 초간단 페이지 만들어보기',
 '(왕초보) - 이쁘게 테마 적용해보기',
 '(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기',
 '(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기',
 '(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]',
 '(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

### 4.2. CSS Selector 선택: 하위 태그 선택
- 띄어쓸 때는 상위 태그 안에 해당 태그가 있기만 하면 선택 가능
```python
items = soup.select('ul a')
```

- '>' 는 상위 태그 바로 아래 해당 태그가 있어야 함
```python
items = soup.select('ul > li')
```

In [6]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'ul li')

['(왕초보) - 클래스 소개',
 '(왕초보) - 블로그 개발 필요한 준비물 준비하기',
 '(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기',
 '(왕초보) - 초간단 페이지 만들어보기',
 '(왕초보) - 이쁘게 테마 적용해보기',
 '(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기',
 '(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기',
 '(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]',
 '(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

### 4.3. CSS Selector 선택: css class 이름으로 선택
- css class 는 MS Word/한글 의 서식과 동일
  - 다양한 서식 디자인을 의미함
  - 예: 폰트사이즈 14, 폰트색:갈색, 폰트종류:나눔 등
- 연관 데이터에 동일한 서식을 사용할 가능성이 높음
- '태그.클래스 이름' 으로 태그와 태그 안에 있는 클래스를 선택 가능
- '.클래스 이름' 으로 클래스 이름 단독으로도 선택 가능
- '태그.클래스이름.클래스이름' 으로 한 태그에 클래스 이름이 여러개일 경우에도 선택 가능

In [8]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'li.course')

['(왕초보) - 클래스 소개',
 '(왕초보) - 블로그 개발 필요한 준비물 준비하기',
 '(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기',
 '(왕초보) - 초간단 페이지 만들어보기',
 '(왕초보) - 이쁘게 테마 적용해보기',
 '(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기',
 '(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기',
 '(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]',
 '(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

In [9]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', '.course')

['(왕초보) - 클래스 소개',
 '(왕초보) - 블로그 개발 필요한 준비물 준비하기',
 '(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기',
 '(왕초보) - 초간단 페이지 만들어보기',
 '(왕초보) - 이쁘게 테마 적용해보기',
 '(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기',
 '(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기',
 '(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]',
 '(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

In [7]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'li.course.paid')

['(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

### 4.4. CSS Selector 선택: id 이름으로 선택
- '#id이름' 으로 검색 가능
- '태그이름#id이름' 으로도 검색 가능

In [11]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', '#begin')

['(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]']

### 4.5. CSS Selector 선택: 복합 예제

In [12]:
crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'ul#hobby_course_list li#start')

['(왕초보) - 클래스 소개',
 '(왕초보) - 블로그 개발 필요한 준비물 준비하기',
 '(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기',
 '(왕초보) - 초간단 페이지 만들어보기',
 '(왕초보) - 이쁘게 테마 적용해보기',
 '(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기',
 '(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기']

### 실전: 네이버주식 사이트에서 인기 검색 종목 가져오기
  - https://finance.naver.com/sise/

> 실제 사이트는 수시로 웹페이지가 변경되어, 동일 css selector 가 안될 수도 있으니 <br>
> 현 웹페이지를 확인 후에, 웹페이지 변경시 css selector 를 알맞게 변경한 후 실행하셔야 합니다.

In [13]:
crawling_template('https://finance.naver.com/sise/', "#popularItemList > li > a")

['삼성전자',
 '셀트리온',
 '카카오',
 'SK하이닉스',
 '셀트리온헬스케어',
 '삼성전자우',
 'KT&G',
 '씨젠',
 'NAVER',
 '명신산업']

### 5. 웹페이지 주소와 함께 가져오기
- 속성값을 item[속성이름] 으로 가져올 수 있음

In [1]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34')
soup = BeautifulSoup(res.content, 'html.parser')

datas1 = soup.select('a.c0000000')

for item in datas1:
    print (item.get_text(), item['href'])

 서울수서 등 행복주택 5269가구 모집 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358648&start=0&mode=&s_que=&field=
 송파 위례 공공분양 신혼부부·다자녀 특공에 1만4천여명 몰려 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358629&start=0&mode=&s_que=&field=
 청약 '줍줍' 인기 하늘을 찌른다…올해 경쟁률 작년의 2배 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358620&start=0&mode=&s_que=&field=
 '로또분양'이라는 위례신도시 공공분양, 사실은 '바가지'? index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358616&start=0&mode=&s_que=&field=
 하남 너마저…과천 이어 감일서도 '79점 통장' index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358566&start=0&mode=&s_que=&field=
 내달부터 세종시 4800가구 청약…국회 이전說에 들썩들썩 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358564&start=0&mode=&s_que=&field=
 희망고문 '과천 로또'…4인가족 만점도 탈락 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358552&start=0&mode=&s_que=&field=
 신기록 세우는 아파트 청약률…국민 절반 이상이 청약통장 가입 index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358

### 문자열 다루기
- 문자1 + 문자2 는 문자1문자2 와 같이 문자를 합칠 수 있음

In [None]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34')
soup = BeautifulSoup(res.content, 'html.parser')

datas1 = soup.select('a.c0000000')

for item in datas1:
    print (item.get_text(), 'http://www.drapt.com/e_sale/' + item['href'])

### 템플릿 코드2: crawling_template_with_href, 크롤링(타이틀, 웹주소)
- 사용법
  - crawling_template_with_href(웹주소, 선택한 css selector, 상세주소 앞에 붙을 주소)
  - 상세주소 앞에 붙을 주소 는 필요 없다면, '' 으로 빈 데이터로 호출하면 됨

In [7]:
import requests
from bs4 import BeautifulSoup

def crawling_template_with_href(url, css_selector, pre_url):
    return_data = list()
    res = requests.get(url)
    soup = BeautifulSoup(res.content, 'html.parser')
    datas1 = soup.select(css_selector)
    for item in datas1:
        return_data.append([item.get_text(), pre_url + item['href']])
    return return_data

In [5]:
crawling_template_with_href('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34', 'a.c0000000', 'http://www.drapt.com/e_sale/')

[[' 서울수서 등 행복주택 5269가구 모집',
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358648&start=0&mode=&s_que=&field='],
 [' 송파 위례 공공분양 신혼부부·다자녀 특공에 1만4천여명 몰려',
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358629&start=0&mode=&s_que=&field='],
 [" 청약 '줍줍' 인기 하늘을 찌른다…올해 경쟁률 작년의 2배",
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358620&start=0&mode=&s_que=&field='],
 [" '로또분양'이라는 위례신도시 공공분양, 사실은 '바가지'?",
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358616&start=0&mode=&s_que=&field='],
 [" 하남 너마저…과천 이어 감일서도 '79점 통장'",
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358566&start=0&mode=&s_que=&field='],
 [' 내달부터 세종시 4800가구 청약…국회 이전說에 들썩들썩',
  'http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358564&start=0&mode=&s_que=&f

### 리스트 변수 안에 리스트 값
- 리스트 변수 안에는 또다른 리스트 값이 들어갈 수 있음

In [None]:
datas1 = [[1, 2], [3, 4]]

In [None]:
datas1[0]

In [None]:
datas1[0][0]

In [8]:
datas1 = crawling_template_with_href('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34', 'a.c0000000', 'http://www.drapt.com/e_sale/')
print (datas1[0][0])
print (datas1[0][1])

 서울수서 등 행복주택 5269가구 모집
http://www.drapt.com/e_sale/index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358648&start=0&mode=&s_que=&field=


### 6. 신규 내용/기사가 있을 때만 가져오기
- 리턴값이 빈 리스트이면, 오늘 날짜에 해당하는 기사가 없는 것으로 인지하면 됨

### pickle 
- 데이터 구조나 객체등 어떤 데이터도 파일로 저장하고, 읽을 수 있음
- 리스트를 저장하면, 해당 파일을 읽어서, 리스트 변수에 값을 넣을 수 있음

In [15]:
import pickle

#### pickle 사용법1: 파일에 저장된 리스트 데이터 읽어서, datas1 변수에 넣기
- 파일 위치에는 전체 디렉토리와 해당 파일명까지 써주거나, 
- 파일명만 써주면, 주피터 노트북이 실행되는 해당 폴더 안에 있는 파일을 의미함

```python
with open(파일위치, 'rb') as pickle_filename:
    datas1 = pickle.load(pickle_filename)
```

#### pickle 사용법2: 파일에 리스트 변수의 데이터를 저장하기

```python
with open(파일위치, 'wb') as pickle_filename:
    pickle.dump(datas1, pickle_filename)
```

### 템플릿 코드3: crawling_template_with_href_new, 크롤링(웹주소, css selector, pickle파일명)
- 사용법
  - crawling_template_with_href_new(웹주소, 타이틀을 가져올 css selector, pickle 파일로 저장할 파일명)

### 필요 문법: try except
- 최초 파일 데이터 로드시, 해당 파일이 없어서 에러가 남
- 에러가 나면, 프로그램은 멈춤
- 에러가 날 경우, data1을 빈 리스트로 만들어주게끔 하기 위해 try except 문법을 사용

```python
try:
    실행할 코드
except:
    에러가 날 경우, 실행할 코드
```

- 예
```python
    try:
        with open(pickle_name, 'rb') as pickle_filename:
            datas1 = pickle.load(pickle_filename)
    except:
        datas1 = list()
```

In [25]:
import requests
from bs4 import BeautifulSoup
import pickle

def crawling_template_with_href_new(url, css_selector, pickle_name):
    return_data, all_data = list(), list()
    res = requests.get(url)
    soup = BeautifulSoup(res.content, 'html.parser')

    link_titles = soup.select(css_selector)

    for num, link_title in enumerate(link_titles):
        all_data.append([link_title.get_text(), link_title['href']])

    try:
        with open(pickle_name, 'rb') as file1:
            datas1 = pickle.load(file1)
    except:
        datas1 = list()
    
    for item in all_data:
        finding = False
        for item2 in datas1:
            if item2[0] == item[0]:
                finding = True
                break
        if finding == False:
            return_data.append(item)
    
    with open(pickle_name, 'wb') as file1:
        pickle.dump(all_data, file1)
    
    return return_data

In [24]:
datas1 = crawling_template_with_href_new('http://www.drapt.com/e_sale/index.htm?page_name=esale_news&menu_key=34', 'a.c0000000', 'drapt.txt')

In [26]:
datas1

[[' 서울수서 등 행복주택 5269가구 모집',
  'index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358648&start=0&mode=&s_que=&field='],
 [' 송파 위례 공공분양 신혼부부·다자녀 특공에 1만4천여명 몰려',
  'index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358629&start=0&mode=&s_que=&field='],
 [" 청약 '줍줍' 인기 하늘을 찌른다…올해 경쟁률 작년의 2배",
  'index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358620&start=0&mode=&s_que=&field='],
 [" '로또분양'이라는 위례신도시 공공분양, 사실은 '바가지'?",
  'index.htm?page_name=esale_news_view&menu_key=34&okey=wdate&uid=358616&start=0&mode=&s_que=&field=']]

In [20]:
datas1 = datas1[2:]
with open('drapt.txt', 'wb') as file1:
    pickle.dump(datas1, file1)

### 7. 가져온 데이터 깔끔하게 정리하기
- 문자열 변수는 
  - strip() 와 split() 함수를 사용할 수 있음

### strip() 함수
- 문자열 앞뒤의 공백(디폴트) 또는 특별한 문자 지우기
  - 실제 현실 세계에 있는 문자열 데이터를 정리하다보면, 문자열 앞뒤에 공백 또는 기호가 있는 경우가 많음
  - lstrip() 함수는 문자열 앞에 있는 데이터만 처리 (문자열 왼쪽)
  - rstrip() 함수는 문자열 뒤에 있는 데이터만 처리 (문자열 오른쪽)

In [None]:
data1 = '   안녕   '
data1 = data1.strip()
data1

In [None]:
data1 = '####안녕####'
data1 = data1.strip('#')
data1

### split() 함수
- 문자열 내부에 있는 공백(디폴트) 또는 특별한 문자 를 구분해서, 리스트 아이템으로 만듬

In [None]:
data1 = '안녕1 안녕2 안녕3'
datas1 = data1.split()
datas1

In [None]:
data1 = '안녕1 안녕2 안녕3'
data1.split('1')

In [None]:
datas1[1]

### 실전 예제

In [2]:
datas1 = crawling_template('https://davelee-fun.github.io/blog/crawl_html_css', 'ul#dev_course_list li.course')

In [3]:
datas1

['(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]',
 '(초급) - 필요한 프로그램 설치 시연 [5]',
 '(초급) - 데이터를 엑셀 파일로 만들기 [9]',
 '(초급) - \xa0\xa0\xa0\xa0엑셀 파일 이쁘게! 이쁘게! [8]',
 '(초급) - \xa0\xa0\xa0\xa0나대신 주기적으로 파이썬 프로그램 실행하기 [7]',
 '(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]',
 '(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]',
 '(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]',
 '(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]']

In [4]:
for item in datas1:
    print (item.split('-')[1])

 강사가 실제 사용하는 자동 프로그램 소개 [2]
 필요한 프로그램 설치 시연 [5]
 데이터를 엑셀 파일로 만들기 [9]
     엑셀 파일 이쁘게! 이쁘게! [8]
     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
 네이버 API 사용해서, 블로그에 글쓰기 [42]
 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


In [5]:
for item in datas1:
    print (item.split('-')[-1].split('[')[0].strip())

강사가 실제 사용하는 자동 프로그램 소개
필요한 프로그램 설치 시연
데이터를 엑셀 파일로 만들기
엑셀 파일 이쁘게! 이쁘게!
나대신 주기적으로 파이썬 프로그램 실행하기
파이썬으로 슬랙(slack) 메신저에 글쓰기
웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기
네이버 API 사용해서, 블로그에 글쓰기
자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기


In [6]:
data1 = '(초급) - (1단계) - 강사가 실제 사용하는 프로그램 이해하기 [2]'

In [7]:
data1.split('-')

['(초급) ', ' (1단계) ', ' 강사가 실제 사용하는 프로그램 이해하기 [2]']

In [9]:
data1.split('-')[-1]

' 강사가 실제 사용하는 프로그램 이해하기 [2]'

### 8. [중급] 동적 웹페이지 가져오기
- 다음 뉴스 댓글 가져오기
  - https://news.v.daum.net/v/20200508141152965
  
> 프로그램 구현에는 오랜 기간이 걸립니다. <br>
> 필요한 부분에만 집중하세요! 굳이 어려운 기술을 쓰실 필요 없습니다. <br>


### Selenium
- Selenium: 웹을 테스트하기 위한 프레임워크
- 사전 준비
  1. Selenium 인스톨: pip install selenium
  2. 웹드라이버 인스톨: 웹 테스트 자동화를 위해 제공되는 툴(각 browser및 os 별로 존재)
     - https://sites.google.com/a/chromium.org/chromedriver/ (Chrome 브라우저용)
  3. 압축푼 후, 다음 폴더로 이동
     - 윈도우: C:/dev_python/Webdriver/chromedriver.exe
     - 맥: /usr/local/Cellar/chromedriver/chromedriver

> 폴더를 프로그램에서 정확히 가리키지 못하면, 실행이 안됩니다. <br>
> chrome://version 으로 브라우저에서 확인 후, 버전에 맞게 드라이버를 설치해도 됨 <br>
> 크롬 브라우저는 수시로 업데이트되므로, 드라이버도 이상 동작시 수시로 다운로드/설치 필요 

In [None]:
!pip install selenium

### selenium 라이브러리 사용하기
- 필요한 기능만 사용하는 경우가 많음

In [2]:
from selenium import webdriver

ModuleNotFoundError: No module named 'selenium'

### 드라이버 로드하기 
- driver_location에 자신의 환경에 맞게 위치를 정확히 써주세요
- 맥 환경
```python
driver_location = '/usr/local/Cellar/chromedriver/chromedriver'
```
- 윈도우 환경
```python
driver_location = 'C:/dev_python/Webdriver/chromedriver.exe'
```

> 환경에 따라 매우 다르므로, 꼭 확인부탁드립니다. <br>
> 안됩니다. 라고 하셔도 컴퓨터와 함께 저에게 오지 않는 이상, 해결해드리기가 어렵습니다.

In [None]:
driver_location = '/usr/local/Cellar/chromedriver/chromedriver'
driver = webdriver.Chrome(driver_location)

#### 맥환경에서 class101_autopython 폴더에 chromedriver 드라이버를 설치하는 경우

In [None]:
driver_location = './chromedriver'
driver = webdriver.Chrome(driver_location)

### 웹페이지 가져오기

In [None]:
driver.get("https://davelee-fun.github.io/blog/crawl_test_css")

### 웹페이지 데이터 선택하기
- driver.find_elements_by_css_selector(선택한 css selector) 함수로 css selector로 데이터 선택 가능
- 리턴값은 리스트

In [None]:
titles = driver.find_elements_by_css_selector('#start > a')

### 아이템은 item.text 를 통해 실제 데이터를 가져올 수 있음

In [None]:
for item in titles:
    print (item.text)

### 종료 코드를 꼭 넣어주세요
- 그렇지 않으면, 실행할 때마다 크롬 브라우저가 컴퓨터에 하나씩 추가로 실행됩니다.

In [None]:
driver.quit()

### 템플릿 코드4: crawling_template_with_selenium, 크롤링(selenium 위치, 웹주소, css selector)
- 사용법
  - crawling_template_with_selenium(selenium 위치, 웹주소, 선택한 css selector)

In [1]:
from selenium import webdriver
import time 

def crawling_template_with_selenium(driver_location, url, css_selector):
    return_data = list()
    driver = webdriver.Chrome(driver_location)

    driver.get(url)
    time.sleep(3)
    
    titles = driver.find_elements_by_css_selector(css_selector)
    for item in titles:
        return_data.append(item.text)
    driver.quit()
    return return_data

ModuleNotFoundError: No module named 'selenium'

In [None]:
crawling_template_with_selenium('./chromedriver', "https://davelee-fun.github.io/blog/crawl_html_css", '#start > a')

### 동적 페이지 크롤링 예

In [None]:
crawling_template('https://news.v.daum.net/v/20200508141152965', 'ul.list_comment > li > div > p')

In [None]:
crawling_template_with_selenium('./chromedriver', 'https://news.v.daum.net/v/20200508141152965', 'ul.list_comment > li > div > p')

### 9. 참고 자료

- 각 사이트별 특별한 코드가 필요한 예
- **일정 규모 이상의 프로그램 필요하며, 기능을 구현해도, 수시로 관련 기술을 막는 경우가 많아서, 계속 수정 필요함**
- 따라서, 다음 코드를 참고로만 이해하면 좋을 듯함
- **꼭 필요하다면, 1:1 코칭을 통해, 가능한 경우 확인해드리겠습니다**

### 다음 뉴스 댓글 가져오기
- 동적으로 웹페이지 정보를 보여주는 사이트의 경우, 특정 버튼을 사용자가 직접 눌러야 하는 경우가 있음
- 이 경우도 가능은 하지만, 각 사이트별 별도 코드가 필요함

### 이해가 필요한 문법과 라이브러리

- time.sleep(초) : 일정 시간동안 실행을 하지 않고 기다릴 수 있음
- 예: 5초동안 기다리기  

```python 
import time

time.sleep(5)
```

- 반복문은 for 외에 while 도 있습니다.
- 조건문이 만족될 때까지만 반복

```python
while 조건문:
    실행코드
```

#### 2020.10.06 업데이트
  - 최근, 다음 사이트에서 이제부터는 댓글 더보기 버튼을 한번만 누를 수 있고, 전체 댓글을 볼 수 있는 메뉴 자체는 삭제하였습니다. 
    - 아무래도 많은 분들께서 크롤링 테스트를 하다보니, 댓글 기능을 제한한 듯 합니다.
  - 더보기 버튼 태그도 일부 변경하여, 기존 코드로는 크롤링이 안되도록 변경하였습니다.
  - 다만, 더보기 버튼을 한번 누르고 댓글을 가져오는 기능은 가능하므로, 동적 크롤링 기술이 정상동작함은 기존과 같이 변경된 코드로 확인은 가능합니다.
  - **최대 댓글 20개까지 가져올 수 있고** (즉, 한번의 더보기 버튼 제공 및 누르기 가능함), 이후 댓글은 다음 사이트 자체에서도 제공하지 않습니다.
  - 코드 변경 사항: 태그가 'div.alex_more > a' 에서 'div.alex_more > button' 으로 변경되었습니다.
  - 단 

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

driver = webdriver.Chrome('./chromedriver')
driver.get('https://news.v.daum.net/v/20200508141152965')

loop = True
while loop:
    try:
        # WebDriverWait(driver, 최대 기다리는 시간).until(EC.presence_of_element_located((By.CSS_SELECTOR, CSS Selector 태그)))
        button = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, "div.alex_more > button")))
        button.click()
        time.sleep(1)
    except:
        loop = False    

datas1 = driver.find_elements_by_css_selector('ul.list_comment > li > div > p')
for item in datas1:
    print ('댓글]', item.text)

driver.quit()

### 예: 로그인 후, 데이터 확인하기
- 참고로만 봐주세요! 계속 사이트가 변경됩니다.

In [None]:
my_id = '아이디'
my_pw = '패스워드'

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

driver = webdriver.Chrome('./chromedriver')
driver.get('https://www.hanbit.co.kr/member/login.html')



# 다음 세 줄이 기본 패턴 코드: ID 넣기
# WebDriverWait(driver, 최대 기다리는 시간).until(EC.presence_of_element_located((By.CSS_SELECTOR, CSS Selector 태그)))
login_id = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.CSS_SELECTOR, "#m_id")))
login_id.clear() # 입력창의 경우, 사전에 작성되어 있는 텍스트를 삭제
login_id.send_keys(my_id) # 내가 넣고자 하는 텍스트 삽입

# 다음 세 줄이 기본 패턴 코드: 패스워드 넣기
login_pw = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.CSS_SELECTOR, "#m_passwd")))
login_pw.clear()
login_pw.send_keys(my_pw)


# 버튼 클릭시는 다음 두 줄: 로그인 버튼 누르기
button = WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.CSS_SELECTOR, "#login_btn")))
button.click()
time.sleep(1) # 로그인 후의 페이지 로딩을 위해, 1초정도 기다리면 좋음

driver.get('https://www.hanbit.co.kr/myhanbit/myhanbit.html')
datas1 = driver.find_elements_by_css_selector('div.sm_mymileage > dl.mileage_section1 dd')
for item in datas1:
    print (item.text)

driver.quit()