### 크롤링 핵심 코드 패턴 이해하기

##### 필요 라이브러리

- requests

  : 웹페이지 가져오기 라이브러리

- bs4(BeautifulSoup)

  : 웹페이지 분석 (크롤링) 라이브러리
  
  [HTML 요소 참고서](https://developer.mozilla.org/ko/docs/Web/HTML/Element)



In [1]:
# 라이브러리 임포트
import requests
from bs4 import BeautifulSoup

# 웹페이지 가져오기
res = requests.get('http://v.media.daum.net/v/20170615203441266')

# 웹페이지 파싱하기
soup = BeautifulSoup(res.content, 'html.parser')

# 필요한 데이터 추출하기
mydata = soup.find('title')

# 추출한 데이터 활용하기
print(mydata.get_text())

잔금대출에도 DTI 규제 적용 검토


In [2]:
from bs4 import BeautifulSoup
html =      "<html> \
                <body> \
                        <h1 id='title'>[1]크롤링이란?</h1> \
                        <p class='cssstyle'>웹페이지에서 필요한 데이터를 추출하는 것</p> \
                        <p id='body' align='center'>파이썬을 중심으로 다양한 웹크롤링 기술 발달</p> \
                </body> \
            </html>"
soup = BeautifulSoup(html, "html.parser")
# 태그로 검색 방법
# data = soup.find('p')
# data = soup.find('h1')

# HTML 언어 이해를 기반으로 크롤링 해보기
# data = soup.find('p', class_='cssstyle')
# data = soup.find('p', 'cssstyle')
# data = soup.find('p', attrs = {'align':'center'})
data = soup.find(id='body')

print(data.string)

파이썬을 중심으로 다양한 웹크롤링 기술 발달


#### find_all() 함수 사용하기

In [3]:
paragraph_data = soup.find_all('p')

for paragraph in paragraph_data:
    print(paragraph.get_text())

웹페이지에서 필요한 데이터를 추출하는 것
파이썬을 중심으로 다양한 웹크롤링 기술 발달


#### HTMl/CSS 언어 이해를 기반으로 크롤링해보기

In [19]:
import requests
from bs4 import BeautifulSoup

# 1) requests 라이브러리를 활용한 HTML 페이지 요청
# 1-1) res 객체에 HTML 데이터가 저장되고, res.content로 데이터 추출 할 수 있음.
res = requests.get('http://v.media.daum.net/v/20170615203441266')

# print
# 2) HTMl페이지 파싱 BeautifulSoup(HTMl 데이터, 파싱방법)
# 2-1) BeautifulSoup 파싱방법
soup = BeautifulSoup(res.content, 'html.parser')

# 3) 필요한 데이터 검색
# mydata = soup.find('span',"txt_info")
# mydata = soup.find('span',"num_date")
mydata = soup.find('div',"layer_util layer_summary")

# 4) 필요한 데이터 추출
print(mydata.get_text())


금융당국이 급증하는 가계부채 증가세를 막기 위해 아파트 잔금대출에도 소득을 따져 대출한도를 정하는 총부채상환비율(DTI)을 적용하는 방안을 유력하게 검토하고 있다.
지금은 집값을 기준으로 대출한도를 매기는 주택담보인정비율(LTV) 규제만 적용돼 소득이 없어도 집값의 70%를 빌려 잔금을 치르는 게 가능하다.
앞으로 잔금대출에 DTI가 적용되면 소득이 없는 사람은 집값의 70% 대출 받는 게 어려워진다. 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다. 전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.



In [16]:
data = soup.find_all('span','txt_info')

# for item in data:
#     print(item.get_text())

data[1].get_text()

'입력 2017. 06. 15. 20:34'

### 실전 크롤링과 강력한 크롤링 기술 Tip
#### 예제 1

In [21]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

titles = soup.find_all('li','course')
for title in titles:
    print(title.get_text())

(왕초보) - 클래스 소개
(왕초보) - 블로그 개발 필요한 준비물 준비하기
(왕초보) - Github pages 설정해서 블로그 첫 페이지 만들어보기
(왕초보) - 초간단 페이지 만들어보기
(왕초보) - 이쁘게 테마 적용해보기
(왕초보) - 마크다운 기초 이해하고, 실제 나만의 블로그 페이지 만들기
(왕초보) - 다양한 마크다운 기법 익혀보며, 나만의 블로그 페이지 꾸며보기
(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


### 크롤링 강력한 팁 2 - 추출한 것에서 또 추출하기
1. find()로 더 크게 감싸는 HTML 태그로 추출하고
2. 다시 추출된 데이터에서 find_all()로 원하는 부분을 추출

#### 예제 2

In [28]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

# section = soup.find('ul', id = 'hobby_course_list')
section = soup.find('ul', id = 'dev_course_list')
titles = section.find_all('li','course')
for title in titles:
    print(title.get_text())

(초급) - 강사가 실제 사용하는 자동 프로그램 소개 [2]
(초급) - 필요한 프로그램 설치 시연 [5]
(초급) - 데이터를 엑셀 파일로 만들기 [9]
(초급) -     엑셀 파일 이쁘게! 이쁘게! [8]
(초급) -     나대신 주기적으로 파이썬 프로그램 실행하기 [7]
(초급) - 파이썬으로 슬랙(slack) 메신저에 글쓰기 [40]
(초급) - 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기 [12]
(초급) - 네이버 API 사용해서, 블로그에 글쓰기 [42]
(중급) - 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기 [412]


### 크롤링 강력한 팁 3 - 파이썬 문자열 함수와 함께 쓰기

* 데이터 전처리

1. strip() 함수 사용해보기
2. split() 함수 사용해보기

In [11]:
import requests
from bs4 import BeautifulSoup

res = requests.get('http://davelee-fun.github.io/blog/crawl_test')
soup = BeautifulSoup(res.content, 'html.parser')

section = soup.find('ul', id = 'dev_course_list')
titles = section.find_all('li','course')
for index,title in enumerate(titles):
    print(str(index + 1) + '.', title.get_text().split('-')[1].split('[')[0].strip())

1. 강사가 실제 사용하는 자동 프로그램 소개
2. 필요한 프로그램 설치 시연
3. 데이터를 엑셀 파일로 만들기
4. 엑셀 파일 이쁘게! 이쁘게!
5. 나대신 주기적으로 파이썬 프로그램 실행하기
6. 파이썬으로 슬랙(slack) 메신저에 글쓰기
7. 웹사이트 변경사항 주기적으로 체크해서, 메신저로 알람주기
8. 네이버 API 사용해서, 블로그에 글쓰기
9. 자동으로 쿠팡파트너스 API 로 가져온 상품 정보, 네이버 블로그/트위터에 홍보하기
