# requests와 BeautifulSoup으로 웹 크롤러 만들기

[requests와 BeautifulSoup으로 웹 크롤러 만들기 · GitBook](https://beomi.github.io/gb-crawling/posts/2017-01-20-HowToMakeWebCrawler.html)

## 웹에서 정보 가져오기

**Requests**
- Requests는 정말 좋은 라이브러리이지만, html을 '의미있는', 즉 Python이 이해하는 객체 구조로 만들어주지는 못한다. 위에서 req.text는 python의 문자열(str)객체를 반환할 뿐이기 때문에 정보를 추출하기가 어렵다.

In [1]:
import requests

## HTTP GET Request
req = requests.get('https://beomi.github.io/beomi.github.io_old/')

## HTML 소스 가져오기
html = req.text
## HTTP Header 가져오기
header = req.headers
## HTTP Status 가져오기 (200: 정상)
status = req.status_code
## HTTP가 정상적으로 되었는지 (True/False)
is_ok = req.ok

**BeautifulSoup**
- BeautifulSoup은 html 코드를 Python이 이해하는 객체 구조로 변환하는 Parsing을 맡고 있고, 이 라이브러리를 이용해 우리는 제대로 된 '의미있는' 정보를 추출해 낼 수 있다.

In [2]:
import requests
from bs4 import BeautifulSoup

## HTTP GET Request
req = requests.get('https://beomi.github.io/beomi.github.io_old/')
## HTML 소스 가져오기
html = req.text
## BeautifulSoup으로 html소스를 python객체로 변환하기
## 첫 인자는 html소스코드, 두 번째 인자는 어떤 parser를 이용할지 명시.
## 이 글에서는 Python 내장 html.parser를 이용했다.
soup = BeautifulSoup(html, 'html.parser')

- 이제 soup 객체에서 원하는 정보를 찾아낼 수 있다.

- BeautifulSoup에서는 여러가지 기능을 제공하는데, 여기서는 select를 이용한다. select는 CSS Selector를 이용해 조건과 일치하는 모든 객체들을 List로 반환해준다.

- 예시로 이 블로그의 모든 제목을 가져와 보도록 하자.

검사 -> 요소 위에서 우클릭 -> copy -> copy selector

**body > h3:nth-child(4) > a**

- :nth-child(4) 등이 붙어있는 것으로 보아 현재 요소를 '정확하게' 특정하고 있기 때문에, 좀 더 유연하게 만들어 주기 위해 아래와 같이 selector를 바꿔준다.(위 코드는 단 하나의 링크만을 특정하고, 아래 코드는 css selector에 일치하는 모든 요소를 가리킨다.)

**h3 > a**

In [4]:
import requests
from bs4 import BeautifulSoup

req = requests.get('https://beomi.github.io/beomi.github.io_old/')
html = req.text
soup = BeautifulSoup(html, 'html.parser')
## CSS Selector를 통해 html요소들을 찾아낸다.
my_titles = soup.select(
    'h3 > a'
    )

- my_titles는 string의 list가 아니라 soup객체들의 list
- soup객체는 <태그></태그>로 구성된 요소를 Python이 이해하는 상태로 바꾼 것이라 볼 수 있다. 따라서 여러가지로 조작이 가능

In [7]:
import requests
from bs4 import BeautifulSoup

req = requests.get('https://beomi.github.io/beomi.github.io_old/')
html = req.text
soup = BeautifulSoup(html, 'html.parser')
my_titles = soup.select(
    'h3 > a'
    )
## my_titles는 list 객체
for title in my_titles:
    ## Tag안의 텍스트
    print(title.text)
    ## Tag의 속성을 가져오기(ex: href속성)
    print(title.get('href'))

나만의 웹 크롤러 만들기(4): Django로 크롤링한 데이터 저장하기
/beomi.github.io_old/python/2017/02/28/HowToMakeWebCrawler-Save-with-Django.html
나만의 웹 크롤러 만들기(3): Selenium으로 무적 크롤러 만들기
/beomi.github.io_old/python/2017/02/27/HowToMakeWebCrawler-With-Selenium.html
Django에 Social Login 붙이기: Django세팅부터 Facebook/Google 개발 설정까지
/beomi.github.io_old/python/2017/02/08/Setup-SocialAuth-for-Django.html
Django에 Custom인증 붙이기
/beomi.github.io_old/python/2017/02/01/Django-CustomAuth.html
나만의 웹 크롤러 만들기(2): Login with Session
/beomi.github.io_old/python/2017/01/20/HowToMakeWebCrawler-With-Login.html
나만의 웹 크롤러 만들기 with Requests/BeautifulSoup
/beomi.github.io_old/python/2017/01/19/HowToMakeWebCrawler.html
Celery로 TelegramBot 알림 보내기
/beomi.github.io_old/2016/12/27/TelegramBot-with-Celery.html
Virtualenv/VirtualenvWrapper OS별 설치&이용법
/beomi.github.io_old/2016/12/27/HowToSetup-Virtualenv-VirtualenvWrapper.html
[DjangoTDDStudy] #02: UnitTest 이용해 기능 테스트 하기
/beomi.github.io_old/djangotddstudy/2016/12/26/Django-TDD-Study-02-Using-Unit

- 위와 같이 코드를 처리할 경우 a 태그 안의 텍스트와 a 태그의 href속성의 값을 가져옴
- 위 코드에서 title 객체는 python의 dictionary와 같이 태그의 속성들을 저장