# 크롤링(Crawling)

웹 페이지를 가져와서 데이터를 추출하는 행위

>데이터를 얻는 방법
>1. 파일다운로드
>2. api 이용
>3. 웹사이트 크롤링/스크래핑

## 웹 기초
1. HTTP는 HTML로 작성되어 있는 하이퍼 텍스트를 전송하기 위한 프로토콜
2. HTTPS는 SSL(보안 소켓 계층)을 사용하여 연결, 서버와 브라우저 사이에 안전하게 암호화된 연결을 만들 수 있게 도와줌
3. URL은 네트워크상에서 자원의 위치를 알려주는 주소
4. HTML은 웹 페이지를 위한 마크업 언어

## 웹 크롤링과 스크래핑

**크롤링**은 검색 엔진이 웹 페이지의 정보를 수집하여 분류 및 색인화하여 DB화하는 작업 
<BR> 
크롤러 혹은 봇이 웹 페이지를 방문하여 데이터 수집 
    
**스크래핑**은 웹 페이지의 정보를 수집하는 일련의 행위, 스크래핑은 크롤링을 포함하는 용어
<br>
특정한 웹 페이지에서 원하는 데이터 일부를 가져오는 것

# 크롤링을 위한 필요 라이브러리

- urllib
- BeautifulSoup

## urllib

url을 넣고 실행하면 데이터를 텍스트 형태로 받아옴

## BeautifulSoup

데이터를 추출하는 데 필요한 기능이 들어 있는 라이브러리(파싱 라이브러리)

In [3]:
from bs4 import BeautifulSoup

html_str = '''<html><div>hello</div></html>'''
soup = BeautifulSoup(html_str, 'html.parser')

print(type(soup))
print(soup)

<class 'bs4.BeautifulSoup'>
<html><div>hello</div></html>


## find(), find_all()

`find()`를 이용하여 파싱된 데이터 중 필요한 부분만 뽑아내기, 처음 만난 부분 추출

`find_all()`조건에 해당하는 모든 요소를 리스트 형태로 추출

In [4]:
# find()
from bs4 import BeautifulSoup

html_str = '''<html><div>hello</div></html>'''
soup = BeautifulSoup(html_str, 'html.parser')

soup.find('div')

<div>hello</div>

In [9]:
# find_all()
from bs4 import BeautifulSoup

html_str = '''
<html>
    <body>
        <ul>
            <li>line1</li>
            <li>line2</li>
            <li>line3</li>
        </ul>
    </body>
</html>
'''

soup = BeautifulSoup(html_str, 'html.parser')
li_list = soup.find_all('li')

for li in li_list:
    print(li.text)

line1
line2
line3


## find() - class 속성 이용하기

In [10]:
from bs4 import BeautifulSoup

html_str = '''
<html>
    <body>
        <div class="class1">hello</div>
        <div class="class2">hello2</div>
    </body>
</html>
'''

soup = BeautifulSoup(html_str, 'html.parser')

print(soup.find('div', {'class': 'class1'}))

<div class="class1">hello</div>


## find() - 속성값 추출

In [13]:
from bs4 import BeautifulSoup

html_str = '''
<html>
    <body>
        <div class="class1" color="red">hello</div>
        <div class="class2">hello2</div>
    </body>
</html>
'''

soup = BeautifulSoup(html_str, 'html.parser')

div = soup.find('div', {'class': 'class1'})
print(div['color'])

red


# robots.txt

웹 크롤러와 같은 봇(Bot)들의 접근 제어 <br>
어떤 페이지의 접근이 허가되고 금지 되는지 텍스트 파일로 기록

    User-agent:*
    Disallow:/
    Allow:/$

- robots.txt 위치
    - 웹 페이지 루트에 위치
    - www.naver.com/robots.txt


- User-agent
    - 누구/어떤 로봇에 규칙이 적용되는지 지정
    - \* 모든 로봇에 적용


- Disallow
    - 접근을 금지할 페이지
    - /: 전체 웹 페이지


- Allow
    - 접근을 허용할 페이지
    - /$: 루트(메인, 첫)페이지


- 크롤링은 금지하지만, 메인 페이지는 예외적으로 허용

모든 로봇에게 접근 허락

    User-agent:*
    Allow:/

모든 로봇에게 접근 금지

    User-agent:*
    Disallow:/


모든 로봇에게 특정 디렉토리 접근 금지

    User-agent:*
    Disallow:/directory_name1/
    
    
모든 로봇에게 특정 파일 접근 금지

    User-agent:*
    Disallow:/directory_name1/file_name.html    