## 크롤링, 스크래핑
- 웹 페이지를 그대로 가져와 거기서 데이터를 추출하는 행위
- 파이썬은 간결한 문법 및 효율적인 자료 구조, 풍부한 관련 라이브러리 덕분에 크롤링에 용이한 언어

### 크롤링 방법
#### 1. HTML 페이지 다운로드하여 필요한 데이터만 추출
###### 1) 원하는 웹 페이지에 request를 보내 결과 html을 받는다. -> request 모듈
###### 2) 받은 html을 파싱하여 필요한 정보를 추출한다. -> BeautifilSoup 모듈
#### 2. Selenium 등 브라우저를 프로그래밍으로 조작해서 필요한 데이터만 추출하는 기법
#### 3. Open API를 제공하는 서비스에 Open API를 호출해서 데이터를 받고, 그 중 필요한 데이터만 추출하는 기법 ex.Tweepy, python-twitter, TwitterSearch, TwitterAPI

## Requests & BeautifilSoup

In [4]:
#! pip install requests

In [5]:
import requests

### Requests
- 웹 상의 html문서를 파이썬 언어를 통해 쉽게 사용자의 컴퓨터로 가져올 수 있게 하는 라이브러리

#### 예시

In [7]:
r = requests.get("https://api.github.com/user", auth=("user","pass"))
r.status_code

401

In [8]:
r.headers['content-type']

'application/json; charset=utf-8'

In [9]:
r.encoding

'utf-8'

In [10]:
r.text

'{"message":"Requires authentication","documentation_url":"https://docs.github.com/rest/reference/users#get-the-authenticated-user"}'

In [11]:
r.json()

{'message': 'Requires authentication',
 'documentation_url': 'https://docs.github.com/rest/reference/users#get-the-authenticated-user'}

### 마크업 언어
- 문서에 포함된 문장이나 그림, 표, 소리 등과 같은 내용에 대한 정보가 아니라, 그 문장과 그림, 표의 배치나 글자의 크기, 모양, 들여쓰기, 줄 간격, 여백 등에 대한 정보를 표현하는 언어
- 데이터의 구조를 기술하는 정도로만 사용되므로 프로그래밍 언어와 구별됨

- Tag (태그): 데이터의 구조 기술하는 구분자 
- Element (요소): 각 태그 안에 있는 명칭 (ex. head, title, font)
- Attribute (속성): 태그의 성격 및 스타일을 나타내는 상태 구분값(시작 태그 안에 위치)
- Arguments (속성값): 속성에 대한 값

### HTML Tags
- 제목 heading: h
- 문단 paragrah: p
- 링크 ankhor: a
- 이미지 image: img
- 목록 Lists: 순서없는목록(ul), 순서있는목록(ol), 목록항목(li)
- 표 table: tr(행), th(헤더 행), td(값)

### BeautifilSoup
- requests로 가져온 HTML 문서를 파싱하여 아주 쉽게 데이터 추출하게 해주는 파이썬 라이브러리

In [13]:
#! pip install beautifulsoup4
#! pip install lxml
#! pip install html5lib



#### 예시1

In [25]:
from bs4 import BeautifulSoup
html = '''<html>
            <table border=1> 
                <tr> 
                    <td> 항목</td>
                    <td> 2013 </td> 
                    <td> 2014 </td> 
                    <td> 2015 </td> 
                </tr> 
                <tr> 
                    <td> 매출액</td>
                    <td> 100 </td> 
                    <td> 200 </td> 
                    <td> 300 </td> 
                </tr> 
            </table> 
          </html>'''
soup = BeautifulSoup(html, 'html.parser') #beautifilsoup에 정의된 메소드 사용하는 객체 생성. html파서 지정, soup: 파싱된 결과
result = soup.select('td') # 모든 tb태그를 찾아라
result2 = soup.find_all('td') # 모든 tb태그를 찾아라
result3 = soup.select_one('td') #tb 태그 중 첫번째 태그를 찾아라
result4 = soup.find('td') #tb 태그 중 첫번째 태그를 찾아라

In [23]:
result

[<td> 항목</td>,
 <td> 2013 </td>,
 <td> 2014 </td>,
 <td> 2015 </td>,
 <td> 매출액</td>,
 <td> 100 </td>,
 <td> 200 </td>,
 <td> 300 </td>]

In [21]:
result2

[<td> 항목</td>,
 <td> 2013 </td>,
 <td> 2014 </td>,
 <td> 2015 </td>,
 <td> 매출액</td>,
 <td> 100 </td>,
 <td> 200 </td>,
 <td> 300 </td>]

In [26]:
result3

<td> 항목</td>

In [27]:
result4

<td> 항목</td>

#### 예시2

In [31]:
html = '''
<html>
    <body> 
        <h1 id='title'> [1]크롤링이란? </h1>;
        <p class='csstype'> 웹에서필요한데이터를추출하는작업</p>
        <p> id='body' align='center'> 파이썬을중심으로다양한웹크롤링기술발달</p> 
    </body> 
</html>
'''
print(type(html))

<class 'str'>


In [39]:
from bs4 import BeautifulSoup

html = '''
<html>
    <body> 
        <h1 id='title'> [1]크롤링이란? </h1>
        <p class='csstyle'> 웹에서 필요한 데이터를 추출하는 작업 </p>
        <p id='body' align='center'> 파이썬을 중심으로 다양한 웹 크롤링 기술 발달 </p> 
    </body> 
</html>
'''
soup = BeautifulSoup(html, 'html.parser') 

result = soup.find('p', class_='csstyle')
print(result)# 결과:  <p class=‘cssstype’> 웹에서필요한데이터를추출하는작업</p>
print(result.string)# 결과:  웹에서필요한데이터를추출하는작업
print(result.get_text())# 결과:  웹에서필요한데이터를추출하는작업

result2 = soup.find('p', attrs={'align':'center'})
print(result2)# 결과:  <p> id=‘body’ align=‘center’> 파이썬을중심으로다양한웹크롤링기술발달</p> 
print(result2.string)# 결과:  파이썬을중심으로다양한웹크롤링기술발달
print(result2.get_text())# 결과:  파이썬을중심으로다양한웹크롤링기술발달

<p class="csstyle"> 웹에서 필요한 데이터를 추출하는 작업 </p>
 웹에서 필요한 데이터를 추출하는 작업 
 웹에서 필요한 데이터를 추출하는 작업 
<p align="center" id="body"> 파이썬을 중심으로 다양한 웹 크롤링 기술 발달 </p>
 파이썬을 중심으로 다양한 웹 크롤링 기술 발달 
 파이썬을 중심으로 다양한 웹 크롤링 기술 발달 


#### 예시3

In [48]:
import requests
from bs4 import BeautifulSoup

r = requests.get('https://kin.naver.com/') #request를 이용한 html페이지 요청
print(r.content)

b'\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\t\n\n\n\n<!DOCTYPE html>\n<html lang="ko">\n<head>\n<meta name="referrer" contents="always">\n\n<meta http-equiv="X-UA-Compatible" content="IE=edge">\n<meta name="description" content="\xec\xa7\x80\xec\x8b\x9d\xeb\x82\x98\xeb\x88\x94\xea\xb3\xbc \xea\xb8\xb0\xeb\xb6\x80\xeb\xa1\x9c \xed\x95\xa8\xea\xbb\x98 \xec\x84\xb1\xec\x9e\xa5\xed\x95\x98\xeb\x8a\x94 \xec\xa7\x80\xec\x8b\x9diN\xec\x9d\x84 \xeb\xa7\x8c\xeb\x82\x98\xeb\xb3\xb4\xec\x84\xb8\xec\x9a\x94."/>\n<meta name="viewport" content="width=1024">\n\n<meta name="msapplication-config" content="none" />\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.kin/static/pc/20211027142246/css/min/common.css" />\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/static.kin/static/pc/20211027142246/css/min/components.css" />\n\n\n\t\n\t\n\t\t<link rel="stylesheet" type="

In [52]:
soup = BeautifulSoup(r.content, 'html.parser') #html페이지 파싱
#title = soup.select('#rankingChart > ul:nth-child(1) > li.ranking_item._item_1 > a.ranking_title') #필요 데이터 검색
#print(title.get_text) #필요 데이터 추출