## Crawling

웹 페이지에 접속해서 정보를 찾는 과정을 프로그램을 통해 찾아 수집하고 원하는 형태에 맞게 가공하는 모든 과정.

- 사이트의 운영자의 의사에 반하지 않으면 합법이고 그렇지 않으면 불법
- 사이트 디렉토리의 robots.txt파일을 보면 크롤링을 금지하는지 안하는지표시되어있음
 (Disallow라는 표시 있으면 크롤링하면 안 됨)
- 웹페이지 소스 중 웹 프로그래밍 요소는 저작물로 인정될 수 있으므로 불법 복제는 저작권 침해에 해당.

### **필요패키지**

- (필수) pip3 install BeautifulSoup4 or pip3 install bs4
- (필수) pip3 install requests
- (필수) pip3 install pandas
- (필수) pip3 install plotly
- (선택) pip3 install lxml

### **라이브러리 설치 (대부분 설치되어있다는 가정 하)**

- !pip3 install requests
- !pip3 install beautifulsoup4

**입력**

In [2]:
!pip3 install BeautifulSoup4 or pip3 install bs4
!pip3 install requests
!pip3 install pandas
!pip3 install plotly
!pip3 install lxml
!pip3 install beautifulsoup4

Defaulting to user installation because normal site-packages is not writeable
[31mERROR: Could not find a version that satisfies the requirement or (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for or[0m[31m
[0mDefaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


In [3]:
import requests

# requests.요청방식(url)
html = requests.get("https://paullab.co.kr/stock.html")
html

<Response [200]>

### **HTTP 처리방식**

- GET : 리소스를 취득합니다. (? 뒤에 이어붙이는 방식 - 작은 값들)
- POST : 리소스를 생성합니다. (Body에 붙이는 방식 - 상대적으로 큰 용량)
- PUT : 리소스의 수정을 요청합니다.
- DELETE : 리소스의 삭제를 요청합니다.
- HEAD : HTTP 헤더 정보만 요청하고, 해당 자원 존재 여부 확인의 목적이 있습니다.
- OPTIONS : 웹서버가 지원하는 메소드 종류 반환을 요청합니다.
- TRACE : 요청 리소스가 수신되는 경로를 확인합니다.
- CONNECT : 요청 리소스에 대해 양방향 연결을 시작합니다.

### **상태 코드**

- 200 :  서버가 요청을 제대로 처리.
- 201 : 성공적으로 요청되었으며 서버가 새 리소스를 작성.
- 202 : 서버가 요청을 접수했지만 아직 처리하지 않음.
- 301 : 요청한 페이지를 새 위치로 영구적으로 이동.
- 403 : 서버가 요청을 거부.
- 404 : 서버가 요청한 페이지를 찾을 수 없음.
- 500 : 서버에 오류가 발생하여 요청을 수행할 수 없음.
- 503 : 서버가 오버로드되었거나 유지관리를 위해 다운되었기 때문에 현재서버 사용 불가.

출처 : [WIKI](https://ko.wikipedia.org/wiki/HTTP_%EC%83%81%ED%83%9C_%EC%BD%94%EB%93%9C)

## URL(Uniform Resource Locator)
자원이 어디 있는지를 알려주기 위한 규약입니다.
┌────────────────────────────────────────────────────────────────────────────────────────────────┐
│                                              href                                              │
├──────────┬──┬─────────────────────┬────────────────────────┬───────────────────────────┬───────┤
│ protocol │  │        auth         │          host          │           path            │ hash  │
│          │  │                     ├─────────────────┬──────┼──────────┬────────────────┤       │
│          │  │                     │    hostname     │ port │ pathname │     search     │       │
│          │  │                     │                 │      │          ├─┬──────────────┤       │
│          │  │                     │                 │      │          │ │    query     │       │
"  https:   //    user   :   pass   @ sub.example.com : 8080   /p/a/t/h  ?  query=string   #hash "
│          │  │          │          │    hostname     │ port │          │                │       │
│          │  │          │          ├─────────────────┴──────┤          │                │       │
│ protocol │  │ username │ password │          host          │          │                │       │
├──────────┴──┼──────────┴──────────┼────────────────────────┤          │                │       │
│   origin    │                     │         origin         │ pathname │     search     │ hash  │
├─────────────┴─────────────────────┴────────────────────────┴──────────┴────────────────┴───────┤
│                                              href                                              │
└────────────────────────────────────────────────────────────────────────────────────────────────┘
​
흔히 웹 사이트 주소로 알고 있지만, URL은 웹 사이트 주소뿐만 아니라 컴퓨터 네트워크상의 자원을 모두 나타낼 수 있습니다.
그 주소에 접속하려면 해당 URL에 맞는 프로토콜을 알아야 하고, 그와 동일한 프로토콜로 접속합니다. (FTP 프로토콜인 경우에는 FTP 클라이언트를 이용해야 하고, HTTP인 경우에는 웹 브라우저를 이용해야 한다. 텔넷의 경우에는 텔넷 프로그램을 이용해서 접속)
출처 : Wiki

In [5]:
html.text

'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n  <meta charset="UTF-8">\n  <meta name="viewport" content="width=device-width, initial-scale=1.0">\n  <meta http-equiv="X-UA-Compatible" content="ie=edge">\n  <title>크롤링 연습 페이지</title>\n  <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css">\n  <link rel="stylesheet" type="text/css" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" crossorigin="anonymous">\n  <style>\n    h1{\n      margin: 2rem;\n    }\n\n    h1>span{\n      font-size: 1rem;\n    }\n\n    h2 {\n      font-size: 1.5rem;\n      font-weight: bold;\n      margin-bottom: 1rem;\n      margin-top: 5rem;\n    }\n\n    .heading-top {\n      margin-top: 1rem;\n    }\n\n    .main {\n      width: 100%;\n      margin: 0 auto;\n      text-align: center;\n    }\n\n    table {\n      width: 100%;\n    }\n\n    a {\n      /* color: inherit; */\

In [6]:
html.headers

{'Connection': 'keep-alive', 'Content-Length': '5447', 'Server': 'GitHub.com', 'Content-Type': 'text/html; charset=utf-8', 'Last-Modified': 'Wed, 12 Jun 2024 06:01:22 GMT', 'Access-Control-Allow-Origin': '*', 'ETag': 'W/"666939b2-d1d9"', 'expires': 'Mon, 19 Aug 2024 15:53:09 GMT', 'Cache-Control': 'max-age=600', 'Content-Encoding': 'gzip', 'x-proxy-cache': 'MISS', 'X-GitHub-Request-Id': '4D8C:2AB063:5A1BF0:5CBDFD:66C3680D', 'Accept-Ranges': 'bytes', 'Age': '0', 'Date': 'Mon, 19 Aug 2024 15:43:09 GMT', 'Via': '1.1 varnish', 'X-Served-By': 'cache-bur-kbur8200088-BUR', 'X-Cache': 'MISS', 'X-Cache-Hits': '0', 'X-Timer': 'S1724082189.463257,VS0,VE123', 'Vary': 'Accept-Encoding', 'X-Fastly-Request-ID': '5a0581ccd44856cdb77b577a64647cc7a61f6c91'}

In [7]:
html.status_code

200

In [8]:
html.ok

True

In [11]:
import requests
from bs4 import BeautifulSoup # parsing을 위해 필요

response = requests.get("https://paullab.co.kr/stock.html")
response.encoding = 'utf-8'
html = response.text

soup = BeautifulSoup(html, "html.parser")

In [13]:
soup

<!DOCTYPE html>

<html lang="en">
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="ie=edge" http-equiv="X-UA-Compatible"/>
<title>크롤링 연습 페이지</title>
<link href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" rel="stylesheet"/>
<link crossorigin="anonymous" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" rel="stylesheet" type="text/css"/>
<style>
    h1{
      margin: 2rem;
    }

    h1>span{
      font-size: 1rem;
    }

    h2 {
      font-size: 1.5rem;
      font-weight: bold;
      margin-bottom: 1rem;
      margin-top: 5rem;
    }

    .heading-top {
      margin-top: 1rem;
    }

    .main {
      width: 100%;
      margin: 0 auto;
      text-align: center;
    }

    table {
      width: 100%;
    }

    a {
      /* color: inherit; */
      cursor: pointer;
      text-decoration: none;

In [15]:
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="ie=edge" http-equiv="X-UA-Compatible"/>
  <title>
   크롤링 연습 페이지
  </title>
  <link href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" rel="stylesheet"/>
  <link crossorigin="anonymous" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" rel="stylesheet" type="text/css"/>
  <style>
   h1{
      margin: 2rem;
    }

    h1>span{
      font-size: 1rem;
    }

    h2 {
      font-size: 1.5rem;
      font-weight: bold;
      margin-bottom: 1rem;
      margin-top: 5rem;
    }

    .heading-top {
      margin-top: 1rem;
    }

    .main {
      width: 100%;
      margin: 0 auto;
      text-align: center;
    }

    table {
      width: 100%;
    }

    a {
      /* color: inherit; */
      cursor: pointer;
      te

In [16]:
soup.title

<title>크롤링 연습 페이지</title>

In [19]:
soup.title.string

'크롤링 연습 페이지'

In [20]:
soup.title.text

'크롤링 연습 페이지'

In [21]:
soup.title.parent

<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/>
<meta content="ie=edge" http-equiv="X-UA-Compatible"/>
<title>크롤링 연습 페이지</title>
<link href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" rel="stylesheet"/>
<link crossorigin="anonymous" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" rel="stylesheet" type="text/css"/>
<style>
    h1{
      margin: 2rem;
    }

    h1>span{
      font-size: 1rem;
    }

    h2 {
      font-size: 1.5rem;
      font-weight: bold;
      margin-bottom: 1rem;
      margin-top: 5rem;
    }

    .heading-top {
      margin-top: 1rem;
    }

    .main {
      width: 100%;
      margin: 0 auto;
      text-align: center;
    }

    table {
      width: 100%;
    }

    a {
      /* color: inherit; */
      cursor: pointer;
      text-decoration: none;
    }

    a:hover {
      color:

In [22]:
soup.title.parent.name

'head'

In [23]:
soup.table

<table class="border-style" summary="시가총액 정보">
<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>
<tr>
<th scope="row">
<a class="link_site" href="#">시가총액순위<i class="fas fa-caret-right"></i></a>
</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td>위니브월드 <em id="_market_sum">1</em>위</td>
</tr>
<tr>
<th scope="row">상장주식수</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td><em id="_market_sum">5,969,782,550</em></td>
</tr>
</table>

In [24]:
soup.tr

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>

In [25]:
soup.table.tr

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>

In [26]:
soup.th  # 처음 만난 th하나만!

<th class="strong" scope="row">시가총액</th>

In [27]:
soup.find('title')
# soup.title # 이것과 동일!

<title>크롤링 연습 페이지</title>

In [34]:
print(soup.find(id=('update')))

None


In [38]:
soup.find('head').find('title')

<title>크롤링 연습 페이지</title>

In [40]:
soup.find('h2', id="제주코딩베이스캠프연구원")

<h2 id="제주코딩베이스캠프연구원">제주코딩베이스캠프 연구원</h2>

### **Selector**

- 태그에 좀 더 세밀한 접근이 가능
- class를 지칭할 때는 '.'을 사용하고, id를 지칭할 때는 '#'를 사용
- 탐색하고자 하는 태그가 특정태그 하위에 있을 때 '>'를 사용

In [50]:
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.paullab.co.kr/stock.html')

response.encoding = 'utf-8'
html = response.text

soup = BeautifulSoup(html, 'html.parser')
# 이 밑의 내용 기억!
soup.select('.table > tbody > tr') # > 표현으로 내부로 들어감.

[<tr>
 <th scope="col">날짜</th>
 <th scope="col">종가</th>
 <th scope="col">전일비</th>
 <th scope="col">시가</th>
 <th scope="col">고가</th>
 <th scope="col">저가</th>
 <th scope="col">거래량</th>
 </tr>,
 <tr>
 <td align="center "><span class="date">2040.10.23</span></td>
 <td class="num"><span>6,650</span></td>
 <td class="num">
 <img alt="상승 " height="6 " src="ico_up.gif " style="margin-right:4px; " width="7 "/><span>
                             20
                         </span>
 </td>
 <td class="num"><span>6,590</span></td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,580</span></td>
 <td class="num"><span>398,421</span></td>
 </tr>,
 <tr>
 <td align="center"><span class="date">2040.10.22</span></td>
 <td class="num"><span>6,630</span></td>
 <td class="num">
 <img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                             190
                         </span>
 </td>
 <td class="num"><span>6,830</spa

In [52]:
soup.select('.table > tr') # 'table' class 안에 모든 tr 태그 출력
# 순서 : table > tbody > tr (바로 아래 아니면 실행안됨)

[]

In [54]:
soup.select('.table > tbody > tr')[2] 
# 'table' class 안에 tbody 안에 모든 tr 태그 출력

<tr>
<td align="center"><span class="date">2040.10.22</span></td>
<td class="num"><span>6,630</span></td>
<td class="num">
<img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                            190
                        </span>
</td>
<td class="num"><span>6,830</span></td>
<td class="num"><span>6,930</span></td>
<td class="num"><span>6,530</span></td>
<td class="num"><span>919,571</span></td>
</tr>

In [55]:
# 요소 선택 방법
soup.select("p > a:nth-of-type(2)") # p > a tag 인데 2번째 요소
soup.select("p > a:nth-child(even)") # p > a tag 인데 짝수나 홀수번째 요소 
soup.select('a[href]') # 특정 attribute 요소
soup.select("#link1 + .sister") # 해당 id 바로 뒤에 있는 .sister 클래스를 가진 요소 1개

[]

In [61]:
oneStep = soup.select('.main')[2] 
# oneStep

In [62]:
twoStep = oneStep.select('tbody > tr')[1:] 
twoStep

[<tr>
 <td align="center "><span class="date">2040.10.23</span></td>
 <td class="num"><span>6,650</span></td>
 <td class="num">
 <img alt="상승 " height="6 " src="ico_up.gif " style="margin-right:4px; " width="7 "/><span>
                             20
                         </span>
 </td>
 <td class="num"><span>6,590</span></td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,580</span></td>
 <td class="num"><span>398,421</span></td>
 </tr>,
 <tr>
 <td align="center"><span class="date">2040.10.22</span></td>
 <td class="num"><span>6,630</span></td>
 <td class="num">
 <img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                             190
                         </span>
 </td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,930</span></td>
 <td class="num"><span>6,530</span></td>
 <td class="num"><span>919,571</span></td>
 </tr>,
 <tr>
 <td align="center"><span class="date">2040.

In [63]:
twoStep[0].select('td')[0].text # 날짜 

'2040.10.23'

In [64]:
twoStep[0].select('td')[1].text  # 종가 

'6,650'

In [65]:
날짜 = []
종가 = []

for i in twoStep:
    날짜.append(i.select('td')[0].text)
    종가.append(int(i.select('td')[1].text.replace(',', '')))

In [66]:
날짜

['2040.10.23',
 '2040.10.22',
 '2040.10.21',
 '2040.10.18',
 '2040.10.17',
 '2040.10.16',
 '2040.10.15',
 '2040.10.14',
 '2040.10.11',
 '2040.10.10',
 '2040.10.08',
 '2040.10.07',
 '2040.10.04',
 '2040.10.02',
 '2040.10.01',
 '2040.09.30',
 '2040.09.27',
 '2040.09.26',
 '2040.09.25',
 '2040.09.24']