## URL(Uniform Resource Locator)
* resource가 어디 있는지를 알려주기 위한 규약
* 흔히 웹 사이트 주소로 알고 있지만, URL은 웹 사이트 주소뿐만 아니라 컴퓨터 네트워크상의 자원을 모두 나타낼 수 있음
* 그 주소에 접속하려면 해당 URL에 맞는 프로토콜을 알아야하고, 그와 동일안 프로토콜로 접속(FTP 프로토콜인 경우에는 FTP 클라이언트를 이용해야 하고, HTTP인 경우에는 웹 브라우저를 이용해야 한다.)


## HTTP(Hypertext Transger Protocol)
* HTML, XML, Javascript, 오디오, 비디오, 이미지, PDF, etc.을 service하기 위해 나온 protocol
* 요청 또는 상태 라인 / 해더(생략가능) / 빈줄(해더의 끝) / body (생략가능)

<img src='images/http_image.png' width=800>

### HTTP 처리방식
* GET : 리소스 취득 (? 뒤에 이어붙이는 방식 - 작은 값들)
* POST : 리소스 생성 (body에 붙이는 방식 - 상대적으로 큰 용량, 이미지, 동영상)
* PUT, DELETE, HEAD, OPTIONS, TRACE, CONNECT

### HTTP 상태코드

* 1xx (정보): 요청을 받았으며 프로세스를 계속한다.
* 2xx (성공): 요청을 성공적으로 받았으며 인식했고 수용하였다.
* 3xx (리다이렉션): 요청 완료를 위해 추가 작업 조치가 필요하다. / 클라이언트는 요청을 마치기 위해 추가 동작을 취해야한다.
* 4xx (클라이언트 오류): 요청의 문법이 잘못되었거나 요청을 처리할 수 없다.
* 5xx (서버 오류): 서버가 명백히 유효한 요청에 대해 충족을 실패했다.


* 200(성공) : 서버가 요청을 제대로 처리했다는 뜻, 주로 서버가 요청한 페이지를 제공했다는 의미로 쓰임
* 201(작성됨) : 성공적으로 요청되었으며 서버가 새 리소스를 작성했다.
* 202(허용됨): 서버가 요청을 접수했지만 아직 처리하지 않았ㄷ.
* 301(영구이동): 요청한 페이지를 새 위치로 영구적으로 이동했다. GET or HEAD 요청에 대한 응답으로 이 응답을 표시하면 요청자가 자동으로 새 위치로 전달한다.
* 403(Forbidden): 서버가 요청을 거부 (401은 인증 실패, 403은 인가 실패)
* 404(Not Found): 요청에 지정된 방법을 사용할 수 없다. 예를 들어 POST 방식으로 요청을 받는 서버에 GET 요청을 보내는 경우, 읽기 전용 리소스에 PUT 요청을 보내는 경우
* 500(내부서버오류): 서버에 오류가 발생하여 요청을 수행할 수 없다.
* 503(서비스를 사용할 수 없음): 서버가 오버로드되었거나 유지관리를 위해 다운되었기 때문에 현재 서버를 사용할 수 없다.

In [2]:
import requests
import bs4

print(requests.__version__)
print(bs4.__version__)

2.26.0
4.9.3


In [7]:
from pprint import pprint

In [8]:
# crawling 할 페이지
url = 'http://www.paullab.co.kr/stock.html'
html = requests.get(url)
pprint(html.text)

('<!DOCTYPE html>\n'
 '<html lang="en">\n'
 '\n'
 '<head>\n'
 '  <meta charset="UTF-8">\n'
 '  <meta name="viewport" content="width=device-width, initial-scale=1.0">\n'
 '  <meta http-equiv="X-UA-Compatible" content="ie=edge">\n'
 '  <title>Document</title>\n'
 '  <link rel="stylesheet" '
 'href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css">\n'
 '  <link rel="stylesheet" type="text/css" '
 'href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" '
 'integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" '
 'crossorigin="anonymous">\n'
 '  <style>\n'
 '    h1{\n'
 '      margin: 2rem;\n'
 '    }\n'
 '    h1>span{\n'
 '      font-size: 1rem;\n'
 '    }\n'
 '    .main {\n'
 '      width: 80%;\n'
 '      margin: 0 auto;\n'
 '      text-align: center;\n'
 '    }\n'
 '\n'
 '    table {\n'
 '      width: 100%;\n'
 '    }\n'
 '\n'
 '    a {\n'
 '      color: inherit;\n'
 '      cursor: pointer;\n'
 '      text-decoration: none;\

In [11]:
pprint(html.headers)

{'Server': 'nginx', 'Date': 'Mon, 11 Apr 2022 09:14:41 GMT', 'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'P3P': "CP='NOI CURa ADMa DEVa TAIa OUR DELa BUS IND PHY ONL UNI COM NAV INT DEM PRE'", 'X-Powered-By': 'PHP/5.5.17p1', 'Content-Encoding': 'gzip'}


In [12]:
html.encoding

'ISO-8859-1'

In [13]:
html.encoding = 'utf-8'

In [14]:
html.text

'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n  <meta charset="UTF-8">\n  <meta name="viewport" content="width=device-width, initial-scale=1.0">\n  <meta http-equiv="X-UA-Compatible" content="ie=edge">\n  <title>Document</title>\n  <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css">\n  <link rel="stylesheet" type="text/css" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" crossorigin="anonymous">\n  <style>\n    h1{\n      margin: 2rem;\n    }\n    h1>span{\n      font-size: 1rem;\n    }\n    .main {\n      width: 80%;\n      margin: 0 auto;\n      text-align: center;\n    }\n\n    table {\n      width: 100%;\n    }\n\n    a {\n      color: inherit;\n      cursor: pointer;\n      text-decoration: none;\n    }\n\n    a:hover {\n      color: #000;\n      text-decoration: none;\n    }\n\n    em {\n      font: inherit;\n    }\n\n    #informa

In [17]:
html.status_code


200

In [19]:
html.ok

True

In [21]:
response = requests.get(url)
response.encoding = 'utf-8'
html = response.text

soup = bs4.BeautifulSoup(html, 'html.parser')
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="ie=edge" http-equiv="X-UA-Compatible"/>
  <title>
   Document
  </title>
  <link href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" rel="stylesheet"/>
  <link crossorigin="anonymous" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" rel="stylesheet" type="text/css"/>
  <style>
   h1{
      margin: 2rem;
    }
    h1>span{
      font-size: 1rem;
    }
    .main {
      width: 80%;
      margin: 0 auto;
      text-align: center;
    }

    table {
      width: 100%;
    }

    a {
      color: inherit;
      cursor: pointer;
      text-decoration: none;
    }

    a:hover {
      color: #000;
      text-decoration: none;
    }

    em {
      font: inherit;
    }

    #information {
      padding: 15px;
    

In [22]:
### 특정 페이지의 소스코드를 파일로 저장

response = requests.get(url)
response.encoding = 'utf-8'
html = response.text

soup = bs4.BeautifulSoup(html, 'html.parser')

with open('test.html', 'w', encoding='utf=8') as f:
    f.write(html)

In [25]:
s = html.split(' ')
word = input('페이지에서 검색할 단어를 입력하세요 : ')
s.count(word)

0

### BeautifulSoup

* str 타입의 html 데이터를 html 구조를 가진 데이터로 가공해주는 라이브러리
* BeautifulSoup(markup, "html.parser")
* BeautifulSoup(markup, "lxml")
* BeautifulSoup(markup, "lxml-xml") BeautifulSoup(markup, "xml")
* BeautifulSoup(markup, "html5lib")

In [36]:
import requests
from bs4 import BeautifulSoup

response = requests.get(url)

response.encoding = 'utf-8'
html = response.text

soup = BeautifulSoup(html, 'html.parser')

In [37]:
print(soup.title)
print(soup.title.string)
print(soup.title.text)
print(soup.title.parent.name)

<title>Document</title>
Document
Document
head


In [38]:
print(soup.tr)  # 처음 만나는 table row 출력
print(soup.td)  # 처음 만나는 table data 출력
print(soup.th)  # 처음 만나는 table header (column) 출력

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
<th class="strong" scope="row">시가총액</th>


In [41]:
print(soup.find('title'), '\n')
print(soup.find('tr'))

<title>Document</title> 

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>


In [42]:
soup.find(id=('update'))

<span id="update">update : 20.12.30 / 해외 크롤링이 Block되어 있으므로 크롤링이 안되시는 분은 이 URL(http://paullab.synology.me/stock.html)을 사용하세요.</span>

In [43]:
soup.find('head').find('title')

<title>Document</title>

In [46]:
soup.find('h2', id='제주코딩베이스캠프연구원')

<h2 id="제주코딩베이스캠프연구원">제주코딩베이스캠프 연구원</h2>

In [48]:
soup.find_all('h2')

[<h2>(주)캣네생선</h2>,
 <h2 id="제주코딩베이스캠프연구원">제주코딩베이스캠프 연구원</h2>,
 <h2 id="제주코딩베이스캠프공업">제주코딩베이스캠프 공업</h2>,
 <h2 id="제주코딩베이스캠프출판사">제주코딩베이스캠프 출판사</h2>,
 <h2 id="제주코딩베이스캠프학원">제주코딩베이스캠프 학원</h2>]

In [49]:
soup.find_all('table', class_='table')

[<table class="table table-hover">
 <tbody>
 <tr>
 <th scope="col">날짜</th>
 <th scope="col">종가</th>
 <th scope="col">전일비</th>
 <th scope="col">시가</th>
 <th scope="col">고가</th>
 <th scope="col">저가</th>
 <th scope="col">거래량</th>
 </tr>
 <tr>
 <td align="center "><span class="date">2019.10.23</span></td>
 <td class="num"><span>6,650</span></td>
 <td class="num">
 <img alt="상승 " height="6 " src="ico_up.gif " style="margin-right:4px; " width="7 "/><span>
                             20
                         </span>
 </td>
 <td class="num"><span>6,590</span></td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,580</span></td>
 <td class="num"><span>398,421</span></td>
 </tr>
 <tr>
 <td align="center"><span class="date">2019.10.22</span></td>
 <td class="num"><span>6,630</span></td>
 <td class="num">
 <img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                             190
                         </span