# URL(Uniform Resource Locator)
- 자원이 어디 있는지를 알려주기 위한 규약
- 흔히 웹사이트 주소로 알고 있지만, URL은 웹사이트 주소뿐만 아니라 컴퓨터 네트워크상의 자원을 모두 나타낼 수 있음
- 그 주소에 접속하려면 해당 URL에 맞는 프로토콜을 알아야 하고, 그와 동일한 프로토콜로 접속(FTP 프로토콜인 경우에는 FTP 클라이언트를 이용해야 하고, HTTP인 경우에는 웹 브라우저를 이용해야 한다. 텔넷의 경우에는 텔넷프로그램을 이용해서 접속)

# HTTP(Hypertext Transfer Protocol)
- HTML, XML, Javascript, 오디오, 비디오, 이미지, PDF, 등등을 서비스 하기 위해 나온 프로토콜
- 요청 또는 상태 라인 / 해더(생략가능) / 빈줄(해더의 끝)/ 바디(생략가능)
***
### 요청 (request)
- 상대방에게 어떤 페이지를 요구 </br>
</br>
GET /stock.html HTTP/1.1 </br>
Host www.paullab.co.kr </br>
- paullab 페이지에서 stock.html이라는 페이지를 보여달라는 요청
***
### 응답 (reponse)
- 웹 브라우저가 해석해서 창에 보여줌 </br>
</br>

HTTP /1.1 200 OK               ##상태라인 </br>
Content-Type        ##해더 </br>
                    ##빈줄</br>

```html
<html>      ##바디
...
</html>
```

# HTTP 처리방식
- GET : 리소스 취득 (? 뒤에 이어붙이는 방식 - 작은 값들)
- POST : 리소스 생성 (Body에 붙이는 방식 - 상대적으로 큰 용량(이미지, 동영상 등))
- PUT, DELETE, HEAD, OPTIONS, TRACE, CONNECT


In [5]:
import requests
import bs4

In [4]:
requests.__version__    # 버전확인

'2.25.1'

In [3]:
bs4.__version__

'4.9.3'

# requests

In [6]:
html = requests.get('http://www.paullab.co.kr/stock.html')
html        #respose 200 일 경우 성공

<Response [200]>

In [8]:
html.text

'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n  <meta charset="UTF-8">\n  <meta name="viewport" content="width=device-width, initial-scale=1.0">\n  <meta http-equiv="X-UA-Compatible" content="ie=edge">\n  <title>Document</title>\n  <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css">\n  <link rel="stylesheet" type="text/css" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" crossorigin="anonymous">\n  <style>\n    h1{\n      margin: 2rem;\n    }\n    h1>span{\n      font-size: 1rem;\n    }\n    .main {\n      width: 80%;\n      margin: 0 auto;\n      text-align: center;\n    }\n\n    table {\n      width: 100%;\n    }\n\n    a {\n      color: inherit;\n      cursor: pointer;\n      text-decoration: none;\n    }\n\n    a:hover {\n      color: #000;\n      text-decoration: none;\n    }\n\n    em {\n      font: inherit;\n    }\n\n    #informa

In [9]:
html.headers    #html의 헤더 확인

{'Server': 'nginx', 'Date': 'Thu, 16 Sep 2021 11:28:52 GMT', 'Content-Type': 'text/html', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Vary': 'Accept-Encoding', 'P3P': "CP='NOI CURa ADMa DEVa TAIa OUR DELa BUS IND PHY ONL UNI COM NAV INT DEM PRE'", 'X-Powered-By': 'PHP/5.5.17p1', 'Content-Encoding': 'gzip'}

In [10]:
html.encoding

'ISO-8859-1'

In [11]:
html.encoding = 'utf-8' #한국어깨짐 현상 방지

In [13]:
html.text

'<!DOCTYPE html>\n<html lang="en">\n\n<head>\n  <meta charset="UTF-8">\n  <meta name="viewport" content="width=device-width, initial-scale=1.0">\n  <meta http-equiv="X-UA-Compatible" content="ie=edge">\n  <title>Document</title>\n  <link rel="stylesheet" href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css">\n  <link rel="stylesheet" type="text/css" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" crossorigin="anonymous">\n  <style>\n    h1{\n      margin: 2rem;\n    }\n    h1>span{\n      font-size: 1rem;\n    }\n    .main {\n      width: 80%;\n      margin: 0 auto;\n      text-align: center;\n    }\n\n    table {\n      width: 100%;\n    }\n\n    a {\n      color: inherit;\n      cursor: pointer;\n      text-decoration: none;\n    }\n\n    a:hover {\n      color: #000;\n      text-decoration: none;\n    }\n\n    em {\n      font: inherit;\n    }\n\n    #informa

In [15]:
html.status_code

200

In [16]:
html.ok # html에 제대로 접속됐는지 확인

True

In [17]:
response = requests.get('http://www.paullab.co.kr/stock.html')
response.encoding = 'utf-8'
html = response.text

soup = bs4.BeautifulSoup(html, 'html.parser')

In [19]:
print(soup.prettify())  #html 문서형식으로 출력

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="ie=edge" http-equiv="X-UA-Compatible"/>
  <title>
   Document
  </title>
  <link href="https://stackpath.bootstrapcdn.com/bootstrap/4.4.1/css/bootstrap.min.css" rel="stylesheet"/>
  <link crossorigin="anonymous" href="https://pro.fontawesome.com/releases/v5.10.0/css/all.css" integrity="sha384-AYmEC3Yw5cVb3ZcuHtOA93w35dYTsvhLPVnYs9eStHfGJvOvKxVfELGroGkvsg+p" rel="stylesheet" type="text/css"/>
  <style>
   h1{
      margin: 2rem;
    }
    h1>span{
      font-size: 1rem;
    }
    .main {
      width: 80%;
      margin: 0 auto;
      text-align: center;
    }

    table {
      width: 100%;
    }

    a {
      color: inherit;
      cursor: pointer;
      text-decoration: none;
    }

    a:hover {
      color: #000;
      text-decoration: none;
    }

    em {
      font: inherit;
    }

    #information {
      padding: 15px;
    

# html 파일로 저장

In [21]:
f = open('test.html','w',encoding='utf-8')  #파일 다운받아 분석
f.write(html)
f.close()

# BeautifulSoup
- str타입의 html 데이터를 html 구조를 가진 데이터로 가공해주는 라이브러리
- BeautifulSoup(markup,"html.parser")       ##가장 많이쓰는 parser
- BeautifulSoup(markup,"lxml")
- BeautifulSoup(markup,"lxml-xml")
    -BeautifulSoup(markup,"xml")
- BeautifulSoup(markip,"html5lib")


In [24]:
response = requests.get('http://www.paullab.co.kr/stock.html')
response.encoding = 'utf-8'
html = response.text

soup = bs4.BeautifulSoup(html, 'html.parser')

In [25]:
soup.title  #태그에 바로 접근 가능

<title>Document</title>

In [27]:
soup.title.string   #string만 뽑기

'Document'

In [28]:
soup.title.text #string과 같은기능

'Document'

In [29]:
soup.title.parent.name  #태그를 출력

'head'

In [30]:
soup.tr #처음만나는 table row 출력

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>

In [31]:
soup.td

<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>

In [32]:
soup.th

<th class="strong" scope="row">시가총액</th>

In [44]:
soup.table

<table class="border-style" summary="시가총액 정보">
<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>
<tr>
<th scope="row">
<a class="link_site" href="#">시가총액순위<i class="fas fa-caret-right"></i></a>
</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td>위니브월드 <em id="_market_sum">1</em>위</td>
</tr>
<tr>
<th scope="row">상장주식수</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td><em id="_market_sum">5,969,782,550</em></td>
</tr>
</table>

In [45]:
soup.find('title')

<title>Document</title>

In [46]:
soup.find('tr')

<tr>
<th class="strong" scope="row">시가총액</th>
<!-- 공백은 의도적으로 넣은 것입니다. -->
<td class="strong"><em id="_market_sum">349조 2,323</em>억원</td>
</tr>

In [47]:
soup.find('th')

<th class="strong" scope="row">시가총액</th>

In [48]:
soup.find(id= ('update'))

<span id="update">update : 20.12.30 / 해외 크롤링이 Block되어 있으므로 크롤링이 안되시는 분은 이 URL(http://paullab.synology.me/stock.html)을 사용하세요.</span>

In [49]:
soup.find('head').find('title')

<title>Document</title>

In [51]:
soup.find('h2',id = '제주코딩베이스캠프연구원')

<h2 id="제주코딩베이스캠프연구원">제주코딩베이스캠프 연구원</h2>

In [53]:
soup.find_all('h2') #모든 h2찾기 리스트로 반환

[<h2>(주)캣네생선</h2>,
 <h2 id="제주코딩베이스캠프연구원">제주코딩베이스캠프 연구원</h2>,
 <h2 id="제주코딩베이스캠프공업">제주코딩베이스캠프 공업</h2>,
 <h2 id="제주코딩베이스캠프출판사">제주코딩베이스캠프 출판사</h2>,
 <h2 id="제주코딩베이스캠프학원">제주코딩베이스캠프 학원</h2>]

In [54]:
soup.find_all('table',class_ = 'table')

[<table class="table table-hover">
 <tbody>
 <tr>
 <th scope="col">날짜</th>
 <th scope="col">종가</th>
 <th scope="col">전일비</th>
 <th scope="col">시가</th>
 <th scope="col">고가</th>
 <th scope="col">저가</th>
 <th scope="col">거래량</th>
 </tr>
 <tr>
 <td align="center "><span class="date">2019.10.23</span></td>
 <td class="num"><span>6,650</span></td>
 <td class="num">
 <img alt="상승 " height="6 " src="ico_up.gif " style="margin-right:4px; " width="7 "/><span>
                             20
                         </span>
 </td>
 <td class="num"><span>6,590</span></td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,580</span></td>
 <td class="num"><span>398,421</span></td>
 </tr>
 <tr>
 <td align="center"><span class="date">2019.10.22</span></td>
 <td class="num"><span>6,630</span></td>
 <td class="num">
 <img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                             190
                         </span

In [11]:
soup =  bs4.BeautifulSoup('''
<hojun id='jeju' class ='codingBaseCamp codingLevelup'>
    hello world
    </hojun>''')
tag  = soup.hojun
tag

<hojun class="codingBaseCamp codingLevelup" id="jeju">
    hello world
    </hojun>

In [13]:
type(tag)
dir(tag)

['__bool__',
 '__call__',
 '__class__',
 '__contains__',
 '__copy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setitem__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_all_strings',
 '_find_all',
 '_find_one',
 '_is_xml',
 '_lastRecursiveChild',
 '_last_descendant',
 '_should_pretty_print',
 'append',
 'attrs',
 'can_be_empty_element',
 'cdata_list_attributes',
 'childGenerator',
 'children',
 'clear',
 'contents',
 'decode',
 'decode_contents',
 'decompose',
 'decomposed',
 'descendants',
 'encode',
 'encode_contents',
 'extend',
 'extract',
 'fetchNextSiblings',
 'fetchParents',
 'fetchPrevious',
 'fetchPreviousSiblings',
 '

In [15]:
tag.name

'hojun'

In [16]:
tag['class']

['codingBaseCamp', 'codingLevelup']

In [17]:
tag['id']

'jeju'

In [19]:
tag.attrs

{'id': 'jeju', 'class': ['codingBaseCamp', 'codingLevelup']}

In [20]:
tag.string

'\n    hello world\n    '

In [21]:
tag.text

'\n    hello world\n    '

In [22]:
tag.contents

['\n    hello world\n    ']

In [23]:
for i in tag.children:
    print(i)


    hello world
    


In [25]:
tag.children

<list_iterator at 0x28d62dc4100>

In [27]:
soup =  bs4.BeautifulSoup('''
<ul>
<li id='jeju' class ='codingBaseCamp codingLevelup'>hello world</li>
<li id='jeju' class ='codingBaseCamp codingLevelup'>hello world</li>
<li id='jeju' class ='codingBaseCamp codingLevelup'>hello world</li>
</ul>
''')
tag  = soup.ul
tag

<ul>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
</ul>

In [29]:
tag.contents

['\n',
 <li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>,
 '\n',
 <li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>,
 '\n',
 <li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>,
 '\n']

In [30]:
tag.li

<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>

In [31]:
tag.li.parent

<ul>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
<li class="codingBaseCamp codingLevelup" id="jeju">hello world</li>
</ul>

# Selector
- 태그에 좀 더 세밀한 접근이 가능
- class를 지칭할 때는 '.'을 사용하고, id를 지칭할 때는 '#'를 사용
- 탐색하고자 하는 태그가 특정태그 하위에 있을때 '>'를 사용

In [10]:
import requests
from bs4 import BeautifulSoup

response = requests.get('http://www.paullab.co.kr/stock.html')
response.encoding = 'utf-8'
html = response.text

soup = BeautifulSoup(html, 'html.parser')

In [11]:
soup.select('#update')

[<span id="update">update : 20.12.30 / 해외 크롤링이 Block되어 있으므로 크롤링이 안되시는 분은 이 URL(http://paullab.synology.me/stock.html)을 사용하세요.</span>]

In [12]:
soup.select('.table > tr')  #'table' class 안에 모든 tr태그 출력
#바로 아래 아니면 실행 안됨

[]

In [13]:
soup.select('.table > tbody > tr')  #'table' class 안에 tbody
#안에 모든 tr태그 출력

[<tr>
 <th scope="col">날짜</th>
 <th scope="col">종가</th>
 <th scope="col">전일비</th>
 <th scope="col">시가</th>
 <th scope="col">고가</th>
 <th scope="col">저가</th>
 <th scope="col">거래량</th>
 </tr>,
 <tr>
 <td align="center "><span class="date">2019.10.23</span></td>
 <td class="num"><span>6,650</span></td>
 <td class="num">
 <img alt="상승 " height="6 " src="ico_up.gif " style="margin-right:4px; " width="7 "/><span>
                             20
                         </span>
 </td>
 <td class="num"><span>6,590</span></td>
 <td class="num"><span>6,830</span></td>
 <td class="num"><span>6,580</span></td>
 <td class="num"><span>398,421</span></td>
 </tr>,
 <tr>
 <td align="center"><span class="date">2019.10.22</span></td>
 <td class="num"><span>6,630</span></td>
 <td class="num">
 <img alt="하락" height="6" src="ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
                             190
                         </span>
 </td>
 <td class="num"><span>6,830</spa

In [14]:
soup.select('p > a:nth-of-type(2)') #p태그 안에 있는 앵커태그중에 2번째요소
soup.select('p > a:nth-child(even)')#p태그 안에 짝수요소
soup.select('a[href]')  #p태그 안에 특정어트리뷰트를 가진것이 있는지
soup.select('#link1 + .sister') #id와 클래스를 동시에 가진것이 있는지

[]

In [15]:
oneStep = soup.select('.main')[2]   #연구원에 있는 데이터만

In [16]:
twoStep = oneStep.select('tbody > tr')[1:]

In [17]:
twoStep[0].select('td')[0].text #날짜와 종가 뽑기

'2019.10.23'

In [18]:
twoStep[0].select('td')[1].text.replace(',','')

'6650'

In [19]:
날짜 = []
종가 = []
for i in twoStep:
    날짜.append(i.select('td')[0].text)
    종가.append(int(i.select('td')[1].text.replace(',','')))

In [73]:
날짜

['2019.10.23',
 '2019.10.22',
 '2019.10.21',
 '2019.10.18',
 '2019.10.17',
 '2019.10.16',
 '2019.10.15',
 '2019.10.14',
 '2019.10.11',
 '2019.10.10',
 '2019.10.08',
 '2019.10.07',
 '2019.10.04',
 '2019.10.02',
 '2019.10.01',
 '2019.09.30',
 '2019.09.27',
 '2019.09.26',
 '2019.09.25',
 '2019.09.24']

In [20]:
종가

[6650,
 6630,
 6820,
 6430,
 5950,
 5930,
 5640,
 5380,
 5040,
 5100,
 5050,
 4940,
 5010,
 4920,
 5010,
 5000,
 5010,
 5060,
 5060,
 5330]

In [21]:
import plotly.express as px     #시각화

fig = px.line(x=날짜, y=종가, title='jejucodingcamp')
fig.show()