### 이번 실습에서는 다음 내용들을 배웁니다.


- 웹페이지에 있는 데이터를 요청하여 가져오는 방법에 대해 배웁니다.


- requests와 bs4 라이브러리 사용법에 대해 배웁니다.

In [4]:
# 해당 페이지의 page source를 직접 가져옵니다. 웹페이지에서도 우클릭 "페이지 소스 보기"로 같은 HTML 소스를 볼 수 있습니다.
page_no = 1
page_url = f"https://finance.naver.com/sise/sise_index_day.naver?code=KPI200&page={page_no}"
print(page_url)

https://finance.naver.com/sise/sise_index_day.naver?code=KPI200&page=1


In [8]:
import requests

source = requests.get(page_url).text
print(source)

<html lang="ko">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">
<title>네이버 증권</title>

<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/common.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/layout.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/main.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock2.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock3.css">
<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/world.css">
</head>
<body>
<script type="text/javas

> 이 끔찍한 HTML 코드 속에서 체결가를 찾기는 너무나 힘듭니다.. 그래서 Chrome에는 "검사" 기능이 있습니다. 이것을 사용하면 아래 그림과 같습니다.

> HTML tag가 궁금한 부분에 **마우스 우클릭을 하면 "검사" 기능**을 찾을 수 있습니다. 누르면 아래 그림의 우측에 보이는 크롬 개발자 도구를 볼 수 있습니다.

![sise_element](webcrawling/sise_element.png)

## 1.2 beautifulsoup4를 이용해서 태그에서 정보 가져오기 

- beautifulsoup4(bs4)는 HTML source를 tag별 계층 구조를 파악하기 쉽게 parse tree 형태로 변환해주는 라이브러리 입니다.


- bs4를 사용하면 손쉽게 HTML source에서 원하는 정보를 추출할 수 있습니다.


- find, find_all 함수를 이용하면 원하는 tag와 속성에 맞는 모든 정보를 가져올 수 있습니다.

In [12]:
# beautifulsoup4를 불러옵니다.
import bs4
# BeautifulSoup 함수를 사용해서 불러온 html source를 "lxml" parser로 parsing 합니다.
source = bs4.BeautifulSoup(source)

In [13]:
# bs4의 prettify() 함수는 HTML source를 tab을 기준으로 "이쁘게" 보여줍니다.
print(source.prettify())

<html lang="ko">
 <head>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <title>
   네이버 증권
  </title>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/common.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/layout.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/main.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock2.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/newstock3.css" rel="stylesheet" type="text/css"/>
  <link href="https://ssl.pstatic.net/imgstock/static.pc/20230321170048/css/world.css" rel="stylesheet" type="text/css"/>
 </head

- 우리가 찾고 싶은 데이터는 검사 기능을 통해서 td class="number_1"에 있는 것을 확인하였습니다.

- td tag을 찾아서, class가 number_1인 데이터를 모두 가져오면 체결가를 가져올 수 있습니다.


- **즉, web crawling이란 HTML source내에 숨어있는 데이터가 속한 tag에서 데이터를 추출하는 작업이라고 할 수 있습니다.**

In [14]:
# find_all()는 HTML source에서 조건을 만족하는 모든 tag을 가져오는 함수입니다.
source.find_all("td", class_ = "number_1")

[<td class="number_1">333.68</td>,
 <td class="number_1">
 <span class="tah p11 red01">
 				+0.18%
 				</span>
 </td>,
 <td class="number_1" style="padding-right:40px;">294,812</td>,
 <td class="number_1" style="padding-right:30px;">9,210,558</td>,
 <td class="number_1">333.09</td>,
 <td class="number_1">
 <span class="tah p11 red01">
 				+0.30%
 				</span>
 </td>,
 <td class="number_1" style="padding-right:40px;">172,637</td>,
 <td class="number_1" style="padding-right:30px;">8,644,092</td>,
 <td class="number_1">332.09</td>,
 <td class="number_1">
 <span class="tah p11 red01">
 				+0.37%
 				</span>
 </td>,
 <td class="number_1" style="padding-right:40px;">252,055</td>,
 <td class="number_1" style="padding-right:30px;">10,197,042</td>,
 <td class="number_1">330.87</td>,
 <td class="number_1">
 <span class="tah p11 red01">
 				+1.38%
 				</span>
 </td>,
 <td class="number_1" style="padding-right:40px;">148,445</td>,
 <td class="number_1" style="padding-right:30px;">9,945,339</