## 1. pandas로 데이터 수집하기
### pd.read_html
* 판다스의 pd.read-html 기능으로 데이터가 정상 수집 된다면 requests나 다른 라이브러리 사용할 필요없이 매우 간단하게 코드 한줄로 수집할 수가 있다.

* 하지만 정상 수집이 안된다면 requests 라이브러리를 사용하여 웹페이지 가져오기

### 개별종목 일별시세 수집하기
네이버금융 웹페이지를 통해 네이버 일별시세 수집하기

https://finance.naver.com/item/sise.nhn?code=035420

In [1]:
import pandas as pd 

In [2]:
item_code = '133690'
item_name = 'NAVER'
url = 'https://finance.naver.com/item/sise.nhn?code=035420'

In [3]:
# 판다스 만으로도 데이터가 잘 가져와 졌다.
table = pd.read_html(url, encoding = 'cp949')

# 총 12개의 테이블이 있구나 
print(len(table)) 

# 하지만 0~11 의 테이블을 검색해 봐도 내가 원하는 일별 시세 테이블이 없다
table[0]

# URL 설정을 다시 해야 한다. 
# 개발자 도구(OR 마우스 오른쪽 검사) -> NETWORK -> 원하는 페이지 클릭 -> REQUESTS URL 복사
# 이때 requests 라이브러리 사용해야 함 : requests url 이기 때문
# https://finance.naver.com/item/sise_day.nhn?code=035420&page=1

12


Unnamed: 0,0,1,2
0,"전일 417,500 417,500","고가 423,500423,500 (상한가 542,000542,000 )","거래량 542,545 542,545"
1,"시가 418,000418,000","저가 410,500410,500 (하한가 292,500 )","거래대금 225,658 225,658 백만"


## 2. requests 
HTTP(웹사이트)를 호출하는데 사용되는 라이브러리

#### URL 찾기
개발자 도구(or 마우스 오른쪽 -> 검사) -> NETWORK -> DOCS -> CLEAR 

-> 수집할 페이지 넘기기 -> 원하는 페이지 URL 클릭 -> HEADERS 탭 

* <GENERAL부분>
    * Requests URL : http:// ~ 
    * Requests Method : GET
    * Status Code : 200 (정상)
    

* <Request Headers 부분> 
    * user-agent : ~ 

#### API
어떤 방식(method)의 HTTP 요청을 하느냐에 따라서 해당하는 이름의 함수를 사용하면 됩니다.

* GET 방식: requests.get()
* POST 방식: requests.post()
* PUT 방식: requests.put()
* DELETE 방식: requests.delete()

In [4]:
# 필요한 라이브러리 로드하기 
import pandas as pd 
import requests 

In [5]:
item_code = '133690'
item_name = 'NAVER'
url =' https://finance.naver.com/item/sise_day.nhn?code=035420&page=1'

In [6]:
# requests를 통해 가져온 url을 response 를 줄여서 res 라는 변수에 넣어준다
res = requests.get(url)

# 200 으로 정상적으로 가져와진것을 확인
res

<Response [200]>

In [7]:
# res.text 
# 출력해 보면 페이지를 찾을 수 없음으로 나옴 
# urser 를 통한 접근이 아닌 컴푸터가 접근한것으로 간주하여 접근을 막았기 때문이다.
# headers 에 urser-agent를 넣어서 user가 접근한것처럼 해준다.

#### user-agent
* 나의 블라우저가 웹사이트에 접속할 때 주는 header 정보에 따라서 사이트가 스마트폰, 데스크 탑인지 판단하고 어떤 화면을 보여 줄지 판단 한다.
* 사람(uder-agent)이 아닌 컴퓨터 접근(웹스트랩핑 or 크롤링) 일때 웹사이트가 접속을 차단하여 원하는 정보를 가져가지 못하게 막는다.
* headers 에 user-agent를 딕셔너리 형태로 넣어서 사람이 접근한것처럼 해준다.


* url(웹페이지) 에 접속할때 header 정보로 'user-agent'를 넘겨준다는 뜻
    * headers = {'user-agent' : '~~~~'}
    * response = requests.get(url, headers = headers)

* user-agent 코드는 network을 통해 url 찾았던 headers 탭에서 찾을 수 있다.

In [8]:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36'}
res = requests.get(url, headers = headers )
res

<Response [200]>

In [9]:
type(headers)

dict

In [10]:
res.text
# 잘 가져와진것을 확인 할 수 있다.

'\n<html lang="ko">\n<head>\n<meta http-equiv="Content-Type" content="text/html; charset=euc-kr">\n<title>네이버 금융</title>\n\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/common.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/layout.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/main.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock2.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock3.css">\n<link rel="stylesheet" type="text/css" href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/world.css">\n</head>\n<body>\n<script

In [11]:
# pandas로 읽기

table = pd.read_html(res.text)
print(len(table))
table[0]
# 0 번째 table 이 내가 원하는 데이터이다. 

2


Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2021.07.01,411000.0,6500.0,418000.0,423500.0,410500.0,545746.0
2,2021.06.30,417500.0,6000.0,415000.0,425000.0,409000.0,955297.0
3,2021.06.29,411500.0,3500.0,409500.0,411500.0,406000.0,572319.0
4,2021.06.28,408000.0,2000.0,406000.0,413000.0,403000.0,623480.0
5,2021.06.25,410000.0,9500.0,420000.0,420000.0,405000.0,1382051.0
6,,,,,,,
7,,,,,,,
8,,,,,,,
9,2021.06.24,419500.0,4000.0,430000.0,436000.0,413000.0,2143286.0


## 3. BeautifulSoup 을 통한 table 태그 찾기


In [12]:
from bs4 import BeautifulSoup as bs

In [15]:
# bs로 한번 감싸주게 되면 text에 있는 테이블 테그만 가져온다.
html = bs(res.text, 'lxml')
html

<html lang="ko">
<head>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<title>네이버 금융</title>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/common.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/layout.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/main.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock2.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/newstock3.css" rel="stylesheet" type="text/css"/>
<link href="https://ssl.pstatic.net/imgstock/static.pc/20210624194556/css/world.css" rel="stylesheet" type="text/css"/>
</head>
<body>
<script language="

In [17]:
# html. 여러 모듈있음

In [21]:
# .select('table') 하게 되면 위에 text에서 table 태그만 찾는다
temp = html.select('table')
temp

[<table cellspacing="0" class="type2">
 <tr>
 <th>날짜</th>
 <th>종가</th>
 <th>전일비</th>
 <th>시가</th>
 <th>고가</th>
 <th>저가</th>
 <th>거래량</th>
 </tr>
 <tr>
 <td colspan="7" height="8"></td>
 </tr>
 <tr onmouseout="mouseOut(this)" onmouseover="mouseOver(this)">
 <td align="center"><span class="tah p10 gray03">2021.07.01</span></td>
 <td class="num"><span class="tah p11">411,000</span></td>
 <td class="num">
 <img alt="하락" height="6" src="https://ssl.pstatic.net/imgstock/images/images4/ico_down.gif" style="margin-right:4px;" width="7"/><span class="tah p11 nv01">
 				6,500
 				</span>
 </td>
 <td class="num"><span class="tah p11">418,000</span></td>
 <td class="num"><span class="tah p11">423,500</span></td>
 <td class="num"><span class="tah p11">410,500</span></td>
 <td class="num"><span class="tah p11">545,746</span></td>
 </tr>
 <tr onmouseout="mouseOut(this)" onmouseover="mouseOver(this)">
 <td align="center"><span class="tah p10 gray03">2021.06.30</span></td>
 <td class="num"><span clas

In [22]:
len(temp)

2

In [23]:
# read_html을 이용하여 url의 page내의 값을 DataFrame으로 받아옵니다.
# cp949는 한글 인코딩을 위해 사용합니다. 기본 인코딩 설정은 utf-8 이며, 
# 네이버의 일별 시세는 cp949 인코딩으로 불러올 수 있습니다.
# 데이터를 로드 했을 때 한글 인코딩이 깨진다면 대부분 cp949 로 불러올 수 있습니다.
# table

# str타입으로 넣어주어야 해석할 수 있음
table = pd.read_html(str(temp))
table

[            날짜        종가      전일비        시가        고가        저가        거래량
 0          NaN       NaN      NaN       NaN       NaN       NaN        NaN
 1   2021.07.01  411000.0   6500.0  418000.0  423500.0  410500.0   545746.0
 2   2021.06.30  417500.0   6000.0  415000.0  425000.0  409000.0   955297.0
 3   2021.06.29  411500.0   3500.0  409500.0  411500.0  406000.0   572319.0
 4   2021.06.28  408000.0   2000.0  406000.0  413000.0  403000.0   623480.0
 5   2021.06.25  410000.0   9500.0  420000.0  420000.0  405000.0  1382051.0
 6          NaN       NaN      NaN       NaN       NaN       NaN        NaN
 7          NaN       NaN      NaN       NaN       NaN       NaN        NaN
 8          NaN       NaN      NaN       NaN       NaN       NaN        NaN
 9   2021.06.24  419500.0   4000.0  430000.0  436000.0  413000.0  2143286.0
 10  2021.06.23  423500.0  32500.0  393000.0  427000.0  392500.0  2721355.0
 11  2021.06.22  391000.0   6000.0  400000.0  400500.0  391000.0   702840.0
 12  2021.06

In [24]:
len(table)

2

In [25]:
# table[0]와 table[1]을 확인하여 보면 table[0]에 필요한 데이터들이 있습니다.
table[0].head(3)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2021.07.01,411000.0,6500.0,418000.0,423500.0,410500.0,545746.0
2,2021.06.30,417500.0,6000.0,415000.0,425000.0,409000.0,955297.0


In [26]:
df_temp = table[0]
df_temp.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
0,,,,,,,
1,2021.07.01,411000.0,6500.0,418000.0,423500.0,410500.0,545746.0
2,2021.06.30,417500.0,6000.0,415000.0,425000.0,409000.0,955297.0
3,2021.06.29,411500.0,3500.0,409500.0,411500.0,406000.0,572319.0
4,2021.06.28,408000.0,2000.0,406000.0,413000.0,403000.0,623480.0


In [27]:
# dropna를 통해 결측치가 들어있는 row를 제거합니다.
df_day = df_temp.dropna()
df_day.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2021.07.01,411000.0,6500.0,418000.0,423500.0,410500.0,545746.0
2,2021.06.30,417500.0,6000.0,415000.0,425000.0,409000.0,955297.0
3,2021.06.29,411500.0,3500.0,409500.0,411500.0,406000.0,572319.0
4,2021.06.28,408000.0,2000.0,406000.0,413000.0,403000.0,623480.0
5,2021.06.25,410000.0,9500.0,420000.0,420000.0,405000.0,1382051.0


## 페이지별 데이터 수집 함수 만들기

In [29]:
# 종목 번호를 이용해 page에 따라 데이터를 읽어오는 함수
# """ 는 이 두개 사이의 행들은 주석 처리되며, 함수의 docstring 으로 사용됩니다.

def get_day_list(item_code, page_no):
    """
    일자별 시세를 페이지별로 수집
    """ 
    url = f'https://finance.naver.com/item/sise_day.nhn?code={item_code}&page={page_no}'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36'}
    response = requests.get(url, headers=headers)
    html = bs(response.text, 'lxml') 
    temp = html.select('table')
    table = pd.read_html(str(temp))
    df_day = table[0].dropna()
    return df_day
    

In [31]:
# 함수가 잘 만들어졌는지 확인하기
page_no=5
item_code= 133690
get_day_list(item_code, page_no)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2021.05.04,69280.0,550.0,69830.0,69830.0,69085.0,77163.0
2,2021.05.03,69830.0,450.0,69420.0,69830.0,69420.0,61512.0
3,2021.04.30,69380.0,260.0,69195.0,69380.0,69020.0,60086.0
4,2021.04.29,69640.0,10.0,69570.0,69720.0,69415.0,64746.0
5,2021.04.28,69720.0,180.0,69785.0,69845.0,69630.0,58954.0
9,2021.04.27,69900.0,355.0,69865.0,70000.0,69765.0,79738.0
10,2021.04.26,69545.0,575.0,69625.0,69725.0,69455.0,61963.0
11,2021.04.23,68970.0,910.0,69130.0,69260.0,68955.0,106331.0
12,2021.04.22,69880.0,825.0,69510.0,69880.0,69510.0,51768.0
13,2021.04.21,69055.0,445.0,69000.0,69055.0,68705.0,82281.0


## 반복문을 통한 전체 일자 데이터 수집하기
* (주의) 기간이 긴 데이터를 수집할때는 서버에 부담을 주지 않기 위해 time.sleep()값을 주세요.

In [32]:
import time
# web page 시작번호
page_no = 1 
start_page = 1
end_page =10
# 데이터를 저장할 빈 변수 선언
item_list = []
for page_no in range(start_page, end_page+1):
    df_temp_day = get_day_list(item_code, page_no)
    item_list.append(df_temp_day)
    time.sleep(0.1)

In [33]:
item_list

[            날짜       종가     전일비       시가       고가       저가       거래량
 1   2021.07.01  73980.0   330.0  73845.0  74095.0  73790.0   61573.0
 2   2021.06.30  73650.0   295.0  73750.0  74050.0  73605.0   99353.0
 3   2021.06.29  73355.0   555.0  73385.0  73495.0  73330.0   65044.0
 4   2021.06.28  72800.0   150.0  72650.0  72815.0  72570.0   52572.0
 5   2021.06.25  72650.0   190.0  72975.0  73010.0  72565.0   96230.0
 9   2021.06.24  72840.0    75.0  72735.0  72975.0  72705.0   91304.0
 10  2021.06.23  72915.0  1110.0  72445.0  72915.0  72445.0   89395.0
 11  2021.06.22  71805.0   250.0  71800.0  71940.0  71730.0   64545.0
 12  2021.06.21  71555.0   460.0  71500.0  71555.0  71245.0   84238.0
 13  2021.06.18  72015.0  1495.0  71010.0  72135.0  71005.0  189338.0,
             날짜       종가    전일비       시가       고가       저가      거래량
 1   2021.06.17  70520.0  155.0  70420.0  70615.0  70195.0  65593.0
 2   2021.06.16  70365.0  450.0  70400.0  70450.0  70345.0  53401.0
 3   2021.06.15  70815.0 

In [34]:
len(item_list)

10

## 수집한 데이터 하나의 데이터프레임으로 합치기

<img src="https://pandas.pydata.org/docs/_images/merging_concat_basic.png">

* [Merge, join, concatenate and compare documentation](https://pandas.pydata.org/docs/user_guide/merging.html#merge-join-concatenate-and-compare)

In [35]:
# DataFrame들이 list의 형태로 저장된 것을 concat을 이용하여 합치면서 하나의 DataFrame으로 만듭니다.
df = pd.concat(item_list)
df

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0
2,2021.06.30,73650.0,295.0,73750.0,74050.0,73605.0,99353.0
3,2021.06.29,73355.0,555.0,73385.0,73495.0,73330.0,65044.0
4,2021.06.28,72800.0,150.0,72650.0,72815.0,72570.0,52572.0
5,2021.06.25,72650.0,190.0,72975.0,73010.0,72565.0,96230.0
...,...,...,...,...,...,...,...
9,2021.02.15,68350.0,145.0,68430.0,68600.0,68325.0,161693.0
10,2021.02.10,68205.0,230.0,68205.0,68435.0,68115.0,105162.0
11,2021.02.09,68435.0,210.0,68560.0,68580.0,68310.0,145023.0
12,2021.02.08,68645.0,60.0,68370.0,68700.0,68300.0,109106.0


<img src="https://pandas.pydata.org/docs/_images/02_io_readwrite.svg">

In [36]:
# head와 tail로 데이터의 일부를 가져와서 봅니다.
df.head()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
1,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0
2,2021.06.30,73650.0,295.0,73750.0,74050.0,73605.0,99353.0
3,2021.06.29,73355.0,555.0,73385.0,73495.0,73330.0,65044.0
4,2021.06.28,72800.0,150.0,72650.0,72815.0,72570.0,52572.0
5,2021.06.25,72650.0,190.0,72975.0,73010.0,72565.0,96230.0


In [37]:
df.tail()

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량
9,2021.02.15,68350.0,145.0,68430.0,68600.0,68325.0,161693.0
10,2021.02.10,68205.0,230.0,68205.0,68435.0,68115.0,105162.0
11,2021.02.09,68435.0,210.0,68560.0,68580.0,68310.0,145023.0
12,2021.02.08,68645.0,60.0,68370.0,68700.0,68300.0,109106.0
13,2021.02.05,68585.0,1515.0,67750.0,68620.0,67640.0,185020.0


## 데이터프레임에 종목코드와 종목명을 추가하기
* 파생변수 만들기

In [38]:
# '종목코드'와 '종목명' column을 추가하면서 각각 item_code와 item_name 값을 입력합니다.
df["종목코드"] = item_code
df["종목명"] = item_name

In [39]:
df.head(3)

Unnamed: 0,날짜,종가,전일비,시가,고가,저가,거래량,종목코드,종목명
1,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0,133690,NAVER
2,2021.06.30,73650.0,295.0,73750.0,74050.0,73605.0,99353.0,133690,NAVER
3,2021.06.29,73355.0,555.0,73385.0,73495.0,73330.0,65044.0,133690,NAVER


## 컬럼 순서 변경하기

In [None]:
# DataFrame에서 column 들의 이름을 순서를 조정하여 column순서를 변경할 수 있습니다.


In [40]:
cols = ['종목코드', '종목명', '날짜', '종가', '전일비', '시가', '고가', '저가', '거래량']
df = df[cols]
df.head(1)

Unnamed: 0,종목코드,종목명,날짜,종가,전일비,시가,고가,저가,거래량
1,133690,NAVER,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0


## 중복데이터 제거하기
* drop_duplicates 를 통해 중복된 데이터가 있다면 제거합니다.

In [41]:
# drop_duplicates : row들 끼리 data를 비교하여 같은 값이 있으면 row중 하나를 삭제
# df.shape를 전/후로 출력하여 삭제된 row가 있는지 확인
print(df.shape)
df = df.drop_duplicates()
print(df.shape)

(100, 9)
(100, 9)


## 기술통계값 구하기

In [42]:
# describe는 기본적으로 수치데이터에 대한 기술통계값을 구하게 됩니다.
df.describe()

Unnamed: 0,종목코드,종가,전일비,시가,고가,저가,거래량
count,100.0,100.0,100.0,100.0,100.0,100.0,100.0
mean,133690.0,68214.15,582.2,68196.1,68429.95,67995.0,92161.1
std,0.0,2314.135314,529.040641,2274.083851,2242.410037,2323.927797,40870.147115
min,133690.0,62845.0,0.0,62940.0,62940.0,62485.0,32629.0
25%,133690.0,66590.0,190.0,66383.75,66780.0,66322.5,65053.0
50%,133690.0,68312.5,442.5,68360.0,68590.0,68160.0,80601.0
75%,133690.0,69541.25,786.25,69525.0,69733.75,69416.25,106744.0
max,133690.0,73980.0,2475.0,73845.0,74095.0,73790.0,250924.0


* 참고 : E notation
[과학적 기수법 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EA%B3%BC%ED%95%99%EC%A0%81_%EA%B8%B0%EC%88%98%EB%B2%95)

과학적 기수법, 과학적 표기법(scientific notation, scientific form, standard index form, standard form)은 너무 크거나 너무 작은 숫자들을 십진법으로 편하게 작성하여 표현하는 방법이다. 과학자, 수학자, 공학자들이 공통적으로 사용하는데, 부분적인 이유는 특정한 산술을 단순화시켜 주기 때문이다. 과학 계산기에서는 "SCI" 디스플레이 모드라는 이름으로 알려져 있다.

In [None]:
# 거래량의 과학적 기수법 읽기


In [43]:
df.head(1)

Unnamed: 0,종목코드,종목명,날짜,종가,전일비,시가,고가,저가,거래량
1,133690,NAVER,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0


## 최근 날짜 구해서 파일명 만들기

In [44]:
# 날짜 column의 첫 row값 확인
# date

# date = df.iloc[0]["날짜"]
# date = date.replace(".", "-")
# date
date = df.iloc[0,2]
print(date)
date = date.replace('.','-')
date

2021.07.01


'2021-07-01'

In [46]:
# 종목명, 종목코드, 날짜를 이름으로 하는 csv 파일명 만들기
# file_name
file_name = f"{item_name}-{item_code}-{date}.csv"
file_name

'NAVER-133690-2021-07-01.csv'

## 파일로 저장하기

In [47]:
# 파일로 저장하기 
# index=False 로 데이터프레임의 기본 index 는 저장하지 않도록 합니다.
df.to_csv(file_name, index=False)

In [48]:
# 제대로 저장되었는지 파일을 읽어서 확인합니다.
pd.read_csv(file_name)

Unnamed: 0,종목코드,종목명,날짜,종가,전일비,시가,고가,저가,거래량
0,133690,NAVER,2021.07.01,73980.0,330.0,73845.0,74095.0,73790.0,61573.0
1,133690,NAVER,2021.06.30,73650.0,295.0,73750.0,74050.0,73605.0,99353.0
2,133690,NAVER,2021.06.29,73355.0,555.0,73385.0,73495.0,73330.0,65044.0
3,133690,NAVER,2021.06.28,72800.0,150.0,72650.0,72815.0,72570.0,52572.0
4,133690,NAVER,2021.06.25,72650.0,190.0,72975.0,73010.0,72565.0,96230.0
...,...,...,...,...,...,...,...,...,...
95,133690,NAVER,2021.02.15,68350.0,145.0,68430.0,68600.0,68325.0,161693.0
96,133690,NAVER,2021.02.10,68205.0,230.0,68205.0,68435.0,68115.0,105162.0
97,133690,NAVER,2021.02.09,68435.0,210.0,68560.0,68580.0,68310.0,145023.0
98,133690,NAVER,2021.02.08,68645.0,60.0,68370.0,68700.0,68300.0,109106.0


## 전체 과정을 하나의 함수로 만들기

In [49]:
def get_df(item_code, item_name):
    """
    일별 시세를 수집하는 함수
    """
    # web page 시작번호
    page_no = 1
    # 데이터를 저장할 빈 변수 선언
    item_list = []

    while True:
        temp = get_day_list(item_code, page_no)
        item_list.append(temp)

        page_no = page_no + 1
        time.sleep(0.1)

        #if temp.shape[0] < 10:
        if page_no > 10:
            break
            
    df = pd.concat(item_list)
    df["종목코드"] = item_code
    df["종목명"] = item_name
    cols = ['종목코드', '종목명', '날짜', '종가', '전일비', '시가', '고가', '저가', '거래량']
    df = df[cols]

    return df

In [50]:
# item_code = "352820"
# item_name = "하이브"

item_code = "326030"
item_name = "SK바이오팜"
get_df(item_code, item_name)

Unnamed: 0,종목코드,종목명,날짜,종가,전일비,시가,고가,저가,거래량
1,326030,SK바이오팜,2021.07.01,128000.0,5000.0,123000.0,128500.0,122000.0,584338.0
2,326030,SK바이오팜,2021.06.30,123000.0,2000.0,125000.0,125500.0,123000.0,231375.0
3,326030,SK바이오팜,2021.06.29,125000.0,2000.0,123500.0,126000.0,123000.0,316209.0
4,326030,SK바이오팜,2021.06.28,123000.0,1000.0,122000.0,124500.0,121000.0,250417.0
5,326030,SK바이오팜,2021.06.25,122000.0,0.0,122500.0,123000.0,121000.0,207002.0
...,...,...,...,...,...,...,...,...,...
9,326030,SK바이오팜,2021.02.15,152000.0,500.0,153000.0,153500.0,151000.0,149945.0
10,326030,SK바이오팜,2021.02.10,152500.0,3000.0,149500.0,153000.0,149000.0,441432.0
11,326030,SK바이오팜,2021.02.09,149500.0,0.0,150000.0,150500.0,148500.0,211201.0
12,326030,SK바이오팜,2021.02.08,149500.0,500.0,149000.0,150000.0,148000.0,171881.0


## 내가 만든 함수의 기능과 소스코드가 궁금하다면?

In [None]:
# 도움말 보기
# get_item_list?


In [None]:
# 소스코드 보기
# get_item_list??
