# Crawling [국내 데이터]
---

### 크롬 개발자 도구를 이용한 Elements 확인
---

1. **웹 페이지 열기**:

   - 분석하고자 하는 웹 페이지 방문.

2. **개발자 도구 열기**:

   - `Ctrl+Shift+I` (Windows/Linux) 또는 `Cmd+Option+I` (Mac).

3. **Elements 탭 사용**:

   - 개발자 도구의 상단의 탭 중 "Elements"를 선택. 여기서 HTML 소스 코드 확인 가능.

4. **요소 검사**:

   - 페이지에서 확인하고 싶은 요소를 찾기 위해 크롬의 "요소 검사" 도구를 사용.
   - 개발자 도구 내에서 마우스 아이콘 클릭, 또는 `Ctrl+Shift+C` (Windows/Linux), `Cmd+Shift+C` (Mac)를 사용하여 "요소 검사" 모드 활성화.
   - 페이지에서 원하는 요소를 클릭하면 Elements 탭에서 해당 HTML 요소가 강조 표시된다.

5. **요소의 상세 정보 확인**:

   - Elements 패널에서 강조 표시된 HTML 코드를 보며, 요소의 클래스, ID, 기타 속성을 확인할 수 있다.
   - 스타일 탭에서는 해당 요소에 적용된 CSS 스타일을 볼 수 있다.

6. **경로 복사**:

   - 요소를 우클릭하고 "Copy" 옵션을 선택하여 "Copy selector", "Copy XPath" 등의 옵션을 사용해 요소의 정확한 경로를 복사할 수 있다. 이는 프로그래밍 언어에서 해당 요소를 정확히 타겟팅할 때 사용.

### 최근 영업일 기준 데이터 받기
---

POST 방식으로 금융 데이터를 제공하는 일부 사이트에서는 쿼리 항목에 특정 날짜를 입력하면(예:20221230) 해당일의 데이터를 다운로드 할 수 있으며, 최근 영업일 날짜를 입력하면 가장 최근의 데이터를 받을 수 있다.

네이버 금융의 [국내증시 → 증시자금동향]에는 이전 2영업일에 해당하는 날짜가 있으며, 자동으로 업데이트된다.
따라서 해당 부분을 크롤링하여 날짜에 해당하는 쿼리 항목에 사용하면 자동으로 업데이트되는 날짜를 얻을 수 있다.

https://finance.naver.com/sise/sise_deposit.nhn

개발자도구 화면을 이용해 해당 데이터가 있는 부분을 확인해보면 `클래스가 subtop_sise_graph2인 div 태그 → 클래스가 subtop_chart_note인 ul 태그 → li 태그 → 클래스가 tah인 span 태그`에 위치해 있다는 걸 알 수 있다. 이를 이용해 해당 데이터를 크롤링한다.

In [1]:
# %pip install requests
# %pip install bs4

import requests as rq
from bs4 import BeautifulSoup

url = 'https://finance.naver.com/sise/sise_deposit.nhn' # 크롤링 대상 페이지 주소
data = rq.get(url) # get(): 해당 페이지의 내용을 받아온다.
data_html = BeautifulSoup(data.content) # BeautifulSoup(): 해당 페이지의 HTML 내용을 BeautifulSoup 객체로 만든다.

# select_one(): 해당 태그의 데이터를 추출하며, .text: 텍스트 데이터만을 추출한다.
parse_day = data_html.select_one('div.subtop_sise_graph2 > ul.subtop_chart_note > li > span.tah').text

print(parse_day)

  |  2024.08.29


In [2]:
import re

# findall(): 정규 표현식을 이용해 숫자에 해당하는 부분만을 추출한다. '[0-9]+' 는 모든 숫자를 의미하는 표현식.
biz_day = re.findall('[0-9]+', parse_day) 

# join() 숫자를 합친다.
biz_day = ''.join(biz_day)


print(biz_day)

# yyyymmdd 형태로 날짜 변환. 해당 데이터를 최근 영업일이 필요한 곳에 사용하면 된다.

20240829


### 한국거래소의 업종분류 현황 및 개별지표 크롤링
---

주식 관련 데이터를 구하기 위해 가장 먼저 해야하는 일은 어떤 종목들이 상장되어 있는가에 대한 정보를 구하는 것.
한국거래소에서 제공하는 업종분류 현황과 개별종목 지표 데이터를 이용하면 해당 정보를 수집할 수 있다.

- KRX 정보데이터시스템 http://data.krx.co.kr/ 에서 [기본통계 → 주식 → 세부안내] 부분
- [12025] 업종분류 현황: http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020506
- [12021] 개별종목: http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020502

해당 데이터들을 크롤링이 아닌 [Excel] 버튼을 클릭해 엑셀 파일로 받을 수도 있지만 비효율적이다. 

#### 업종분류 현황 크롤링

업종분류 현황에 해당하는 페이지에 접속하여 F12를 눌러 개발자도구 화면을 열고 [다운로드] 버튼을 클릭한 후 [CSV]를 누른다.
개발자도구 화면의 [Network] 탭에는 generate.cmd와 download.cmd 두 가지 항목이 생긴다.


거래소에서 엑셀 혹은 CSV 데이터를 받는 과정은 다음과 같다.

1. http://data.krx.co.kr/comm/fileDn/download_excel/download.cmd 에 원하는 항목을 쿼리로 발송하면 해당 쿼리에 해당하는 OTP(generate.cmd)를 받는다.
2. 부여받은 OTP를 http://data.krx.co.kr/ 에 제출하면 이에 해당하는 데이터(download.cmd)를 다운로드한다.

1번 단계. [Headers] 탭의 'General' 항목 중 'Request URL' 부분이 원하는 항목을 제출할 주소다. [Payload] 탭의 Form Data에는 우리가 원하는 항목들이 적혀 있다. 이를 통해 POST 방식으로 데이터를 요청하면 OTP를 받음을 알 수 있다.

2번 단계. 'General' 항목의 'Request URL'은 OTP를 제출할 주소다. 'Form Data'의 OTP는 1번 단계를 통해 부여받은 OTP에 해당한다. 이 역시 POST 방식으로 데이터를 요청하며 이를 통해 CSV 파일을 받아온다.

In [None]:
# Error_01: OTP 불러오기 오류.

# import requests as rq
# from io import BytesIO
# import pandas as pd

# gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
# gen_otp_stk = {
#     'mktId': 'STK',
#     'trdDd': biz_day,
#     'money': '1',
#     'csvxls_isNo': 'false',
#     'name': 'fileDown',
#     'url': 'dbms/MDC/STAT/standard/MDCSTAT03901'
# }
# headers = {'Referer': 'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader'}
# otp_stk = rq.post(gen_otp_url, gen_otp_stk, headers=headers).text

# print(otp_stk)

# 헤더 부분에 리퍼러(Referer)를 추가한다. 
# 리퍼러란 링크를 통해서 각각의 웹사이트로 방문할 때 남는 흔적이다. 
# 거래소 데이터를 다운로드하는 과정을 살펴보면 첫 번째 URL에서 OTP를 부여받고, 이를 다시 두번째 URL에 제출했다. 
# 그런데 이러한 과정의 흔적이 없이 OTP를 바로 두번째 URL에 제출하면 서버는 이를 로봇으로 인식해 데이터를 주지 않는다. 
# 따라서 헤더 부분에 우리가 거쳐온 과정을 흔적으로 남겨야 데이터를 받을 수 있다. 
# 이러한 리퍼러 주소는 개발자도구 화면에서도 확인할 수 있다.

In [13]:
# OTP 불러오기 개선.

# %pip install cloudscraper
import cloudscraper
import pandas as pd

# import requests as rq
# from io import BytesIO

# generate.cmd 요청 주소, 원하는 항목을 제출할 URL을 입력.
gen_otp_url ='http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'

# form data
# 개발자도구 화면에 있는 쿼리 내용들을 딕셔너리 형태로 입력. 
# mktId의 'STK'는 코스피, 'KSQ'는 코스닥.
# trdDd는 영업일, 위에서 구한 최근 영업일 데이터를 입력.
gen_otp_stk = {
    'mktId': 'STK',
    'trdDd': biz_day,
    'money': '1',
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03901'
}

# scraper 객체
scraper = cloudscraper.create_scraper()

# form data와 함께 요청
# post() 함수를 통해 해당 URL에 쿼리를 전송하면 이에 해당하는 데이터를 받는다.
response_stk = scraper.post(gen_otp_url, params=gen_otp_stk)

# response의 text 에 담겨있는 otp 코드 가져오기, 이 중 텍스트에 해당하는 내용만 불러온다
otp_stk = response_stk.text

# 결과 확인
print("result: ", response_stk)
print("otp: ", otp_stk)

result:  <Response [200]>
otp:  NfyJ3o50rOZojVoomSC0XxPiWAFbcZUab9A87mQWfiYRtSksuLS7Bnxpl86F7dAOkunw9BBwugQaSjGAcH15ecJBmkQWX1nHReTpRZfV61AtBgM+EFJCxYg3zco1gIgRZqIo4cIzoURnTI8+MmkJ4m8vFLhSKmM794gFu+ThsO31lY4woqehX8j6OlXFDcfHdV4NbYo4+D2Rwcfj24VnU3Zpq3ik/Dyw3FdyOXhJkBI=


In [None]:
# Error_02 : Error_01의 연장선

# down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
# down_sector_stk = rq.post(down_url, {'code': otp_stk}, headers=headers)
# sector_stk = pd.read_csv(BytesIO(down_sector_stk.content), encoding='EUC-KR')

# sector_stk.head()

In [20]:
# Error_02-2 : 업종명의 "농업, 임업 및 어업" 데이터가 ,로 나눌 시 9개의 칼럼으로 생성.
# 해당 부분 if문으로 처리할 경우, 데이터 프레임 생성 시 문제 발생.

# csv_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
# csv_form_stk = scraper.post(csv_url, params={'code': otp_stk})
# csv_form_stk.encoding = 'EUC-KR'
# csv_form_stk.text
# # print(csv_form_stk.text)

# lst_row = []
# for row in csv_form_stk.text.split('\n'):
#     # print(row)
#     columns = row.split(',')
#     # print(columns)
#     # 마지막 열 제거
#     cleaned_columns = columns[:-1] if len(columns) > 8 else columns
#     cleaned_columns = [col.replace('"', '') for col in cleaned_columns]
#     # print(cleaned_columns)
#     lst_row.append(cleaned_columns)

# # 헤더(첫 번째 행)와 데이터(나머지 행) 분리
# headers = lst_row[0]
# data = lst_row[1:]

# sector_stk = pd.DataFrame(data, columns=headers)
# sector_stk.head()

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액
0,95570,AJ네트웍스,KOSPI,서비스업,4610,-10,-0.22,208615218990
1,6840,AK홀딩스,KOSPI,기타금융,13000,0,0.0,172218293000
2,27410,BGF,KOSPI,기타금융,3500,-5,-0.14,335008768500
3,282330,BGF리테일,KOSPI,유통업,110800,1300,1.19,1915056784800
4,138930,BNK금융지주,KOSPI,기타금융,9930,-60,-0.6,3198338189340


In [14]:
# CSV 라이브러리를 사용함으로써, "text, text" 형태의 정보를 처리할 떄 안에 있는 텍스트의 ,를 인식하지 않도록 처리하여 열이 늘어나는 문제 해결
# 또한, 데이터 입력 시 ""을 제외하고 입력할 수 있도록 하여, 
# 이후에 데이터 클렌징 작업에서 우선주-보통주 구분, SPAC, 리츠 구분 등에서 문제가 발생하지 않도록 하였다.
# * 이전 코드에서 "" 제거 작업 없이 df를 우선 생성 후 처리했을 떄, "를 마지막으로 인식해, 
# 우선주, 보통주 구분 불가 및 리츠 종목 인식 불가 문제 발생.

import csv
import pandas as pd
import io

csv_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
csv_form_stk = scraper.post(csv_url, params={'code': otp_stk})
csv_form_stk.encoding = 'EUC-KR'
csv_form_stk.text
# print(csv_form_stk.text)

# 문자열 데이터를 StringIO 객체로 변환
csv_file = io.StringIO(csv_form_stk.text)
# print(csv_file)

# csv.reader를 사용하여 데이터 읽기
reader = csv.reader(csv_file, delimiter=',')
# print(reader)

# 각 행을 리스트로 변환하고, 큰따옴표 제거
lst_rows = []
for row in reader:
    # 큰따옴표를 제거한 데이터를 리스트에 추가
    cleaned_row = [field.strip('"') for field in row]
    lst_rows.append(cleaned_row)

# 첫 번째 행을 헤더로, 나머지 행을 데이터로 판다스 DataFrame 생성
sector_stk = pd.DataFrame(lst_rows[1:], columns=lst_rows[0])

# sector_stk['업종명'].unique()
sector_stk

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액
0,095570,AJ네트웍스,KOSPI,서비스업,4615,-20,-0.43,208841482785
1,006840,AK홀딩스,KOSPI,기타금융,13690,30,0.22,181359110090
2,027410,BGF,KOSPI,기타금융,3525,20,0.57,337401688275
3,282330,BGF리테일,KOSPI,유통업,113600,900,0.80,1963451721600
4,138930,BNK금융지주,KOSPI,기타금융,10290,80,0.78,3314290027020
...,...,...,...,...,...,...,...,...
953,079980,휴비스,KOSPI,화학,3185,40,1.27,109882500000
954,005010,휴스틸,KOSPI,철강금속,4410,280,6.78,247789410750
955,000540,흥국화재,KOSPI,보험,3975,10,0.25,255364513875
956,000545,흥국화재우,KOSPI,보험,5950,40,0.68,4569600000


In [15]:
# 코스피와 같은 방법으로, 코스닥 데이터 프레임 생성

gen_otp_ksq = {
    'mktId': 'KSQ',  # 코스닥 입력
    'trdDd': biz_day,
    'money': '1',
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03901'
}

# scraper 객체
scraper = cloudscraper.create_scraper()

# form data와 함께 요청
# post() 함수를 통해 해당 URL에 쿼리를 전송하면 이에 해당하는 데이터를 받는다.
response_ksq = scraper.post(gen_otp_url, params=gen_otp_ksq)

# response의 text 에 담겨있는 otp 코드 가져오기, 이 중 텍스트에 해당하는 내용만 불러온다
otp_ksq = response_ksq.text

# 결과 확인
print("result: ", response_ksq)
print("otp: ", otp_ksq)


csv_form_ksq = scraper.post(csv_url, params={'code': otp_ksq})
csv_form_ksq.encoding = 'EUC-KR'
csv_form_ksq.text
# print(csv_form_ksq.text)

# 문자열 데이터를 StringIO 객체로 변환
csv_file = io.StringIO(csv_form_ksq.text)
# print(csv_file)

# csv.reader를 사용하여 데이터 읽기
reader = csv.reader(csv_file, delimiter=',')
# print(reader)

# 각 행을 리스트로 변환하고, 큰따옴표 제거
lst_rows = []
for row in reader:
    # 큰따옴표를 제거한 데이터를 리스트에 추가
    cleaned_row = [field.strip('"') for field in row]
    lst_rows.append(cleaned_row)

# 첫 번째 행을 헤더로, 나머지 행을 데이터로 판다스 DataFrame 생성
sector_ksq = pd.DataFrame(lst_rows[1:], columns=lst_rows[0])

# sector_stk['업종명'].unique()
sector_ksq

result:  <Response [200]>
otp:  NfyJ3o50rOZojVoomSC0X/zppRT7X1UL1C+dGN8JCJQRtSksuLS7Bnxpl86F7dAOkunw9BBwugQaSjGAcH15ecJBmkQWX1nHReTpRZfV61D+lNE/mS3HSeH9JSPc/lHYZqIo4cIzoURnTI8+MmkJ4m8vFLhSKmM794gFu+ThsO31lY4woqehX8j6OlXFDcfHdV4NbYo4+D2Rwcfj24VnU3Zpq3ik/Dyw3FdyOXhJkBI=


Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액
0,060310,3S,KOSDAQ,의료·정밀기기,2090,-10,-0.48,106766901780
1,054620,APS,KOSDAQ,금융,6110,-30,-0.49,121553690310
2,265520,AP시스템,KOSDAQ,기계·장비,18920,0,0.00,289124485320
3,211270,AP위성,KOSDAQ,운송장비·부품,11650,50,0.43,175708841600
4,109960,AP헬스케어,KOSDAQ,유통,708,10,1.43,80820443652
...,...,...,...,...,...,...,...,...
1747,024060,흥구석유,KOSDAQ,유통,16210,110,0.68,243150000000
1748,010240,흥국,KOSDAQ,기계·장비,4995,-35,-0.70,61551866520
1749,189980,흥국에프엔비,KOSDAQ,음식료·담배,1890,8,0.43,75860493030
1750,037440,희림,KOSDAQ,기타서비스,5510,-20,-0.36,76712837250


In [61]:
# Marge stk & ksq df

# concat() 함수를 통해 두 데이터를 합치고, reset_index() 메서드를 통해 인덱스를 리셋, 또한 drop=True를 통해 인덱스로 셋팅한 열을 삭제.
krx_sector = pd.concat([sector_stk, sector_ksq]).reset_index(drop=True)

# 종목명에 공백에 있는 경우가 있으므로 strip() 메서드를 이용해 이를 제거.
krx_sector['종목명'] = krx_sector['종목명'].str.strip()

# 데이터의 기준일에 해당하는 [기준일] 열을 추가.
krx_sector['기준일'] = biz_day

krx_sector

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액,기준일
0,095570,AJ네트웍스,KOSPI,서비스업,4615,-20,-0.43,208841482785,20240827
1,006840,AK홀딩스,KOSPI,기타금융,13690,30,0.22,181359110090,20240827
2,027410,BGF,KOSPI,기타금융,3525,20,0.57,337401688275,20240827
3,282330,BGF리테일,KOSPI,유통업,113600,900,0.80,1963451721600,20240827
4,138930,BNK금융지주,KOSPI,기타금융,10290,80,0.78,3314290027020,20240827
...,...,...,...,...,...,...,...,...,...
2705,024060,흥구석유,KOSDAQ,유통,16210,110,0.68,243150000000,20240827
2706,010240,흥국,KOSDAQ,기계·장비,4995,-35,-0.70,61551866520,20240827
2707,189980,흥국에프엔비,KOSDAQ,음식료·담배,1890,8,0.43,75860493030,20240827
2708,037440,희림,KOSDAQ,기타서비스,5510,-20,-0.36,76712837250,20240827


In [62]:
krx_sector.sort_values(by='종목코드')

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액,기준일
348,000020,동화약품,KOSPI,의약품,8070,-60,-0.74,225406962900,20240827
90,000040,KR모터스,KOSPI,운수장비,612,7,1.16,36801315216,20240827
195,000050,경방,KOSPI,유통업,6230,30,0.48,170797132100,20240827
466,000070,삼양홀딩스,KOSPI,기타금융,74000,700,0.95,633756054000,20240827
467,000075,삼양홀딩스우,KOSPI,기타금융,55000,500,0.92,16723190000,20240827
...,...,...,...,...,...,...,...,...,...
1010,950170,JTC,KOSDAQ,유통,4785,-40,-0.83,247606275180,20240827
1094,950190,고스트스튜디오,KOSDAQ,출판·매체복제,10660,140,1.33,144761648720,20240827
1614,950200,소마젠,KOSDAQ,기타서비스,4805,-195,-3.90,92429234665,20240827
804,950210,프레스티지바이오파마,KOSPI,서비스업,14500,90,0.62,871394247500,20240827


#### 개별종목 지표 크롤링
---

개별종목 데이터를 크롤링하는 방법은 이전과 유사하며, 요청하는 쿼리 값에만 차이가 있다.

개발자도구 화면을 열고 [CSV] 버튼을 클릭해 어떠한 쿼리를 요청하는지 확인.

OTP를 생성하는 부분인 [generate.cmd]를 확인해보면 [Payload] 탭의 'tboxisuCd_finder_stkisu0_6', 'isu_Cd', 'isu_Cd2' 등의 항목은 조회 구분의 개별추이 탭에 해당하는 부분이므로 우리가 원하는 전체 데이터를 받을 때는 필요하지 않은 요청값다. 이를 제외한 요청값을 산업별 현황 예제에 적용하면 다운로드할 수 있다.

In [None]:
# 개별종목 지표 크롤링 기존 Code

# import requests as rq
# from io import BytesIO
# import pandas as pd

# gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
# gen_otp_data = {
#     'searchType': '1',
#     'mktId': 'ALL',
#     'trdDd': biz_day,
#     'csvxls_isNo': 'false',
#     'name': 'fileDown',
#     'url': 'dbms/MDC/STAT/standard/MDCSTAT03501'
# }
# headers = {'Referer': 'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader'}
# otp = rq.post(gen_otp_url, gen_otp_data, headers=headers).text

# down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
# krx_ind = rq.post(down_url, {'code': otp}, headers=headers)

# krx_ind = pd.read_csv(BytesIO(krx_ind.content), encoding='EUC-KR')
# krx_ind['종목명'] = krx_ind['종목명'].str.strip()
# krx_ind['기준일'] = biz_day

# krx_ind.head()

In [46]:
# 위 코드 개선

import cloudscraper
import pandas as pd
import csv
import pandas as pd
import io

gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
gen_otp_data = {
    'searchType': '1',
    'mktId': 'ALL',
    'trdDd': biz_day,
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03501'
}

scraper = cloudscraper.create_scraper()

response_data = scraper.post(gen_otp_url, params=gen_otp_data)
otp = response_data.text

# print("result: ", response_data)
# print("otp: ", otp)

csv_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
csv_form_kdx = scraper.post(csv_url, params={'code': otp})
csv_form_kdx.encoding = 'EUC-KR'
csv_form_kdx.text
# print(csv_form_kdx.text)

csv_file = io.StringIO(csv_form_kdx.text)
# print(csv_file)

reader = csv.reader(csv_file, delimiter=',')
# print(reader)

lst_rows = []
for row in reader:
    # 큰따옴표를 제거한 데이터를 리스트에 추가
    cleaned_row = [field.strip('"') for field in row]
    lst_rows.append(cleaned_row)

# 첫 번째 행을 헤더로, 나머지 행을 데이터로 판다스 DataFrame 생성
krx_ind = pd.DataFrame(lst_rows[1:], columns=lst_rows[0])
# krx_ind

krx_ind['종목명'] = krx_ind['종목명'].str.strip()
krx_ind['기준일'] = biz_day
krx_ind

Unnamed: 0,종목코드,종목명,종가,대비,등락률,EPS,PER,선행 EPS,선행 PER,BPS,PBR,주당배당금,배당수익률,기준일
0,060310,3S,2090,-10,-0.48,30,69.67,,,947,2.21,0,0.00,20240827
1,095570,AJ네트웍스,4615,-20,-0.43,367,12.57,875,5.27,9326,0.49,270,5.85,20240827
2,006840,AK홀딩스,13690,30,0.22,2635,5.20,,,44339,0.31,200,1.46,20240827
3,054620,APS,6110,-30,-0.49,667,9.16,,,11683,0.52,0,0.00,20240827
4,265520,AP시스템,18920,0,0.00,3997,4.73,4788,3.95,21396,0.88,270,1.43,20240827
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2655,000540,흥국화재,3975,10,0.25,4664,0.85,,,20881,0.19,0,0.00,20240827
2656,000545,흥국화재우,5950,40,0.68,,,,,,,0,0.00,20240827
2657,003280,흥아해운,2200,-30,-1.35,142,15.49,,,690,3.19,0,0.00,20240827
2658,037440,희림,5510,-20,-0.36,489,11.27,1269,4.34,5583,0.99,150,2.72,20240827


In [65]:
krx_ind.sort_values(by='종목코드')

Unnamed: 0,종목코드,종목명,종가,대비,등락률,EPS,PER,선행 EPS,선행 PER,BPS,PBR,주당배당금,배당수익률,기준일
658,000020,동화약품,8070,-60,-0.74,991,8.14,,,13413,0.60,180,2.23,20240827
159,000040,KR모터스,612,7,1.16,,,,,618,0.99,0,0.00,20240827
319,000050,경방,6230,30,0.48,,,,,29623,0.21,125,2.01,20240827
1012,000070,삼양홀딩스,74000,700,0.95,22269,3.32,,,257475,0.29,3500,4.73,20240827
1013,000075,삼양홀딩스우,55000,500,0.92,,,,,,,3550,6.45,20240827
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
531,478780,대신밸런스제18호스팩,2030,-5,-0.25,,,,,,,0,0.00,20240827
2452,479880,한국제15호스팩,2030,-25,-1.22,,,,,,,0,0.00,20240827
1536,481890,엔에이치스팩31호,2020,-5,-0.25,,,,,,,0,0.00,20240827
349,482520,교보16호스팩,2050,-5,-0.24,,,,,,,0,0.00,20240827


#### Data Cleaning

In [50]:
# 공통으로 존재하지 않는 종목 (한 쪽에만 있는 종목 확인)

# 두 데이터의 종목명 열을 set 형태로 변경한 후,
# symmetric_difference() 메서드를 통해 하나의 데이터에만 있는 종목 확인.
# 해당 종목들은 선박펀드, 광물펀드, 해외종목 등 일반적이지 않은 종목.
diff = list(set(krx_sector['종목명']).symmetric_difference(set(krx_ind['종목명'])))
print(diff)

['미래에셋맵스리츠', '한화리츠', '고스트스튜디오', 'SBI핀테크솔루션즈', '코람코더원리츠', '제이알글로벌리츠', '디앤디플랫폼리츠', '스타에스엠리츠', '로스웰', '신한알파리츠', '이지스레지던스리츠', '헝셩그룹', '골든센츄리', '윙입푸드', 'GRT', 'KB스타리츠', '글로벌에스엠', 'ESR켄달스퀘어리츠', '이리츠코크렙', '삼성FN리츠', 'NH올원리츠', '크리스탈신소재', '맥쿼리인프라', '맵스리얼티1', '애머릿지', '네오이뮨텍', '컬러레이', '오가닉티코스메틱', '롯데리츠', 'SK리츠', '이스트아시아홀딩스', '씨엑스아이', '소마젠', '한국패러랠', '프레스티지바이오파마', '엑세스바이오', '코람코라이프인프라리츠', '코오롱티슈진', '신한글로벌액티브리츠', '엘브이엠씨홀딩스', '케이탑리츠', '미래에셋글로벌리츠', '마스턴프리미어리츠', '이지스밸류리츠', '에이리츠', '잉글우드랩', '한국ANKOR유전', 'NH프라임리츠', 'JTC', '신한서부티엔디리츠']


In [66]:
kor_ticker = pd.merge(krx_sector,
                      krx_ind,
                      on=krx_sector.columns.intersection(
                          krx_ind.columns).tolist(),
                      how='outer')

kor_ticker

# merge() : on 조건을 기준으로 두 데이터를 하나로 합친다.
# intersection() : 공통으로 존재하는 [종목코드, 종목명, 종가, 대비, 등락률] 열을 기준으로 입력. 
# 방법(how)에는 outer를 입력.

# 마지막으로 일반적인 종목과 스팩(SPAC), 우선주, 리츠, 기타 주식을 구분해주도록 한다.
# * 스팩(SPAC) : Special Purpose Acquisition Company의 약자로 기업인수를 목적으로 하는 페이퍼컴퍼니를 의미.
# 대부분 증권사 주관으로 설립되며, 스팩이 먼저 투자자들의 자금을 모아 주식 시장에 상장이 되고 나면,
# 그 이후에 괜찮은 비상장기업을 찾아 합병하는 방식으로 최종 기업 인수가 이루어진다.

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액,기준일,EPS,PER,선행 EPS,선행 PER,BPS,PBR,주당배당금,배당수익률
0,000020,동화약품,KOSPI,의약품,8070,-60,-0.74,225406962900,20240827,991,8.14,,,13413,0.60,180,2.23
1,000040,KR모터스,KOSPI,운수장비,612,7,1.16,36801315216,20240827,,,,,618,0.99,0,0.00
2,000050,경방,KOSPI,유통업,6230,30,0.48,170797132100,20240827,,,,,29623,0.21,125,2.01
3,000070,삼양홀딩스,KOSPI,기타금융,74000,700,0.95,633756054000,20240827,22269,3.32,,,257475,0.29,3500,4.73
4,000075,삼양홀딩스우,KOSPI,기타금융,55000,500,0.92,16723190000,20240827,,,,,,,3550,6.45
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2705,950170,JTC,KOSDAQ,유통,4785,-40,-0.83,247606275180,20240827,,,,,,,,
2706,950190,고스트스튜디오,KOSDAQ,출판·매체복제,10660,140,1.33,144761648720,20240827,,,,,,,,
2707,950200,소마젠,KOSDAQ,기타서비스,4805,-195,-3.90,92429234665,20240827,,,,,,,,
2708,950210,프레스티지바이오파마,KOSPI,서비스업,14500,90,0.62,871394247500,20240827,,,,,,,,


1. 스팩 종목은 종목명에 '스팩' 혹은 '제n호' 라는 단어가 들어간다.  
따라서 contains() 메서드를 통해 종목명에 '스팩'이 들어가거나 정규 표현식을 이용해 '제n호'라는 문자가 들어간 종목명을 찾는다.
2. 국내 종목 중 종목코드 끝이 0이 아닌 종목은 우선주에 해당한다.
3. 리츠 종목은 종목명이 '리츠'로 끝난다. 따라서 endswith() 메서드를 통해 이러한 종목을 찾는다.  
(메리츠화재 등의 종목도 중간에 리츠라는 단어가 들어가므로 contains() 함수를 이용하면 안된다.)

In [68]:
print(kor_ticker[kor_ticker['종목명'].str.contains('스팩|제[0-9]+호')]['종목명'].values)

['하나금융21호스팩' '미래에셋비전스팩1호' '키움제6호스팩' '상상인제3호스팩' '하나금융22호스팩' '신한제10호스팩'
 '교보12호스팩' '엔에이치스팩23호' '케이비제21호스팩' '삼성스팩6호' '신영스팩8호' '하나금융24호스팩'
 '한화플러스제3호스팩' '유안타제9호스팩' '키움제7호스팩' '유안타제10호스팩' '하나금융25호스팩' '에스케이증권제8호스팩'
 '한국제11호스팩' '엔에이치스팩24호' '대신밸런스제13호스팩' '엔에이치스팩25호' '삼성스팩7호' '엔에이치스팩26호'
 'IBKS제20호스팩' '교보13호스팩' '엔에이치스팩27호' '유진스팩9호' '대신밸런스제14호스팩' 'IBKS제21호스팩'
 '미래에셋드림스팩1호' '유안타제11호스팩' '비엔케이제1호스팩' '신영스팩9호' '유안타제12호스팩' '미래에셋비전스팩2호'
 '하나26호스팩' '키움제8호스팩' '하나27호스팩' '삼성스팩8호' 'IBKS제22호스팩' '미래에셋비전스팩3호'
 '유안타제13호스팩' '하이제8호스팩' '유안타제14호스팩' '엔에이치스팩29호' '상상인제4호스팩' '신한제11호스팩'
 '하나29호스팩' '하나28호스팩' 'KB제25호스팩' '한화플러스제4호스팩' '에스케이증권제9호스팩' 'DB금융스팩11호'
 '교보14호스팩' '대신밸런스제15호스팩' '대신밸런스제16호스팩' '에스케이증권제10호스팩' 'KB제26호스팩'
 '한국제12호스팩' '에이치엠씨제6호스팩' '한국제13호스팩' 'KB제27호스팩' '교보15호스팩' '엔에이치스팩30호'
 'IBKS제23호스팩' '삼성스팩9호' '유진스팩10호' 'IBKS제24호스팩' '하나30호스팩' '하나31호스팩'
 '대신밸런스제17호스팩' '신영스팩10호' '에스케이증권제11호스팩' '에스케이증권제12호스팩' '유안타제15호스팩'
 '비엔케이제2호스팩' '에스케이증권제13호스팩' '유안타제16호스팩' '신한제12호스팩' '신한제13호스팩' '하나32호스팩'
 '하나33호스팩' 'KB제28호스팩' '에이치엠씨제7호스

In [22]:
print(kor_ticker[kor_ticker['종목코드'].str[-1:] != '0']['종목명'].values)

['삼양홀딩스우' '하이트진로2우B' '유한양행우' '하이트진로홀딩스우' '두산우' '두산2우B' 'DL우' '유유제약1우'
 '유유제약2우B' '노루홀딩스우' '흥국화재우' '현대건설우' '삼성화재우' '한화우' '한화3우B' 'CJ우' 'CJ4우(전환)'
 'JW중외제약우' 'JW중외제약2우B' '부국증권우' 'BYC우' 'SK증권우' '동양우' '동양2우B' '대상우' '한양증권우'
 '대한제당우' '코오롱우' '넥센타이어1우B' '진흥기업우B' '진흥기업2우B' '아모레G우' '아모레G3우(전환)' '금호건설우'
 '코오롱글로벌우' '유화증권우' '유안타증권우' '대한항공우' '한화투자증권우' '대신증권우' '대신증권2우B' 'LG우'
 '남양유업우' '태양금속우' 'NPC우' '세방우' '서울식품우' '깨끗한나라우' '덕성우' '성신양회우' '롯데지주우'
 '녹십자홀딩스2우' '롯데칠성우' '현대차우' '현대차2우B' '현대차3우B' '넥센우' '크라운해태홀딩스우' '삼성전자우'
 'NH투자증권우' '동부건설우' 'SK디스커버리우' '대원전선우' '삼성SDI우' '미래에셋증권우' '미래에셋증권2우B'
 '일양약품우' '코리아써우' '코리아써키트2우B' '대덕1우' '남선알미우' '호텔신라우' '삼성전기우' '태영건설우'
 '한화솔루션우' 'S-Oil우' 'CJ씨푸드1우' '금호석유우' '계양전기우' '금강공업우' '동원시스템즈우' '성문전자우'
 '신풍제약우' '대교우B' '대호특수강우' '삼성물산우B' '소프트센우' 'SK우' '해성산업1우' 'LG생활건강우' 'LG화학우'
 'LG전자우' '한국금융지주우' 'GS우' '대상홀딩스우' '노루페인트우' '아모레퍼시픽우' 'SK이노베이션우' 'CJ제일제당 우'
 'LX하우시스우' '코오롱인더우' '삼양사우' '한진칼우' '크라운제과우' 'SK케미칼우' '두산퓨얼셀1우' '두산퓨얼셀2우B'
 '솔루스첨단소재1우' '솔루스첨단소재2우B' '대덕전자1우' '티와이홀딩스우' 'DL이앤씨우' 'DL이앤씨2우(전환

In [23]:
print(kor_ticker[kor_ticker['종목명'].str.endswith('리츠')]['종목명'].values)

['에이리츠' '케이탑리츠' '스타에스엠리츠' '신한알파리츠' '롯데리츠' '이지스밸류리츠' 'NH프라임리츠' '제이알글로벌리츠'
 '이지스레지던스리츠' '코람코라이프인프라리츠' '미래에셋맵스리츠' '마스턴프리미어리츠' 'ESR켄달스퀘어리츠' '디앤디플랫폼리츠'
 'SK리츠' '미래에셋글로벌리츠' 'NH올원리츠' '신한서부티엔디리츠' '코람코더원리츠' 'KB스타리츠' '삼성FN리츠'
 '한화리츠' '신한글로벌액티브리츠']


In [70]:
kor_ticker.columns
kor_ticker.columns.str.replace(' ', '')

Index(['종목코드', '종목명', '시장구분', '종가', '시가총액', '기준일', 'EPS', '선행EPS', 'BPS',
       '주당배당금', '종목구분'],
      dtype='object')

In [87]:
import numpy as np

# where() 함수를 활용해 각 조건에 맞는 종목구분을 입력한다. 
# 종목명에 '스팩' 혹은 '제n호'가 포함된 종목은 스팩으로, 
# 종목코드 끝이 0이 아닌 종목은 '우선주'로, 
# 종목명이 '리츠'로 끝나는 종목은 '리츠'로, 
# 선박펀드, 광물펀드, 해외종목 등은 '기타'로, 
# 나머지 종목들은 '보통주'로 구분한다.
kor_ticker['종목구분'] = np.where(kor_ticker['종목명'].str.contains('스팩|제[0-9]+호'), '스팩',
                              np.where(kor_ticker['종목코드'].str[-1:] != '0', '우선주',
                                       np.where(kor_ticker['종목명'].str.endswith('리츠'), '리츠',
                                                np.where(kor_ticker['종목명'].isin(diff),  '기타',
                                                '보통주'))))
# reset_index() 메서드를 통해 인덱스를 초기화.
kor_ticker = kor_ticker.reset_index(drop=True)
# replace() 메서드를 통해 열 이름의 공백을 삭제.
kor_ticker.columns = kor_ticker.columns.str.replace(' ', '')
# 필요한 열만 선택.
kor_ticker = kor_ticker[['종목코드', '종목명', '시장구분', '종가',
                         '시가총액', '기준일', 'EPS', '선행EPS', 'BPS', '주당배당금', '종목구분']]
# SQL에는 NaN이 입력되지 않으므로, None으로 변경.
kor_ticker = kor_ticker.replace({np.NaN: None})
kor_ticker = kor_ticker.replace("", None)
# 기준일을 to_datetime() 메서드를 이용해 yyyymmdd에서 yyyy-mm-dd 형태로 변경.
kor_ticker['기준일'] = pd.to_datetime(kor_ticker['기준일'])

kor_ticker

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분
0,000020,동화약품,KOSPI,8070,225406962900,2024-08-27,991,,13413,180,보통주
1,000040,KR모터스,KOSPI,612,36801315216,2024-08-27,,,618,0,보통주
2,000050,경방,KOSPI,6230,170797132100,2024-08-27,,,29623,125,보통주
3,000070,삼양홀딩스,KOSPI,74000,633756054000,2024-08-27,22269,,257475,3500,보통주
4,000075,삼양홀딩스우,KOSPI,55000,16723190000,2024-08-27,,,,3550,우선주
...,...,...,...,...,...,...,...,...,...,...,...
2705,950170,JTC,KOSDAQ,4785,247606275180,2024-08-27,,,,,기타
2706,950190,고스트스튜디오,KOSDAQ,10660,144761648720,2024-08-27,,,,,기타
2707,950200,소마젠,KOSDAQ,4805,92429234665,2024-08-27,,,,,기타
2708,950210,프레스티지바이오파마,KOSPI,14500,871394247500,2024-08-27,,,,,기타


In [None]:
# MySQL에서 아래의 쿼리를 입력해 데이터베이스(stock_db)를 만든 후, 국내 티커정보가 들어갈 테이블(kor_ticker)을 생성.

'''Do in MySQL Server

CREATE DATABASE stock_db;

USE stock_db;

CREATE TABLE kor_ticker
(
    종목코드 VARCHAR(6) NOT NULL,
    종목명 VARCHAR(20),
    시장구분 VARCHAR(6),
    종가 FLOAT,
    시가총액 FLOAT,
    기준일 DATA,
    EPS FLOAT,
    선행EPS FLOAT,
    BPS FLOAT,
    주당배당금 FLOAT,
    종목구분 VARCHAR(5),
    PRIMARY KEY(종목코드, 기준일)
);

'''

In [88]:
# kor_ticker 테이블에 upsert 형태로 저장.
# * 위의 업종과 개별의 df를 합치는 과정에서 NaN과 공백이 혼재하는 상황이 발생하여쿼리로 해별해 보려 하였으나, 
# df 가공 단계에서 빈칸을 None 처리하는 것이 더 직관적이라 판단하여, df marge 단계에서 전처시 수행.

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()
query = f"""
    INSERT INTO kor_ticker (종목코드, 종목명, 시장구분, 종가, 시가총액, 기준일, EPS, 선행EPS, BPS, 주당배당금, 종목구분)
    VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s) AS NEW
    ON DUPLICATE KEY UPDATE
    종목명 = NEW.종목명,
    시장구분 = NEW.시장구분,
    종가 = NEW.종가,
    시가총액 = NEW.시가총액,
    EPS = NEW.EPS,
    선행EPS = NEW.선행EPS,
    BPS = NEW.BPS,
    주당배당금 = NEW.주당배당금,
    종목구분 = NEW.종목구분;
"""

args = kor_ticker.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

### WICS 기준 섹터정보 크롤링
---

일반적으로 주식의 섹터를 나누는 기준은 MSCI와 S&P가 개발한 GICS를 가장 많이 사용한다. 국내 종목의 GICS 기준 정보 역시 한국거래소에서 제공하고 있으나, 독점적 지적재산으로 명시했기에 사용하는데 무리가 있다.  

지수제공업체인 FnGuide Index에서 GICS와 비슷한 WICS 산업분류를 발표하고 있다.  
따라서, [WICS](http://www.wiseindex.com/Index)를 크롤링하여 필요한 정보를 수집.

웹페이지에 접속해 왼쪽에서 [WISE SECTOR INDEX → WICS → 에너지], 해당 페이지 [Components] 탭에서 섹터의 구성종목 확인 가능.

일자를 선택하면 개발자도구 화면 [Network] 탭의  'GetIndexComponets' 항목에 데이터 전송 과정이 나타난다.  
Request URL은 데이터를 가져오는 주소이며, 이를 분석하면 다음과 같다.

- http://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt=20210210&sec_cd=G10

1. http://www.wiseindex.com/Index/GetIndexComponets: 데이터를 요청하는 url이다.
2. ceil_yn = 0: 실링 여부를 나타내며, 0은 비실링을 의미한다.
3. dt=20220419: 조회일자를 나타낸다.
4. sec_cd=G10: 섹터 코드를 나타낸다.

Request URL에 해당하는 페이지를 열어보면 JSON 형식으로 되어있다. 

In [4]:
import json
import requests as rq
import pandas as pd

url = f'''http://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd=G10'''
data = rq.get(url).json()

type(data)
print(data.keys()) # Python에서 JSON 데이터는 딕셔너리 형태로 제공.

# 'info', 'list', 'sector', 'size' 중 list에는 해당 섹터의 구성종목 정보가, sector에는 각종 섹터의 코드 정보가 포함.

dict_keys(['info', 'list', 'sector', 'size'])


In [5]:
data['list'][0]

{'IDX_CD': 'G10',
 'IDX_NM_KOR': 'WICS 에너지',
 'ALL_MKT_VAL': 21190710,
 'CMP_CD': '096770',
 'CMP_KOR': 'SK이노베이션',
 'MKT_VAL': 5784727,
 'WGT': 27.3,
 'S_WGT': 27.3,
 'CAL_WGT': 1.0,
 'SEC_CD': 'G10',
 'SEC_NM_KOR': '에너지',
 'SEQ': 1,
 'TOP60': 4,
 'APT_SHR_CNT': 53611930}

In [6]:
data['sector']

[{'SEC_CD': 'G25', 'SEC_NM_KOR': '경기관련소비재', 'SEC_RATE': 9.93, 'IDX_RATE': 0},
 {'SEC_CD': 'G35', 'SEC_NM_KOR': '건강관리', 'SEC_RATE': 11.04, 'IDX_RATE': 0},
 {'SEC_CD': 'G50', 'SEC_NM_KOR': '커뮤니케이션서비스', 'SEC_RATE': 5.57, 'IDX_RATE': 0},
 {'SEC_CD': 'G40', 'SEC_NM_KOR': '금융', 'SEC_RATE': 9.96, 'IDX_RATE': 0},
 {'SEC_CD': 'G10', 'SEC_NM_KOR': '에너지', 'SEC_RATE': 1.61, 'IDX_RATE': 100.0},
 {'SEC_CD': 'G20', 'SEC_NM_KOR': '산업재', 'SEC_RATE': 13.84, 'IDX_RATE': 0},
 {'SEC_CD': 'G55', 'SEC_NM_KOR': '유틸리티', 'SEC_RATE': 1.15, 'IDX_RATE': 0},
 {'SEC_CD': 'G30', 'SEC_NM_KOR': '필수소비재', 'SEC_RATE': 2.14, 'IDX_RATE': 0},
 {'SEC_CD': 'G15', 'SEC_NM_KOR': '소재', 'SEC_RATE': 6.81, 'IDX_RATE': 0},
 {'SEC_CD': 'G45', 'SEC_NM_KOR': 'IT', 'SEC_RATE': 37.96, 'IDX_RATE': 0}]

In [7]:
# list 부분의 데이터를 데이터프레임 형태로 변경
data_pd = pd.json_normalize(data['list']) # json_normalize() : JSON 형태의 데이터를 데이터프레임 형태로 변경.

data_pd.head()

Unnamed: 0,IDX_CD,IDX_NM_KOR,ALL_MKT_VAL,CMP_CD,CMP_KOR,MKT_VAL,WGT,S_WGT,CAL_WGT,SEC_CD,SEC_NM_KOR,SEQ,TOP60,APT_SHR_CNT
0,G10,WICS 에너지,21190710,96770,SK이노베이션,5784727,27.3,27.3,1.0,G10,에너지,1,4,53611930
1,G10,WICS 에너지,21190710,267250,HD현대,3578703,16.89,44.19,1.0,G10,에너지,2,4,44236128
2,G10,WICS 에너지,21190710,9830,한화솔루션,2777697,13.11,57.29,1.0,G10,에너지,3,4,108292298
3,G10,WICS 에너지,21190710,10950,S-Oil,2599312,12.27,69.56,1.0,G10,에너지,4,4,41655633
4,G10,WICS 에너지,21190710,78930,GS,2272664,10.72,80.29,1.0,G10,에너지,5,4,49245150


In [8]:
# 위 과정 후, for문을 이용하여 URL의 sec_cd=에 해당하는 부분만 변경하면 모든 섹터의 구성종목을 얻을 수 있다.

import time
import json
import requests as rq
import pandas as pd
from tqdm import tqdm

# 섹터 코드
sector_code = [
    'G25', 'G35', 'G50', 'G40', 'G10', 'G20', 'G55', 'G30', 'G15', 'G45'
] 

data_sector = [] # 섹터 정보가 들어갈 리스트

for i in tqdm(sector_code):
    # 모든 섹터의 구성종목을 다운 받기 위한 URL
    url = f'''http://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd={i}'''
    data = rq.get(url).json()
    data_pd = pd.json_normalize(data['list'])

    data_sector.append(data_pd)

    time.sleep(2)

kor_sector = pd.concat(data_sector, axis = 0) # concat() : 리스트 내의 데이터프레임 결합.
kor_sector = kor_sector[['IDX_CD', 'CMP_CD', 'CMP_KOR', 'SEC_NM_KOR']] # 필요한 열(섹터 코드, 티커, 종목명, 섹터명)만 선택.
# 데이터의 기준일에 해당하는 [기준일] 열을 추가한 후 datetime 형태로 변경.
kor_sector['기준일'] = biz_day
kor_sector['기준일'] = pd.to_datetime(kor_sector['기준일']) 

100%|██████████| 10/10 [00:22<00:00,  2.28s/it]


In [None]:
""" SQL에 위 정보를 입력할 테이블 생성

USE stock_db;

CREATE TABLE kor_sector
(
    IDX_CD VARCHAR(3),
    CMP_CD VARCHAR(6),
    CMP_KOR VARCHAR(20),
    SEC_NM_KOR VARCHAR(10),
    기준일 DATE,
    PRIMARY KEY(CMP_CD, 기준일)
);

"""

In [9]:
# 다운로드 받은 정보를 kor_sector 테이블에 upsert 형태로 저장.

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()
query = f"""
    INSERT INTO kor_sector (IDX_CD, CMP_CD, CMP_KOR, SEC_NM_KOR, 기준일)
    VALUES (%s,%s,%s,%s,%s) AS NEW
    ON DUPLICATE KEY UPDATE
        IDX_CD = NEW.IDX_CD,
        CMP_KOR = NEW.CMP_KOR,
        SEC_NM_KOR = NEW.SEC_NM_KOR
"""

args = kor_sector.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

### 수정주가 크롤링
---

퀀트 투자를 위한 백테스트나 종목선정을 위해서는 일반 주가 데이터 외에도 수정주가가 필요하다.  
(e.g. 삼성전자는 2018년 5월 기존의 1주를 50주로 나누는 액면분할을 실시했고, 265만 원이던 주가는 다음날 50분의 1인 5만 3000원으로 거래되었다. 이러한 이벤트를 고려하지 않고 주가만 살펴본다면 마치 -98% 수익률을 기록한 것 같지만, 투자자 입장에서는 1주이던 주식이 50주로 늘어났기 때문에 자산에는 아무런 변화가 없다.) 

이를 고려하는 방법은 액면분할 전 모든 주가를 50으로 나누어 연속성을 갖게 만드는 것이며, 이를 '수정주가'라고 한다. 따라서 백테스트 혹은 퀀트 지표 계산에는 수정주가가 사용되어야 하며, 네이버 금융에서 제공하는 정보를 통해 모든 종목의 수정주가를 손쉽게 구할 수 있다.

#### 개별종목 주가 크롤링
---

- [삼성전자의 차트 페이지](https://finance.naver.com/item/fchart.nhn?code=005930)

해당 차트는 주가 데이터를 받아와 화면에 그래프를 그려주는 형태.  
개발자도구 화면을 연 상태에서, [일]을 선택하면 나오는 항목 중 가장 상단 항목 [siseJson.naver?symbol=..]의 Request URL이 주가 데이터를 요청하는 주소.

- [Full URL](https://api.finance.naver.com/siseJson.naver?symbol=005930&requestType=1&startTime=20200214&endTime=20220422&timeframe=day)

날짜별로 시가, 고가, 저가, 종가, 거래량, 외국인소진율이 있으며, 주가는 모두 수정주가 기준.  
URL에서 'symbol=' 뒤에 6자리 티커만 변경하면 해당 종목의 주가 데이터가 있는 페이지로 이동할 수 있다.  
이를 통해 우리가 원하는 모든 종목의 수정주가 데이터를 크롤링 가능.  
또한, 'startTime=' 에는 시작일자를, 'endTime=' 에는 종료일자를 입력하여 원하는 기간 만큼의 데이터를 받을 수도 있다.

In [10]:
# Load kor_ticker
from sqlalchemy import create_engine
import pandas as pd

# create_engine() : 데이터베이스에 접속하기 위한 엔진을 생성.
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')

# 티커 데이터를 불러오는 쿼리.
# 가장 최근일자에 해당하는 내용을 불러오기 위해 아래와 같은 서브쿼리 추가.
# 또한, 종목구분에서 보통주에 해당하는 종목만 선택.
query = """
    SELECT * FROM kor_ticker
    WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker) 
	    AND 종목구분 = '보통주';
"""

ticker_list = pd.read_sql(query, con=engine) # read_sql() : 해당 쿼리를 보낸 후 데이터를 받아오기.
engine.dispose() # 접속 종료.

ticker_list.head()

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분
0,20,동화약품,KOSPI,8070.0,225407000000.0,2024-08-27,991.0,,13413.0,180.0,보통주
1,40,KR모터스,KOSPI,612.0,36801300000.0,2024-08-27,,,618.0,0.0,보통주
2,50,경방,KOSPI,6230.0,170797000000.0,2024-08-27,,,29623.0,125.0,보통주
3,70,삼양홀딩스,KOSPI,74000.0,633756000000.0,2024-08-27,22269.0,,257475.0,3500.0,보통주
4,80,하이트진로,KOSPI,21500.0,1507870000000.0,2024-08-27,512.0,1605.0,15694.0,950.0,보통주


In [11]:
# Crawling Stock Data Page
from dateutil.relativedelta import relativedelta
import requests as rq
from io import BytesIO
from datetime import date

i = 0 # for문을 통해 i 값만 변경하면 모든 종목의 주가를 다운로드 가능.
ticker = ticker_list['종목코드'][i] # 원하는 종목의 티커를 선택.

# today() 메서드를 이용해 오늘 날짜를 불러온 후, 시작일은 relativedelta() 클래스를 이용해 5년을 차감(원하는 기간만큼 수정 가능).
# strftime() : 'yyyymmdd' 형식으로 변환.
fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d") # 시작일에 해당하는 날짜. 
to = (date.today()).strftime("%Y%m%d") # 종료일에 해당하는 날짜. 종료일은 오늘 날짜 그대로 사용.

# 티커, 시작일, 종료일을 이용해 주가 데이터가 있는 URL을 생성.
url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1
&startTime={fr}&endTime={to}&timeframe=day'''

data = rq.get(url).content # get() 함수를 통해 페이지의 데이터를 불러온 후, content 부분을 추출.
data_price = pd.read_csv(BytesIO(data)) # BytesIO()를 이용해 바이너리스트림 형태로 전환, read_csv()로 데이터를 읽어오기.

data_price.head() # 날짜 및 주가, 거래량, 외국인소진율 데이터가 추출.

Unnamed: 0,[['날짜','시가','고가','저가','종가','거래량','외국인소진율'],Unnamed: 7
0,"[""20190903""",8060.0,8150.0,7960.0,7970.0,144638.0,4.85],
1,"[""20190904""",7970.0,8090.0,7970.0,8050.0,42358.0,4.81],
2,"[""20190905""",8070.0,8110.0,8020.0,8080.0,77480.0,4.77],
3,"[""20190906""",8120.0,8120.0,7930.0,8000.0,189109.0,4.72],
4,"[""20190909""",8000.0,8190.0,7980.0,8000.0,57940.0,4.72],


In [12]:
# Additional Data Cleansing
import re

price = data_price.iloc[:, 0:6] # iloc()로 날짜와 가격(시가, 고가, 저가, 종가), 거래량에 해당하는 데이터만 선택.
price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량'] # 열 이름 변경.
price = price.dropna() # NA 데이터 삭제.
price['날짜'] = price['날짜'].str.extract('(\d+)') # extract() 메서드 내 정규 표현식을 이용해 날짜열에서 숫자만 추출.
price['날짜'] = pd.to_datetime(price['날짜']) # datetime 형태로 변경.
price['종목코드'] = ticker # '종목코드'열에 티커 입력.

price.head()

Unnamed: 0,날짜,시가,고가,저가,종가,거래량,종목코드
0,2019-09-03,8060.0,8150.0,7960.0,7970.0,144638.0,20
1,2019-09-04,7970.0,8090.0,7970.0,8050.0,42358.0,20
2,2019-09-05,8070.0,8110.0,8020.0,8080.0,77480.0,20
3,2019-09-06,8120.0,8120.0,7930.0,8000.0,189109.0,20
4,2019-09-09,8000.0,8190.0,7980.0,8000.0,57940.0,20


#### 전 종목 주가 크롤링
---
상기 과정을 응용해 모든 종목의 주가를 크롤링한 후 DB에 저장하는 과정 진행.


In [None]:

''' SQL에서 크롤링한 주가가 저장될 테이블(kor_price) 생성.
USE stock_db;

CREATE TABLE kor_price
(
    날짜 DATE,
    시가 DOUBLE,
    고가 DOUBLE,
    저가 DOUBLE,
    종가 DOUBLE,
    거래량 DOUBLE,
    종목코드 VARCHAR(6),
    PRIMARY KEY(날짜, 종목코드)
);
'''

In [13]:
# Crawling All Stocks

# Import Libraries
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from datetime import date
from dateutil.relativedelta import relativedelta
import requests as rq
import time
from tqdm import tqdm
from io import BytesIO

# Conect DB
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# Load ticker_list
ticker_list = pd.read_sql("""
    SELECT * FROM kor_ticker
    WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
        AND 종목구분 = '보통주';
""", con=engine)

# Save DB Query
query = """
    INSERT INTO kor_price (날짜, 시가, 고가, 저가, 종가, 거래량, 종목코드)
    VALUES (%s,%s,%s,%s,%s,%s,%s) AS NEW
    ON DUPLICATE KEY UPDATE
    시가 = NEW.시가, 
    고가 = NEW.고가, 
    저가 = NEW.저가,
    종가 = NEW.종가, 
    거래량 = NEW.거래량;
"""

# 오류 발생시 저장할 리스트
error_list = []

# Download and Save All Stocks
for i in tqdm(range(0, len(ticker_list))):

    # Select Ticker
    ticker = ticker_list['종목코드'][i]

    # 시작일(From)과 종료일(To)
    fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")
    to = (date.today()).strftime("%Y%m%d")

    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:

        # Create url
        url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1
        &startTime={fr}&endTime={to}&timeframe=day'''

        # Download Data
        data = rq.get(url).content
        data_price = pd.read_csv(BytesIO(data))

        # Cleansing Data
        price = data_price.iloc[:, 0:6]
        price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
        price = price.dropna()
        price['날짜'] = price['날짜'].str.extract('(\d+)')
        price['날짜'] = pd.to_datetime(price['날짜'])
        price['종목코드'] = ticker

        # Save stock data in DB
        args = price.values.tolist()
        mycursor.executemany(query, args)
        con.commit()
    except:

        # If an error occurs, Save the ticker to error_list and countinue
        print(ticker)
        error_list.append(ticker)

    # Apply timesleep : 무한 크롤링 방지
    time.sleep(2)

# DB 연결 종료
engine.dispose()
con.close()

# 작업이 끝난 뒤 SQL의 kor_price 테이블을 확인해보면 전 종목 주가가 저장되어 있는 것을 볼 수 있다.
# 시간이 지나 해당 코드를 다시 실행하면 UPSERT 형식을 통해, 수정된 주가는 UPDATE, 새로 입력된 주가는 INSERT 한다.

100%|██████████| 2448/2448 [1:36:19<00:00,  2.36s/it] 


### 재무제표 크롤링
---

재무제표와 가치지표는 주가와 더불어 투자에 있어 핵심이 되는 데이터이다.  
해당 데이터는 여러 웹사이트에서 구할 수 있으며, 국내 데이터 제공업체인 FnGuide에서 운영하는 [Company Guide](http://comp.fnguide.com/) 웹사이트에서 손쉽게 구할 수 있다.

#### 재무제표 다운로드
---

웹사이트에서 개별종목의 재무제표를 탭을 선택하면 포괄손익계산서, 재무상태표, 현금흐름표 항목이 있다.  
티커에 해당하는 A005930 뒤의 주소는 불필요한 내용이므로, 이를 제거한 주소로 접속.  
A 뒤의 6자리 티커만 변경한다면 해당 종목의 재무제표 페이지로 이동하게 된다.  

http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A005930

원하는 재무제표 항목들은 모두 테이블 형태로 제공되고 있으므로 pandas 패키지의 read_html() 함수를 이용해 추출할 수 있다.

In [None]:
# # ConnectionResetError: [Errno 54] Connection reset by peer

# from sqlalchemy import create_engine
# import pandas as pd

# # 티커 리스트를 불러와 첫번째 티커를 선택.
# engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
# query = """
#     SELECT * FROM kor_ticker
#     WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
#     	AND 종목구분 = '보통주';
# """
# ticker_list = pd.read_sql(query, con=engine)
# engine.dispose()

# i = 0
# ticker = ticker_list['종목코드'][i]

# # 재무제표 페이지에 해당하는 URL을 생성.
# url = f'http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'

# # read_html()로 테이블 데이터만 가져온다.
# # 페이지에 [+] 버튼을 눌러야만 표시가 되는 항목도 있으므로, displayed_only = False로 설정하여 해당 항목들도 모두 가져온다.
# data = pd.read_html(url, displayed_only=False) 

# tables_head = [item.head(3) for item in data]
# for index, table in enumerate(tables_head):
#     print(f"Table {index}:")
#     print(table)


# # 결과적으로 총 6개의 테이블이 들어온다.

# # | 순서 | 내용 | 
# # | --- | --- |
# # | 0 | 포괄손익계산서 (연간) |
# # | 1 | 포괄손익계산서 (분기) |
# # | 2 | 재무상태표 (연간) |
# # | 3 | 재무상태표 (분기) |
# # | 4 | 현금흐름표 (연간) |
# # | 5 | 현금흐름표 (분기) |

In [18]:
# ConnectionResetError : Problem Solving 01
import pandas as pd
import requests
from bs4 import BeautifulSoup
import time

from sqlalchemy import create_engine

# 재시도 로직 추가.
# url의 데이터를 가져오는 함수.
# 연결 문제 발생 시 일정 횟수(retries=3)만큼 재시도
def fetch_data(url, retries=3, delay=5):
    # 요청 헤더 변경 : 서버 스크래핑 감지 우회
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    } 
    for attempt in range(retries):
        try:
            response = requests.get(url, headers=headers)
            tables = pd.read_html(response.text, displayed_only=False)
            return tables
        except (requests.exceptions.ConnectionError, requests.exceptions.HTTPError) as e:
            print(f"Connection error: {e}, retrying... ({attempt+1}/{retries})")
            time.sleep(delay)  # 재시도 전에 잠시 대기
    raise Exception(f"Failed to fetch data after {retries} attempts.")


# 데이터베이스 연결 설정
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')

# 최신 데이터의 종목만 선택
query = """
    SELECT * FROM kor_ticker
    WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
        AND 종목구분 = '보통주';
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

# 첫 번째 티커 선택
i = 0
ticker = ticker_list['종목코드'][i]

# 크롤링 대상 URL
url = f'http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'

data = fetch_data(url)


tables_head = [item.head(3) for item in data]
for index, table in enumerate(tables_head):
    print(f"Table {index}:")
    print(table)


# 결과적으로 총 6개의 테이블이 들어온다.

# | 순서 | 내용 | 
# | --- | --- |
# | 0 | 포괄손익계산서 (연간) |
# | 1 | 포괄손익계산서 (분기) |
# | 2 | 재무상태표 (연간) |
# | 3 | 재무상태표 (분기) |
# | 4 | 현금흐름표 (연간) |
# | 5 | 현금흐름표 (분기) |

  tables = pd.read_html(response.text, displayed_only=False)


[  IFRS(연결)  2021/12  2022/12  2023/12  2024/06    전년동기 전년동기(%)
 0      매출액   2930.0   3404.0   3611.0   2340.0  1894.0    23.6
 1     매출원가   1437.0   1594.0   1707.0   1252.0   906.0    38.1
 2    매출총이익   1493.0   1810.0   1904.0   1089.0   988.0    10.2,
   IFRS(연결)  2023/09  2023/12  2024/03  2024/06   전년동기 전년동기(%)
 0      매출액    875.0    842.0   1189.0   1152.0  900.0    28.0
 1     매출원가    424.0    377.0    639.0    612.0  438.0    39.7
 2    매출총이익    450.0    466.0    549.0    540.0  462.0    16.8,
              IFRS(연결)  2021/12  2022/12  2023/12  2024/06
 0                  자산   4478.0   4611.0   5650.0   5587.0
 1  유동자산계산에 참여한 계정 펼치기   2202.0   2275.0   2377.0   2266.0
 2                재고자산    362.0    468.0    707.0    732.0,
              IFRS(연결)  2023/09  2023/12  2024/03  2024/06
 0                  자산   4902.0   5650.0   5581.0   5587.0
 1  유동자산계산에 참여한 계정 펼치기   2346.0   2377.0   2337.0   2266.0
 2                재고자산    547.0    707.0    704.0    732.0,
          IFRS(연

In [19]:
# 연간 기준 포괄손익계산서, 재무상태표, 현금흐름표의 열 이름
print(data[0].columns.tolist(), '\n',
      data[2].columns.tolist(), '\n',
      data[4].columns.tolist()
     )

['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/06', '전년동기', '전년동기(%)'] 
 ['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/06'] 
 ['IFRS(연결)', '2021/12', '2022/12', '2023/12', '2024/06']


In [20]:
# 포괄손익계산서 테이블의 '전년동기', '전년동기(%)' 열은 필요하지 않은 내용이므로 삭제.

# 포괄손익계산서 중 '전년동기'라는 글자가 들어간 열을 제외한 데이터를 선택.
# concat()을 이용해 포괄손익계산서, 재무상태표, 현금흐름표 세개 테이블을 하나로 묶는다.
# rename() 메서드를 통해 첫번째 열 이름(IFRS 혹은 IFRS(연결)을 '계정'으로 변경한다.
data_fs_y = pd.concat(
    [data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]])
data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"})

data_fs_y.head()

Unnamed: 0,계정,2021/12,2022/12,2023/12,2024/06
0,매출액,2930.0,3404.0,3611.0,2340.0
1,매출원가,1437.0,1594.0,1707.0,1252.0
2,매출총이익,1493.0,1810.0,1904.0,1089.0
3,판매비와관리비계산에 참여한 계정 펼치기,1269.0,1511.0,1716.0,977.0
4,인건비,468.0,489.0,521.0,298.0


In [21]:
# 결산마감 이전에 해당 페이지를 크롤링 할 경우 연간 재무제표 데이터에 분기 재무제표 데이터가 들어오기도 한다.
# 따라서, 연간 재무제표에 해당하는 열만 선택할 수 있도록 해야 한다.

import requests as rq
from bs4 import BeautifulSoup
import re

# get() 함수를 통해 페이지의 데이터를 불러온 후, content 부분을 BeautifulSoup 객체로 만든다.
page_data = rq.get(url)
page_data_html = BeautifulSoup(page_data.content, 'html.parser')

# 결산월 항목운 [corp_group1 클래스의 div 태그 하부의 h2 태그]에 존재하므로, select() 함수를 이용해 추출한다.
fiscal_data = page_data_html.select('div.corp_group1 > h2')
# fiscal_data 중 첫번째는 종목코드이며, 두번째가 결산 데이터이므로 해당 부분을 선택해 텍스트만 추출한다.
fiscal_data_text = fiscal_data[1].text
# 'n월 결산' 형태로 텍스트가 구성되어 있으므로, 정규 표현식을 이용해 숫자에 해당하는 부분만 추출한다.
fiscal_data_text = re.findall('[0-9]+', fiscal_data_text)

print(fiscal_data_text)

['12']


In [22]:
# 위 과정을 통해 결산월에 해당하는 부분만 선택되도록 했다. 이를 이용해 연간 재무제표에 해당하는 열만 선택.
data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == '계정') |
                          (data_fs_y.columns.str[-2:].isin(fiscal_data_text))]
data_fs_y.head()

Unnamed: 0,계정,2021/12,2022/12,2023/12
0,매출액,2930.0,3404.0,3611.0
1,매출원가,1437.0,1594.0,1707.0
2,매출총이익,1493.0,1810.0,1904.0
3,판매비와관리비계산에 참여한 계정 펼치기,1269.0,1511.0,1716.0
4,인건비,468.0,489.0,521.0


In [23]:
# Additional Cleansing : NaN인 항목; 재무제표 계정은 있으나 데이터가 없는 종목들.
data_fs_y[data_fs_y.loc[:, ~data_fs_y.columns.isin(['계정'])].isna().all(axis=1)].head()

Unnamed: 0,계정,2021/12,2022/12,2023/12
10,기타원가성비용,,,
18,대손충당금환입액,,,
19,매출채권처분이익,,,
20,당기손익-공정가치측정 금융자산관련이익,,,
23,금융자산손상차손환입,,,


In [24]:
# 반복되서 나타나는 동일한 계정명. 이러한 계정은 대부분 중요하지 않은 것들이므로, 하나만 남겨두도록 한다.
data_fs_y['계정'].value_counts(ascending=False).head()

계정
기타          4
배당금수익       3
파생상품이익      3
이자수익        3
법인세납부(-)    3
Name: count, dtype: int64

In [27]:
# 이 외에도 클렌징이 필요한 내용들을 처리하기 위한 definition

# 입력값으로는 데이터프레임, 티커, 공시구분(연간/분기)가 필요.
def clean_fs(df, ticker, frequency):
    # 우선 연도의 데이터가 NaN인 항목 제외.
    df = df[~df.loc[:, ~df.columns.isin(['계정'])].isna().all(axis=1)]
    # 계정명이 중복되는 경우 drop_duplicates() 함수를 이용해 첫번째에 위치한 데이터만 유지.
    df = df.drop_duplicates(['계정'], keep='first')
    # melt() 함수를 이용해 열로 긴 데이터를 행으로 긴 데이터 형태로 변환.
    df = pd.melt(df, id_vars='계정', var_name='기준일', value_name='값')
    # 계정값이 없는 항목 제외.
    df = df[~pd.isnull(df['값'])]
    # [계산에 참여한 계정 펼치기]라는 글자는 페이지의 [+]에 해당하는 부분이다. 따라서, replace()를 통해 제거.
    df['계정'] = df['계정'].replace({'계산에 참여한 계정 펼치기': ''}, regex=True)
    # to_datetime()을 통해 기준일을 'yyyy-mm' 형태로 바꾼 후, MonthEnd()를 통해 월말에 해당하는 일을 추가.
    df['기준일'] = pd.to_datetime(df['기준일'],
                               format='%Y/%m') + pd.tseries.offsets.MonthEnd() # Correction : %Y-%m -> %Y/%m
    # '종목코드' 열에 티커 입력.
    df['종목코드'] = ticker
    # '공시구분' 열에 연간 혹은 분기에 해당하는 값 입력.
    df['공시구분'] = frequency

    return df

In [28]:
# 함수 적용 및 결과 확인
data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')

data_fs_y_clean.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2021-12-31,2930.0,20,y
1,매출원가,2021-12-31,1437.0,20,y
2,매출총이익,2021-12-31,1493.0,20,y
3,판매비와관리비,2021-12-31,1269.0,20,y
4,인건비,2021-12-31,468.0,20,y


In [29]:
# 연간 재무제표 클렌징 처리를 참고하여 분기 재무제표 클렌징 처리

# 분기 데이터
data_fs_q = pd.concat(
    [data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]])
data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

data_fs_q_clean.head()

# 결산월에 해당하는 부분을 선택할 필요가 없으며, 이를 제외한 모든 과정이 연간 재무제표 항목과 동일.

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2023-09-30,875.0,20,q
1,매출원가,2023-09-30,424.0,20,q
2,매출총이익,2023-09-30,450.0,20,q
3,판매비와관리비,2023-09-30,423.0,20,q
4,인건비,2023-09-30,157.0,20,q


In [31]:
# Concatenate Both Table
data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])

data_fs_bind

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,매출액,2021-12-31,2930.0,000020,y
1,매출원가,2021-12-31,1437.0,000020,y
2,매출총이익,2021-12-31,1493.0,000020,y
3,판매비와관리비,2021-12-31,1269.0,000020,y
4,인건비,2021-12-31,468.0,000020,y
...,...,...,...,...,...
529,기타금융부채의감소,2024-06-30,9.0,000020,q
532,환율변동효과,2024-06-30,-1.0,000020,q
533,현금및현금성자산의증가,2024-06-30,-185.0,000020,q
534,기초현금및현금성자산,2024-06-30,606.0,000020,q


#### 전 종목 재무제표 크롤링
---

In [None]:
""" 재무제표 저장 테이블 생성 in SQL Server

USE stock_db;

CREATE TABLE kor_fs
(
    계정 VARCHAR(30),
    기준일 DATE,
    값 FLOAT,
    종목코드 VARCHAR(6),
    공시구분 VARCHAR(1),
    PRIMARY KEY(계정, 기준일, 종목코드, 공시구분)
)

"""

In [8]:
# SQL kor_fs 테이블에 전 종목의 재무제표 저장.
# 코드를 다시 실행하면 upsert 형식을 통해 수정된 재무제표는 update, 새로 입력된 재무제표는 insert 한다.

# import Libraries
import pymysql
from sqlalchemy import create_engine
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup
import re
from tqdm import tqdm
import time

import warnings
# FutureWarning을 무시하도록 설정
warnings.filterwarnings('ignore', category=FutureWarning)
# FutureWarning: Passing literal html to 'read_html' is deprecated and will be removed in a future version. To read from a literal string, wrap it in a 'StringIO' object.
# tables = pd.read_html(response.text, displayed_only=False)


# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 티커리스트 불러오기
ticker_list = pd.read_sql("""
    SELECT * FROM kor_ticker
    WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
        AND 종목구분 = '보통주';
""", con=engine)


# DB 저장 쿼리
query = """
    INSERT INTO kor_fs (계정, 기준일, 값, 종목코드, 공시구분)
    VALUES (%s,%s,%s,%s,%s) AS NEW
    ON DUPLICATE KEY UPDATE
    값 = NEW.값
"""

# 오류 발생 항목 리스트
error_list = []


# 재시작 요청 함수
def fetch_data(url, retries=3, delay=5):
    # 요청 헤더 변경 : 서버 스크래핑 감지 우회
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
    } 
    for attempt in range(retries):
        try:
            response = rq.get(url, headers=headers)
            tables = pd.read_html(response.text, displayed_only=False)
            return tables
        except (rq.exceptions.ConnectionError, rq.exceptions.HTTPError) as e:
            print(f"Connection error: {e}, retrying... ({attempt+1}/{retries})")
            time.sleep(delay)  # 재시도 전에 잠시 대기
    raise Exception(f"Failed to fetch data after {retries} attempts.")

# 재무제표 클렌징 함수
def clean_fs(df, ticker, frequency):

    df = df[~df.loc[:, ~df.columns.isin(['계정'])].isna().all(axis=1)]
    df = df.drop_duplicates(['계정'], keep='first')
    df = pd.melt(df, id_vars='계정', var_name='기준일', value_name='값')
    df = df[~pd.isnull(df['값'])]
    df['계정'] = df['계정'].replace({'계산에 참여한 계정 펼치기': ''}, regex=True)
    df['기준일'] = pd.to_datetime(df['기준일'],
                               format='%Y/%m') + pd.tseries.offsets.MonthEnd()
    df['종목코드'] = ticker
    df['공시구분'] = frequency

    return df


# for loop
for i in tqdm(range(len(ticker_list))):
    ticker = ticker_list['종목코드'][i]

    try:
        url = f'http://comp.fnguide.com/SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A{ticker}'
        data = fetch_data(url)

        # 연간 및 분기 데이터 처리
        data_fs_y = pd.concat([
            data[0].iloc[:, ~data[0].columns.str.contains('전년동기')], data[2], data[4]
        ])
        data_fs_y = data_fs_y.rename(columns={data_fs_y.columns[0]: "계정"})

        # 결산년 찾기
        page_data = rq.get(url)
        page_data_html = BeautifulSoup(page_data.content, 'html.parser')
        fiscal_data = page_data_html.select('div.corp_group1 > h2')
        fiscal_year = re.findall('[0-9]+', fiscal_data[1].text)

        # 결산년에 해당하는 계정만 남기기
        data_fs_y = data_fs_y.loc[:, (data_fs_y.columns == '계정') | (data_fs_y.columns.str[-2:].isin(fiscal_year))]

        # 데이터 클린징
        data_fs_y_clean = clean_fs(data_fs_y, ticker, 'y')
        data_fs_q = pd.concat([
            data[1].iloc[:, ~data[1].columns.str.contains('전년동기')], data[3], data[5]
        ])
        data_fs_q = data_fs_q.rename(columns={data_fs_q.columns[0]: "계정"})
        data_fs_q_clean = clean_fs(data_fs_q, ticker, 'q')

        # 데이터 합치기 및 저장
        data_fs_bind = pd.concat([data_fs_y_clean, data_fs_q_clean])
        args = data_fs_bind.values.tolist()
        mycursor.executemany(query, args)
        con.commit()

    except Exception as e:
        print(f"Error processing {ticker}: {e}")
        error_list.append(ticker)
        continue

    time.sleep(2)  # 타임슬립 적용

# DB 연결 종료
mycursor.close()
con.close()

  1%|          | 18/2448 [01:04<2:29:06,  3.68s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A000370 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x136fd4c50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  2%|▏         | 37/2448 [02:19<2:23:52,  3.58s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A000810 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137d986d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  2%|▏         | 48/2448 [03:04<2:29:39,  3.74s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A001040 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137085190>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  4%|▍         | 110/2448 [07:06<2:26:40,  3.76s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A002360 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1414d7850>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  5%|▍         | 117/2448 [07:34<1:55:16,  2.97s/it]

Error processing 002460: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A002460 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137e6d2d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


  5%|▍         | 121/2448 [07:50<2:22:30,  3.67s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A002690 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141d0cb90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  5%|▌         | 128/2448 [08:20<2:27:20,  3.81s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A002800 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127bbc190>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  6%|▌         | 135/2448 [08:51<2:26:42,  3.81s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A002920 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137807190>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


  6%|▋         | 158/2448 [10:21<2:16:41,  3.58s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A003470 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14150d6d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 11%|█         | 259/2448 [16:36<2:12:39,  3.64s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A005950 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137208a90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 13%|█▎        | 307/2448 [19:50<2:17:33,  3.86s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A007570 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1406043d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 13%|█▎        | 310/2448 [20:05<2:19:32,  3.92s/it]

Error processing 007610: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A007610 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14101e610>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 13%|█▎        | 319/2448 [20:35<1:40:51,  2.84s/it]

Error processing 007860: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A007860 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1370e0bd0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 15%|█▍        | 362/2448 [23:21<2:14:24,  3.87s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A009620 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140617810>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 15%|█▌        | 374/2448 [24:06<1:36:53,  2.80s/it]

Error processing 010100: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A010100 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140c40110>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 15%|█▌        | 378/2448 [24:23<2:15:39,  3.93s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A010240 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x136d38310>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 16%|█▌        | 388/2448 [25:06<2:09:24,  3.77s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A010690 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127d88bd0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 18%|█▊        | 432/2448 [27:51<1:45:19,  3.13s/it]

Error processing 012610: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A012610 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140fc27d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 18%|█▊        | 440/2448 [28:22<2:05:07,  3.74s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A013000 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140a99150>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 19%|█▊        | 455/2448 [29:21<1:58:46,  3.58s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A014130 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140cb4e50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 22%|██▏       | 549/2448 [33:52<1:26:29,  2.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A020150 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1402d1490>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 23%|██▎       | 558/2448 [34:22<1:29:11,  2.83s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A021240 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140796e90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 24%|██▎       | 578/2448 [35:22<1:25:34,  2.75s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A023790 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137ca2550>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 24%|██▍       | 588/2448 [35:52<1:03:17,  2.04s/it]

Error processing 024110: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A024110 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1418aa710>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 24%|██▍       | 593/2448 [36:07<1:23:32,  2.70s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A024830 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1410618d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 25%|██▍       | 608/2448 [36:52<1:23:57,  2.74s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A025560 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1406a2750>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 26%|██▌       | 634/2448 [38:08<1:23:13,  2.75s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A027970 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137081b50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 29%|██▊       | 698/2448 [41:07<1:19:42,  2.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A033310 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x136efcd50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 30%|███       | 735/2448 [42:52<1:18:46,  2.76s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A035760 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1410f5590>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 30%|███       | 745/2448 [43:22<57:35,  2.03s/it]  

Error processing 036170: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A036170 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140ed7410>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 31%|███▏      | 768/2448 [44:22<55:22,  1.98s/it]  

Error processing 036930: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A036930 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14157d310>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 34%|███▎      | 823/2448 [46:52<1:13:54,  2.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A040910 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137b17d90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 37%|███▋      | 904/2448 [50:38<1:09:28,  2.70s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A048470 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14150d7d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 38%|███▊      | 930/2448 [51:53<1:08:40,  2.71s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A050760 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140300b90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 38%|███▊      | 940/2448 [52:23<51:10,  2.04s/it]  

Error processing 051490: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A051490 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1414d6950>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 39%|███▉      | 952/2448 [52:53<49:11,  1.97s/it]  

Error processing 052330: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A052330 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x126acddd0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 39%|███▉      | 963/2448 [53:23<1:09:26,  2.81s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A053030 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137028c10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 40%|███▉      | 978/2448 [54:09<1:06:23,  2.71s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A053610 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1407a6f50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 40%|████      | 987/2448 [54:38<1:08:09,  2.80s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A054090 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140ad7050>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 41%|████▏     | 1013/2448 [55:53<1:04:54,  2.71s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A057050 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140c4e610>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 46%|████▌     | 1128/2448 [1:01:09<59:11,  2.69s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A067900 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140219890>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 47%|████▋     | 1155/2448 [1:02:24<42:14,  1.96s/it]  

Error processing 070300: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A070300 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140f1e150>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 49%|████▉     | 1194/2448 [1:04:09<56:24,  2.70s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A076610 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1414b9390>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 49%|████▉     | 1209/2448 [1:04:55<56:01,  2.71s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A078600 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1404862d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 50%|████▉     | 1218/2448 [1:05:24<57:23,  2.80s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A079370 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1414b9d90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 50%|█████     | 1233/2448 [1:06:09<55:10,  2.72s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A080420 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140d10910>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 51%|█████     | 1237/2448 [1:06:25<1:04:23,  3.19s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A080580 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1403211d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 53%|█████▎    | 1291/2448 [1:08:54<39:45,  2.06s/it]  

Error processing 086820: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A086820 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14132c650>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 55%|█████▍    | 1341/2448 [1:11:10<49:37,  2.69s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A091970 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1410bfd50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 58%|█████▊    | 1417/2448 [1:14:41<46:23,  2.70s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A100120 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x126cfce90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 58%|█████▊    | 1432/2448 [1:15:27<45:54,  2.71s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A101360 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140ec3ed0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 60%|██████    | 1469/2448 [1:17:12<43:35,  2.67s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A106240 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1413a2c90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 60%|██████    | 1472/2448 [1:17:25<55:54,  3.44s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A107600 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x13787d450>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 61%|██████    | 1487/2448 [1:18:11<43:21,  2.71s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A109960 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140752590>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 61%|██████    | 1497/2448 [1:18:40<32:39,  2.06s/it]  

Error processing 112040: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A112040 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140e1c810>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 64%|██████▎   | 1558/2448 [1:21:26<40:28,  2.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A125210 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137efe550>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 65%|██████▍   | 1584/2448 [1:22:41<38:38,  2.68s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A131180 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127d24b90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 65%|██████▌   | 1594/2448 [1:23:11<28:55,  2.03s/it]  

Error processing 134060: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A134060 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1415af890>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 66%|██████▌   | 1617/2448 [1:24:11<27:55,  2.02s/it]

Error processing 139480: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A139480 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14146c590>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 67%|██████▋   | 1640/2448 [1:25:11<27:01,  2.01s/it]

Error processing 145720: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A145720 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1372d9210>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 67%|██████▋   | 1652/2448 [1:25:41<26:16,  1.98s/it]

Error processing 150840: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A150840 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137994290>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 68%|██████▊   | 1658/2448 [1:25:57<34:41,  2.64s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A154030 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14685bf50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 69%|██████▉   | 1689/2448 [1:27:27<34:43,  2.74s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A171090 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14077ce50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 70%|██████▉   | 1704/2448 [1:28:12<34:17,  2.77s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A179290 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140228d50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 70%|██████▉   | 1713/2448 [1:28:42<34:07,  2.79s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A183300 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1416d9c10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 73%|███████▎  | 1777/2448 [1:31:43<30:34,  2.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A203650 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127b57b10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 73%|███████▎  | 1797/2448 [1:32:42<29:27,  2.72s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A208350 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140f98990>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 76%|███████▌  | 1857/2448 [1:35:27<19:30,  1.98s/it]

Error processing 222040: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A222040 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x126fb17d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 76%|███████▋  | 1869/2448 [1:35:57<18:57,  1.96s/it]

Error processing 225190: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A225190 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14186fd10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 77%|███████▋  | 1881/2448 [1:36:27<18:33,  1.96s/it]

Error processing 226950: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A226950 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1416fc310>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 77%|███████▋  | 1893/2448 [1:36:57<18:18,  1.98s/it]

Error processing 230360: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A230360 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x13799d8d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 78%|███████▊  | 1904/2448 [1:37:27<24:25,  2.69s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A236200 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140728e50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 79%|███████▉  | 1930/2448 [1:38:43<23:25,  2.71s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A243840 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137fd31d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 80%|████████  | 1961/2448 [1:40:12<22:00,  2.71s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A256150 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127b23490>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 80%|████████  | 1965/2448 [1:40:28<25:55,  3.22s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A257370 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140e66a10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 85%|████████▌ | 2082/2448 [1:49:44<24:04,  3.95s/it]

Error processing 294630: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A294630 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140679c50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 85%|████████▌ | 2085/2448 [1:49:59<26:00,  4.30s/it]

Error processing 296640: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A296640 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140edb290>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 86%|████████▌ | 2094/2448 [1:50:45<29:45,  5.04s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A298540 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141ad3110>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 89%|████████▊ | 2167/2448 [1:59:39<19:02,  4.07s/it]  

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A322310 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1418dae10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 89%|████████▊ | 2169/2448 [1:59:54<25:20,  5.45s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A322780 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x146812190>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 89%|████████▉ | 2175/2448 [2:00:24<20:33,  4.52s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A326030 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141326f90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 89%|████████▉ | 2181/2448 [2:00:54<19:50,  4.46s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A330730 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14149ef10>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 89%|████████▉ | 2184/2448 [2:01:09<18:25,  4.19s/it]

Error processing 331380: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A331380 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1415eaf90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 90%|████████▉ | 2195/2448 [2:01:55<16:56,  4.02s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A335890 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137c148d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 90%|█████████ | 2213/2448 [2:09:12<7:18:41, 112.01s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A347700 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at 0x1415aec90>, 'Connection to comp.fnguide.com timed out. (connect timeout=None)')), retrying... (1/3)


 91%|█████████ | 2223/2448 [2:10:39<31:13,  8.33s/it]   

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A348340 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141ceb7d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 91%|█████████▏| 2234/2448 [2:11:38<17:32,  4.92s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A352940 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1403078d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 92%|█████████▏| 2242/2448 [2:12:23<17:34,  5.12s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A355390 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137d715d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 93%|█████████▎| 2272/2448 [2:14:53<14:16,  4.86s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A368600 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140260dd0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 93%|█████████▎| 2284/2448 [2:15:53<10:34,  3.87s/it]

Error processing 373170: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A373170 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137fc74d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 93%|█████████▎| 2287/2448 [2:16:08<12:12,  4.55s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A376180 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127b806d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 94%|█████████▎| 2293/2448 [2:16:38<10:12,  3.95s/it]

Error processing 376980: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A376980 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x146871690>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 94%|█████████▍| 2302/2448 [2:17:23<12:04,  4.96s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A378800 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137791d50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 94%|█████████▍| 2304/2448 [2:17:38<14:13,  5.93s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A380540 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x137790990>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 94%|█████████▍| 2312/2448 [2:18:23<11:34,  5.11s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A383800 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140769a90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 95%|█████████▍| 2322/2448 [2:19:24<12:02,  5.73s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A389260 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x127c2ed50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 95%|█████████▌| 2330/2448 [2:20:09<10:06,  5.14s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A396270 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140f1a8d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 95%|█████████▌| 2332/2448 [2:20:23<11:40,  6.04s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A396470 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x14079f050>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 96%|█████████▌| 2338/2448 [2:20:54<07:33,  4.12s/it]

Error processing 402490: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A402490 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1377df0d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 96%|█████████▌| 2341/2448 [2:21:09<08:17,  4.65s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A405000 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x1377508d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 96%|█████████▌| 2353/2448 [2:22:09<06:04,  3.83s/it]

Error processing 413640: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A413640 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141373f90>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 96%|█████████▌| 2356/2448 [2:22:24<07:00,  4.57s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A417180 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141cb98d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 96%|█████████▋| 2358/2448 [2:22:39<08:45,  5.84s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A417500 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x126f72c50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 97%|█████████▋| 2382/2448 [2:24:41<05:29,  4.99s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A431190 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141a77750>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


 98%|█████████▊| 2408/2448 [2:26:55<02:46,  4.16s/it]

Error processing 450330: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A450330 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x136df2690>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 99%|█████████▉| 2423/2448 [2:28:10<01:42,  4.12s/it]

Error processing 453860: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A453860 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141355410>: Failed to establish a new connection: [Errno 12] Cannot allocate memory'))


 99%|█████████▉| 2426/2448 [2:28:26<01:45,  4.79s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A456040 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x141a994d0>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


100%|█████████▉| 2440/2448 [2:29:42<00:40,  5.07s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A462870 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x126a87510>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


100%|█████████▉| 2445/2448 [2:30:11<00:15,  5.29s/it]

Connection error: HTTPConnectionPool(host='comp.fnguide.com', port=80): Max retries exceeded with url: /SVO2/ASP/SVD_Finance.asp?pGB=1&gicode=A475150 (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x140268c50>: Failed to establish a new connection: [Errno 12] Cannot allocate memory')), retrying... (1/3)


100%|██████████| 2448/2448 [2:30:32<00:00,  3.69s/it]


In [9]:
error_list

['002460',
 '007610',
 '007860',
 '010100',
 '012610',
 '024110',
 '036170',
 '036930',
 '051490',
 '052330',
 '070300',
 '086820',
 '112040',
 '134060',
 '139480',
 '145720',
 '150840',
 '222040',
 '225190',
 '226950',
 '230360',
 '294630',
 '296640',
 '331380',
 '373170',
 '376980',
 '402490',
 '413640',
 '450330',
 '453860']

### 가치지표 계산
___

확보한 재무제표 데이터를 이용해 가치지표를 계산할 수 있다. 
흔히 가치지표로는 'PER', 'PBR', 'PCR', 'PSR', 'DY'가 사용.

| 지표 | 설명 | 필요한 재무제표 데이터 | 
| --- | --- | --- |
| PER | Price to Earnings Ratio | Earnings (순이익) |
| PBR | Price to Book Ratio | Book Value (순자산) |
| PCR | Price to Cash Flow Ratio | Cash Flow (영업활동현금흐름) |
| PSR | Price to Sales Ratio | Sales (매출액) |
| DY | Dividend Yield | Dividened (배당) |

가치지표의 경우 연간 재무제표 기준으로 계산할 경우 다음 재무제표가 발표될 때까지 1년이나 기다려야 한다.  
반면, 분기 재무제표는 3개월 마다 발표되므로 최신 정보를 훨씬 빠르게 반영할 수 있다는 장점이 있다.  
따라서, 일반적으로 최근 4분기 데이터를 이용해 계산하는 TTM(Trailing Twelve Months) 방법을 많이 사용한다.

In [10]:
# 가치지표 계산 Practice

from sqlalchemy import create_engine
import pandas as pd

# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')

# 티커 리스트
ticker_list = pd.read_sql("""
SELECT * FROM kor_ticker
WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
    AND 종목구분 = '보통주';
""", con=engine)

# 삼성전자 분기 재무제표
sample_fs = pd.read_sql("""
SELECT * FROM kor_fs
WHERE 공시구분 = 'q'
AND 종목코드 = '005930'
AND 계정 IN ('당기순이익', '자본', '영업활동으로인한현금흐름', '매출액');
""", con=engine)

engine.dispose()

In [11]:
# 재무제표 데이터를 종목코드, 계정, 기준일 순으로 정렬
sample_fs = sample_fs.sort_values(['종목코드', '계정', '기준일'])

sample_fs.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분
0,당기순이익,2023-09-30,58442.0,5930,q
1,당기순이익,2023-12-31,63448.0,5930,q
2,당기순이익,2024-03-31,67547.0,5930,q
3,당기순이익,2024-06-30,98413.0,5930,q
4,매출액,2023-09-30,674047.0,5930,q


In [12]:
# 종목코드와 계정을 기준으로 groupby()를 활용해 묶는다.
# as_index=False를 통해 그룹 레이블을 인덱스로 사용하지 않는다.
# rolling() : window Feature로 4개 기간씩 합계를 구하며, min_periods Feature를 통해 데이터가 최소 4개는 있을 경우에만 값을 구한다.
# 즉 4개 분기 데이터를 통해 TTM 값을 계산하며, 12개월치 데이터가 없을 경우는 계산을 하지 않는다.
sample_fs['ttm'] = sample_fs.groupby(
    ['종목코드', '계정'], as_index=False)['값'].rolling(window=4, min_periods=4).sum()['값']

sample_fs

Unnamed: 0,계정,기준일,값,종목코드,공시구분,ttm
0,당기순이익,2023-09-30,58442.0,5930,q,
1,당기순이익,2023-12-31,63448.0,5930,q,
2,당기순이익,2024-03-31,67547.0,5930,q,
3,당기순이익,2024-06-30,98413.0,5930,q,287850.0
4,매출액,2023-09-30,674047.0,5930,q,
5,매출액,2023-12-31,677799.0,5930,q,
6,매출액,2024-03-31,719156.0,5930,q,
7,매출액,2024-06-30,740683.0,5930,q,2811685.0
8,영업활동으로인한현금흐름,2023-09-30,97305.0,5930,q,
9,영업활동으로인한현금흐름,2023-12-31,199452.0,5930,q,


In [13]:
import numpy as np

# '자본' 항목은 재무상태표에 해당하는 항목이므로 합이 아닌 4로 나누어 평균을 구하며, 타 헝목은 4분기 기준 합을 그대로 사용.
sample_fs['ttm'] = np.where(sample_fs['계정'] == '자본',
                            sample_fs['ttm'] / 4, sample_fs['ttm'])
# 계정과 종목코드별 그룹을 나누 후 tail(1) 함수를 통해 가장 최근 데이터만 선택.
sample_fs = sample_fs.groupby(['계정', '종목코드']).tail(1)

sample_fs.head()

Unnamed: 0,계정,기준일,값,종목코드,공시구분,ttm
3,당기순이익,2024-06-30,98413.0,5930,q,287850.0
7,매출액,2024-06-30,740683.0,5930,q,2811685.0
11,영업활동으로인한현금흐름,2024-06-30,168954.0,5930,q,584374.0
15,자본,2024-06-30,3835270.0,5930,q,3707535.0


In [14]:
# 위에서 계산한 테이블과 티커 리스트 중 필요한 열만 선택해 테이블 병합. 
sample_fs_merge = sample_fs[['계정', '종목코드', 'ttm']].merge(
    ticker_list[['종목코드', '시가총액', '기준일']], on='종목코드')

# 재무제표 데이터의 경우 단위가 억원인 반면 시가총액은 원이므로, 시가총액을 억으로 나눠 단위 통일.
sample_fs_merge['시가총액'] = sample_fs_merge['시가총액']/100000000

sample_fs_merge.head()

Unnamed: 0,계정,종목코드,ttm,시가총액,기준일
0,당기순이익,5930,287850.0,4525100.0,2024-08-27
1,매출액,5930,2811685.0,4525100.0,2024-08-27
2,영업활동으로인한현금흐름,5930,584374.0,4525100.0,2024-08-27
3,자본,5930,3707535.0,4525100.0,2024-08-27


In [15]:
# 분자(시가총액)를 분모(TTM 기준 재무제표 데이터)로 나누어 가치지표를 계산한 후, 각 지표명 입력.
sample_fs_merge['value'] = sample_fs_merge['시가총액'] / sample_fs_merge['ttm']
sample_fs_merge['지표'] = np.where(
    sample_fs_merge['계정'] == '매출액', 'PSR',
    np.where(
        sample_fs_merge['계정'] == '영업활동으로인한현금흐름', 'PCR',
        np.where(sample_fs_merge['계정'] == '자본', 'PBR',
                 np.where(sample_fs_merge['계정'] == '당기순이익', 'PER', None))))

sample_fs_merge

Unnamed: 0,계정,종목코드,ttm,시가총액,기준일,value,지표
0,당기순이익,5930,287850.0,4525100.0,2024-08-27,15.72034,PER
1,매출액,5930,2811685.0,4525100.0,2024-08-27,1.609391,PSR
2,영업활동으로인한현금흐름,5930,584374.0,4525100.0,2024-08-27,7.7435,PCR
3,자본,5930,3707535.0,4525100.0,2024-08-27,1.220514,PBR


In [16]:
# 티커 리스트의 데이터 중 주당배당금을 종가로 나누어 현재 시점 기준 배당수익률을 계산.
ticker_list_sample = ticker_list[ticker_list['종목코드'] == '005930'].copy()
ticker_list_sample['DY'] = ticker_list_sample['주당배당금'] / ticker_list_sample['종가']

ticker_list_sample.head()

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분,DY
257,5930,삼성전자,KOSPI,75800.0,452510000000000.0,2024-08-27,2131.0,7189.0,52002.0,1444.0,보통주,0.01905


#### 전 종목 가치지표 계산
___

In [None]:
""" 가치지표가 저장될 테이블(kor_value) 생성 in SQL

USE stock_db;

CREATE TABLE kor_value
(
종목코드 VARCHAR(6),
기준일 DATE,
지표 VARCHAR(3),
값 DOUBLE,
PRIMARY KEY (종목코드, 기준일, 지표)
);

"""

In [17]:
# 재무 데이터를 이용 가치지표 계산 Progress

import pymysql
from sqlalchemy import create_engine
import pandas as pd
import numpy as np

# Connect DB
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 분기 재무제표 불러오기
kor_fs = pd.read_sql("""
SELECT * FROM kor_fs
WHERE 공시구분 = 'q'
AND 계정 IN ('당기순이익', '자본', '영업활동으로인한현금흐름', '매출액');
""", con=engine)

# 티커 리스트 불러오기
ticker_list = pd.read_sql("""
SELECT * FROM kor_ticker
WHERE 기준일 = (SELECT MAX(기준일) FROM kor_ticker)
AND 종목구분 = '보통주'; 
""", con=engine)

engine.dispose()

In [18]:
# Calculate TTM
kor_fs = kor_fs.sort_values(['종목코드', '계정', '기준일'])
kor_fs['ttm'] = kor_fs.groupby(['종목코드', '계정'], as_index=False)['값'].rolling(
    window=4, min_periods=4).sum()['값']

# Calculate Mean of Equity
kor_fs['ttm'] = np.where(kor_fs['계정'] == '자본', kor_fs['ttm'] / 4,
                         kor_fs['ttm'])
kor_fs = kor_fs.groupby(['계정', '종목코드']).tail(1)

In [19]:
# TTM 기준으로 계산된 재무제표 테이블과 티커리스트 테이블 병합.
kor_fs_merge = kor_fs[['계정', '종목코드',
                       'ttm']].merge(ticker_list[['종목코드', '시가총액', '기준일']],
                                     on='종목코드')
# 시가총액 단위 통일.
kor_fs_merge['시가총액'] = kor_fs_merge['시가총액'] / 100000000

# 시가총액을 재무데이터 값으로 나누어 가치지표를 계산한 후, 반올림.
kor_fs_merge['value'] = kor_fs_merge['시가총액'] / kor_fs_merge['ttm']
kor_fs_merge['value'] = kor_fs_merge['value'].round(4)
# 각 계정에 맞는 계정명(PSR, PCR, PER, PBR) 설정.
kor_fs_merge['지표'] = np.where(
    kor_fs_merge['계정'] == '매출액', 'PSR',
    np.where(
        kor_fs_merge['계정'] == '영업활동으로인한현금흐름', 'PCR',
        np.where(kor_fs_merge['계정'] == '자본', 'PBR',
                 np.where(kor_fs_merge['계정'] == '당기순이익', 'PER', None))))

kor_fs_merge.rename(columns={'value': '값'}, inplace=True) # 'value'를 '값'으로 변경.
kor_fs_merge = kor_fs_merge[['종목코드', '기준일', '지표', '값']]
# 필요한 열만 선택 후, replace()로 inf와 nan를 None으로 변경 : SQL Server 저장 위해.
kor_fs_merge = kor_fs_merge.replace([np.inf, -np.inf, np.nan], None)

kor_fs_merge.head(4)

Unnamed: 0,종목코드,기준일,지표,값
0,20,2024-08-27,PER,16.3338
1,20,2024-08-27,PSR,0.5555
2,20,2024-08-27,PCR,17.339
3,20,2024-08-27,PBR,0.5559


In [20]:
# 계산된 가치지표를 데이터베이스에 저장 (가치지표를 kor_value 테이블에 upsert 방식으로 저장)

query = """
    INSERT INTO kor_value (종목코드, 기준일, 지표, 값)
    VALUE (%s,%s,%s,%s) AS NEW
    ON DUPLICATE KEY UPDATE
    값 = NEW.값
"""

args_fs = kor_fs_merge.values.tolist()
mycursor.executemany(query, args_fs)
con.commit()

In [21]:
# 배당수익률 계산

# 주당배당금을 종가로 나누어 배당수익률 계산 후, 반올림.
ticker_list['값'] = ticker_list['주당배당금'] / ticker_list['종가']
ticker_list['값'] = ticker_list['값'].round(4)
# '지표'열에 'DY(Dividend Yield, 배당수익률)' 입력.
ticker_list['지표'] = 'DY'
# 원하는 열 선택 후, inf와 nan을 None으로 변경.
dy_list = ticker_list[['종목코드', '기준일', '지표', '값']]
dy_list = dy_list.replace([np.inf, -np.inf, np.nan], None)
# 주당배당금이 0원인 종목은 값이 0으로 계산되므로, 이를 제외한 종목만 선택.
dy_list = dy_list[dy_list['값'] != 0]

dy_list.head()

Unnamed: 0,종목코드,기준일,지표,값
0,20,2024-08-27,DY,0.0223
2,50,2024-08-27,DY,0.0201
3,70,2024-08-27,DY,0.0473
4,80,2024-08-27,DY,0.0442
5,100,2024-08-27,DY,0.004


In [22]:
# 배당수익률을 kor_value 테이블에 upsert 방식으로 저장

args_dy = dy_list.values.tolist()
mycursor.executemany(query, args_dy)
con.commit()

engine.dispose()
con.close()