## 국내 주식 데이터 수집

### 최근 영업일 데이터 받기

In [9]:
import requests as rq
from bs4 import BeautifulSoup

url = 'https://finance.naver.com/sise/sise_deposit.nhn'
data = rq.get(url)
data_html = BeautifulSoup(data.content)
parse_day = data_html.select_one(
    'div.subtop_sise_graph2 > ul.subtop_chart_note > li > span.tah').text

print(parse_day)


  |  2023.11.01


In [10]:
import re

biz_day = re.findall('[0-9]+', parse_day)
biz_day = ''.join(biz_day)

print(biz_day)

20231101


### 한국거래소의 업종분류 현황 및 개별지표 크롤링

- KRX 정보데이터시스템 http://data.krx.co.kr/ 에서 [기본통계 → 주식 → 세부안내] 부분
- [12025] 업종분류 현황: http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020506
- [12021] 개별종목: http://data.krx.co.kr/contents/MDC/MDI/mdiLoader/index.cmd?menuId=MDC0201020502

#### 거래소에서 엑셀 혹은 CSV 데이터를 받기

- http://data.krx.co.kr/comm/fileDn/download_excel/download.cmd 에 원하는 항목을 쿼리로 발송하면 해당 쿼리에 해당하는 OTP(generate.cmd)를 받는다.
- 부여받은 OTP를 http://data.krx.co.kr/ 에 제출하면 이에 해당하는 데이터(download.cmd)를 다운로드한다.

In [11]:
import requests as rq
from io import BytesIO
import pandas as pd

gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
gen_otp_stk = {
    'mktId': 'STK',
    'trdDd': biz_day,
    'money': '1',
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03901'
}
headers = {'Referer': 'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader'}
otp_stk = rq.post(gen_otp_url, gen_otp_stk, headers=headers).text

print(otp_stk)

WSasqFV3tsdBHZAm2xQ4heh0NwoNKR8dPZaJctEogb8RtSksuLS7Bnxpl86F7dAOkunw9BBwugQaSjGAcH15ebBft/TPhkmriT2qT2kDZkgtBgM+EFJCxYg3zco1gIgRZqIo4cIzoURnTI8+MmkJ4m8vFLhSKmM794gFu+ThsO31lY4woqehX8j6OlXFDcfHdV4NbYo4+D2Rwcfj24VnU3Zpq3ik/Dyw3FdyOXhJkBI=


In [12]:
down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
down_sector_stk = rq.post(down_url, {'code': otp_stk}, headers=headers)
sector_stk = pd.read_csv(BytesIO(down_sector_stk.content), encoding='EUC-KR')

sector_stk.head()

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액
0,95570,AJ네트웍스,KOSPI,서비스업,3905,30,0.77,176712023895
1,6840,AK홀딩스,KOSPI,기타금융,17220,-220,-1.26,228123000420
2,27410,BGF,KOSPI,기타금융,3370,50,1.51,322565585670
3,282330,BGF리테일,KOSPI,유통업,144000,5800,4.2,2488882464000
4,138930,BNK금융지주,KOSPI,기타금융,6820,40,0.59,2196643147160


In [13]:
gen_otp_ksq = {
    'mktId': 'KSQ',  # 코스닥 입력
    'trdDd': biz_day,
    'money': '1',
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03901'
}
otp_ksq = rq.post(gen_otp_url, gen_otp_ksq, headers=headers).text

down_sector_ksq = rq.post(down_url, {'code': otp_ksq}, headers=headers)
sector_ksq = pd.read_csv(BytesIO(down_sector_ksq.content), encoding='EUC-KR')

sector_ksq.head()

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액
0,60310,3S,KOSDAQ,기계·장비,2200,105,5.01,106780612400
1,54620,APS,KOSDAQ,금융,5970,40,0.67,121753499370
2,265520,AP시스템,KOSDAQ,반도체,16380,100,0.61,250309675980
3,211270,AP위성,KOSDAQ,통신장비,12020,60,0.5,181289294080
4,126600,BGF에코머티리얼즈,KOSDAQ,화학,3800,-40,-1.04,205326445000


In [14]:
krx_sector = pd.concat([sector_stk, sector_ksq]).reset_index(drop=True)
krx_sector['종목명'] = krx_sector['종목명'].str.strip() #공백 제거
krx_sector['기준일'] = biz_day

krx_sector.head()

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액,기준일
0,95570,AJ네트웍스,KOSPI,서비스업,3905,30,0.77,176712023895,20231101
1,6840,AK홀딩스,KOSPI,기타금융,17220,-220,-1.26,228123000420,20231101
2,27410,BGF,KOSPI,기타금융,3370,50,1.51,322565585670,20231101
3,282330,BGF리테일,KOSPI,유통업,144000,5800,4.2,2488882464000,20231101
4,138930,BNK금융지주,KOSPI,기타금융,6820,40,0.59,2196643147160,20231101


### 개별 종목 지표 크롤링

In [15]:
import requests as rq
from io import BytesIO
import pandas as pd

gen_otp_url = 'http://data.krx.co.kr/comm/fileDn/GenerateOTP/generate.cmd'
gen_otp_data = {
    'searchType': '1',
    'mktId': 'ALL',
    'trdDd': biz_day,
    'csvxls_isNo': 'false',
    'name': 'fileDown',
    'url': 'dbms/MDC/STAT/standard/MDCSTAT03501'
}
headers = {'Referer': 'http://data.krx.co.kr/contents/MDC/MDI/mdiLoader'}
otp = rq.post(gen_otp_url, gen_otp_data, headers=headers).text

down_url = 'http://data.krx.co.kr/comm/fileDn/download_csv/download.cmd'
krx_ind = rq.post(down_url, {'code': otp}, headers=headers)

krx_ind = pd.read_csv(BytesIO(krx_ind.content), encoding='EUC-KR')
krx_ind['종목명'] = krx_ind['종목명'].str.strip()
krx_ind['기준일'] = biz_day

krx_ind.head()

Unnamed: 0,종목코드,종목명,종가,대비,등락률,EPS,PER,선행 EPS,선행 PER,BPS,PBR,주당배당금,배당수익률,기준일
0,60310,3S,2200,105,5.01,30.0,73.33,,,947.0,2.32,0,0.0,20231101
1,95570,AJ네트웍스,3905,30,0.77,201.0,19.43,613.0,6.37,8076.0,0.48,270,6.91,20231101
2,6840,AK홀딩스,17220,-220,-1.26,,,,,41948.0,0.41,200,1.16,20231101
3,54620,APS,5970,40,0.67,505.0,11.82,,,10864.0,0.55,0,0.0,20231101
4,265520,AP시스템,16380,100,0.61,5463.0,3.0,,,17980.0,0.91,270,1.65,20231101


In [16]:
diff = list(set(krx_sector['종목명']).symmetric_difference(set(krx_ind['종목명'])))
print(diff)

['제이알글로벌리츠', '롯데리츠', '미래에셋맵스리츠', '코오롱티슈진', '크리스탈신소재', '미래에셋글로벌리츠', '헝셩그룹', 'NH올원리츠', 'NH프라임리츠', '바다로19호', '코람코라이프인프라리츠', '이지스레지던스리츠', '엑세스바이오', '에이리츠', '맵스리얼티1', '프레스티지바이오파마', '신한알파리츠', '한국패러랠', 'GRT', 'ESR켄달스퀘어리츠', '오가닉티코스메틱', '이스트아시아홀딩스', '코람코더원리츠', '윙입푸드', '소마젠', '맥쿼리인프라', '한국ANKOR유전', 'KB스타리츠', '신한서부티엔디리츠', '잉글우드랩', '엘브이엠씨홀딩스', '마스턴프리미어리츠', '이리츠코크렙', '고스트스튜디오', 'SK리츠', 'SBI핀테크솔루션즈', '글로벌에스엠', '이지스밸류리츠', '라이프시맨틱스 [락]', '로스웰', '한화리츠', '케이탑리츠', '모두투어리츠', '디앤디플랫폼리츠', '컬러레이', '애머릿지', '네오이뮨텍', '삼성FN리츠', '라이프시맨틱스', '씨케이에이치', 'JTC', '골든센츄리']


In [17]:
kor_ticker = pd.merge(krx_sector,
                      krx_ind,
                      on=krx_sector.columns.intersection(
                          krx_ind.columns).tolist(),
                      how='outer')

kor_ticker.head()

Unnamed: 0,종목코드,종목명,시장구분,업종명,종가,대비,등락률,시가총액,기준일,EPS,PER,선행 EPS,선행 PER,BPS,PBR,주당배당금,배당수익률
0,95570,AJ네트웍스,KOSPI,서비스업,3905,30,0.77,176712000000.0,20231101,201.0,19.43,613.0,6.37,8076.0,0.48,270.0,6.91
1,6840,AK홀딩스,KOSPI,기타금융,17220,-220,-1.26,228123000000.0,20231101,,,,,41948.0,0.41,200.0,1.16
2,27410,BGF,KOSPI,기타금융,3370,50,1.51,322565600000.0,20231101,247.0,13.64,,,16528.0,0.2,110.0,3.26
3,282330,BGF리테일,KOSPI,유통업,144000,5800,4.2,2488882000000.0,20231101,11203.0,12.85,12805.0,11.25,55724.0,2.58,4100.0,2.85
4,138930,BNK금융지주,KOSPI,기타금융,6820,40,0.59,2196643000000.0,20231101,2404.0,2.84,2477.0,2.75,30468.0,0.22,625.0,9.16


In [18]:
print(kor_ticker[kor_ticker['종목명'].str.contains('스팩|제[0-9]+호')]['종목명'].values)

['엔에이치스팩19호' 'DB금융스팩10호' 'DB금융스팩11호' 'DB금융스팩9호' 'IBKS제17호스팩' 'IBKS제19호스팩'
 'IBKS제20호스팩' 'IBKS제21호스팩' 'IBKS제22호스팩' 'KB제25호스팩' 'KB제26호스팩' '교보11호스팩'
 '교보12호스팩' '교보13호스팩' '교보14호스팩' '대신밸런스제13호스팩' '대신밸런스제14호스팩' '대신밸런스제15호스팩'
 '대신밸런스제16호스팩' '미래에셋드림스팩1호' '미래에셋비전스팩1호' '미래에셋비전스팩2호' '미래에셋비전스팩3호'
 '비엔케이제1호스팩' '삼성머스트스팩5호' '삼성스팩4호' '삼성스팩6호' '삼성스팩7호' '삼성스팩8호' '상상인제3호스팩'
 '상상인제4호스팩' '신영스팩7호' '신영스팩8호' '신영스팩9호' '신한제10호스팩' '신한제11호스팩' '신한제8호스팩'
 '신한제9호스팩' '에스케이증권제10호스팩' '에스케이증권제8호스팩' '에스케이증권제9호스팩' '에이치엠씨제6호스팩'
 '엔에이치스팩20호' '엔에이치스팩23호' '엔에이치스팩24호' '엔에이치스팩25호' '엔에이치스팩26호' '엔에이치스팩27호'
 '엔에이치스팩28호' '엔에이치스팩29호' '유안타제10호스팩' '유안타제11호스팩' '유안타제12호스팩' '유안타제13호스팩'
 '유안타제14호스팩' '유안타제9호스팩' '유진스팩6호' '유진스팩7호' '유진스팩8호' '유진스팩9호' '케이비제21호스팩'
 '케이비제22호스팩' '케이비제23호스팩' '키움제6호스팩' '키움제7호스팩' '키움제8호스팩' '하나26호스팩' '하나27호스팩'
 '하나28호스팩' '하나29호스팩' '하나금융21호스팩' '하나금융22호스팩' '하나금융23호스팩' '하나금융24호스팩'
 '하나금융25호스팩' '하나머스트7호스팩' '하이제6호스팩' '하이제7호스팩' '하이제8호스팩' '한국제11호스팩'
 '한국제12호스팩' '한화플러스제2호스팩' '한화플러스제3호스팩' '한화플러스제4호스팩']


In [19]:
print(kor_ticker[kor_ticker['종목코드'].str[-1:] != '0']['종목명'].values)

['BYC우' 'CJ4우(전환)' 'CJ씨푸드1우' 'CJ우' 'CJ제일제당 우' 'DL우' 'DL이앤씨2우(전환)' 'DL이앤씨우'
 'GS우' 'JW중외제약2우B' 'JW중외제약우' 'LG생활건강우' 'LG우' 'LG전자우' 'LG화학우' 'LX하우시스우'
 'LX홀딩스1우' 'NH투자증권우' 'NPC우' 'S-Oil우' 'SK디스커버리우' 'SK우' 'SK이노베이션우' 'SK증권우'
 'SK케미칼우' '계양전기우' '금강공업우' '금호건설우' '금호석유우' '깨끗한나라우' '남선알미우' '남양유업우' '넥센우'
 '넥센타이어1우B' '노루페인트우' '노루홀딩스우' '녹십자홀딩스2우' '대교우B' '대덕1우' '대덕전자1우' '대상우'
 '대상홀딩스우' '대신증권2우B' '대신증권우' '대원전선우' '대한제당우' '대한항공우' '덕성우' '동부건설우' '동양2우B'
 '동양우' '동원시스템즈우' '두산2우B' '두산우' '두산퓨얼셀1우' '두산퓨얼셀2우B' '롯데지주우' '롯데칠성우'
 '미래에셋증권2우B' '미래에셋증권우' '부국증권우' '삼성SDI우' '삼성물산우B' '삼성전기우' '삼성전자우' '삼성화재우'
 '삼양사우' '삼양홀딩스우' '서울식품우' '성문전자우' '성신양회우' '세방우' '솔루스첨단소재1우' '솔루스첨단소재2우B'
 '신영증권우' '신풍제약우' '아모레G3우(전환)' '아모레G우' '아모레퍼시픽우' '유안타증권우' '유유제약1우'
 '유유제약2우B' '유한양행우' '유화증권우' '일양약품우' '진흥기업2우B' '진흥기업우B' '코리아써우' '코리아써키트2우B'
 '코오롱글로벌우' '코오롱모빌리티그룹우' '코오롱우' '코오롱인더우' '크라운제과우' '크라운해태홀딩스우' '태양금속우'
 '태영건설우' '티와이홀딩스우' '하이트진로2우B' '하이트진로홀딩스우' '한국금융지주우' '한양증권우' '한진칼우' '한화3우B'
 '한화갤러리아우' '한화솔루션우' '한화우' '한화투자증권우' '현대건설우' '현대차2우B' '현대차3우B' '현대차우

In [20]:
print(kor_ticker[kor_ticker['종목명'].str.endswith('리츠')]['종목명'].values)

['ESR켄달스퀘어리츠' 'KB스타리츠' 'NH올원리츠' 'NH프라임리츠' 'SK리츠' '디앤디플랫폼리츠' '롯데리츠'
 '마스턴프리미어리츠' '모두투어리츠' '미래에셋글로벌리츠' '미래에셋맵스리츠' '삼성FN리츠' '신한서부티엔디리츠' '신한알파리츠'
 '에이리츠' '이지스레지던스리츠' '이지스밸류리츠' '제이알글로벌리츠' '케이탑리츠' '코람코더원리츠' '코람코라이프인프라리츠'
 '한화리츠']


In [21]:
import numpy as np

kor_ticker['종목구분'] = np.where(kor_ticker['종목명'].str.contains('스팩|제[0-9]+호'), '스팩',
                              np.where(kor_ticker['종목코드'].str[-1:] != '0', '우선주',
                                       np.where(kor_ticker['종목명'].str.endswith('리츠'), '리츠',
                                                np.where(kor_ticker['종목명'].isin(diff),  '기타',
                                                '보통주'))))
kor_ticker = kor_ticker.reset_index(drop=True)
kor_ticker.columns = kor_ticker.columns.str.replace(' ', '')
kor_ticker = kor_ticker[['종목코드', '종목명', '시장구분', '종가',
                         '시가총액', '기준일', 'EPS', '선행EPS', 'BPS', '주당배당금', '종목구분']]
kor_ticker = kor_ticker.replace({np.nan: None})
kor_ticker['기준일'] = pd.to_datetime(kor_ticker['기준일'])

kor_ticker.head()

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분
0,95570,AJ네트웍스,KOSPI,3905,176712023895.0,2023-11-01,201.0,613.0,8076.0,270.0,보통주
1,6840,AK홀딩스,KOSPI,17220,228123000420.0,2023-11-01,,,41948.0,200.0,보통주
2,27410,BGF,KOSPI,3370,322565585670.0,2023-11-01,247.0,,16528.0,110.0,보통주
3,282330,BGF리테일,KOSPI,144000,2488882464000.0,2023-11-01,11203.0,12805.0,55724.0,4100.0,보통주
4,138930,BNK금융지주,KOSPI,6820,2196643147160.0,2023-11-01,2404.0,2477.0,30468.0,625.0,보통주


In [None]:
'''{sql}
create database stock_db;

use stock_db;

create table kor_ticker
(
    종목코드 varchar(6) not null,
    종목명 varchar(20),
    시장구분 varchar(6),
    종가 float,
    시가총액 float,
    기준일 date,
    EPS float,
    선행EPS float,
    BPS float,
    주당배당금 float,
    종목구분 varchar(5),
    primary key(종목코드, 기준일)
);
'''

In [22]:
# SQL에 위에서 불러온 데이터를 입력해주기 (UPSERT 방식)

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()
query = f"""
    insert into kor_ticker (종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분)
    values (%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s) as new
    on duplicate key update
    종목명=new.종목명,시장구분=new.시장구분,종가=new.종가,시가총액=new.시가총액,EPS=new.EPS,선행EPS=new.선행EPS,
    BPS=new.BPS,주당배당금=new.주당배당금,종목구분 = new.종목구분;
"""

args = kor_ticker.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

### WICS 기준 섹터정보 크롤링

- http://www.wiseindex.com/Index

- [WISE SECTOR INDEX → WICS → 에너지]

- [Components] 탭을 클릭하면 해당 섹터의 구성종목을 확인

- 개발자 도구에서 Request URL을 확인하면 JSON 형태인 것을 확인.

In [23]:
import json
import requests as rq
import pandas as pd

url = f'''http://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd=G10'''
data = rq.get(url).json()

type(data)

dict

In [24]:
print(data.keys())

dict_keys(['info', 'list', 'sector', 'size'])


In [25]:
data['list'][0]

{'IDX_CD': 'G10',
 'IDX_NM_KOR': 'WICS 에너지',
 'ALL_MKT_VAL': 20774593,
 'CMP_CD': '096770',
 'CMP_KOR': 'SK이노베이션',
 'MKT_VAL': 6786601,
 'WGT': 32.67,
 'S_WGT': 32.67,
 'CAL_WGT': 1.0,
 'SEC_CD': 'G10',
 'SEC_NM_KOR': '에너지',
 'SEQ': 1,
 'TOP60': 3,
 'APT_SHR_CNT': 56367116}

In [26]:
data['sector']

[{'SEC_CD': 'G25', 'SEC_NM_KOR': '경기관련소비재', 'SEC_RATE': 10.13, 'IDX_RATE': 0},
 {'SEC_CD': 'G35', 'SEC_NM_KOR': '건강관리', 'SEC_RATE': 9.12, 'IDX_RATE': 0},
 {'SEC_CD': 'G50', 'SEC_NM_KOR': '커뮤니케이션서비스', 'SEC_RATE': 6.36, 'IDX_RATE': 0},
 {'SEC_CD': 'G40', 'SEC_NM_KOR': '금융', 'SEC_RATE': 8.26, 'IDX_RATE': 0},
 {'SEC_CD': 'G10', 'SEC_NM_KOR': '에너지', 'SEC_RATE': 1.88, 'IDX_RATE': 100.0},
 {'SEC_CD': 'G20', 'SEC_NM_KOR': '산업재', 'SEC_RATE': 11.9, 'IDX_RATE': 0},
 {'SEC_CD': 'G55', 'SEC_NM_KOR': '유틸리티', 'SEC_RATE': 0.96, 'IDX_RATE': 0},
 {'SEC_CD': 'G30', 'SEC_NM_KOR': '필수소비재', 'SEC_RATE': 2.36, 'IDX_RATE': 0},
 {'SEC_CD': 'G15', 'SEC_NM_KOR': '소재', 'SEC_RATE': 9.08, 'IDX_RATE': 0},
 {'SEC_CD': 'G45', 'SEC_NM_KOR': 'IT', 'SEC_RATE': 39.96, 'IDX_RATE': 0}]

In [27]:
data_pd = pd.json_normalize(data['list'])

data_pd.head()

Unnamed: 0,IDX_CD,IDX_NM_KOR,ALL_MKT_VAL,CMP_CD,CMP_KOR,MKT_VAL,WGT,S_WGT,CAL_WGT,SEC_CD,SEC_NM_KOR,SEQ,TOP60,APT_SHR_CNT
0,G10,WICS 에너지,20774593,96770,SK이노베이션,6786601,32.67,32.67,1.0,G10,에너지,1,3,56367116
1,G10,WICS 에너지,20774593,9830,한화솔루션,3324574,16.0,48.67,1.0,G10,에너지,2,3,108292298
2,G10,WICS 에너지,20774593,10950,S-Oil,2770100,13.33,62.0,1.0,G10,에너지,3,3,41655633
3,G10,WICS 에너지,20774593,267250,HD현대,2543577,12.24,74.25,1.0,G10,에너지,4,3,44236128
4,G10,WICS 에너지,20774593,78930,GS,1957495,9.42,83.67,1.0,G10,에너지,5,3,49245150


In [28]:
# for 문을 활용해 모든 섹터의 구성종목을 크롤링

import time
import json
import requests as rq
import pandas as pd
from tqdm import tqdm

sector_code = [
    'G25', 'G35', 'G50', 'G40', 'G10', 'G20', 'G55', 'G30', 'G15', 'G45'
]

data_sector = []

for i in tqdm(sector_code):
    url = f'''http://www.wiseindex.com/Index/GetIndexComponets?ceil_yn=0&dt={biz_day}&sec_cd={i}'''    
    data = rq.get(url).json()
    data_pd = pd.json_normalize(data['list'])

    data_sector.append(data_pd)

    time.sleep(2)

kor_sector = pd.concat(data_sector, axis = 0)
kor_sector = kor_sector[['IDX_CD', 'CMP_CD', 'CMP_KOR', 'SEC_NM_KOR']]
kor_sector['기준일'] = biz_day
kor_sector['기준일'] = pd.to_datetime(kor_sector['기준일'])

100%|██████████| 10/10 [00:31<00:00,  3.17s/it]


In [None]:
'''{SQL}
use stock_db;

create table kor_sector
(
    IDX_CD varchar(3),
    CMP_CD varchar(6),
    CMP_KOR varchar(20),
    SEC_NM_KOR varchar(10),
    기준일 date,
    primary key(CMP_CD, 기준일)
);
'''

In [29]:
# 파이썬의 데이터를 SQL로 전송

import pymysql

con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')

mycursor = con.cursor()
query = f"""
    insert into kor_sector (IDX_CD, CMP_CD, CMP_KOR, SEC_NM_KOR, 기준일)
    values (%s,%s,%s,%s,%s) as new
    on duplicate key update
    IDX_CD = new.IDX_CD, CMP_KOR = new.CMP_KOR, SEC_NM_KOR = new.SEC_NM_KOR
"""

args = kor_sector.values.tolist()

mycursor.executemany(query, args)
con.commit()

con.close()

### 수정 주가 크롤링
- 네이버증권 > 차트 > 개발자도구 > '일'버튼 클릭 > Network 확인 > 어떤식으로 수정주가가 불러와지는지 확인.
- siseJason~~ 클릭 > Request URL과 Request Method 확인.

In [38]:
# 개별 종목 주가 크롤링

from sqlalchemy import create_engine
import pandas as pd

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
query = """
select * from kor_ticker
where 기준일 = (select max(기준일) from kor_ticker) 
	and 종목구분 = '보통주';
"""
ticker_list = pd.read_sql(query, con=engine)
engine.dispose()

ticker_list.head()

Unnamed: 0,종목코드,종목명,시장구분,종가,시가총액,기준일,EPS,선행EPS,BPS,주당배당금,종목구분
0,20,동화약품,KOSPI,9500.0,265349000000.0,2023-11-01,736.0,,13165.0,180.0,보통주
1,40,KR모터스,KOSPI,510.0,49030600000.0,2023-11-01,,,345.0,0.0,보통주
2,50,경방,KOSPI,8010.0,219596000000.0,2023-11-01,177.0,,30304.0,125.0,보통주
3,70,삼양홀딩스,KOSPI,67900.0,581514000000.0,2023-11-01,9173.0,,240995.0,3500.0,보통주
4,80,하이트진로,KOSPI,21750.0,1525410000000.0,2023-11-01,1250.0,1033.0,16906.0,950.0,보통주


In [39]:
from dateutil.relativedelta import relativedelta
import requests as rq
from io import BytesIO
from datetime import date

i = 0
ticker = ticker_list['종목코드'][i]
fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")
to = (date.today()).strftime("%Y%m%d")

url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1
&startTime={fr}&endTime={to}&timeframe=day'''

data = rq.get(url).content
data_price = pd.read_csv(BytesIO(data))

data_price.head()

Unnamed: 0,[['날짜','시가','고가','저가','종가','거래량','외국인소진율'],Unnamed: 7
0,"[""20181105""",9290.0,9940.0,9200.0,9510.0,172127.0,8.51],
1,"[""20181106""",9520.0,9760.0,9420.0,9640.0,81099.0,8.51],
2,"[""20181107""",9640.0,9900.0,9500.0,9570.0,144059.0,8.53],
3,"[""20181108""",9690.0,9990.0,9560.0,9740.0,131886.0,8.52],
4,"[""20181109""",9740.0,10050.0,9450.0,9980.0,133154.0,8.48],


In [40]:
import re

price = data_price.iloc[:, 0:6]
price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
price = price.dropna()
price['날짜'] = price['날짜'].str.extract('(\d+)')
price['날짜'] = pd.to_datetime(price['날짜'])
price['종목코드'] = ticker

price.head()

Unnamed: 0,날짜,시가,고가,저가,종가,거래량,종목코드
0,2018-11-05,9290.0,9940.0,9200.0,9510.0,172127.0,20
1,2018-11-06,9520.0,9760.0,9420.0,9640.0,81099.0,20
2,2018-11-07,9640.0,9900.0,9500.0,9570.0,144059.0,20
3,2018-11-08,9690.0,9990.0,9560.0,9740.0,131886.0,20
4,2018-11-09,9740.0,10050.0,9450.0,9980.0,133154.0,20


In [None]:
# 지금까지의 과정을 응용해서 전 종목의 정보를 SQL의 DB에 저장하기.
'''{SQL}
use stock_db;
create table kor_price
(
    날짜 date,
    시가 double,
    고가 double,
    저가 double,
    종가 double,
    거래량 double,
    종목코드 varchar(6),
    primary key(날짜, 종목코드)
);
'''

In [41]:
# 패키지 불러오기
import pymysql
from sqlalchemy import create_engine
import pandas as pd
from datetime import date
from dateutil.relativedelta import relativedelta
import requests as rq
import time
from tqdm import tqdm
from io import BytesIO

# DB 연결
engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
con = pymysql.connect(user='root',
                      passwd='1234',
                      host='127.0.0.1',
                      db='stock_db',
                      charset='utf8')
mycursor = con.cursor()

# 티커리스트 불러오기
ticker_list = pd.read_sql("""
select * from kor_ticker
where 기준일 = (select max(기준일) from kor_ticker) 
	and 종목구분 = '보통주';
""", con=engine)

# DB 저장 쿼리
query = """
    insert into kor_price (날짜, 시가, 고가, 저가, 종가, 거래량, 종목코드)
    values (%s,%s,%s,%s,%s,%s,%s) as new
    on duplicate key update
    시가 = new.시가, 고가 = new.고가, 저가 = new.저가,
    종가 = new.종가, 거래량 = new.거래량;
"""

# 오류 발생시 저장할 리스트 생성
error_list = []

# 전종목 주가 다운로드 및 저장
for i in tqdm(range(0, len(ticker_list))):

    # 티커 선택
    ticker = ticker_list['종목코드'][i]

    # 시작일과 종료일
    fr = (date.today() + relativedelta(years=-5)).strftime("%Y%m%d")
    to = (date.today()).strftime("%Y%m%d")

    # 오류 발생 시 이를 무시하고 다음 루프로 진행
    try:

        # url 생성
        url = f'''https://fchart.stock.naver.com/siseJson.nhn?symbol={ticker}&requestType=1
        &startTime={fr}&endTime={to}&timeframe=day'''

        # 데이터 다운로드
        data = rq.get(url).content
        data_price = pd.read_csv(BytesIO(data))

        # 데이터 클렌징
        price = data_price.iloc[:, 0:6]
        price.columns = ['날짜', '시가', '고가', '저가', '종가', '거래량']
        price = price.dropna()
        price['날짜'] = price['날짜'].str.extract('(\d+)')
        price['날짜'] = pd.to_datetime(price['날짜'])
        price['종목코드'] = ticker

        # 주가 데이터를 DB에 저장
        args = price.values.tolist()
        mycursor.executemany(query, args)
        con.commit()

    except:

        # 오류 발생시 error_list에 티커 저장하고 넘어가기
        print(ticker)
        error_list.append(ticker)

    # 타임슬립 적용
    time.sleep(2)

# DB 연결 종료
engine.dispose()
con.close()

100%|██████████| 2382/2382 [1:55:31<00:00,  2.91s/it]  
