## Dart의 Open API를 이용한 데이터 수집하기

- https://opendart.fss.or.kr/ 에서 회원가입을 한 후 API Key를 발급받는다.
- 발급 받은 API Key를 keyring 패키지를 이용해 저장한다.
  

In [1]:
import keyring

# keyring.set_password('dart_api_key', 'User Name', 'Password')
keyring.set_password('dart_api_key', 'myeongsu', '09d5eb36c836871a052b39bcbaf9a2d878b25f48')

- 각 기업의 데이터를 받기 위해서는 종목에 해당하는 고유번호를 알아야 한다.

In [2]:
import keyring
import requests as rq
from io import BytesIO
import zipfile

api_key = keyring.get_password('dart_api_key', 'myeongsu')   # 1
codezip_url = f'''https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key={api_key}'''   # 2
codezip_data = rq.get(codezip_url)   # 3
codezip_data.headers   # 4

{'Cache-Control': 'no-cache, no-store', 'Connection': 'keep-alive', 'Set-Cookie': 'WMONID=P_TlcZYptkD; Expires=Wed, 25-Mar-2026 15:49:9 GMT; Path=/', 'Pragma': 'no-cache', 'Expires': '0', 'Content-Transfer-Encoding': 'binary', 'Content-Disposition': ': attachment; filename=CORPCODE.zip', 'Date': 'Tue, 25 Mar 2025 06:49:09 GMT', 'Content-Type': 'application/x-msdownload;charset=UTF-8', 'Content-Length': '3321818'}

1. get_password() 함수를 통해 API Key를 불러온다.
2. https://opendart.fss.or.kr/api/corpCode.xml?crtfc_key= 뒤에 본인의 API 키를 입력한다.
3. get() 함수를 통해 해당 페이지 내용을 받는다.
4. 헤더를 확인해 보면 'attachment; filename=CORPCODE.zip', 즉 파일이 첨부되어 있다. 이에 대해 좀 더 자세히 알아본다.

In [3]:
codezip_data.headers['Content-Disposition']

': attachment; filename=CORPCODE.zip'

- 해당 파일의 압축을 풀어 첨부된 내용을 확인해 본다.

In [5]:
codezip_file = zipfile.ZipFile(BytesIO(codezip_data.content))
codezip_file.namelist()

['CORPCODE.xml']

In [10]:
import xmltodict
import json
import pandas as pd

code_data = codezip_file.read('CORPCODE.xml').decode('utf-8')   # 1
data_odict = xmltodict.parse(code_data)   # 2
data_dict = json.loads(json.dumps(data_odict))   # 3
data = data_dict.get('result').get('list')   # 4
crop_list = pd.DataFrame(data)

crop_list.head()

Unnamed: 0,corp_code,corp_name,corp_eng_name,stock_code,modify_date
0,434003,다코,Daco corporation,,20170630
1,430964,굿앤엘에스,"Good & LS Co.,Ltd.",,20170630
2,388953,크레디피아제이십오차유동화전문회사,Credipia 25th Asset Securitization Specialty L...,,20170630
3,179984,연방건설산업,youn bao,,20170630
4,420143,브룩스피알아이오토메이션잉크,"BROOKS-PRI Automation, Inc.",,20170630


1. read() 메서드를 통해 'CORPCODE.xml' 파일을 불러온 후, decode() 메서드를 통해 UTF-8 형태로 변경한다.
2. xmltodict 패키지의 parse() 함수를 이용해 딕셔너리 형태로 변경한다.
3. 위 데이터를 dumps() 함수를 통해 JSON 형태로 바꿔 준 후, loads() 함수를 통해 불러온다.
4. get() 함수를 통해 result 내에서 list 부분만 불러온다.
5. 데이터프레임 형태로 변경해 준다.

- len() 함수를 통해 종목 수를 확인해 해면 거래소의 상장 종목수보다 훨씬 많으며, 이는 stock_code 열이 빈 종목, 즉 거래소에 상장되지 않은 종목도 포함되어 있기 때문이다. 따라서 해당 데이터는 삭제하여 거래소 상장 종목만을 남긴 후 DB에 저장한다.

In [11]:
len(crop_list)

109936

In [12]:
import pymysql
from sqlalchemy import create_engine

corp_list = corp_list[~corp_list.stock_code.isin([None])].reset_index(drop=True)

engine = create_engine('mysql+pymysql://root:1234@127.0.0.1:3306/stock_db')
corp_list.to_sql(name='dart_code', con=engine, index=True, if_exists='replace')

3853