# Parse tables to database

https://nbviewer.jupyter.org/github/FinanceData/OpenDartReader/blob/master/docs/OpenDartReader_reference_manual.ipynb


```
KOSPI
└── Companys
    └── Receipts
        ├── BS: Financial statement(Balance Sheet)
        ├── IS: Income Statement
        ├── CIS: Comprehensive Income Statement
        ├── CF: Cash flow statement
        └── SCE: Statement of Changes in Equity
```

<p align="center">
    <img alt="Alt Text" src="https://g.gravizo.com/svg?digraph%20G%20%7B%0A%20%201%20%5Blabel%3D%22KOSPI%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%202%20%5Blabel%3D%22Company1%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%203%20%5Blabel%3D%22Company2%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%204%20%5Blabel%3D%22...%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%205%20%5Blabel%3D%22Receipt%20No.1%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%206%20%5Blabel%3D%22Receipt%20No.2%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%20%20%20%20%0A%20%207%20%5Blabel%3D%22...%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%208%20%5Blabel%3D%22BS%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%209%20%5Blabel%3D%22IS%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%2010%20%5Blabel%3D%22CIS%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%2011%20%5Blabel%3D%22CF%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%2012%20%5Blabel%3D%22SCE%22%2C%20fontcolor%3Dblack%2C%20shape%3Dbox%5D%3B%0A%20%201%20-%3E%202%20-%3E%205%3B%0A%20%201%20-%3E%203%3B%0A%20%201%20-%3E%204%3B%0A%20%202%20-%3E%206%3B%0A%20%202%20-%3E%207%3B%0A%20%206%20-%3E%208%3B%0A%20%206%20-%3E%209%3B%0A%20%206%20-%3E%2010%3B%0A%20%206%20-%3E%2011%3B%0A%20%206%20-%3E%2012%3B%0A%7D" />
</p>
<details>
<summary>How to create graph in markdown?</summary>

```python
from urllib.parse import quote
raw = """digraph G {
  1 [label="KOSPI", fontcolor=black, shape=box];
  2 [label="Company1", fontcolor=black, shape=box];
  3 [label="Company2", fontcolor=black, shape=box];
  4 [label="...", fontcolor=black, shape=box];
  5 [label="Receipt No.1", fontcolor=black, shape=box];
  6 [label="Receipt No.2", fontcolor=black, shape=box];    
  7 [label="...", fontcolor=black, shape=box];
  8 [label="BS", fontcolor=black, shape=box];
  9 [label="IS", fontcolor=black, shape=box];
  10 [label="CIS", fontcolor=black, shape=box];
  11 [label="CF", fontcolor=black, shape=box];
  12 [label="SCE", fontcolor=black, shape=box];
  1 -> 2 -> 5;
  1 -> 3;
  1 -> 4;
  2 -> 6;
  2 -> 7;
  6 -> 8;
  6 -> 9;
  6 -> 10;
  6 -> 11;
  6 -> 12;
}"""
txt = quote(raw)
```
    
copy the text behind https://g.gravizo.com/svg?
</details>

# Finance DataReader

In [1]:
from private.apikey import APIKEY

import pandas as pd
import OpenDartReader
import FinanceDataReader as fdr

dart = OpenDartReader(APIKEY) 

In [2]:
stocks = fdr.StockListing("KOSPI")
stocks = stocks.loc[~stocks["Sector"].isnull(), :]
stocks_syms = stocks["Symbol"].values
stocks = stocks.reset_index(drop=True)

In [3]:
stocks

Unnamed: 0,Symbol,Market,Name,Sector,Industry,ListingDate,SettleMonth,Representative,HomePage,Region
0,095570,KOSPI,AJ네트웍스,산업용 기계 및 장비 임대업,"렌탈(파렛트, OA장비, 건설장비)",2015-08-21,12월,박대현,http://www.ajnet.co.kr,서울특별시
1,006840,KOSPI,AK홀딩스,기타 금융업,지주사업,1999-08-11,12월,"채형석, 이석주(각자 대표이사)",http://www.aekyunggroup.co.kr,서울특별시
2,027410,KOSPI,BGF,기타 금융업,지주회사,2014-05-19,12월,홍정국,http://www.bgf.co.kr,서울특별시
3,282330,KOSPI,BGF리테일,종합 소매업,체인화 편의점,2017-12-08,12월,이건준,http://www.bgfretail.com,서울특별시
4,138930,KOSPI,BNK금융지주,기타 금융업,금융지주회사,2011-03-30,12월,김지완,http://www.bnkfg.com,부산광역시
...,...,...,...,...,...,...,...,...,...,...
803,079980,KOSPI,휴비스,화학섬유 제조업,"합성섬유(폴리에스테르원사,원면),재생섬유,폴리에스텔 원사,원면,고상칩 제조,도소매",2012-02-23,12월,신유동,http://www.huvis.com,서울특별시
804,005010,KOSPI,휴스틸,1차 철강 제조업,"강관(배관용,구조용,유정용) 제조,도매",1973-06-29,12월,박훈,http://www.husteel.com,서울특별시
805,069260,KOSPI,휴켐스,기타 화학제품 제조업,"화합물,화학제품 제조",2002-10-07,12월,신진용,http://www.huchems.com,서울특별시
806,000540,KOSPI,흥국화재,보험업,손해보험,1974-12-05,12월,권중원,http://www.insurance.co.kr,서울특별시


In [5]:
import sqlite3
from pathlib import Path

db_path = Path("./private/")
conn = sqlite3.connect(db_path / "kospi.db")
# Samsung Electronic: 005930
# conn = sqlite3.connect(db_path / "samsung_new.db")
c = conn.cursor()

In [6]:
stocks.to_sql("kospi", conn, index=True)

## Company Basic

- corp_name: 정식명칭
- corp_name_eng: 영문명칭
- stock_name: 종목명 또는 약식명칭 
- stock_code: 상장회사인 경우 주식의 종목코드
- ceo_nm: 대표자명
- crop_cls: 법인구분
- jurir_no: 법인등록번호
- bizr_no: 사업자등록번호
- adres: 주소
- hm_url: 홈페이지
- ir_url: IR홈페이지
- phn_no: 전화번호
- fax_no: 팩스번호
- induty_code: 업종코드
- estdt: 설립일
- acc_mt: 결산월

In [7]:
from tqdm.notebook import tqdm

In [10]:
basic_cols = [
    'corp_name', 'corp_name_eng', 'stock_name', 'stock_code', 'ceo_nm', 'corp_cls', 
    'jurir_no', 'bizr_no', 'adres', 'hm_url', 'ir_url', 'phn_no', 'fax_no', 'induty_code', 'est_dt', 'acc_mt'
]
df_basic = pd.DataFrame([dart.company(s) for s in tqdm(stocks_syms)]).loc[:, basic_cols]
df_basic.to_sql("company", conn, index=True)

  0%|          | 0/808 [00:00<?, ?it/s]

In [11]:
df_basic.head()

Unnamed: 0,corp_name,corp_name_eng,stock_name,stock_code,ceo_nm,corp_cls,jurir_no,bizr_no,adres,hm_url,ir_url,phn_no,fax_no,induty_code,est_dt,acc_mt
0,AJ네트웍스 주식회사,"AJ Networks Co.,Ltd.",AJ네트웍스,95570,박대현,Y,1101111874654,2148648586,"서울특별시 송파구 정의로8길 9 (문정동,AJ빌딩)",www.ajnet.co.kr,,02-6363-9999,02-6240-0888,76320,20000210,12
1,AK홀딩스(주),"AK Holdings, Inc.",AK홀딩스,6840,"채형석, 이석주(각자 대표이사)",Y,1101110029721,1138110894,서울특별시 마포구 양화로 188 -,www.aekyunggroup.co.kr,,02-768-2923,02-768-2904,64992,19701013,12
2,(주)비지에프,"BGF CO., LTD.",BGF,27410,홍정국,Y,1101111105215,1208144752,서울특별시 강남구 테헤란로 405,www.bgf.co.kr,,1577-3663,02-7081398,64992,19941201,12
3,(주)비지에프리테일,"BGF retail CO., LTD.",BGF리테일,282330,이건준,Y,1101116555770,8938800792,서울특별시 강남구 테헤란로 405 BGF사옥,www.bgfretail.com,,02-1577-8007,02-528-6820,47122,20171101,12
4,(주)BNK금융지주,BNK Financial Group Inc.,BNK금융지주,138930,김지완,Y,1801110750893,6058605385,부산광역시 남구 문현금융로 30(문현동),www.bnkfg.com,,051-620-3023,051-620-3040,64992,20110315,12


In [14]:
# df_samsung = pd.DataFrame([dart.company("005930")]).loc[:, basic_cols]

# DROP TABLE if exists
# sql = "DROP TABLE company"
# res = c.execute(sql)

# insert into "company" table
# df_samsung.to_sql("company", conn, index=True)

In [16]:
sql = "SELECT * FROM company"
res = c.execute(sql)
col_company = list(map(lambda x: x[0], res.description))
for col, value in zip(col_company, res.fetchone()):
    print(f"{col}: {value}")

index: 0
corp_name: AJ네트웍스 주식회사
corp_name_eng: AJ Networks Co.,Ltd.
stock_name: AJ네트웍스
stock_code: 095570
ceo_nm: 박대현
corp_cls: Y
jurir_no: 1101111874654
bizr_no: 2148648586
adres: 서울특별시 송파구 정의로8길 9 (문정동,AJ빌딩)
hm_url: www.ajnet.co.kr
ir_url: 
phn_no: 02-6363-9999
fax_no: 02-6240-0888
induty_code: 76320
est_dt: 20000210
acc_mt: 12


## Report

- corp (문자열): 검색대상 회사의 종목코드를 지정합니다. 고유번호, 회사이름도 가능합니다.
- key_word (문자열): 조회 내용 지정, 아래 "key_word 항목"을 참고하십시오 ('증자','배당','자기주식','최대주주','최대주주변동','소액주주','임원','직원','임원개인보수','임원전체보수','개인별보수','타법인출자')
- bsns_year (문자열 혹은 정수값): 사업연도
- reprt_code (문자열): 보고서 코드 ('11013'=1분기보고서, '11012'=반기보고서, '11014'=3분기보고서, '11011'=사업보고서)

반환값 (DataFrame): 조회 결과를 데이터프레임(DataFrame)으로 반환합니다. 데이터프레임의 각 컬럼은 다음과 같습니다.

- rcept_no: 접수번호
- corp_cls: 법인구분 Y(유가), K(코스닥), N(코넥스), E(기타)
- corp_code: 고유번호
- corp_name: 법인명

key_word 항목 지정에 따라 결과 데이터의 컬럼이 달라집니다. '배당' - 배당에 관한 사항

- se: 구분. 유상증자(주주배정), 전환권행사 등
- stock_knd: 주식 종류
- thstrm: 당기
- frmtrm: 전기
- lwfr: 전전기

In [17]:
corp = "005930"
bsns_year = 2020

In [18]:
# ['증자', '배당', '자기주식', '최대주주', '최대주주변동', '소액주주', '임원', '직원', '임원개인보수', '임원전체보수', '개인별보수', '타법인출자']
dart.report(corp, '개인별보수', bsns_year, reprt_code='11011')

Unnamed: 0,rcept_no,corp_cls,corp_code,corp_name,nm,ofcps,mendng_totamt,mendng_totamt_ct_incls_mendng
0,20210309000744,Y,126380,삼성전자,권오현,고 문,17233000000,-
1,20210309000744,Y,126380,삼성전자,윤부근,고 문,11527000000,-
2,20210309000744,Y,126380,삼성전자,신종균,고 문,11327000000,-
3,20210309000744,Y,126380,삼성전자,전동수,前고문,10908000000,-
4,20210309000744,Y,126380,삼성전자,김기남,대표이사,8274000000,-


## Finstate
- corp (문자열): 검색대상 회사의 종목코드를 지정합니다. 고유번호, 회사이름도 가능합니다.
- bsns_year (문자열 혹은 정수값): 사업연도
- reprt_code (문자열): 보고서 코드 ('11013'=1분기보고서, '11012'=반기보고서, '11014'=3분기보고서, '11011'=사업보고서)

반환값 (DataFrame): 조회 결과를 데이터프레임(DataFrame)으로 반환합니다. 데이터프레임의 각 컬럼은 다음과 같습니다.

- rcept_no: 접수번호
- corp_code: 사업 연도
- stock_code: 종목 코드
- reprt_code: 보고서 코드
- account_nm: 계정명 (예: 자본총계)
- fs_div: 개별/연결구분 ('CFS'=연결재무제표, 'OFS'=재무제표)
- fs_nm: 개별/연결명 ('연결재무제표' 또는 '재무제표')
- sj_div: 재무제표구분 ('BS'=재무상태표, 'IS'=손익계산서)
- sj_nm: 재무제표명 ( '재무상태표' 또는 '손익계산서')
- thstrm_nm: 당기명
- thstrm_dt: 당기일자
- thstrm_amount: 당기금액
- thstrm_add_amount: 당기누적금액
- frmtrm_nm: 전기명
- frmtrm_dt: 전기일자
- frmtrm_amount: 전기금액
- frmtrm_add_amount: 전기누적금액
- bfefrmtrm_nm: 전전기명
- bfefrmtrm_dt: 전전일자
- bfefrmtrm_amount: 전전기금액
- ord: 계정과목 정렬순서

In [19]:
df_summary = dart.finstate(corp, bsns_year, reprt_code="11011")
for col in ["thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]:
    df_summary.loc[:, col] = df_summary.loc[:, col].apply(lambda x: int("".join(x.split(","))))
    
cols = ["fs_div", "sj_div", "account_nm", "thstrm_nm", "thstrm_amount"] # "frmtrm_nm", "frmtrm_amount", "bfefrmtrm_nm", "bfefrmtrm_amount"]
df_summary.loc[:, cols].groupby(["thstrm_nm", "fs_div", "sj_div", "account_nm"]).agg("sum")

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,thstrm_amount
thstrm_nm,fs_div,sj_div,account_nm,Unnamed: 4_level_1
제 52 기,CFS,BS,부채총계,102287702000000
제 52 기,CFS,BS,비유동부채,26683351000000
제 52 기,CFS,BS,비유동자산,180020139000000
제 52 기,CFS,BS,유동부채,75604351000000
제 52 기,CFS,BS,유동자산,198215579000000
제 52 기,CFS,BS,이익잉여금,271068211000000
제 52 기,CFS,BS,자본금,897514000000
제 52 기,CFS,BS,자본총계,275948016000000
제 52 기,CFS,BS,자산총계,378235718000000
제 52 기,CFS,IS,당기순이익,26407832000000


In [20]:
df_summary["account_nm"].unique()

array(['유동자산', '비유동자산', '자산총계', '유동부채', '비유동부채', '부채총계', '자본금', '이익잉여금',
       '자본총계', '매출액', '영업이익', '법인세차감전 순이익', '당기순이익'], dtype=object)

In [21]:
df_summary.loc[:, ["fs_div", "fs_nm"]].loc[~df_summary.loc[:, ["fs_div", "fs_nm"]].duplicated(keep="first")]

Unnamed: 0,fs_div,fs_nm
0,CFS,연결재무제표
13,OFS,재무제표


## Query 와 SQL 만들기

- [시간]: BS: '제\*\*기', '20\*\*년도', '올해', '작년' / IS: '20\*\*년도 부터 20\*\*년 까지', 
- [계정]: BS: '유동자산', '비유동자산', '자산총계', '유동부채', '비유동부채', '부채총계', '자본금', '이익잉여금', '자본총계' / IS: '매출액', '영업이익', '법인세차감전 순이익', '당기순이익'
- [질문]: '얼마나돼', '얼마야', '어떻게돼'

**format의 형태**

틀린 질문을 만들수 없게 로직짜기

단순 계정 관련 질문:
- Q: 삼성전자 [시간]의 [계정]은/는 [질문]? 
- Q: [시간]에서 삼성전자의 [계정]은/는 [질문]?

## XBRL 표준계정과목체계(계정과목)

In [26]:
df_bs1 = dart.xbrl_taxonomy(sj_div="BS1")
df_is1 = dart.xbrl_taxonomy(sj_div="IS1")
bs1_dict = {k: v for k, v in df_bs1.loc[:, ["label_kor", "account_nm"]].values}
is1_dict = {k: v for k, v in df_is1.loc[:, ["label_kor", "account_nm"]].values}

In [27]:
for x, v in list(is1_dict.items()):
    if "당기순이익" in x:
        print(x, v)
        break

당기순이익(손실) ProfitLoss


In [28]:
account_dict = {
    "유동자산" : "CurrentAssets",
    "비유동자산" : "NoncurrentAssets",
    "자산총계" : "Assets",
    "유동부채" : "CurrentLiabilities",
    "비유동부채" : "NoncurrentLiabilities",
    "부채총계" : "Liabilities",
    "자본금" : "IssuedCapital",
    "이익잉여금" : "RetainedEarnings",
    "자본총계" : "Equity",
    "매출액" : "Revenue",
    "영업이익" : "OperatingIncomeLoss",
    "법인세차감전 순이익" : "ProfitLossBeforeTax",
    "당기순이익" : "ProfitLoss"
}

In [29]:
for sj, acc in df_summary.loc[df_summary["fs_div"] == "CFS", ["sj_div", "account_nm"]].values:
    print(f"{acc} = {account_dict.get(acc)}")

유동자산 = CurrentAssets
비유동자산 = NoncurrentAssets
자산총계 = Assets
유동부채 = CurrentLiabilities
비유동부채 = NoncurrentLiabilities
부채총계 = Liabilities
자본금 = IssuedCapital
이익잉여금 = RetainedEarnings
자본총계 = Equity
매출액 = Revenue
영업이익 = OperatingIncomeLoss
법인세차감전 순이익 = ProfitLossBeforeTax
당기순이익 = ProfitLoss


In [32]:
def preprocess_finstate(df):
#     account_dict = {
#         "유동자산" : "CurrentAssets",
#         "비유동자산" : "NoncurrentAssets",
#         "자산총계" : "Assets",
#         "유동부채" : "CurrentLiabilities",
#         "비유동부채" : "NoncurrentLiabilities",
#         "부채총계" : "Liabilities",
#         "자본금" : "IssuedCapital",
#         "이익잉여금" : "RetainedEarnings",
#         "자본총계" : "Equity",
#         "매출액" : "Revenue",
#         "영업이익" : "OperatingIncomeLoss",
#         "법인세차감전 순이익" : "ProfitLossBeforeTax",
#         "당기순이익" : "ProfitLoss"
#     }
#     df.loc[:, "account_nm"] = df.loc[:, "account_nm"].apply(account_dict.get)

    for col in ["thstrm_amount", "frmtrm_amount", "bfefrmtrm_amount"]:
        if col in df.columns:
            df.loc[:, col] = df.loc[:, col].apply(lambda x: int("".join(x.split(","))))
            
    return df

In [33]:
corp = "005930"
bsns_years = list(range(2015, 2021))

In [37]:
df_receipts = pd.concat([preprocess_finstate(dart.finstate(corp, bsns_year, reprt_code="11011")).iloc[:12, :-1] for bsns_year in bsns_years]).reset_index(drop=True)
df_receipts.loc[:, "bsns_year"] = df_receipts.loc[:, "bsns_year"].astype(int)

## receipts all

당기 만 저장

In [56]:
import time

In [57]:
select_columns = ['rcept_no', 'reprt_code', 'bsns_year', 'corp_code', 'stock_code', 'fs_div', 'fs_nm', 'sj_div', 'sj_nm', 'account_nm', 'thstrm_nm','thstrm_dt', 'thstrm_amount']
bsns_years = list(range(2018, 2021))
dfs = {}
for corp in tqdm(stocks_syms):
    dfs[corp] = []
    for bsns_year in bsns_years:
        df = dart.finstate(corp, bsns_year)
        time.sleep(1)
        if df is None:
            continue
        else:
            df = df.loc[:12, select_columns]
            df.loc[df["thstrm_amount"] == "-", "thstrm_amount"] = "0"
            df.loc[:, "thstrm_amount"] = df.loc[:, "thstrm_amount"].apply(lambda x: int("".join(x.split(",")))).astype(int)
            df.loc[:, "bsns_year"] = df.loc[:, "bsns_year"].astype(int)
            dfs[corp].append(df)


  0%|          | 0/808 [00:00<?, ?it/s]

TypeError: cannot concatenate object of type '<class 'list'>'; only Series and DataFrame objs are valid

In [76]:
# 59 companys don's have receipts for now
sum([True if len(dfs[corp]) == 0 else False for corp in tqdm(stocks_syms)])

  0%|          | 0/808 [00:00<?, ?it/s]

59

In [77]:
# save to sql
for corp in tqdm(stocks_syms):
    if len(dfs[corp]) == 0:
        continue
    df = pd.concat(dfs[corp]).reset_index(drop=True)
    table_name = f"{corp}"
    df.to_sql(table_name, conn, index=True)

  0%|          | 0/808 [00:00<?, ?it/s]